JP7447808B2

JP7447808B2 - 音声出力装置、音声出力方法

Info

Publication number: JP7447808B2
Application number: JP2020565599A
Authority: JP
Inventors: 道昭米田
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-09
Filing date: 2019-11-15
Publication date: 2024-03-12
Anticipated expiration: 2039-11-15
Also published as: JPWO2020144938A1; CN113261309B; CN113261309A; KR20210113174A; US20220095054A1; DE112019006599T5; WO2020144938A1

Description

本技術は音声出力装置、音声出力方法に関し、特に映像表示とともに行う音声出力についての技術分野に関する。

例えばテレビジョン装置等の映像出力機器において、映像コンテンツに伴う音声をスピーカ出力しながら、他の音声もスピーカ出力することがある。近年ではユーザの音声による問いかけに対応して応答を行うシステムが知られているが、そのようなシステムの入出力機能をテレビジョン装置に内蔵させることで、映像コンテンツの視聴中にユーザに対して応答音声を出力することも行われている。

なお下記特許文献１には、スピーカによる音声出力に関する技術として、仮想音源位置再生用の信号処理に関する技術が開示されている。

特開２０１５－２１１４１８号公報

ところでユーザがテレビジョン装置により映像コンテンツを視聴しているときには、当然、映像コンテンツの音声が出力されているが、上記のような応答を行うシステムを搭載している場合、ユーザが問いかけを行うことに応じた応答音声も、コンテンツ音声と同じスピーカから出力されることになる。
その場合、コンテンツ音声と応答音声が混在して聞こえてしまい、ユーザにとって聞き取りづらい状況が発生する。
そこで本技術は、コンテンツ音声とともに他の音声を出力する場合に、ユーザが聞き取りやすくすることを目的とする。

本技術に係る音声出力装置は、映像コンテンツの表示を行う表示パネルと、前記表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる１又は複数の第１の音声出力駆動部と、前記第１の音声信号とは異なる第２の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第２の音声出力駆動部と、前記第２の音声信号についての信号処理により複数の前記第２の音声出力駆動部によって出力される音声の定位を設定する定位処理部と、を備える。
例えばテレビジョン装置などのように表示パネルを備えた機器において、表示パネルを振動させて音声出力を行う。第１の音声信号は表示する映像に対応する音声である。この場合に、表示している映像コンテンツの音声ではない第２の音声信号による音声出力のための第２の音声出力駆動部が設けられるようにする。

上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第１の音声出力駆動部又は前記第２の音声出力駆動部とされる音声出力駆動部は、各振動領域に対して１つずつ配置されていることが考えられる。
即ち１つの表示パネルの全面又は一部の面には、複数の振動領域が設けられる。この場合に、１つの振動領域には１つの音声出力駆動部が対応されるようにする。

上記した本技術に係る音声出力装置においては、前記第２の音声信号は、要求に応じて生成された応答音声の音声信号であることが考えられる。
例えばエージェント装置としてユーザが入力した音声等による要求に対応して生成された応答音声（質問に対する回答の音声など）である。

上記した本技術に係る音声出力装置においては、前記定位処理部は、前記第２の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行うことが考えられる。
即ちユーザにとっては映像表示が行われている表示面以外の位置から第２の音声信号による音声が聞こえてくるようにする。

上記した本技術に係る音声出力装置においては、前記表示パネルに対して配置された複数の音声出力駆動部のうち、特定の音声出力駆動部が、前記第２の音声出力駆動部とされていることが考えられる。
即ち第２の音声出力駆動部としては、特定の音声出力駆動部を割り当てる。

上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第２の音声出力駆動部は、前記表示パネルの中央を含む振動領域以外の振動領域に対して配置されていることが考えられる。
１つの表示パネルの全面又は一部の面には、複数の振動領域が設けられる。この場合に、１つの振動領域には１つの音声出力駆動部が対応されるようにする。

上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第２の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する２つの振動領域に対してそれぞれ配置されていることが考えられる。
即ち少なくとも左右の位置関係となるように配置される２つの振動領域が、それぞれ第２の音声出力駆動部によって駆動される。

上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第２の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する２つの振動領域に対してそれぞれ配置されていることが考えられる。
即ち少なくとも上下の位置関係となるように配置される２つの振動領域が、それぞれ第２の音声出力駆動部によって駆動される。

上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、各振動領域に対して音声出力駆動部が設けられ、前記第２の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部は、前記第１の音声出力駆動部として用いられ、一部の音声出力駆動部は、前記第２の音声信号に基づく音声出力を行う場合に前記第２の音声出力駆動部として用いられることが考えられる。
１つの表示パネルの全面又は一部の面には、複数の振動領域が設けられ、それぞれに音声出力駆動部が対応される。この場合に、一部の音声出力駆動部は、第１の音声信号の出力用途と第２の音声信号の出力用途とで切替使用される。

上記した本技術に係る音声出力装置においては、前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部が、前記一部の音声出力駆動部とされることが考えられる。
１つの表示パネルの全面又は一部の面には、複数の振動領域が設けられる。この場合に、１つの振動領域には１つの音声出力駆動部が対応されるようにする。

上記した本技術に係る音声出力装置においては、前記第２の音声信号による再生音声を出力する場合に、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する処理を行うことが考えられる。
つまり複数の振動領域と音声出力駆動部の組のうちで、第２の音声信号の出力用に切り換えて使用する振動領域及び音声出力駆動部を固定せず選択するようにする。

上記した本技術に係る音声出力装置においては、前記第２の音声信号による再生音声を出力する場合に、複数の音声出力駆動部による音声出力レベルの検出を行い、各音声出力駆動部の出力レベルに応じて、前記第２の音声出力駆動部として用いる音声出力駆動部を選択することが考えられる。
つまり複数の振動領域と音声出力駆動部の組のうちで、そのときの出力状況に応じて、第２の音声信号の出力用に切り換えて使用する振動領域及び音声出力駆動部を選択するようにする。

上記した本技術に係る音声出力装置においては、前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部について、音声出力レベルの検出を行い、検出した出力レベルに応じて、前記第２の音声出力駆動部として用いる音声出力駆動部を選択することが考えられる。
例えば第２の音声信号の出力機会の都度、表示画面の中央以外の振動領域と音声出力駆動部の組のうちで、第２の音声信号についての音声出力に切り換える組を、それぞれの出力レベルに応じて選択する。

上記した本技術に係る音声出力装置はテレビジョン装置に内蔵されることが考えられる。
即ち本技術をテレビジョン装置の表示パネルを用いて音声再生を行う場合に採用する。

本技術に係る音声出力方法は、映像コンテンツの表示を行う表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて１又は複数の第１の音声出力駆動部により前記表示パネルを加振して音声再生を実行させるとともに、前記第１の音声信号とは異なる第２の音声信号について、定位を設定する信号処理を行ったうえで、該第２の音声信号について複数の第２の音声出力駆動部により前記表示パネルを加振して音声再生を実行させる音声出力方法である。
これにより第２の音声信号は映像コンテンツの音声信号の音声出力駆動部とは異なる音声出力駆動部により所定の定位で出力される。

本技術の実施の形態のシステム構成例の説明図である。実施の形態の他のシステム構成例の説明図である。実施の形態のテレビジョン装置の構成例のブロック図である。実施の形態のテレビジョン装置の他の構成例のブロック図である。実施の形態のコンピュータ装置のブロック図である。実施の形態のテレビジョン装置の側面構成の説明図である。実施の形態の表示パネルの背面構成の説明図である。実施の形態の表示パネルのリアカバーを外した背面構成の説明図である。実施の形態の表示パネルのＢ－Ｂ断面図である。実施の形態の表示パネルの振動領域の説明図である。比較例の音声出力系の説明図である。第１の実施の形態の音声出力装置のブロック図である。第１の実施の形態の音声出力状態の説明図である。第１の実施の形態の振動領域とアクチュエータ配置例の説明図である。第２の実施の形態の音声出力装置のブロック図である。第２の実施の形態の振動領域とアクチュエータ配置例の説明図である。第３の実施の形態の振動領域とアクチュエータ配置例の説明図である。第４の実施の形態の音声出力装置のブロック図である。第４の実施の形態の振動領域とアクチュエータ配置例の説明図である。第５の実施の形態の振動領域とアクチュエータ配置例の説明図である。第６の実施の形態の振動領域とアクチュエータ配置例の説明図である。実施の形態の振動領域とアクチュエータ配置例の説明図である。第７の実施の形態の音声出力装置のブロック図である。第７の実施の形態のチャネル選択部の回路図である。第７の実施の形態の振動領域及びアクチュエータ選択例の説明図である。第７の実施の形態の振動領域及びアクチュエータ選択例の説明図である。第８の実施の形態の音声出力装置のブロック図である。第８の実施の形態のチャネル選択部の回路図である。第８の実施の形態の振動領域及びアクチュエータ選択例の説明図である。第９の実施の形態の選択処理例のフローチャートである。第１０の実施の形態の選択処理例のフローチャートである。

以下、実施の形態を次の順序で説明する。
＜１．システム構成例＞
＜２．テレビジョン装置の構成例＞
＜３．表示パネル構成＞
＜４．比較例＞
＜５．第１の実施の形態＞
＜６．第２の実施の形態＞
＜７．第３の実施の形態＞
＜８．第４の実施の形態＞
＜９．第５の実施の形態＞
＜１０．第６の実施の形態＞
＜１１．第７の実施の形態＞
＜１２．第８の実施の形態＞
＜１３．第９の実施の形態＞
＜１４．第１０の実施の形態＞
＜１５．まとめ及び変形例＞

＜１．システム構成例＞
まず実施の形態としてエージェント装置１を有するテレビジョン装置２を含むシステム構成例を説明する。

なお本実施の形態でいうエージェント装置１とは、情報処理装置により構成され、ユーザの音声等による要求に対して応答音声を出力したり、ユーザの指示や状況に応じて各種の電子機器に対して操作指示を送信する装置である。
特に本実施の形態の場合、エージェント装置１がテレビジョン装置２に内蔵される例を挙げるが、エージェント装置１は、マイクロホンにより収音されたユーザの音声に対応して応答音声をテレビジョン装置２のスピーカを用いて出力するものとする。
なおエージェント装置１は、必ずしもテレビジョン装置２に内蔵されるものに限らず、別体のものであってもよい。

また実施の形態で説明するテレビジョン装置２は、映像や音声を出力する出力機器の一例であり、特に音声出力装置を備え、コンテンツ音声とエージェント音声を出力することのできる機器の例とする。
コンテンツ音声とは、テレビジョン装置２で出力される映像コンテンツに付随する音声であり、エージェント音声とは、エージェント装置１によるユーザに対する応答等の音声を指すこととする。
なお、音声出力装置を備えた機器をテレビジョン装置２とすることは一例で、例えばオーディオ装置、対話装置、ロボット、パーソナルコンピュータ装置、端末装置等、各種の装置がエージェント装置１と連携する音声出力装置として想定される。実施の形態の説明におけるテレビジョン装置２の動作はこれら各種の出力機器においても同様に適用できる。

図１は、エージェント装置１を備えたテレビジョン装置２を有するシステム構成例を示している。
エージェント装置１は、テレビジョン装置２に内蔵されるとともに、例えばテレビジョン装置２に取り付けられているマイクロホン４による音声を入力する。
またエージェント装置１はネットワーク３を介して外部の解析エンジン６と通信可能とされている。
またエージェント装置１は例えばテレビジョン装置２が備えるスピーカ５を用いて音声出力を行う。

即ちこのエージェント装置１は、マイクロホン４から入力されたユーザ音声を録音する機能や、応答の音声をスピーカ５を用いて再生する機能、ネットワーク３を経由してクラウドサーバとしての解析エンジン６とのやりとりを行う機能を例えばソフトウエアにより具備する。

ネットワーク３は、エージェント装置１がシステム外機器と通信可能な伝送路であればよく、例えばインターネット、ＬＡＮ（Local Area Network）、ＶＰＮ（Virtual Private Network：仮想専用網）、イントラネット、エキストラネット、衛星通信網、ＣＡＴＶ（Community Antenna TeleVision）通信網、電話回線網、移動体通信網等の各種の形態が想定される。

このように外部の解析エンジン６と通信可能な場合、エージェント装置１は必要な解析処理を解析エンジン６に実行させることができる。
解析エンジン６は例えばＡＩ（artificial intelligence）エンジンとされ、入力された解析用のデータに基づいて適切な情報をエージェント装置１に送信できる。
例えば解析エンジン６は、処理機能として、音声認識部１０、自然言語理解部１１、アクション部１２、音声合成部１３を有している。
エージェント装置１は、例えばマイクロホン４から入力されたユーザの音声に基づく音声信号を、ネットワーク３を介して解析エンジン６に送信する。
解析エンジン６では、エージェント装置１から送信されてきた音声信号を音声認識部１０で認識し、テキストデータに変換する。テキストデータについて自然言語理解部１１で言語解析を行い、テキストから命令を抜き出し、命令内容に応じた指示をアクション部１２に伝える。アクション部１２では命令に応じたアクションを行う。
例えば命令が、明日の天気などの問い合わせの場合は、その結果（たとえば“明日の天気は晴れです”等）をテキストデータとして生成する。このテキストデータは音声合成部１３により音声信号に変換されてエージェント装置１に送信される。
エージェント装置１は、音声信号を受信したら、その音声信号をスピーカ５に供給して音声出力を実行させる。以上により、ユーザの発した音声に対する応答が出力されることになる。

なお、エージェント装置１の命令の音声信号を解析エンジン６に送るタイミングとしては、例えば常にエージェント装置１がマイクロホン４からの音声を録音し、起動するキーワードと一致した場合に、そのあとに続く命令の音声を解析エンジン６に送るという方法がある。又は、ハードウエアやソフトウエアでスイッチを入れた後に、ユーザから発せられた命令の音声を解析エンジン６に送るという方法もある。

またエージェント装置１はマイクロホン４による入力に限らず、各種のセンシング機器による入力を受け付けて対応する処理を行うようにしてもよい。例えばセンシング機器としては、撮像装置（カメラ）、接触センサ、荷重センサ、照度センサ、赤外線センサ、加速度センサ、角速度センサ、レーザセンサ、その他あらゆるセンサが想定される。これらのセンシング機器はエージェント装置１やテレビジョン装置２に内蔵されてもよいし、エージェント装置１やテレビジョン装置２とは別体の機器とされていてもよい。

またエージェント装置１はユーザに対する応答音声を出力するのみではなく、ユーザの命令に応じた機器制御を行うようにすることも可能である。例えばユーザの音声による指示（あるいはその他のセンシング機器により検知される指示）に応じて、テレビジョン装置２の映像や音声の出力設定を行うことも可能である。映像出力に関する設定とは、映像出力の変化が生じる設定であり、例えば輝度設定、色設定、シャープネス、コントラスト、ノイズリダクションなどがある。また音声出力に関する設定とは、音声出力の変化が生じる設定であり、音量レベルの設定や音質設定である。音質設定としては、例えば低域強調、高域強調、イコライジング、ノイズキャンセル、リバーブ、エコーなどの設定がある。

図２は他の構成例を示す。これはテレビジョン装置２に内蔵されるエージェント装置１が解析エンジン６としての機能を備えている例である。
エージェント装置１は、例えばマイクロホン４から入力されたユーザの音声を音声認識部１０で認識し、テキストデータに変換する。テキストデータについて自然言語理解部１１で言語解析を行い、テキストから命令を抜き出し、命令内容に応じた指示をアクション部１２に伝える。アクション部１２では命令に応じたアクションを行う。アクション部１２は応答としてのテキストデータを生成し、このテキストデータが音声合成部１３により音声信号に変換される。エージェント装置１は、その音声信号をスピーカ５に供給して音声出力を実行させる。

＜２．テレビジョン装置の構成例＞
以下、図３では図１のシステム構成に応じたテレビジョン装置２の構成例を、図４では図２のシステム構成に応じたテレビジョン装置２の構成例を示す。
まず図３により、外部の解析エンジン６を用いる構成例を説明する。

テレビジョン装置２に内蔵されるエージェント装置１は、演算部１５、メモリ部１７を有する。
演算部１５は例えばマイクロコンピュータ等の情報処置装置により構成される。
この演算部１５は入力管理部７０、解析情報取得部７１としての機能を備える。これらの機能は例えばマイクロコンピュータ等の処理を規定するソフトウエアによって発現される。これらの機能に基づいて演算部１５が必要な処理を実行する。
メモリ部１７は演算部１５が演算処理に必要なワーク領域を提供したり、演算処理に用いる係数、データ、テーブル、データベース等を記憶する。

ユーザの音声はマイクロホン４で収音され、音声信号として出力される。このマイクロホン４で得られた音声信号は音声入力部１８で増幅処理やフィルタ処理、さらにはＡ／Ｄ変換処理等が施されてデジタル音声信号として演算部１５に供給される。
演算部１５は、入力管理部７０としての機能により、音声信号を取得するとともに、解析エンジン６に送信する情報であるか否かの判断等を行う。

解析のために送信する音声信号を取得した場合、演算部１５は解析情報取得部７１としての機能により、その応答の取得の為の処理を行う。即ち演算部１５（解析情報取得部７１）は、ネットワーク通信部３６により、ネットワーク３を介して音声信号を解析エンジン６に送信する。

解析エンジン６では図１で説明したように必要な解析処理を行い、その結果の音声信号をエージェント装置１に送信する。演算部１５（解析情報取得部７１）は、解析エンジン６から送信されてきた音声信号を取得し、それを音声としてスピーカ５から出力させるために音声処理部２４に送信する。

テレビジョン装置２はアンテナ２１で受信した放送波をチューナ２２で受信復調して得られる、映像コンテンツの復調信号をデマルチプレクサ２３に供給する。
デマルチプレクサ２３は復調信号における音声信号を音声処理部２４に供給し、映像信号を映像処理部２６に供給する。
また、ネットワーク３を介して図示しないコンテンツサーバから例えばストリーミング映像などとしての映像コンテンツが受信される場合も、デマルチプレクサ２３はその映像コンテンツの音声信号を音声処理部２４に供給し、映像信号を映像処理部２６に供給する。

音声処理部２４は、入力された音声信号のデコードを行う。またデコード処理により得られた音声信号に対して各種出力設定に応じた信号処理を行う。例えば音量レベル調整や、低域強調処理、高域強調処理、イコライジング処理、ノイズキャンセル処理、リバーブ処理、エコー処理などを行う。音声処理部２４はこれらの処理を施した音声信号を音声出力部２５に供給する。

音声出力部２５は、例えば供給された音声信号についてＤ／Ａ変換してアナログ音声信号とし、パワーアンプ増幅処理等を行ってスピーカ５に供給する。これにより映像コンテンツの音声出力が行われる。
またエージェント装置１からの音声信号が音声処理部２４に供給される場合は、その音声信号もスピーカ５から出力される。

なお、本実施の形態の場合、スピーカ５は後述するようにテレビジョン装置２の表示パネル自体を振動させる構造で実現される。

映像処理部２６は、復調信号からの映像信号のデコードを行う。またデコード処理により得られた映像信号に対して各種出力設定に応じた信号処理を行う。例えば輝度処理、色処理、シャープネス調整処理、コントラスト調整処理、ノイズリダクション処理などを行う。映像処理部２６はこれらの処理を施した映像信号を映像出力部２７に供給する。
映像出力部２７は、例えば供給された映像信号により表示部３１の表示駆動を行う。これにより表示部３１で映像コンテンツの表示出力が行われる。

制御部３２は例えばマイクロコンピュータ等により構成され、テレビジョン装置２における受信動作や映像及び音声の出力動作を制御する。
入力部３４は例えばユーザ操作の入力部であり、操作子や、リモートコントローラの受信部として構成される。
制御部３２は入力部３４からのユーザ操作情報に基づいて、チューナ２２の受信設定、デマルチプレクサ２３の動作制御、音声処理部２４や音声出力部２５での音声処理の設定制御、映像処理部２６や映像出力部２７での映像の出力設定処理の制御等を行う。
メモリ３３は制御部３２が制御に必要な情報が記憶されている。例えば各種の映像設定、音声設定に応じた実際の設定値もメモリ３３に記憶され、制御部３２が読み出せるようにしている。

制御部３２はエージェント装置１の演算部１５と通信可能とされている。これにより、演算部１５から映像や音声の出力設定の情報を取得することができる。
制御部３２がエージェント装置１から受信した出力設定に従って音声処理部２４や映像処理部２６の信号処理の制御を行うことで、テレビジョン装置２において、エージェント装置１が設定した出力設定による映像及び音声の出力が実現される。

なお図３のテレビジョン装置２は、アンテナ２１で放送波が受信される構成例としたが、もちろんケーブルテレビジョンやインターネット放送などに対応するテレビジョン装置２でもよいし、例えばインターネットブラウザ機能などを備えたものでも良い。図３はあくまで映像及び音声の出力機器としてのテレビジョン装置２の一例である。

続いて図４に図２に対応する構成例を示す。但し図３と同一の部分は同一符号を付し説明を省略する。
図４において図３と異なるのはエージェント装置１が解析部７２としての機能を備え、外部の解析エンジン６と通信をすることなく、応答音声を生成できるようにしていることである。

演算部１５は、入力管理部７０としての機能により、音声信号を取得し、それが対応すべき音声と判断した場合、演算部１５は解析部７２としての機能により図２で説明した処理を行って、その応答としての音声信号を生成する。そしてその音声信号を音声処理部２４に送信する。
これによりスピーカ５によって応答音声が出力される。

なお、以上の図３、図４では、テレビジョン装置２に内蔵のエージェント装置１を挙げたが、テレビジョン装置２と別体のエージェント装置１も想定される。
内蔵又は別体のエージェント装置１はハードウエア構成としては、例えば図５のようなコンピュータ装置１７０により実現できる。

図５において、コンピュータ装置１７０のＣＰＵ（Central Processing Unit）１７１は、ＲＯＭ（Read Only Memory）１７２に記憶されているプログラム、または記憶部１７８からＲＡＭ（Random Access Memory）１７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１７３にはまた、ＣＰＵ１７１が各種の処理を実行する上において必要なデータなども適宜記憶される。
ＣＰＵ１７１、ＲＯＭ１７２、およびＲＡＭ１７３は、バス１７４を介して相互に接続されている。このバス１７４にはまた、入出力インタフェース１７５も接続されている。

入出力インタフェース１７５には、センシング機器或いは操作子や操作デバイスよりなる入力部１７６が接続される。
また入出力インタフェース１７５には、ＬＣＤ（Liquid Crystal Display）或いは有機ＥＬ（Electro-Luminescence）パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力部１７７が接続される場合も考えられる。
入出力インタフェース１７５には、ハードディスクなどより構成される記憶部１７８、モデムなどより構成される通信部１７９が接続される場合もある。
通信部１７９は、ネットワーク３として示したインターネット等の伝送路を介しての通信処理を行ったり、テレビジョン装置２との有線／無線通信、バス通信などによる通信を行う。

入出力インタフェース１７５にはまた、必要に応じてドライブ１８０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１８１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部１７８にインストールされる。

上述した演算部１５の機能をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、ネットワークや記録媒体からインストールされるようにすることができる。
この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア１８１により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ１７２や、記憶部１７８に含まれるハードディスクなどでも構成される。

このようなコンピュータ装置１７０をエージェント装置１とする場合は、コンピュータ装置１７０は入力装置１７６としてのセンシング機器の情報を入力し、ＣＰＵ１７１が演算部１５として機能し、通信部１７９を介して例えば音声信号や制御信号をテレビジョン装置２に送信するという動作を行うことができる。

＜３．表示パネル構成＞
本実施の形態のスピーカ５は、テレビジョン装置２の表示面を振動板とする構造とされる。テレビジョン装置２の映像表示面１１０Ａを加振部１２０とする構成を以下説明する。

図６は、テレビジョン装置２の側面構成例を表したものである。図７は、図６のテレビジョン装置２の背面構成例を表したものである。テレビジョン装置２は、映像表示面１１０Ａに映像を表示するとともに、映像表示面１１０Ａから音声を出力する。言い換えると、テレビジョン装置２は、フラットパネルスピーカを映像表示面１１０Ａに内蔵しているとも言える。

テレビジョン装置２は、例えば、映像を表示するとともに振動板としても機能するパネル部１１０と、パネル部１１０の裏面に配置され、パネル部１１０を振動させる加振部１２０とを備えている。
テレビジョン装置２は、さらに、例えば、加振部１２０を制御する信号処理部１３０と、パネル部１１０を、回動部１５０を介して支持する支持部１４０とを備えている。信号処理部１３０は例えば上述の音声出力部２５の全部又は一部を構成する回路基板等を含む。
回動部１５０は、支持部１４０によってパネル部１１０の裏面を支持するときのパネル部１１０の傾斜角を調整するためのものであり、例えば、パネル部１１０および支持部１４０を回動可能に支持するヒンジによって構成されている。

加振部１２０および信号処理部１３０は、パネル部１１０の裏面に配置されている。パネル部１１０は、その裏面側に、パネル部１１０、加振部１２０および信号処理部１３０を保護するリアカバー１１０Ｒを有している。リアカバー１１０Ｒは、例えば、板状の金属板もしくは樹脂板によって構成されている。リアカバー１１０Ｒが、回動部１５０に連結されている。

図８は、リアカバー１１０Ｒを取り外したときの、テレビジョン装置２の背面の構成例を表したものである。回路基板１３０Ａは、信号処理部１３０の一具体例に相当する。
図９は、図８のＢ－Ｂ線での断面構成例を表したものである。図９には、後述のアクチュエータ（加振器）１２１ａの断面構成が例示されているが、この断面構成は、他のアクチュエータ（例えば図８に示すアクチュエータ１２１ｂ，１２１ｃ）の断面構成と同様の断面構成となっているものとする。

パネル部１１０は、例えば、映像を表示する薄板状の表示セル１１１と、空隙１１５を介して表示セル１１１と対向配置されたインナープレート１１２（対向プレート）と、バックシャーシ１１３とを有している。インナープレート１１２およびバックシャーシ１１３が一体化されていてもよい。表示セル１１１の表面（加振部１２０とは反対側の表面）が映像表示面１１０Ａとなっている。パネル部１１０は、さらに、例えば表示セル１１１とインナープレート１１２との間に固定部材１１４を有している。

固定部材１１４は、表示セル１１１とインナープレート１１２とを互いに固定する機能と、空隙１１５を維持するスペーサとしての機能とを有している。固定部材１１４は、例えば、表示セル１１１の外縁に沿って配置されている。固定部材１１４は、例えば、表示セル１１１が振動している時に表示セル１１１の端縁が自由端として振る舞える程度の柔軟性を有していてもよい。固定部材１１４は、例えば、両面に接着層を有するスポンジによって構成されている。

インナープレート１１２は、アクチュエータ１２１（１２１ａ，１２１ｂ，１２１ｃ）を支持する基板である。インナープレート１１２は、例えば、アクチュエータ１２１ａ，１２１ｂ，１２１ｃを設置する箇所に開口（以下「アクチュエータ用の開口」と称する）を有している。インナープレート１１２は、さらに、例えばアクチュエータ用の開口とは別に、１または複数の開口（以下「空気孔１１４Ａ」と称する）を有している。１または複数の空気孔１１４Ａは、アクチュエータ１２１ａ，１２１ｂ，１２１ｃの振動により表示セル１１１を振動させたときに空隙１１５に生じる空気圧の変動を緩和する空気孔として機能する。１または複数の空気孔１１４Ａは、固定部材１１４および後述の制振部材１１６と重ならないよう、固定部材１１４を避けて形成されている。

１または複数の空気孔１１４Ａは、例えば円筒形状となっている。１または複数の空気孔１１４Ａは、例えば角筒形状となっていてもよい。１または複数の空気孔１１４Ａの内径は、例えば数ｃｍ程度となっている。なお、１つの空気孔１１４Ａが、空気孔としての機能を発揮する限りにおいて、多数の小径の貫通孔によって構成されていてもよい。

バックシャーシ１１３は、インナープレート１１２よりも高い剛性を有しており、インナープレート１１２の撓みもしくは振動を抑える役割を有している。バックシャーシ１１３は、例えば、インナープレート１１２の開口（例えば、アクチュエータ用の開口や、空気孔１１４Ａ）と対向する位置に開口を有している。バックシャーシ１１３に設けられた開口のうち、アクチュエータ用の開口と対向する位置に設けられた開口は、アクチュエータ１２１ａ，１２１ｂ，１２１ｃを挿通することが可能な大きさとなっている。バックシャーシ１１３に設けられた開口のうち、空気孔１１４Ａと対向する位置に設けられた開口は、アクチュエータ１２１ａ，１２１ｂ，１２１ｃの振動により表示セル１１１を振動させたときに空隙１１５に生じる空気圧の変動を緩和する空気孔として機能する。
バックシャーシ１１３は、例えば、ガラス基板によって構成されている。なお、バックシャーシ１１３の代わりに、バックシャーシ１１３と同等の剛性を有する金属基板または樹脂基板が設けられていてもよい。

加振部１２０は、例えば、３つのアクチュエータ１２１ａ，１２１ｂ，１２１ｃを有している。アクチュエータ１２１ａ，１２１ｂ，１２１ｃは、互いに共通の構成となっている。
この例ではアクチュエータ１２１ａ，１２１ｂ，１２１ｃは、例えば、表示セル１１１の上下方向において中央よりもやや上寄りの高さ位置において左右方向に一列に並んで配置されているが、これは一例である。
アクチュエータ１２１ａ，１２１ｂ，１２１ｃは、それぞれ、例えばボイスコイルとボイスコイルボビンと磁気回路とを有し、振動源となるスピーカ用アクチュエータである。
アクチュエータ１２１ａ，１２１ｂ，１２１ｃは、それぞれ、ボイスコイルに電気信号の音声電流が流れると、電磁作用の原理に従ってボイスコイルに駆動力を発生させる。この駆動力が振動伝達部材１２４を介して表示セル１１１に伝達され、表示セル１１１に音声電流の変化に応じた振動を発生させ、空気が振動して音圧が変化する。

固定部１２３および振動伝達部材１２４は、アクチュエータ１２１ａ，１２１ｂ，１２１ｃごとに設けられている。
固定部１２３は、例えば、アクチュエータ１２１ａ，１２１ｂ，１２１ｃを挿通させた状態で固定する開口を有している。各アクチュエータ１２１ａ，１２１ｂ，１２１ｃは、例えば、固定部１２３を介して、インナープレート１１２に固定されている。
振動伝達部材１２４は、例えば、表示セル１１１の裏面と、アクチュエータ１２１ａ，１２１ｂ，１２１ｃのボビンとに接しており、表示セル１１１の裏面と、アクチュエータ１２１ａ，１２１ｂ，１２１ｃのボビンとに固定されている。振動伝達部材２４は、少なくとも、音波領域（２０Ｈｚ以上）では反発する特性を有する部材によって構成されている。

パネル部１１０は、例えば図９に示したように、表示セル１１１とインナープレート１１２との間に制振部材１１６を有している。制振部材１１６は、各アクチュエータ１２１ａ，１２１ｂ，１２１ｃによって表示セル１１１に生じる振動が互いに干渉するのを妨げる作用を有する。
制振部材１１６は、表示セル１１１とインナープレート１１２との間隙、つまり、空隙１１５の中に配置されている。制振部材１１６は、表示セル１１１の裏面およびインナープレート１１２の表面のうち、少なくとも表示セル１１１の裏面に固定されている。制振部材１１６は、例えば、インナープレート１１２の表面に接している。

図１０は、制振部材１１６の平面構成例を表したものである。ここで、表示セル１１１の裏面において、アクチュエータ１２１ａ，１２１ｂ，１２１ｃにそれぞれ対向する位置を加振点Ｐ１，Ｐ２，Ｐ３としている。
このとき、制振部材１１６は、表示セル１１１の裏面を、加振点Ｐ１を含む振動領域ＡＲ１、加振点Ｐ２を含む振動領域ＡＲ２、加振点Ｐ３を含む振動領域ＡＲ３に区画する。
各振動領域ＡＲ１，ＡＲ２，ＡＲ３は、物理的に離間して独立して振動する領域とされている。
つまり各振動領域ＡＲ１，ＡＲ２，ＡＲ３は、それぞれアクチュエータ１２１ａ，１２１ｂ，１２１ｃにより互いに独立して振動される。換言すれば、各振動領域ＡＲ１，ＡＲ２，ＡＲ３は、互いに独立したスピーカユニットを構成することになる。

なお、このようにパネル部１１０に３つの独立したスピーカユニット構造が形成されるのは説明上の一例である。後に、パネル部１１０において複数のスピーカユニット構造が形成される例を各種説明する。
またこのように分割された各振動領域ＡＲ１，ＡＲ２，ＡＲ３は、視覚上は離間しておらず、ユーザが映像を視認する表示面としては、パネル部１１０の全体で１つの表示パネルと認識されるようにされている。

＜４．比較例＞
以上の構成のテレビジョン装置２において、コンテンツ音声とエージェント音声を共にスピーカ５を用いて出力することを考える。
図１１は、そのような場合に想定される構成例として、音声処理部２４、音声出力部２５、アクチュエータ１２１（１２１Ｌ、１２１Ｒ）、パネル部１１０を示している。
なお「アクチュエータ１２１」は、スピーカユニットを構成する加振器としてのアクチュエータを総称する場合の表記である。

音声処理部２４には、例えば２チャネルステレオ方式のコンテンツ音声として、Ｌ（左）チャネルの音声信号Ｌｓと、Ｒ（右）チャネルの音声信号Ｒｓが入力される。
Ｌ音声処理部４１は音声信号Ｌｓに対して音量・音質処理（例えば音量レベル調整や、低域強調処理、高域強調処理、イコライジング処理等）、ノイズキャンセル処理等の各種の処理を行う。
Ｒ音声処理部４２は音声信号Ｒｓに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行う。

Ｌ音声処理部４１、Ｒ音声処理部４２で処理された音声信号Ｌｓ、Ｒｓは、それぞれミキサー４４Ｌ，４４Ｒを介して音声出力部２５のＬ出力部５１、Ｒ出力部５２に供給される。Ｌ出力部５１は音声信号Ｌｓに対して、Ｄ／Ａ変換や増幅処理を行い、Ｌチャネル用のアクチュエータ１２１Ｌにスピーカ駆動信号を供給する。Ｒ出力部５２は音声信号Ｒｓに対して、Ｄ／Ａ変換や増幅処理を行い、Ｒチャネル用のアクチュエータ１２１Ｒにスピーカ駆動信号を供給する。
これにより、アクチュエータ１２１Ｌ、１２１Ｒによってパネル部１１０が加振され、映像コンテンツについてのＬ、Ｒチャネルのステレオ音声が出力される。

エージェント音声が出力される場合、エージェント装置１からの音声信号ＶＥが音声処理部２４のミキサー４４Ｌ、４４Ｒに入力される。
これによりエージェント音声がコンテンツ音声にミックスされ、アクチュエータ１２１Ｌ、１２１Ｒによって音声としてパネル部１１０から出力されることになる。

ところがこのような構成を採用すると、コンテンツ音声、例えばニュースを読むアナウンサーの声やドキュメンタリーでのナレーション、あるいは映画のセリフ等に対して、エージェント音声が重なり、両方の音声が聞きづらくなってしまうことが想定される。
このため、エージェント音声の出力の際に、コンテンツ音声のボリュームを下げたりミュートしたりするなどの対応が必要である。また、エージェント音声の音像位置とコンテンツ音声の音像位置が重なっている場合、コンテンツ音声のボリュームを下げても、聞き取りにくい状態のままということにもなる。
またコンテンツ音声を大きく下げることで、コンテンツ視聴を妨げてしまうことにもなる。

そこで本実施の形態では以下説明するように、エージェント装置１を搭載したテレビジョン装置２で、さらにパネル部１１０をアクチュエータ１２１で振動させて音を再生する場合に、コンテンツ音声の再生用のアクチュエータのほかに、エージェント音声の再生用のアクチュエータを配置する。そして、エージェント音声は、定位処理により仮想音源位置から再生するようにする。
これによりコンテンツ音声については映像とマッチした再生を行う一方で、エージェント音声は異なる定位で、例えばテレビジョン装置２とは別の位置から聞こえるようにし、ユーザにとってエージェント音声とコンテンツ音声を分離して聞こえやすくなるようにする。

＜５．第１の実施の形態＞
第１の実施の形態の構成を図１２に示す。なお、以下説明していく各実施の形態の構成では、図１から図１０で説明したようなテレビジョン装置２の構成における音声処理部２４、音声出力部２５、スピーカ５を構成するアクチュエータ１２１（１２１Ｌ、１２１Ｒ）及びパネル部１１０を抽出して示すものである。記述の部位については、同一符号を付して重複説明を避ける。

図１２には、上記の図１１と同様に音声処理部２４に対して、例えば２チャネルのステレオ方式のコンテンツ音声としての音声信号Ｌｓ、Ｒｓが入力される構成を示している。エージェント音声が出力される場合、エージェント装置１からの音声信号ＶＥも音声処理部２４に入力される。

Ｌ音声処理部４１は音声信号Ｌｓに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行い、その音声信号Ｌｓを音声出力部２５におけるＬ出力部５１に供給する。Ｌ出力部５１は音声信号Ｌｓに対して、Ｄ／Ａ変換や増幅処理を行い、Ｌチャネル用のアクチュエータ１２１Ｌにスピーカ駆動信号を供給する。
アクチュエータ１２１Ｌはパネル部１１０の振動領域ＡＲ１を加振するように配置されており、振動領域ＡＲ１から音声信号Ｌｓに応じた音声出力が行われる。つまりアクチュエータ１２１Ｌ及び振動領域ＡＲ１がコンテンツ音声用のＬチャネルスピーカとなる。

Ｒ音声処理部４２は音声信号Ｒｓに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行い、その音声信号Ｒｓを音声出力部２５におけるＲ出力部５２に供給する。Ｒ出力部５２は音声信号Ｒｓに対して、Ｄ／Ａ変換や増幅処理を行い、Ｒチャネル用のアクチュエータ１２１Ｒにスピーカ駆動信号を供給する。
アクチュエータ１２１Ｒはパネル部１１０の振動領域ＡＲ２を加振するように配置されており、振動領域ＡＲ２から音声信号Ｒｓに応じた音声出力が行われる。つまりアクチュエータ１２１Ｒ及び振動領域ＡＲ２がコンテンツ音声用のＲチャネルスピーカとなる。

エージェント音声の音声信号ＶＥは音声処理部２４におけるエージェント音声／定位処理部４５（以下「音声／定位処理部４５」と表記する）において必要な処理とされる。例えば音量設定処理、音質設定処理、他チャネル化処理などが行われる。さらに定位処理として、テレビジョン装置２の前に居るユーザにとって、パネル前面範囲外となる仮想スピーカ位置からエージェント音声が聞こえてくるようにする処理（仮想音源位置再生用信号処理）が行われる。

このような処理を経て２チャネル化されたエージェント音声の音声信号ＶＥＬ、ＶＥＲが出力される。
音声信号ＶＥＬは、音声出力部２５におけるエージェント音出力部５４に供給される。エージェント音出力部５４はでは音声信号ＶＥＬについてＤ／Ａ変換や増幅処理を行ない、Ｌチャネルのエージェント音声用のアクチュエータ１２１ＡＬにスピーカ駆動信号を供給する。
アクチュエータ１２１ＡＬはパネル部１１０の振動領域ＡＲ３を加振するように配置されており、振動領域ＡＲ３から音声信号ＶＥＬに応じた音声出力が行われる。つまりアクチュエータ１２１ＡＬ及び振動領域ＡＲ３がエージェント音声用のＬチャネルスピーカとなる。

音声信号ＶＥＲは、音声出力部２５におけるエージェント音出力部５５に供給される。エージェント音出力部５５では音声信号ＶＥＲについてＤ／Ａ変換や増幅処理を行ない、Ｒチャネルのエージェント音声用のアクチュエータ１２１ＡＲにスピーカ駆動信号を供給する。
アクチュエータ１２１ＡＲはパネル部１１０の振動領域ＡＲ４を加振するように配置されており、振動領域ＡＲ４から音声信号ＶＥＲに応じた音声出力が行われる。つまりアクチュエータ１２１ＡＲ及び振動領域ＡＲ４がエージェント音声用のＲチャネルスピーカとなる。

以上により、コンテンツ音声としてのＬ、Ｒチャネル音声、エージェント音声としてのＬ、Ｒチャネル音声は、それぞれ独立したスピーカユニットから出力されることになる。
以下、「スピーカユニット」とは、振動領域ＡＲと対応するアクチュエータ１２１の組を指すものとして説明する。
なお、音声／定位処理部４５は、例えばＬ音声処理部４１，Ｒ音声処理部４２を制御して、エージェント音声を出力する期間にコンテンツ音声の音量を下げるようにしてもよい。

音声／定位処理部４５による定位処理、即ち仮想音源位置再生用信号処理は、仮想的に配置したい音源位置での頭部伝達関数を掛け合わせるバイノーラル化処理およびスピーカから再生する場合の左右のスピーカから耳へのクロストークをキャンセルするクロストーク補正処理を行うことで実現する。具体的な処理は公知であるため詳述を避けるが、例えば特許文献１に開示されている。
これにより図１３Ａ、図１３Ｂに示すような再生環境が実現される。

図１３Ａは、パネル部１１０の正面にユーザ５００が居て、コンテンツ音声が再生されている状態を示している。
アクチュエータ１２１Ｌ及び振動領域ＡＲ１の組によるスピーカユニットと、アクチュエータ１２１Ｒ及び振動領域ＡＲ２の組によるスピーカユニットにより、Ｌ、Ｒステレオ音声としてコンテンツ音声（ＳＬ、ＳＲ）が再生されている。

図１３Ｂは、エージェント音声が再生される場合を示している。
引き続きアクチュエータ１２１Ｌ及び振動領域ＡＲ１の組によるスピーカユニットと、アクチュエータ１２１Ｒ及び振動領域ＡＲ２の組によるスピーカユニットにより、Ｌ、Ｒステレオ音声としてコンテンツ音声（ＳＬ、ＳＲ）が再生されている。
さらにアクチュエータ１２１ＡＬ及び振動領域ＡＲ３の組によるスピーカユニットと、アクチュエータ１２１ＡＲ及び振動領域ＡＲ４の組によるスピーカユニットにより、Ｌ、Ｒステレオ音声としてエージェント音声が再生される。但し、定位処理によって、エージェント音声ＳＡは、パネル外となる仮想スピーカＶＳＰの位置から発せられているようにユーザに聞こえることになる。

このように、エージェント装置１からの応答の音声はテレビジョン装置２の表示パネル上ではない仮想音源位置から聞こえるので、エージェント音声を明瞭に聞き分けることができる。またコンテンツ音声は、音量をそのまま変化させずに再生するか、あるいは軽く音量を絞る程度で済む。このためコンテンツ視聴を妨げない。

アクチュエータ１２１及び振動領域ＡＲによるスピーカユニットの配置例を図１４に示す。
各図はパネル部１１０の正面からみたときの振動領域ＡＲ１の分割設定と、加振点、つまり背後のアクチュエータ１２１の配置位置を示している。
加振点Ｐ１，Ｐ２，Ｐ３，Ｐ４は、それぞれアクチュエータ１２１Ｌ、１２１Ｒ、１２１ＡＬ、１２１ＡＲによる加振点である。
なお、図ではエージェント音声用のアクチュエータ１２１による加振点（第１の実施の形態の場合は加振点Ｐ３，Ｐ４）には斜線を付して、コンテンツ音声用の加振点（第１の実施の形態の場合は加振点Ｐ１，Ｐ２）と区別している。

図１４Ａは、パネル面を中央で左右に分けた上で、比較的広い領域として振動領域ＡＲ１、ＡＲ２を設ける。そしてその上方に比較的狭い領域として振動領域ＡＲ３，ＡＲ４を設ける。各振動領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４には、それらの略中央に加振点Ｐ１，Ｐ２，Ｐ３，Ｐ４を設定する。つまりそれぞれアクチュエータ１２１Ｌ、１２１Ｒ、１２１ＡＬ、１２１ＡＲの配置位置を各振動領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４の背面側の略中央に設定するということである。

このようなスピーカユニット設定により、コンテンツ音声を左右２チャンネルのコンテンツ音声を適切に出力できるとともに、エージェント音声についても左右のスピーカユニットによって、多様な音声定位を実現できる。
またエージェント音声は、応答音声等であって、さほどの再生能力を必要としない。例えば低域も３００Ｈｚから４００Ｈｚ程度までが出力できれば十分である。そのため狭い振動領域でも十分に機能できる。また振動の変位量が少なくてすむので画揺れにも強い。
そして、エージェント音声用の振動領域ＡＲ３、ＡＲ４を狭くすることで、パネル部１１０の広い範囲をコンテンツ音声用とし、迫力のある音声再生を実現できる。例えば低域を１００Ｈｚから２００Ｈｚまで再生するコンテンツ音声用のスピーカユニットを形成できる。

図１４Ｂは、パネル面を水平方向に４分割した例である。中央側の広い領域を振動領域ＡＲ１、ＡＲ２とし、左端及び右端の比較的狭い領域として振動領域ＡＲ３，ＡＲ４とする。
図１４Ｃは、パネル面を中央で左右に分けた上で、比較的広い領域として振動領域ＡＲ１、ＡＲ２を設け、下方に比較的狭い領域として振動領域ＡＲ３，ＡＲ４を設ける例である。
いずれの例も、各振動領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４には、それらの略中央に加振点Ｐ１，Ｐ２，Ｐ３，Ｐ４を設定する。

以上のように振動領域ＡＲの設定は各種考えられる。もちろん図示以外の例も想定される。
加振点Ｐ１，Ｐ２，Ｐ３，Ｐ４は、それぞれ各振動領域ＡＲの略中央としたが、それは一例であり、中央より変位した位置、あるいは振動領域ＡＲの隅の部分などとしてもよい。

＜６．第２の実施の形態＞
第２の実施の形態を図１５，図１６で説明する。
これは、エージェント音声用に４つのスピーカユニットを形成した例である。

図１５に示すように、音声／定位処理部４５は、エージェント音声として４チャネルの音声信号ＶＥＬ１，ＶＥＲ１，ＶＥＬ２，ＶＥＲ２を生成する。
これらの音声信号ＶＥＬ１，ＶＥＲ１，ＶＥＬ２，ＶＥＲ２は、それぞれエージェント音出力部５４，５５，５６，５７で出力処理され、音声信号ＶＥＬ１，ＶＥＲ１，ＶＥＬ２，ＶＥＲ２に応じたスピーカ駆動信号が、それぞれアクチュエータ１２１ＡＬ１，１２１ＡＲ１，１２１ＡＬ２，１２１ＡＲ２に供給される。アクチュエータ１２１ＡＬ１，１２１ＡＲ１，１２１ＡＬ２，１２１ＡＲ２は、それぞれ振動領域ＡＲ３，ＡＲ４，ＡＲ５，ＡＲ６に１対１で対応して加振する。

スピーカユニット配置は例えば図１６のようになる。
図１６Ａの例は、パネル面を中央で左右に分けた上で、比較的広い領域として振動領域ＡＲ１、ＡＲ２を設ける。そしてその上方及び下方に比較的狭い領域として振動領域ＡＲ３，ＡＲ４，ＡＲ５，ＡＲ６を設ける。振動領域ＡＲ３，ＡＲ４，ＡＲ５，ＡＲ６における加振点Ｐ３，Ｐ４，Ｐ５，Ｐ６は、それぞれアクチュエータ１２１ＡＬ１，１２１ＡＲ１，１２１ＡＬ２，１２１ＡＲ２による加振点であり、この場合、それぞれ対応する振動領域ＡＲの略中央に設けられている。

図１６Ｂの例は、パネル面を中央で左右に分けて振動領域ＡＲ１、ＡＲ２を設ける。そして振動領域ＡＲ１の左上隅に振動領域ＡＲ３、左下隅に振動領域ＡＲ５を設ける。また振動領域ＡＲ２の右上隅に振動領域ＡＲ４、右下隅に振動領域ＡＲ６を設ける。
アクチュエータ１２１ＡＬ１，１２１ＡＲ１，１２１ＡＬ２，１２１ＡＲ２による加振点Ｐ３，Ｐ４，Ｐ５，Ｐ６は、それぞれパネルの隅に偏った位置とされた例としている。

これらのように、エージェント音声用のスピーカユニットを上下左右に離間して配置することで、エージェント音声の定位を、より多様に設定しやすくなる。例えばパネル部１１０の平面から周囲に広がる空間上で上下方向、左右方向に任意の仮想スピーカ位置を、音声信号に比較的簡易な定位処理を加えることで設定できる。

＜７．第３の実施の形態＞
第３の実施の形態を図１７で説明する。
これは１つの振動領域ＡＲ１に複数のアクチュエータ１２１を配置する例である。

図１７Ａは、パネル部１１０の画面を左右に２つの振動領域ＡＲ１，ＡＲ２に分けている。
そして振動領域ＡＲ１には、略中央にコンテンツ音声用の加振点Ｐ１を配置し、その上方にエージェント音声用の加振点Ｐ３を配置する。
また振動領域ＡＲ２には、略中央にコンテンツ音声用の加振点Ｐ２を配置し、その上方にエージェント音声用の加振点Ｐ４を配置する。

図１７Ｂも、パネル部１１０の画面を左右に２つの振動領域ＡＲ１，ＡＲ２に分けている。
そして振動領域ＡＲ１には、略中央にコンテンツ音声用の加振点Ｐ１を配置し、その左隅にエージェント音声用の加振点Ｐ３を配置する。
また振動領域ＡＲ２には、略中央にコンテンツ音声用の加振点Ｐ２を配置し、その右隅にエージェント音声用の加振点Ｐ４を配置する。

以上の図１７Ａ、図１７Ｂの例は、図１２（図１４Ａ、図１４Ｂ）における振動領域ＡＲ１、ＡＲ３をまとめて１つの振動領域ＡＲ１とし、振動領域ＡＲ２、ＡＲ４をまとめて１つの振動領域ＡＲ２とした構成に相当する。
これらの場合、エージェント音声についても左右のスピーカユニットにより出力されるため、左右方向にパネル外となる位置における仮想スピーカ位置の設定が容易化される。

図１７Ｃは、パネル部１１０の画面を左右に２つの振動領域ＡＲ１，ＡＲ２に分け、振動領域ＡＲ１には、略中央にコンテンツ音声用の加振点Ｐ１を配置し、その上方及び下方にエージェント音声用の加振点Ｐ３、Ｐ５を配置する。
また振動領域ＡＲ２には、略中央にコンテンツ音声用の加振点Ｐ２を配置し、その上方及び下方にエージェント音声用の加振点Ｐ４、Ｐ６を配置する。

図１７Ｄは、パネル部１１０の画面を左右に２つの振動領域ＡＲ１，ＡＲ２に分け、振動領域ＡＲ１には、略中央にコンテンツ音声用の加振点Ｐ１を配置し、その左上隅及び左下隅にエージェント音声用の加振点Ｐ３、Ｐ５を配置する。
また振動領域ＡＲ２には、略中央にコンテンツ音声用の加振点Ｐ２を配置し、その右上隅及び右下隅にエージェント音声用の加振点Ｐ４、Ｐ６を配置する。

以上の図１７Ｃ、図１７Ｄの例は、図１５（図１６Ａ、図１６Ｂ）における振動領域ＡＲ１、ＡＲ３、ＡＲ５をまとめて１つの振動領域ＡＲ１とし、振動領域ＡＲ２、ＡＲ４、ＡＲ６をまとめて１つの振動領域ＡＲ２とした構成に相当する。
これらの場合、エージェント音声についても左右上下のスピーカユニットにより出力されるため、左右方向及び上下方向にパネル外となる位置における仮想スピーカ位置の設定が容易化される。

＜８．第４の実施の形態＞
第４の実施の形態を図１８，図１９で説明する。
これはコンテンツ音声をＬ、Ｒ、センター（Ｃ）の３チャネルで出力するようにした例である。

図１８では、例えば音声処理部２４において、コンテンツ音声としてＬ、Ｒ、センターの３チャネルの３チャネルの音声信号Ｌｓ、Ｒｓ、Ｃｓが入力又は生成される構成を示している。

図１２で説明したＬ、Ｒチャネルに対応する構成に加えて、センター音声処理部４３が設けられ、センター音声処理部４３は音声信号Ｃｓに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行い、その音声信号Ｃｓを音声出力部２５におけるセンター出力部５３に供給する。センター出力部５３は音声信号Ｃｓに対して、Ｄ／Ａ変換や増幅処理を行い、センターチャネル用のアクチュエータ１２１Ｃにスピーカ駆動信号を供給する。
アクチュエータ１２１Ｃはパネル部１１０の振動領域ＡＲ３を加振するように配置されており、振動領域ＡＲ３から音声信号Ｃｓに応じた音声出力が行われる。つまりアクチュエータ１２１Ｃ及び振動領域ＡＲ３がコンテンツ音声用のセンターチャネルスピーカとなる。

なおこの図１８の例では、アクチュエータ１２１ＡＬと振動領域ＡＲ４がエージェント音声の左チャネル用のスピーカユニット、アクチュエータ１２１ＡＲと振動領域ＡＲ５がエージェント音声の右チャネル用のスピーカユニットとしている。

スピーカユニット配置は図１９のようになる。
図１９Ａ、図１９Ｂ、図１９Ｃにおいて加振点Ｐ１，Ｐ２，Ｐ３，Ｐ４，Ｐ５は、それぞれ図１８のアクチュエータ１２１Ｌ、１２１Ｒ、１２１Ｃ、１２１ＡＬ、１２１ＡＲによる加振点である。

図１９Ａの例は、パネル面を左右方向に３つの領域に分け、比較的広い領域として振動領域ＡＲ１、ＡＲ２、ＡＲ３を設ける。そして振動領域ＡＲ１の上方に比較的狭い領域として振動領域ＡＲ４を設け、振動領域ＡＲ２の上方にも比較的狭い領域として振動領域ＡＲ５を設ける。

図１９Ｂの例も、パネル面を左右方向に３つの領域に分け、比較的広い領域として振動領域ＡＲ１、ＡＲ２、ＡＲ３を設ける。そして振動領域ＡＲ１の左側に比較的狭い領域として振動領域ＡＲ４を設け、振動領域ＡＲ２の右側にも比較的狭い領域として振動領域ＡＲ５を設ける。

図１９Ｃの例も、パネル面を左右方向に３つの領域に分け、比較的広い領域として振動領域ＡＲ１、ＡＲ２、ＡＲ３を設ける。そしてパネル部１１０の上端側となる領域を左右に分け、左側に比較的狭い領域として振動領域ＡＲ４を、右側にも比較的狭い領域として振動領域ＡＲ５を設けるようにしている。

以上のような例として、コンテンツ音声をＬ、Ｒ、センターの各チャネルで出力する場合において、エージェント音声を、独立したスピーカユニットにより所定の定位で再生できるようにする。
なお、以上の図１９Ａ、図１９Ｂ、図１９Ｃでは、加振点Ｐ１，Ｐ２，Ｐ３，Ｐ４，Ｐ５は、それぞれ対応する振動領域ＡＲの略中央に設けられているものとしたが、これに限られない。

＜９．第５の実施の形態＞
第５の実施の形態として、コンテンツ音声をＬ、Ｒ、センターのチャネルで出力し、エージェント音声を４チャネルで出力する場合を説明する。音声処理部２４、音声出力部２５の構成は、図１８のコンテンツ音声系と、図１５のエージェント音声系を合わせたものとなる。

スピーカユニット配置は図２０のようになる。
図２０Ａ、図２０Ｂ、図２０Ｃにおいて加振点Ｐ１，Ｐ２，Ｐ３は、図１８のようなコンテンツ音声用のアクチュエータ１２１Ｌ、１２１Ｒ、１２１Ｃによる加振点で、加振点Ｐ４，Ｐ５，Ｐ６，Ｐ７は、それぞれ図１５のようなエージェント音声用のアクチュエータ１２１ＡＬ１、１２１ＡＲ１、１２１ＡＬ２、１２１ＡＲ２による加振点とする。

図２０Ａの例は、パネル面を左右方向に３つの領域に分け、比較的広い領域としてコンテンツ音声用の振動領域ＡＲ１、ＡＲ２、ＡＲ３を設ける。
そして振動領域ＡＲ１の上下に比較的狭い領域として振動エージェント音声用の振動領域ＡＲ４，ＡＲ６を設け、振動領域ＡＲ２の上下にも比較的狭い領域としてエージェント音声用の振動領域ＡＲ５、ＡＲ７を設ける。

図２０Ｂの例も、パネル面を左右方向に３つの領域に分け、比較的広い領域としてコンテンツ音声用の振動領域ＡＲ１、ＡＲ２、ＡＲ３を設ける。
そして振動領域ＡＲ１の左上隅及び右上隅に比較的狭い領域としてエージェント音声用の振動領域ＡＲ４、ＡＲ６を設け、振動領域ＡＲ２の右上隅及び右下隅にも比較的狭い領域としてエージェント音声用の振動領域ＡＲ５、ＡＲ７を設ける。

図２０Ｃの例も、パネル面を左右方向に３つの領域に分け、比較的広い領域としてコンテンツ音声用の振動領域ＡＲ１、ＡＲ２、ＡＲ３を設ける。
そしてパネル部１１０の上端側となる領域を左右に分け、左右に比較的狭い領域としてエージェント音声用の振動領域ＡＲ４、ＡＲ５を設ける。
またパネル部１１０の下端側となる領域も左右に分け、左右に比較的狭い領域としてエージェント音声用の振動領域ＡＲ６、ＡＲ７を設ける。

以上のような例として、コンテンツ音声をＬ、Ｒ、センターの各チャネルで出力する場合において、エージェント音声を、４チャネルの独立したスピーカユニットにより所定の定位で再生できるようにする。

＜１０．第６の実施の形態＞
第６の実施の形態は、上記第４，第５の実施の形態において振動面を共有した例である。
図２１Ａは、図１９Ａにおける加振点Ｐ１，Ｐ４を１つの振動領域ＡＲ１に設け、加振点Ｐ２，Ｐ５を１つの振動領域ＡＲ２に設けた例である。
図２１Ｂは、図１９Ｂにおける加振点Ｐ１，Ｐ４を１つの振動領域ＡＲ１に設け、加振点Ｐ２，Ｐ５を１つの振動領域ＡＲ２に設けた例である。

図２１Ｃは、図２０Ａにおける加振点Ｐ１，Ｐ４，Ｐ６を１つの振動領域ＡＲ１に設け、加振点Ｐ２，Ｐ５，Ｐ７を１つの振動領域ＡＲ２に設けた例である。
図２１Ｄは、図２０Ｂにおける加振点Ｐ１，Ｐ４，Ｐ６を１つの振動領域ＡＲ１に設け、加振点Ｐ２，Ｐ５，Ｐ７を１つの振動領域ＡＲ２に設けた例である。

コンテンツ音声とエージェント音声の明瞭な聞き分けを実現するには、第４，第５の実施の形態のように、１つの振動領域ＡＲに１つのアクチュエータ１２１とすることが好ましいが、この第６の実施の形態のように振動領域ＡＲを共有することでも、エージェント音声用とコンテンツ音声用のアクチュエータ１２１が独立していることで、ある程度の明瞭な聞き分けが可能になる。
特に振動領域ＡＲの面積が広い場合は、領域内の各部分（加振点の周辺毎）に鳴り分けが生じるため、それぞれの音が明瞭に聞き分けられやすい。

＜１１．第７の実施の形態＞
以下の第７，第８，第９，第１０に実施の形態では、図２２のように振動領域ＡＲが９分割されている例に沿って説明する。パネル部１１０の左上から右下に向かって振動領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４，ＡＲ５，ＡＲ６，ＡＲ７，ＡＲ８，ＡＲ９とする。各振動領域ＡＲは同じ面積であるとする。
そして全部又は一部の振動領域ＡＲは、コンテンツ音声用とエージェント音声用に切り替えて用いられるようにする。

第７の実施の形態の構成を図２３に示す。
音声処理部２４においては、Ｌ、Ｒ、センターの３チャネルの音声信号Ｌｓ，Ｒｓ，Ｃｓについて処理を行い、チャネル選択部４６に供給する。
また音声処理部２４においては、Ｌ、Ｒ、センターの３チャネルの音声信号Ｌｓ，Ｒｓ，Ｃｓについて処理を行い、音声／定位処理部４５はエージェント音声信号としてＬ、Ｒの２チャネルの音声信号ＶＥＬ，ＶＥＲを生成し、チャネル選択部４６に供給する。

チャネル選択部４６は、以上の合計５チャネルの音声信号Ｌｓ，Ｒｓ，Ｃｓ，ＶＥＬ，ＶＥＲは、音声／定位処理部４５からの制御信号ＣＮＴに応じて９個の振動領域ＡＲに振り分ける処理を行う。

また音声出力部２５としては、９個の振動領域ＡＲに対応して、９個の出力部６１，６２，６３，６４，６５，６６，６７，６８，６９を備え、それぞれ、入力された音声信号についてＤ／Ａ変換や増幅処理を行い、音声信号に基づくスピーカ駆動信号を出力する。そして９個の出力部６１，６２，６３，６４，６５，６６，６７，６８，６９によるスピーカ駆動信号は、９個の振動領域ＡＲのそれぞれに対して１：１で対応されるアクチュエータ１２１－１、１２１－２，１２１－３，１２１－４，１２１－５，１２１－６，１２１－７，１２１－８，１２１－９に供給される。

この場合、チャネル選択部４６としては、図２４のような構成が考えられる。
端子Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６，Ｔ７，Ｔ８，Ｔ９は、それぞれ出力部６１，６２，６３，６４，６５，６６，６７，６８，６９に音声信号を供給する端子である。
音声信号ＶＥＬはスイッチ４７の端子ｔａに供給される。
音声信号ＶＥＲはスイッチ４８の端子ｔａに供給される。
音声信号Ｌｓは、スイッチ４７の端子ｔｃと、端子Ｔ４と、端子Ｔ７に供給される。
音声信号Ｃｓは、端子ｔｃと、端子Ｔ４と、端子Ｔ８に供給される。
音声信号Ｒｓは、スイッチ４８の端子ｔｃと、端子Ｔ６と、端子Ｔ９に供給される。

スイッチ４７は端子Ｔ１に接続され、スイッチ４８は端子Ｔ３に接続されている。
そしてスイッチ４７，４８は、制御信号ＣＮＴによって、エージェント音声が出力される期間（コンテンツ音声に加えてエージェント音声が出力される期間）は端子ｔａが選択され、それ以外、つまりエージェント音声が出力されずコンテンツ音声のみが出力される期間は端子ｔｃが選択される。

このような構成の場合、振動領域ＡＲ１及びアクチュエータ１２１－１によるスピーカユニットと、振動領域ＡＲ３及びアクチュエータ１２１－３によるスピーカユニットとが、コンテンツ音声用とエージェント音声用とに切り替えられながら使用されることになる。

即ち、コンテンツ音声のみを出力する期間では、図２５Ａのように、振動領域ＡＲ１、ＡＲ４，ＡＲ７がＬチャネルのスピーカとして使用される。
また振動領域ＡＲ３，ＡＲ６，ＡＲ９がＲチャネルのスピーカとして使用され、振動領域ＡＲ２，ＡＲ５，ＡＲ８がセンターチャネル（Ｃチャネル）のスピーカとして使用される。
なお、加振点Ｐ１からＰ９は、アクチュエータ１２１－１から１２１－９のそれぞれによる加振点である。

一方、エージェント音声が出力されるときは、図２５Ｂのように、振動領域ＡＲ４，ＡＲ７がＬチャネルのスピーカとして使用され、振動領域ＡＲ６，ＡＲ９がＲチャネルのスピーカとして使用され、振動領域ＡＲ２，ＡＲ５，ＡＲ８がセンターチャネル（Ｃチャネル）のスピーカとして使用される。斜線を付した振動領域ＡＲ１、ＡＲ３は、それぞれエージェント音声の左チャネル及び右チャネルのスピーカとして使用されることになる。

このように一部のスピーカユニットを切替使用することで、エージェント音声を出力しないときは、全てのスピーカユニットを用いて高性能、大出力のコンテンツ音声スピーカを実現できる。
また一部のスピーカユニットをエージェント音声に切り替えることで、自然にコンテンツ音声出力を抑えながら、エージェント音声を所定の定位で出力できる。
またこの場合、センタースピーカとしては振動領域ＡＲ２，ＡＲ５，ＡＲ８が常時使用される。これはセンターチャネルが重要な音声となることが多いコンテンツ音声の出力に適している。

なお、図２４，図２５の例は一例であり、どのスピーカユニットをエージェント音声用に用いるかは多様に考えられる。
例えば図２６Ａ、図２６Ｂでは、４つのスピーカユニットをエージェント音声に用いる例を示している。
コンテンツ音声のみを出力する期間は、図２６Ａのように全ての振動領域ＡＲをコンテンツ音声用とする（図２４Ａと同様）。
エージェント音声を出力する期間は、図２６Ｂのように、振動領域ＡＲ４がＬチャネルのスピーカとして使用され、振動領域ＡＲ６がＲチャネルのスピーカとして使用され、振動領域ＡＲ２，ＡＲ５，ＡＲ８がセンターチャネル（Ｃチャネル）のスピーカとして使用される。
斜線を付した振動領域ＡＲ１、ＡＲ７は、エージェント音声の左チャネルのスピーカとして使用され、振動領域ＡＲ３、ＡＲ９は、エージェント音声の右チャネルのスピーカとして使用されるようにする。
もちろんこれ以外にも各種の例が考えられる。中央の振動領域ＡＲ２，ＡＲ５，ＡＲ８をエージェント音声に切り替えるようにしてもよい。

＜１２．第８の実施の形態＞
第８の実施の形態は、例えばコンテンツ音声を９チャネルで出力する例である。
図２７に示すように、コンテンツ音声としての音声信号Ｌｓ，Ｒｓ，Ｃｓはマルチチャネル処理部４９において９チャネル化処理される。そして９チャネルの音声信号Ｓｃｈ１，Ｓｃｈ２，Ｓｃｈ３，Ｓｃｈ４，Ｓｃｈ５，Ｓｃｈ６，Ｓｃｈ７，Ｓｃｈ８，Ｓｃｈ９として出力される。
これら音声信号Ｓｃｈ１，Ｓｃｈ２，Ｓｃｈ３，Ｓｃｈ４，Ｓｃｈ５，Ｓｃｈ６，Ｓｃｈ７，Ｓｃｈ８，Ｓｃｈ９は、それぞれ振動領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４，ＡＲ５，ＡＲ６，ＡＲ７，ＡＲ８，ＡＲ９を加振するための音声信号であるとする。

チャネル選択部４６においては、コンテンツ音声としての９チャネルの音声信号（Ｓｃｈ１からＳｃｈ９）と、音声／定位処理部４５からのエージェント音声信号としてＬ、Ｒの２チャネルの音声信号ＶＥＬ，ＶＥＲを入力し、音声／定位処理部４５からの制御信号ＣＮＴに応じて９個の振動領域ＡＲに振り分ける処理を行う。

例えばチャネル選択部４６は図２８のように構成される。
音声信号ＶＥＬはスイッチ４７の端子ｔａに供給される。
音声信号ＶＥＲはスイッチ４８の端子ｔａに供給される。
音声信号Ｓｃｈ１は、スイッチ４７の端子ｔｃに供給される。
音声信号Ｓｃｈ３は、スイッチ４８の端子ｔｃに供給される。
スイッチ４７の出力は端子Ｔ１に供給され、スイッチ４８の出力は端子Ｔ３に供給される。
音声信号Ｓｃｈ２，Ｓｃｈ４，Ｓｃｈ５，Ｓｃｈ６，Ｓｃｈ７，Ｓｃｈ８，Ｓｃｈ９は、それぞれ端子Ｔ２，Ｔ４，Ｔ５，Ｔ６，Ｔ７，Ｔ８，Ｔ９に供給される。

このような構成とすることで、コンテンツ音声出力時と、コンテンツ音声及びエージェント音声出力時とで、上述の図２５Ａ、図２５Ｂのように振動領域ＡＲ１、ＡＲ３が切替使用されることになる。

＜１３．第９の実施の形態＞
第９の実施の形態は、上記のようにコンテンツ音声用とエージェント音声用とに切替使用するスピーカユニット（振動領域ＡＲ及びアクチュエータ１２１の組）を、そのときの状況に応じて選択する例である。

音声処理部２４の構成は図２７の例とする。
ただし、チャネル選択部４６は、画面の左側となる振動領域ＡＲ１，ＡＲ４，ＡＲ７のいずれかにおいてエージェント音声としての音声信号ＶＥＬに基づく音声出力が実行可能で、また画面の右側となる振動領域ＡＲ３，ＡＲ６，ＡＲ９のいずれかにおいてエージェント音声としての音声信号ＶＥＲに基づく音声出力を実行可能となるように構成されている。

つまりチャネル選択部４６は、出力部６１に供給する信号として音声信号Ｓｃｈ１と音声信号ＶＥＬを選択可能とし、出力部６４に供給する信号として音声信号Ｓｃｈ４と音声信号ＶＥＬを選択可能とし、出力部６７に供給する信号として音声信号Ｓｃｈ７と音声信号ＶＥＬを選択可能とする構成を有している。
またチャネル選択部は、出力部６３に供給する信号として音声信号Ｓｃｈ３と音声信号ＶＥＲを選択可能とし、出力部６６に供給する信号として音声信号Ｓｃｈ６と音声信号ＶＥＲを選択可能とし、出力部６９に供給する信号として音声信号Ｓｃｈ９と音声信号ＶＥＲを選択可能とする構成を有している。

このような構成により、例えば図２９のようなスピーカユニット選択を行う。
即ち、コンテンツ音声のみを出力する期間では、図２９Ａのように、振動領域ＡＲ１からＡＲ９により、音声信号Ｓｃｈ１からＳｃｈ９により９チャネルのスピーカ出力が実行される。
なお、加振点Ｐ１からＰ９は、図２７のアクチュエータ１２１－１から１２１－９のそれぞれによる加振点である。

一方、エージェント音声が出力されるときは、例えば図２９Ｂのように、振動領域ＡＲ１，ＡＲ４，ＡＲ７のうちで選択された振動領域ＡＲ１がＬチャネルスピーカとして使用され、振動領域ＡＲ３，ＡＲ６，ＡＲ９のうちで選択された振動領域ＡＲ３がＲチャネルスピーカとして使用される。
斜線を付していない他の振動領域ＡＲ２，ＡＲ４，ＡＲ５，ＡＲ６，ＡＲ７，ＡＲ８、ＡＲ９は、それぞれ音声信号Ｓｃｈ２，Ｓｃｈ４，Ｓｃｈ５，Ｓｃｈ６，Ｓｃｈ７，Ｓｃｈ８，Ｓｃｈ９に対応するスピーカとして使用される。

また、エージェント音声が出力される他の時点では、例えば図２９Ｃのように、振動領域ＡＲ１，ＡＲ４，ＡＲ７のうちで選択された振動領域ＡＲ４がＬチャネルスピーカとして使用され、振動領域ＡＲ３，ＡＲ６，ＡＲ９のうちで選択された振動領域ＡＲ９がＲチャネルスピーカとして使用される。
斜線を付していない他の振動領域ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ５，ＡＲ６，ＡＲ７，ＡＲ８は、それぞれ音声信号Ｓｃｈ１，Ｓｃｈ２，Ｓｃｈ３，Ｓｃｈ５，Ｓｃｈ６，Ｓｃｈ７，Ｓｃｈ８に対応するスピーカとして使用される。

このような選択を、例えば各チャネルの出力音量に応じて行う。
例えばエージェント音声を出力する際に、振動領域ＡＲ１，ＡＲ４，ＡＲ７のうちで最も音量レベルの低い振動領域ＡＲをエージェント音声の左チャネル用に選択する。また振動領域ＡＲ３，ＡＲ６，ＡＲ９のうちで音量レベルの低い振動領域ＡＲをエージェント音声の右チャネル用に選択する。

このような第９の実施の形態としての選択処理例を図３０に示す。図３０は例えばチャネル選択部４６の処理とする。
ステップＳ１０１でチャネル選択部４６は、エージェント音声の出力準備タイミングであるか否かを判定する。例えばチャネル選択部４６は、音声／定位処理部４５からの制御信号ＣＮＴにより、出力準備タイミングを認識する。
この出力準備タイミングは、エージェント音声の出力を開始する直前のタイミングである。

出力準備タイミングを検知したときは、チャネル選択部４６はステップＳ１０２で左側のチャネルのそれぞれの出力レベルを取得する。即ち音声信号Ｓｃｈ１，Ｓｃｈ４，Ｓｃｈ７の音声信号レベルである。取得する信号レベルは、その時点の信号値でもよいが、常にある程度の移動平均値等を検出しておき、出力準備タイミングで、その時点の移動平均値を取得してもよい。
ステップＳ１０３でチャネル選択部４６は出力レベル（信号レベル）が最小のチャネルを判定し、ステップＳ１０４で、当該判定したチャネルを、エージェント音声（音声信号ＶＥＬ）のＬ（左）チャネルとして用いるチャネルに設定する。

またチャネル選択部４６はステップＳ１０５で右側のチャネルのそれぞれの出力レベルを取得する。即ち音声信号Ｓｃｈ３，Ｓｃｈ６，Ｓｃｈ９の音声信号レベルである。そしてステップＳ１０６でチャネル選択部４６は出力レベル（信号レベル）が最小のチャネルを判定し、ステップＳ１０７で、当該判定したチャネルを、エージェント音声（音声信号ＶＥＲ）のＲ（右）チャネルとして用いるチャネルに設定する。

ステップＳ１０８でチャネル選択部４６は、エージェント音声用に設定した左右チャネルの情報を音声／定位処理部４５に通知する。これは、スピーカユニットの選択によらずに、エージェント音声が常に特定の定位で出力されるようにするためである。
音声／定位処理部４５では、チャネル選択部４６の選択に応じて定位処理のパラメータ設定を変更し、スピーカ位置の変化によらずに仮想スピーカ位置が一定の位置になるようにする。

ステップＳ１０９でチャネル選択部４６は、上記の設定に従い、信号経路の切替を行う。例えば音声信号Ｓｃｈ１，Ｓｃｈ９がそれぞれ左側と右側で最小の信号レベルであった場合、音声信号ＶＥＬが出力部６１に供給され、音声信号ＶＥＲが出力部６９に供給されるように信号経路を切り替える。

チャネル選択部４６はステップＳ１１０では、エージェント音声の出力終了タイミングを監視している。これも制御信号ＣＮＴに基づいて判定する。
エージェント音声の出力終了タイミングとなったら、ステップＳ１１１で信号経路を元の状態に戻す。即ち音声信号Ｓｃｈ１からＳｃｈ９がそれぞれ出力部６１から出力部６９に供給される状態とする。

以上の処理により、エージェント音声が出力される場合に、それぞれ左側と右側のうちで出力の低いスピーカユニットが選択されて、エージェント音声用のスピーカユニットに切り替えられることになる。
なお、この例の場合、中央のスピーカユニット、つまり振動領域ＡＲ２，ＡＲ５，ＡＲ８はエージェント音声用に選択されない。これによりコンテンツ音声の中で主たる音声が聞き取りにくくなることがないようにしている。

＜１４．第１０の実施の形態＞
第１０の実施の形態は、中央のスピーカユニットも含めて、エージェント音声用に選択されることがあるようにした例である。但し、エージェント音声としての音声信号ＶＥＬ，ＶＥＲに基づく音声は、必ず左右の位置関係で出力されるようにする。

この場合も音声処理部２４の構成は図２７の例とする。
ただし、チャネル選択部４６は、画面の左側及び中央となる振動領域ＡＲ１，ＡＲ２，ＡＲ４，ＡＲ５，ＡＲ７，ＡＲ８のいずれかにおいてエージェント音声としての音声信号ＶＥＬに基づく音声出力が実行可能とする。また画面の中央及び右側となる振動領域ＡＲ２，ＡＲ３，ＡＲ５，ＡＲ６，ＡＲ８，ＡＲ９のいずれかにおいてエージェント音声としての音声信号ＶＥＲに基づく音声出力を実行可能となるように構成されている。

つまりチャネル選択部は、出力部６１に供給する信号として音声信号Ｓｃｈ１と音声信号ＶＥＬを選択可能とし、出力部６４に供給する信号として音声信号Ｓｃｈ４と音声信号ＶＥＬを選択可能とし、出力部６７に供給する信号として音声信号Ｓｃｈ７と音声信号ＶＥＬを選択可能とする構成を有している。
またチャネル選択部は、出力部６３に供給する信号として音声信号Ｓｃｈ３と音声信号ＶＥＲを選択可能とし、出力部６６に供給する信号として音声信号Ｓｃｈ６と音声信号ＶＥＲを選択可能とし、出力部６９に供給する信号として音声信号Ｓｃｈ９と音声信号ＶＥＲを選択可能とする構成を有している。
さらにチャネル選択部４６は、出力部６２に供給する信号として音声信号Ｓｃｈ２、音声信号ＶＥＬ、音声信号ＶＥＲを選択可能とし、出力部６５に供給する信号として音声信号Ｓｃｈ５、音声信号ＶＥＬ、音声信号ＶＥＲを選択可能とし、出力部６８に供給する信号として音声信号Ｓｃｈ８、音声信号ＶＥＬ、音声信号ＶＥＲを選択可能とする構成を有している。

このような構成により、例えば上述の図２９のようなスピーカユニット選択を行う。
但し、中央のスピーカユニットも用いられながら、エージェント音声用の左右のスピーカユニットが選択されるため、次のような選択のバリエーションが生ずる。
即ち左右のスピーカユニットとして、次に列挙する各組み合わせが選択される可能性がある。
振動領域ＡＲ１とＡＲ２、振動領域ＡＲ１とＡＲ３、振動領域ＡＲ１とＡＲ５、振動領域ＡＲ１とＡＲ６、振動領域ＡＲ１とＡＲ８、振動領域ＡＲ１とＡＲ９、振動領域ＡＲ２とＡＲ３、振動領域ＡＲ２とＡＲ６、振動領域ＡＲ２とＡＲ９、振動領域ＡＲ４とＡＲ２、振動領域ＡＲ４とＡＲ３、振動領域ＡＲ４とＡＲ５、振動領域ＡＲ４とＡＲ６、振動領域ＡＲ４とＡＲ８、振動領域ＡＲ４とＡＲ９、振動領域ＡＲ５とＡＲ３、振動領域ＡＲ５とＡＲ６、振動領域ＡＲ５とＡＲ９、振動領域ＡＲ７とＡＲ２、振動領域ＡＲ７とＡＲ３、振動領域ＡＲ７とＡＲ５、振動領域ＡＲ７とＡＲ６、振動領域ＡＲ７とＡＲ８、振動領域ＡＲ７とＡＲ９、振動領域ＡＲ８とＡＲ３、振動領域ＡＲ８とＡＲ６、振動領域ＡＲ８とＡＲ９。

このような選択を行うための選択処理例を図３１に示す。図３１は例えばチャネル選択部の処理とする。
ステップＳ１０１でチャネル選択部４６は、図３０の例と同様にエージェント音声の出力準備タイミングであるか否かを判定する。

出力準備タイミングを検知したときは、チャネル選択部４６はステップＳ１２１で全チャネルのそれぞれの出力レベルを取得する。
ステップＳ１２２でチャネル選択部４６は全チャネルのうちで出力レベル（信号レベル）が最小のチャネルを判定する。
そして判定したチャネルが、左側チャネル、中央チャネル、右側チャネルのいずれかで処理を分岐する。

信号レベルが最小と判定したチャネルが、左側のチャネルである音声信号Ｓｃｈ１，Ｓｃｈ４，Ｓｃｈ７のいずれかであった場合は、チャネル選択部４６はステップＳ１２３からＳ１２４に進み、当該判定したチャネルを、エージェント音声の音声信号ＶＥＬに用いるチャネルに設定する。

そしてチャネル選択部４６はステップＳ１２５で中央及び右側のチャネル（音声信号Ｓｃｈ２，Ｓｃｈ３，Ｓｃｈ５，Ｓｃｈ６，Ｓｃｈ８，Ｓｃｈ９）のうちで出力レベル（信号レベル）が最小のチャネルを判定し、ステップＳ１２６で、当該判定したチャネルを、エージェント音声の音声信号ＶＥＲに用いるチャネルに設定する。

ステップＳ１２７でチャネル選択部４６は、定位処理のために設定した左右チャネルの情報を音声／定位処理部４５に通知する。
そしてステップＳ１２８でチャネル選択部４６は、チャネル設定に従い、信号経路の切替を行う。

また、ステップＳ１２２で判定したチャネルが中央のチャネルである音声信号Ｓｃｈ２，Ｓｃｈ５，Ｓｃｈ８のいずれかであった場合は、チャネル選択部４６はステップＳ１４１からＳ１４２に進み、左側及び右側のチャネル（音声信号Ｓｃｈ１，Ｓｃｈ３，Ｓｃｈ４，Ｓｃｈ６，Ｓｃｈ７，Ｓｃｈ９）のうちで出力レベル（信号レベル）が最小のチャネルを判定する。
そして判定したチャネルが左側のチャネルであったらステップＳ１４３からＳ１４４に進み、チャネル選択部４６は、中央の最小レベルのチャネルをエージェント音声の音声信号ＶＥＲに用いるチャネルに設定し、左側の最小レベルのチャネルを、エージェント音声の音声信号ＶＥＬに用いるチャネルに設定する。
そしてステップＳ１２７，Ｓ１２８の処理を行う。

またステップＳ１４２で判定したチャネルが右側のチャネルであったらステップＳ１４３からＳ１４５に進み、チャネル選択部４６は、中央の最小レベルのチャネルをエージェント音声の音声信号ＶＥＬに用いるチャネルに設定し、右側の最小レベルのチャネルを、エージェント音声の音声信号ＶＥＲに用いるチャネルに設定する。
そしてステップＳ１２７，Ｓ１２８の処理を行う。

ステップＳ１２２で信号レベルが最小と判定したチャネルが、右側のチャネルである音声信号Ｓｃｈ３，Ｓｃｈ６，Ｓｃｈ９のいずれかであった場合は、チャネル選択部４６はステップＳ１３１に進み、当該判定したチャネルを、エージェント音声の音声信号ＶＥＲに用いるチャネルに設定する。

そしてチャネル選択部４６はステップＳ１３２で中央及び左側のチャネル（音声信号Ｓｃｈ１，Ｓｃｈ２，Ｓｃｈ４，Ｓｃｈ５，Ｓｃｈ７，Ｓｃｈ８）のうちで出力レベル（信号レベル）が最小のチャネルを判定し、ステップＳ１３３で、当該判定したチャネルを、エージェント音声の音声信号ＶＥＬに用いるチャネルに設定する。
そしてステップＳ１２７，Ｓ１２８の処理を行う。

以上の処理により、エージェント音声が出力される場合に、全てのチャネルを対象として出力の低いスピーカユニットが選択されつつ、左右の位置関係が保たれる状態でエージェント音声用のスピーカユニットが選択されることになる。

＜１５．まとめ及び変形例＞
以上の実施の形態では次のような効果が得られる。
実施の形態のテレビジョン装置２は、映像コンテンツの表示を行うパネル部１１０と、パネル部１１０で表示する映像コンテンツの音声信号である第１の音声信号に基づいてパネル部１１０を加振して音声再生を実行させる１又は複数の第１のアクチュエータ１２１（第１の音声出力駆動部）と、第１の音声信号とは異なる第２の音声信号に基づいてパネル部１１０を加振して音声再生を実行させる複数のアクチュエータ１２１（第２の音声出力駆動部）とを有する。またテレビジョン装置２は、第２の音声信号についての信号処理により複数の第２の音声出力駆動部によって出力される音声の定位を設定する音声／定位処理部４５（定位処理部）を備える。
この場合、少なくとも第２の音声信号によるエージェント音声が出力されるときは、コンテンツ音声の出力に用いるアクチュエータ１２１（第１の音声出力駆動部）とは別個のアクチュエータ１２１（第２の音声出力駆動部）によってエージェント音声の再生が行われる。さらに、エージェント音声は、定位処理によって或る位置に定位した状態でユーザに聴取される。
これらにより、ユーザにとっては、コンテンツ音とエージェント音を容易に聞き分けることができる。従ってテレビジョン視聴時などにエージェント音声を的確に聞き取って理解できる。

なお、仮に仮想的な所定の位置に定位させる定位処理を行わなくとも、コンテンツ音声とエージェント音声とでアクチュエータ１２１がそれぞれ独立して用いられることで、パネル部１１０上での発音位置が異なることになるため、ユーザはコンテンツ音声とエージェント音声を聞き分けやすくなる。
また、実施の形態ではコンテンツ音声とエージェント音声の例で説明したが、第２の音声信号はエージェント音声に限られない。例えばテレビジョン装置２のガイド音声、他の音声出力機器（オーディオ機器、情報処理装置等）からの音声などであってもよい。

また各実施の形態では、コンテンツ音声を再生する第１の音声出力駆動部としてのアクチュエータ１２１を複数設けた例としたが、１つのアクチュエータ１２１を用いるのみでもよい。
一方、エージェント音声を再生する第２の音声出力駆動部としてのアクチュエータ１２１は、エージェント音声を望ましい位置に定位させるために、２以上であることが適切である。
但し、１つのアクチュエータ１２１のみを用いてエージェント音声の出力を行うことも考えられる。例えば画面の隅における振動領域ＡＲとアクチュエータ１２１の組を１つ用いてエージェント音声の出力を行うようにすることで、ある程度、コンテンツ音声とは異なる定位状態をユーザに感じさせることは可能である。

第１，第２，第４，第５，第７，第８，第９，第１０の実施の形態では、パネル部１１０は独立して振動する複数の振動領域ＡＲに分割されており、第１の音声出力駆動部又は第２の音声出力駆動部とされる全てのアクチュエータ１２１は、各振動領域ＡＲに対して１つずつ配置されている例を述べた。
これにより、各振動領域ＡＲは、それぞれ１つのアクチュエータ１２１によって加振される。即ち各振動領域ＡＲがそれぞれ独立したスピーカユニットとして機能することになる。これによって各出力音が明瞭に出力され、コンテンツ音声とエージェント音声を共に聴取し易い音とすることができる。
またエージェント音声をコンテンツ音声の影響を受けずに出力させることができるため、仮想スピーカ位置に的確に定位させることが容易となる。

なお第３，第６の実施の形態の場合、１つの振動領域ＡＲに複数のアクチュエータ１２１が配置され、上記効果の度合いは低下するが、このような場合でも、少なくともアクチュエータ１２１はエージェント音声とコンテンツ音声で別であることで、信号処理のみによってエージェント音声の定位制御を行うよりは、容易かつ的確に定位制御が実現できる。

各実施の形態では、第２の音声信号の例として、エージェント音声、つまりユーザの要求に応じて生成された応答音声の音声信号を挙げた。
このようにエージェント音声を対象とすることで、エージェントシステムをテレビジョン装置２に組み込んだ場合の使用性を向上させることができる。

また実施の形態では、音声／定位処理部４５が、第２の音声信号による音声を、パネル部１１０の映像表示面の範囲より外の位置に定位させる定位処理を行う例を述べた。
即ちユーザにとっては映像表示が行われているパネル部１１０の表示面範囲より外の仮想スピーカ位置からエージェント音声が聞こえてくるようにしている。
これにより、ユーザにとってはエージェント音声がコンテンツ音声と明確に分離され、非常に聞き取りやすいものとなる。
また仮想スピーカ位置は、常に一定の位置になるようにしておくことが望ましい。例えば定位処理で設定する仮想スピーカ位置は常にテレビジョン装置２の左上の位置などとする。すると、ユーザにとっては、エージェント音声は常にテレビジョン装置２の左上から聞こえてくるというように認識でき、エージェント音声に対する認知性が高まる。

なお、仮想スピーカ位置はユーザが選択できるようにしても良い。例えばユーザの操作に応じて、音声／定位処理部４５の定位処理のパラメータを変更することで、ユーザの望む仮想スピーカ位置を実現できるようにすることが想定される。
また仮想スピーカ位置はパネル外の位置に限らず、パネル部１１０の前面に相当する所定の位置としてもよい。

第１，第２，第３，第４，第５の実施の形態では、パネル部１１０に対して配置された複数のアクチュエータ１２１のうち、特定のアクチュエータ１２１が、第２の音声出力駆動部（エージェント音声用）とされている例を挙げた。
パネル部１１０には複数のアクチュエータ１２１が配置されるが、そのうちの特定のアクチュエータ１２１（例えば図１２のアクチュエータ１２１ＡＬ、１２１ＡＲなど）をエージェント音声用の音声出力駆動部とする。このようにエージェント音声用に専用のアクチュエータ１２１を設けることで、音声信号処理部２４，音声出力部２５の構成もシンプルなものとすることができる。
また常に同じ振動領域ＡＲ（例えば図１２，図１３，図１４の場合では振動領域ＡＲ３，ＡＲ４）によってエージェント音声が出力されるため、音声／定位処理部４５の定位処理を動的に変化させなくてよく、処理負担が軽減される。

なおパネル部１１０に対して配置されたアクチュエータ１２１のうちで、どのアクチュエータ１２１がエージェント音声用とされてもよい。例えば左右に離れた２つのアクチュエータ１２１、上下に離れた２つのアクチュエータ１２１がエージェント音声用として設けられれば仮想スピーカ位置に定位させるという点で適切である。

第１，第２，第４，第５の実施の形態では、パネル部１１０は、独立して振動する複数の振動領域ＡＲに分割されており、第２の音声出力駆動部は、パネル部１１０の中央を含む振動領域以外の振動領域ＡＲに対して配置されている例を挙げた。なおパネル部１１０の中央とは厳密な中央点である必要はなく、中央付近でよい。
このような画面の中央に位置する振動領域ＡＲはコンテンツ音声の再生にあてる。一般にコンテンツ音声は中央の音声が主たる音声となる。従ってコンテンツ音声を中央の振動領域ＡＲを用いて出力することで、ユーザにとって良好なコンテンツ視聴環境を形成できる。例えば図１４Ａ、図１４Ｂ、図１４Ｃ、図１６Ａ、図１６Ｂの例では、パネル部１１０の中央を含む振動領域は振動領域ＡＲ１，ＡＲ２である。図１９Ａ、図１９Ｂ、図１９Ｃ、図２０Ａ、図２０Ｂ、図２０Ｃ例では、パネル部１１０の中央を含む振動領域は振動領域ＡＲ３である。これらの振動領域ＡＲはコンテンツ音声用に用いられている。
一方でエージェント音声は仮想スピーカ位置での定位を実現するものであるため、中央の振動領域ＡＲを用いる必要はない。

なお、特にパネル部１１０の表示領域外となる仮想スピーカ位置に定位させることをしなくても、パネル部１１０の左右上下に偏った位置の振動領域ＡＲによりエージェント音声を出力させることが好適である。つまり中央の振動領域ＡＲによるコンテンツ音声を妨げにくいものとするとともに、エージェント音声を明瞭にユーザに聞かせやすいものとなるためである。

第１，第２，第４，第５の実施の形態では、パネル部１１０は、独立して振動する複数の振動領域ＡＲに分割されており、第２の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する２つの振動領域ＡＲに対してそれぞれ配置されている例を挙げた。
即ち少なくとも左右の位置関係となるように配置される２つの振動領域ＡＲが、それぞれエージェント音声用のアクチュエータ１２１によって駆動される。
左右の位置関係に配置される２つの振動領域ＡＲをエージェント音声の再生にあてることで、左右方向（水平方向）において仮想スピーカ位置を設定し易いものとすることができる。

第２，第５の実施の形態では、パネル部１１０は、独立して振動する複数の振動領域ＡＲに分割されており、第２の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する２つの振動領域に対してそれぞれ配置されている例を挙げた。
即ち少なくとも上下の位置関係となるように配置される２つの振動領域ＡＲが、それぞれエージェント音声用のアクチュエータ１２１によって駆動される。
上下の位置関係に配置される２つの振動領域ＡＲをエージェント音声の再生にあてることで、上下方向（垂直方向）において仮想スピーカ位置を設定し易いものとすることができる。
更に例えば上下左右の位置関係となる３以上の振動領域ＡＲをそれぞれアクチュエータ１２１でエージェント音声を出力するようにすることで、仮想スピーカ位置をより柔軟に設定し易くすることができる。例えば図１６、図２０では、４つの振動領域ＡＲをエージェント音声用に用いているが、この場合、パネル部１１０の表示面から延長する仮想面上で、仮想スピーカ位置を選択することが容易になる。

第７，第８，第９，第１０の実施の形態では、パネル部１１０は独立して振動する複数の振動領域ＡＲに分割されており、各振動領域ＡＲに対してアクチュエータ１２１が設けられ、第２の音声信号に基づく音声出力を行わないときは、全てのアクチュエータ１２１は第１の音声出力駆動部として用いられる。そして一部のアクチュエータ１２１は、第２の音声信号に基づく音声出力を行う場合に第２の音声出力駆動部として用いられるようにした。
つまり一部のアクチュエータ１２１及び振動領域ＡＲは、コンテンツ音声用とエージェント音声用とで切替使用される。
コンテンツ音声のみを再生するときは、全ての振動領域ＡＲを用いることで、複数のアクチュエータ１２１を備えたパネル部１１０の音声再生能力を活用した音声出力ができる。例えば、より大音量で迫力のある音声再生も可能となる。
一方で、エージェント音声を再生する場合は、一部の振動領域ＡＲを切り換えて使用することで対応できる。

なお実施の形態では振動領域ＡＲを９分割した例を示したが、もちろん９分割に限られない。例えば４分割、６分割、８分割、１２分割なども想定される。それぞれの場合に、どの振動領域ＡＲをエージェント音声に切替使用するかも各種考えられる。
また図２２の例では各振動領域ＡＲは同じ形状、面積としたが、異なる面積や形状の振動領域ＡＲが設けられてもよい。

また、エージェント音声に切り替えて用いる振動領域ＡＲ及びアクチュエータ１２１は、エージェント音声出力時以外は、コンテンツ音声のバーチャル信号の再生に用いてもよい。

第７，第８の実施の形態では、パネル部１１０の中央を含む振動領域以外の振動領域ＡＲに対するアクチュエータ１２１が、コンテンツ音声用とエージェント音声用とで切替使用されるものとした。
画面の中央に位置する振動領域ＡＲは常にコンテンツ音声の再生にあてる。コンテンツ音声は中央の音声が主たる音声となるため、コンテンツ音声については常に中央の振動領域ＡＲを用いて出力することで、エージェント音声出力時でもユーザにとって違和感の少ないコンテンツ視聴環境を形成できる。
一方でエージェント音声は仮想スピーカ位置での定位を実現するものであるため、中央の振動領域ＡＲを用いる必要はなく、他の振動領域ＡＲを、コンテンツ音声用途に切り換えることとする。

第９，第１０の実施の形態では、エージェント音声を出力する場合に、エージェント音声用に用いるアクチュエータ１２１を選択する処理を行う例を述べた。
つまりコンテンツ音声のみを再生するときは、全てのアクチュエータ１２１と振動領域ＡＲの組をコンテンツ音声出力に用いる一方、エージェント音声を出力するときには、複数のアクチュエータ１２１のうちで例えば２つの組を選択する。これにより状況に応じて適切なアクチュエータ１２１と振動領域ＡＲの組を用いてエージェント音声の出力ができる。
選択は音声出力レベル以外の要素に基づいて行っても良い。例えばテレビジョン装置２の周囲の環境条件、視聴者の位置、人数などに応じて選択することも考えられる。

第９，第１０の実施の形態では、エージェント音声を出力する場合に、複数のアクチュエータ１２１による音声出力レベルの検出を行い、各アクチュエータ１２１の出力レベルに応じて、エージェント音声用として用いるアクチュエータ１２１（チャネル）を選択する例を挙げた。
つまり複数の振動領域ＡＲとアクチュエータ１２１の組のうちで、そのときの出力状況に応じて、エージェント音声用に切り換えて使用する組を選択するようにする。
これにより、例えば出力レベルの低いアクチュエータ１２１を選択することなどが行われ、コンテンツ音声の再生に影響の少ない状態でエージェント音声を出力することができる。

なお、音量レベルの大きいアクチュエータ１２１を選択することとしても良い。これは、コンテンツ音声の音量を低下させることで、エージェント音声を聞き取りやすくできる可能性があるためである。

第９の実施の形態では、パネル部１１０の中央を含む振動領域以外の振動領域ＡＲに対するアクチュエータ１２１について、音声出力レベルの検出を行い、検出した出力レベルに応じて、エージェント音声用として用いるアクチュエータ１２１（チャネル）を選択する例を述べた。
これにより、中央の振動領域ＡＲはエージェント音声の使用に用いられない。従って、よりコンテンツ音声の再生に影響の少ない状態でエージェント音声を出力することができる。

実施の形態の技術によれば、テレビジョン装置２よるコンテンツ再生を考慮して、エージェント音声を聞き取りやすいシステムを構築できる。
もちろん先に挙げたようなテレビジョン装置２以外の機器にも実施の形態の技術は適用できる。

なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

なお本技術は以下のような構成も採ることができる。
（１）
映像コンテンツの表示を行う表示パネルと、
前記表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる１又は複数の第１の音声出力駆動部と、
前記第１の音声信号とは異なる第２の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第２の音声出力駆動部と、
前記第２の音声信号についての信号処理により複数の前記第２の音声出力駆動部によって出力される音声の定位を設定する定位処理部と、を備えた
音声出力装置。
（２）
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第１の音声出力駆動部又は前記第２の音声出力駆動部とされる音声出力駆動部は、各振動領域に対して１つずつ配置されている
上記（１）に記載の音声出力装置。
（３）
前記第２の音声信号は、要求に応じて生成された応答音声の音声信号である
上記（１）又は（２）に記載の音声出力装置。
（４）
前記定位処理部は、前記第２の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行う
上記（１）から（３）のいずれかに記載の音声出力装置。
（５）
前記表示パネルに対して配置された複数の音声出力駆動部のうち、特定の音声出力駆動部が、前記第２の音声出力駆動部とされている
上記（１）から（４）のいずれかに記載の音声出力装置。
（６）
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第２の音声出力駆動部は、前記表示パネルの中央を含む振動領域以外の振動領域に対して配置されている
上記（１）から（５）のいずれかに記載の音声出力装置。
（７）
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第２の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する２つの振動領域に対してそれぞれ配置されている
上記（１）から（６）のいずれかに記載の音声出力装置。
（８）
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第２の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する２つの振動領域に対してそれぞれ配置されている
上記（１）から（７）のいずれかに記載の音声出力装置。
（９）
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
各振動領域に対して音声出力駆動部が設けられ、
前記第２の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部は、前記第１の音声出力駆動部として用いられ、
一部の音声出力駆動部は、前記第２の音声信号に基づく音声出力を行う場合に前記第２の音声出力駆動部として用いられる
上記（１）から（４）のいずれかに記載の音声出力装置。
（１０）
前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部が、前記一部の音声出力駆動部とされる
上記（９）に記載の音声出力装置。
（１１）
前記第２の音声信号による再生音声を出力する場合に、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する処理を行う
上記（９）に記載の音声出力装置。
（１２）
前記第２の音声信号による再生音声を出力する場合に、複数の音声出力駆動部による音声出力レベルの検出を行い、各音声出力駆動部の出力レベルに応じて、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する
上記（９）又は（１１）に記載の音声出力装置。
（１３）
前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部について、音声出力レベルの検出を行い、検出した出力レベルに応じて、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する
上記（１２）に記載の音声出力装置。
（１４）
テレビジョン装置に内蔵される
上記（１）から（１３）のいずれかに記載の音声出力装置。
（１５）
映像コンテンツの表示を行う表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて１又は複数の第１の音声出力駆動部により前記表示パネルを加振して音声再生を実行させるとともに、
前記第１の音声信号とは異なる第２の音声信号について、定位を設定する信号処理を行ったうえで、該第２の音声信号について複数の第２の音声出力駆動部により前記表示パネルを加振して音声再生を実行させる
音声出力方法。

１エージェント装置、２テレビジョン装置、３ネットワーク、４マイクロホン、５スピーカ、６解析エンジン、１０音声認識部、１１自然言語理解部、１２アクション部、１３音声合成部、１５演算部、１７メモリ部、１８音声入力部、２１アンテナ、２２チューナ、２３デマルチプレクサ、２４音声処理部、２５音声出力部、２６映像処理部、２７映像出力部、３１表示部、３２制御部、３３メモリ、３４入力部、３６ネットワーク通信部、４１Ｌ音声処理部、４２Ｒ音声処理部、４３センター音声処理部、４４Ｌ，４４Ｒミキサー、４５エージェント音声／定位処理部、４６チャネル選択部、４７，４８スイッチ、４９マルチチャネル処理部、５１Ｌ出力部、５２Ｒ出力部、５３センター出力部、５４，５５，５６，５７エージェント音出力部、６０、６１，６２，６３，６４，６５，６６，６７，６８，６９出力部、７０入力管理部、７１解析情報取得部、１１０パネル部、１２０加振部、１２１，１２１ａ，１２１ｂ，１２１ｃ，１２１Ｌ，１２１Ｒ，１２１ＡＬ，１２１ＡＲ，１２１ＡＬ１，１２１ＡＲ１，１２１ＡＬ２，１２１ＡＲ２，１２１－１、１２１－２，１２１－３，１２１－４，１２１－５，１２１－６，１２１－７，１２１－８，１２１－９アクチュエータ（加振器）、ＡＲ，ＡＲ１，ＡＲ２，ＡＲ３，ＡＲ４，ＡＲ５，ＡＲ６，ＡＲ７，ＡＲ８，ＡＲ９振動領域

Claims

映像コンテンツの表示を行う表示パネルと、
前記表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる１又は複数の第１の音声出力駆動部と、
前記第１の音声信号とは異なる第２の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第２の音声出力駆動部と、
前記第２の音声信号についての信号処理により複数の前記第２の音声出力駆動部によって出力される音声の定位を設定する定位処理部と、
を備え、
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
各振動領域に対して音声出力駆動部が設けられ、
前記第２の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部は、前記第１の音声出力駆動部として用いられ、
一部の音声出力駆動部は、前記第２の音声信号に基づく音声出力を行う場合に前記第２の音声出力駆動部として用いられる
音声出力装置。
前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部が、前記一部の音声出力駆動部とされる
請求項１に記載の音声出力装置。
前記第２の音声信号による再生音声を出力する場合に、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する処理を行う
請求項１に記載の音声出力装置。
前記第２の音声信号による再生音声を出力する場合に、複数の音声出力駆動部による音声出力レベルの検出を行い、各音声出力駆動部の出力レベルに応じて、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する
請求項１又は請求項３に記載の音声出力装置。
前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部について、音声出力レベルの検出を行い、検出した出力レベルに応じて、前記第２の音声出力駆動部として用いる音声出力駆動部を選択する
請求項４に記載の音声出力装置。
映像コンテンツの表示を行う表示パネルと、
前記表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる１又は複数の第１の音声出力駆動部と、
前記第１の音声信号とは異なる第２の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第２の音声出力駆動部と、
前記第２の音声信号についての信号処理により複数の前記第２の音声出力駆動部によって出力される音声の定位を設定するとともに、前記第２の音声信号による音声を出力するときに前記第１の音声信号による出力音声の音量を低下させる制御を行う定位処理部と、を備え、
前記第２の音声信号は、要求に応じて生成された応答音声の音声信号であり、
前記定位処理部は、前記第２の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行う
音声出力装置。
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第１の音声出力駆動部又は前記第２の音声出力駆動部とされる音声出力駆動部は、各振動領域に対して１つずつ配置されている
請求項６に記載の音声出力装置。
前記表示パネルに対して配置された複数の音声出力駆動部のうち、特定の音声出力駆動部が、前記第２の音声出力駆動部とされている
請求項６に記載の音声出力装置。
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第２の音声出力駆動部は、前記表示パネルの中央を含む振動領域以外の振動領域に対して配置されている
請求項６に記載の音声出力装置。
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第２の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する２つの振動領域に対してそれぞれ配置されている
請求項６に記載の音声出力装置。
前記表示パネルは、独立して振動する複数の振動領域に分割されており、
前記第２の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する２つの振動領域に対してそれぞれ配置されている
請求項６に記載の音声出力装置。
前記第２の音声信号は、要求に応じて生成された応答音声の音声信号である
請求項１から請求項５のいずれかに記載の音声出力装置。
前記定位処理部は、前記第２の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行う
請求項１から請求項５のいずれかに記載の音声出力装置。
テレビジョン装置に内蔵される
請求項１から請求項１３のいずれかに記載の音声出力装置。
映像コンテンツの表示を行う表示パネルが、独立して振動する複数の振動領域に分割されており、各振動領域に対して音声出力駆動部が設けられる音声出力装置が、
前記表示パネルで表示する映像コンテンツの音声信号である第１の音声信号に基づいて１又は複数の第１の音声出力駆動部により前記表示パネルを加振して音声再生を実行させ、
前記第１の音声信号とは異なる第２の音声信号について、定位を設定する信号処理を行ったうえで、該第２の音声信号について複数の第２の音声出力駆動部により前記表示パネルを加振して音声再生を実行させるとともに、
前記第２の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部を前記第１の音声出力駆動部として用い、
一部の音声出力駆動部を、前記第２の音声信号に基づく音声出力を行う場合に前記第２の音声出力駆動部として用いる
音声出力方法。