以下、本発明の音声信号の特性調整装置、音声信号の特性調整プログラム、及び、音声信号の特性調整方法を適用した実施の形態について説明する。
<実施の形態>
図1は、実施の形態の音声信号の特性調整装置100を示す斜視図である。音声信号の特性調整装置100は、コンピュータシステム510とアップコンバータ1を含む。図1に示すコンピュータシステム510は、本体部511、ディスプレイ512、キーボード513、マウス514、及びモデム515を含む。アップコンバータ1は、ケーブル1Cによってコンピュータシステム510に接続されている。コンピュータシステム510は、例えば、PC(Personal Computer)である。
音声信号の特性調整装置100のアップコンバータ1は、音声信号に遅延時間を与える遅延処理、及び、音声信号のゲインや周波数を調整する調整処理を行う装置である。コンピュータシステム510は、アップコンバータ1における遅延時間、ゲイン、及び周波数を設定する設定装置(アップコンバータ1の設定装置)として機能する。
本体部511は、CPU(Central Processing Unit:中央演算装置)、HDD(Hard Disk Drive:ハードディスクドライブ)、及びディスクドライブ等を内蔵する。ディスプレイ512は、本体部511からの指示により表示画面512A上に解析結果等を表示する表示部であり、例えば、液晶モニタであればよい。キーボード513は、コンピュータシステム510に種々の情報を入力するための入力部である。マウス514は、ディスプレイ512の表示画面512A上の任意の位置を指定する入力部である。モデム515は、外部のデータベース等にアクセスして他のコンピュータシステムに記憶されているプログラム等をダウンロードする。
コンピュータシステム510にアップコンバータ1の設定装置としての機能を持たせるプログラムは、ディスク517等の可搬型記録媒体に格納されるか、モデム515等の通信装置を使って他のコンピュータシステムの記録媒体516からダウンロードされ、コンピュータシステム510に入力されてコンパイルされる。
コンピュータシステム510にアップコンバータ1の設定装置としての機能を持たせるプログラムは、コンピュータシステム510をアップコンバータ1の設定装置として動作させる。このプログラムは、例えばディスク517等のコンピュータ読み取り可能な記録媒体に格納されていてもよい。コンピュータ読み取り可能な記録媒体は、ディスク517、ICカードメモリ、フロッピー(登録商標)ディスク等の磁気ディスク、光磁気ディスク、CD−ROM、USB(Universal Serial Bus)メモリ等の可搬型記録媒体に限定されるものではない。コンピュータ読み取り可能な記録媒体は、モデム515又はLAN等の通信装置を介して接続されるコンピュータシステムでアクセス可能な各種記録媒体を含む。
図2は、コンピュータシステム510の本体部511内の要部の構成を説明するブロック図である。本体部511は、バス520によって接続されたCPU521、RAM又はROM等を含むメモリ部522、ディスク517用のディスクドライブ523、及びハードディスクドライブ(HDD)524を含む。実施の形態では、ディスプレイ512、キーボード513、及びマウス514は、バス520を介してCPU521に接続されているが、これらはCPU521に直接的に接続されていてもよい。また、ディスプレイ512は、入出力画像データの処理を行う周知のグラフィックインタフェース(図示せず)を介してCPU521に接続されていてもよい。
コンピュータシステム510において、キーボード513及びマウス514は、アップコンバータ1の設定装置の入力部である。ディスプレイ512は、アップコンバータ1の設定装置による設定結果等を表示画面512A上に表示する表示部である。
なお、コンピュータシステム510は、図1及び図2に示す構成のものに限定されず、各種周知の要素を付加してもよく、又は代替的に用いてもよい。
また、図2では、アップコンバータ1の設定装置としての機能を持たせたコンピュータシステム510で、アップコンバータ1における遅延時間、ゲイン、及び周波数等を設定する形態について説明したが、コンピュータシステム510で設定した遅延時間、ゲイン、及び周波数等を表すデータをアップコンバータ1が保持するようにしてもよい。
この場合は、遅延時間、ゲイン、及び周波数等を表すデータを格納するメモリと、遅延時間、ゲイン、及び周波数等を表すデータをメモリから読み出して設定する処理部とをアップコンバータ1が含んでいればよい。
遅延時間、ゲイン、及び周波数等をアップコンバータ1に設定した後は、アップコンバータ1からコンピュータシステム510を切り離してよい。また、コンピュータシステム510をアップコンバータ1に接続することなく、遅延時間、ゲイン、及び周波数等を表すデータが予め格納されたメモリをアップコンバータ1に実装してもよい。
次に、図3乃至図6を用いて、上述のようなメモリを含む、実施の形態の音声信号の特性調整装置100Aについて説明する。
図3乃至図6は、実施の形態の音声信号の特性調整装置100Aを示す外観図である。図3乃至図6には、それぞれ、音声信号の特性調整装置100Aの四面(平面、正面、背面、右側面)を示す。
音声信号の特性調整装置100Aは、筐体101を有し、内部にアップコンバータ1を含む。筐体101は、一例として、所謂1U(ワンユー)サイズの金属製又は樹脂製の筐体である。筐体101の正面には、表示部102と、操作部103及び104が設けられている。表示部102は、液晶パネル等であり、音量や各チャンネルのレベル等を表示する。操作部103には、マスターレベル(MASTER LEVEL)調整、入力(INPUT)・出力(OUTPUT)の選択等を行うスイッチ等が配置されている。操作部104には、エントリーキー(ENTRY)や、機能(FUNCTION)、モニタ(MONITOR)、チャンネル(CH SELECT)の選択等を行うスイッチ等が配置されている。
筐体101の背面には、電源用のコネクタや、各種信号の入出力用のコネクタ等が配置されている。筐体101の平面(上面)は封止されており、右側面には冷却用の孔部105が設けられている。なお、筐体101の底面は平面(上面)と同様に封止されており、左側面には、右側面と同様に冷却用の孔部が設けられている。
図7は、22.2チャンネルの音響システムを示す図である。22.2チャンネルの音響システムは、8Kスーパーハイビジョンによる映像に合わせることを念頭に開発されてきたものである。図7に示す22.2チャンネルの音響システムは、一例として、立方体の頂点や辺又は面上の点にスピーカを配置したような構成を有する。
図7では、XYZ座標を用いて説明する。XYZ座標の原点は、スピーカBtFLの位置であり、図示するようにX軸、Y軸、Z軸を定義する。XY平面は水平面と平行であり、Z軸は、鉛直軸と平行である。
ディスプレイ50は、YZ平面に設置される。
22.2チャンネルの音響システムは、24個のスピーカLFE1、LFE2、BtFL、BtFC、BtFR、FL、FLc、FC、FRc、FR、SiL、SiR、BL、BC、BR、TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、TpBRを含む。
LFE1、LFE2は、22.2チャンネルの「.2」チャンネルに対応し、サブウーハーである。
スピーカBtFL、BtFC、BtFR、FL、FLc、FC、FRc、FR、SiL、SiR、BL、BC、BR、TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、TpBRは、22.2チャンネルの「22」チャンネルに対応する。
これら24個のスピーカは、音響システムが設置されるホール、又は、部屋等の空間又はパブリックビューイングを行う空間に合わせて設置されている。ここでは、X軸方向をホール又は部屋等の奥行き方向と称し、ディスプレイ50に近い側をフロント(F)、ディスプレイ50から遠い側をバック(B)と称す。これは、24個のスピーカの中心の理想的な位置に視聴者がいてディスプレイ50を観る場合に、視聴者にとって前(フロント)か後(バック)であるかを基準に、奥行き方向における前後方向を設定しているからである。
スピーカLFE1及びLFE2は、フロントエンド(FE:Front End)の低い(L:Low)場所において、ディスプレイ50の左右の脇に設定されるスピーカである。
スピーカBtFL、BtFC、BtFRは、それぞれ、フロント側の最も低いボトム(Bt:Bottom)の左(L),センター(C)、右(R)に位置する。スピーカBtFL、BtFC、BtFRのZ軸方向における位置は、XYZ座標系の原点と同じ高さである。
スピーカFL、FLc、FC、FRc、FRは、Z軸方向における中央の高さにおいて、フロント(F)側で、それぞれ、左(L)、センター寄りの左(Lc)、センター(C)、センター寄りの右(Rc)、右(R)に位置する。
スピーカSiL、SiRは、Z軸方向における中央の高さにおいて、X軸方向における奥行きの中央の位置において、それぞれ、左(L)と右(R)に位置する。Siはサイド(Side)を表し、理想的な位置にいる視聴者の横側に位置することを意味する。
スピーカBL、BC、BRは、Z軸方向における中央の高さにおいて、X軸方向における奥行きのバック(B)側において、それぞれ、左(L)、センター(C)、右(R)に位置する。
スピーカTpFL、TpFC、TpFRは、Z軸方向における最も高い位置(トップ:Tp(Top))において、フロント(F)側で、それぞれ、左(L)、センター(C)、右(R)に位置する。
スピーカTpSiL、TpC、TpSiRは、Z軸方向における最も高い位置(トップ:Tp(Top))において、X軸方向における奥行きの中央の位置(サイド:Si)において、それぞれ、左(L)、センター(C)、右(R)に位置する。スピーカTpCは、理想的な位置にいる視聴者の真上に位置する。
スピーカTpBL、TpBC、TpBRは、Z軸方向における最も高い位置(トップ:Tp(Top))において、X軸方向における奥行きのバック(B)側において、それぞれ、左(L)、センター(C)、右(R)に位置する。
以下では、スピーカFL、FRをそれぞれチャンネル1、2として取り扱う。また、スピーカFC、LFE1、BL、BR、FLc、FRc、BC、LFE2、SiL、SiR、TpFL、TpFR、TpFC、TpC、TpBL、TpBR、TpSiL、TpSiR、TpBC、BtFC、BtFL、BtFRを、それぞれ、チャンネル3〜24として取り扱う。
図8は、他の形態の22.2チャンネルの音響システムを示す図である。図8には、24個のスピーカLFE1、LFE2、BtFL、BtFC、BtFR、FL、FLc、FC、FRc、FR、SiL、SiR、BL、BC、BR、TpFL、TpFC、TpFR、TpSiL、TpC、TpSiR、TpBL、TpBC、TpBRの配置を示す。
図8に示す22.2チャンネルの音響システムでは、24個のスピーカは、仮想の視聴者の頭部を中心とする球面上に配置されている。これは、24個のスピーカのすべてが仮想の視聴者の頭部から等距離の位置に配置されるようにするためである。
ここでは、24個のスピーカの高さ(図7におけるZ方向における高さ)を3段階に分けて説明する。
図8(A)には、ミドル層のスピーカFL、FLc、FC、FRc、FR、SiL、SiR、BL、BC、BRを示す。これらは、すべて1つの円周上に配置されている。
図8(B)には、トップ層のスピーカTpFL、TpFC、TpFR、TpBL、TpBC、TpBR、TpSiL、TpC、TpSiRを示す。トップ層の9個のスピーカのうち、スピーカTpC以外は、すべて1つの円周上に配置されている。スピーカTpCは、球面の頂上に配置されている。なお、図8(B)では、説明の便宜上、図8(A)と略同じ直径の円周上に、スピーカTpC以外のトップ層の8つのスピーカを示すが、ミドル層とトップ層ではスピーカが配置される円周の直径は異なりうる。
図8(C)には、ボトム層のスピーカLFE1、LFE2、BtFL、BtFC、BtFRを示す。これらは、すべて1つの円周上に配置されている。なお、ボトム層の5つのスピーカが配置される円周の直径は、ミドル層及びトップ層のスピーカが配置される円周の直径よりも小さい。
図8(D)は、トップ層、ミドル層、ボトム層の位置関係を断面で示す。なお、24個のスピーカの配置については、ある程度の許容範囲が定められている。詳しい配置は、例えば、NHK技研 R&D/No.148/2014.11のP.12〜P.21「8Kスーパーハイビジョン音響制作システムの開発と標準化動向」に記載されている。
図9は、実施の形態のアップコンバータ1の回路構成を示す図である。ここでは、図1に示すコンピュータシステム510に接続されるアップコンバータ1について説明する。
アップコンバータ1は、入力端子2、アンプ3、分離器4、同期調整部5、SRC(Sample Rate Converter)6、分離器7、バス8、入力端子9、DSP(Digital Signal Processor)10、エンコーダ20、出力端子21、マトリクス出力部22、及びモニタ出力回路23を含む。
入力端子2は、2チャンネルの音声信号が入力される端子であり、例えば、BNCプラグコネクタを用いればよい。入力端子2には、音源からステレオの音声信号が入力される。ステレオの音声信号は、AES-EBU規格のデジタル信号として、1つの入力端子2に入力される。なお、音声信号がモノラルの場合は、L(左)及びR(右)用に同一の音声信号を用いることにより、2チャンネルの音声信号にすればよい。
アンプ3は、入力端子2に入力される2チャンネルの音声信号を増幅して出力する。
分離器4は、アンプ3で増幅された音声信号を同期調整部5とSRC6とに分離して出力する。
同期調整部5は、映像信号と音声信号の同期を取るための調整部である。
SRC6は、サンプリングレートを変換するコンバータであり、ここでは、2チャンネルの音声信号を22.2チャンネルの音声信号に変換するためにサンプリングレートを変換している。
分離器7は、SRC6から出力される音声信号をL(左)及びR(右)用の2つの音声信号に分離してバス8に出力する。
バス8は、DSP10とマトリクス出力部22との間に設けられている。
入力端子9は、コンピュータシステム510(図1参照)を接続する端子である。なお、アップコンバータ1が図3乃至図6に示す音声信号の特性調整装置100Aに含まれる場合は、特性調整装置100Aに含まれ、メモリを有する内蔵コンピュータを入力端子9に接続すればよい。
DSP10は、24個のDSP部10Aを含む。DSP部10Aは、22.2チャンネルに対応して24個設けられている。24個のDSP部10Aは、すべて同一の回路構成を有する。
実際には、図9における上側から下側に向けて順番に1チャンネル用から24チャンネル用の24個のDSP部10Aが配列されるが、図9では、1チャンネルと2チャンネル用の2つのDSP部10Aを示し、3チャンネル用から24チャンネル用のDSP部10Aの図示を省略する。
ここでは、1チャンネル用のDSP部10Aの内部構成について説明する。DSP部10Aは、混合機(MIX)11L、11R、合成器12、レベル調整部(LEVEL)13、イコライザ(4band PEQ)14、遅延部(DELAY)15、スイッチ16、マスターレベル調整部(MASTER LEVEL)17、及びミュートスイッチ(MUTE)18を含む。
混合比設定部11L及び11Rは、それぞれ、L(左)及びR(右)用の2つの音声信号を混合する割合(比率)を調整する。調整する割合は、入力端子9に接続されるコンピュータシステム510又は内蔵コンピュータから入力される制御信号MIXによって設定される。
合成器12は、混合比設定部11L及び11Rから出力されるL(左)及びR(右)用の2つの音声信号を混合する。
レベル調整部13は、そのチャンネルの音声信号の信号レベル(音量)を他のチャンネルの音声信号の信号レベルとは独立して調整する部分である。信号レベルは、入力端子9に接続されるコンピュータシステム510又は内蔵コンピュータから入力される制御信号LEVELによって設定される。
イコライザ14は、全帯域を4つの帯域に分けて、帯域毎にゲイン(GAIN)、周波数(FREQ)、ゲインのタイプ(TYPE)、又はQを設定する。これらの値は、実験によって求めた値を蓄積したデータベースから、映像や音響信号の内容や種類に合わせて最適な値に設定される。ゲイン(GAIN)、周波数(FREQ)、ゲインのタイプ(TYPE)、及びQは、入力端子9に接続されるコンピュータシステム510又は内蔵コンピュータから入力される制御信号PEQによって設定される。
遅延部15は、第1遅延時間と第2遅延時間との和に応じた遅延時間をスピーカFL、FR以外のスピーカから出力する音声信号に与える。このため、スピーカFL、FRに対応するチャンネル1、2のDSP部10Aの遅延部15で音声信号に与える遅延時間は、0秒である。
チャンネル1、2のスピーカFL、FRは、以下で説明する第1遅延時間と第2遅延時間の基準になるスピーカである。
第1遅延時間は、チャンネル1、2のスピーカ(FL、FR)から出力する音声信号(第1音声信号)の模擬的な一次反射波(模擬一次反射波)を生成するために、チャンネル3〜24のスピーカから出力される音声信号(第2音声信号)に与えるように設定される時間である。
なお、奥行き方向のフロントに位置する、チャンネル3、4、7、8、10、13〜15のスピーカから出力される音声信号(第2音声信号)については、第1遅延時間を与えずに、チャンネル1、2のスピーカ(FL、FR)から出力する音声信号(第1音声信号)と同一の音声信号を出力するように設定してもよい。
一次反射波は、二次反射波以上の高次反射波に比べると、信号レベルが高く、最も早く到来するので、反射せずに直接視聴者に届く直接音を除いた反射波の中では支配的である。このため、音声信号の特性調整装置100及び100Aでは、一次反射波のみを用いて近似を行い、チャンネル1、2のスピーカ(FL、FR)から出力する音声信号(第1音声信号)の模擬的な一次反射波(模擬一次反射波)をチャンネル3〜24用に生成することにしている。
人間が音の到来方向を認知するとき、左右の耳へ音が到達する時間差と音量の差を照らし合わせてまず判断する。其の次に人は、身の回りの物から反射してくる一次反射音を聞くことにより、身の回りの環境を認知することが出来る。直接到来した音との時間差だったり、音の成分が吸収されることで起る音質の差であったり、反射物が共鳴して付加された音などを認知することで、それまでの経験値と照らし合わせて身の回りの環境を特定していく。其の音がどのような環境で発せられたのか、また自分がどのような場所でこの音を聞いているのか、はたまた、伝搬してくる途中の環境がどのような環境なのかを、認知出来るのである。その後空間に残る残響(高次反射)の情報が加わり、人はさらに回りの環境の詳細を理解することが出来るのである。
ここで行う信号処理では、高次反射の処理は多くの条件が複雑に影響し合うことと、一次反射音の影響力が、高次反射の影響を付加する前に大きいので、其処に注目している。
また、音楽のアップコンバートを考えるとき、既にステレオで完結されている音楽をマルチサラウンド空間に広げる場合、アップコンバートすることでもとの音楽の世界観を大きく変えてしまうことにもなりかねない。そのため、細心の注意を払う必要がある。今まで作られてきているアップコンバータで、処理後の音が残響感の強いものになってしまっているのが、例としてあげることが出来る。高次反射を必要以上に加えないことが、其の残響感を減らすことに役に立っている。
実施の形態の音声信号の特性調整装置100及び100Aは、ホールのステージに置かれた2つの対のスピーカーから再生されるステレオ音響を、ホールの客席で聞くことをシミュレートしようとしているものではなく、ステレオで完結されている音場を、其の世界観を変えないことを最大限に重視して、マルチチャンネル音響システムで再生することを目的としている。
人間の音源・音場環境認知の特性を利用して、反響・残響感を必要以上に増やすこと無く、ステレオ音源(モノラル音源も含む)を、マルチチャンネル空間音響システムで再生出来るようにすることを目的として作られている。
このため、音声信号の特性調整装置100及び100Aでは、一次反射波のみを用いて近似を行い、チャンネル1、2のスピーカ(FL、FR)から出力する音声信号(第1音声信号)の模擬的な一次反射波(模擬一次反射波)をチャンネル2〜24用に生成することにしている。
第2遅延時間は、奥行き方向の中央の位置(サイド)とバックに位置する、チャンネル5、6、9、11、12、16〜22のスピーカ(BL、BR、BC、SiL、SiR、TpC、TpBL、TpBR、TpSiL、TpSiR、TpBC、BtFC)から出力される音声信号(第2音声信号)に与えられる遅延時間である。
第2遅延時間は、チャンネル1、2のスピーカ(FL、FR)の位置に対する、チャンネル5、6、9、11、12、16〜22のスピーカ(BL、BR、BC、SiL、SiR、TpC、TpBL、TpBR、TpSiL、TpSiR、TpBC、BtFC)の位置の違いを考慮して、視聴者がディスプレイ50があるフロント側に音源があると感じるようにするために、チャンネル5、6、9、11、12、16〜22のスピーカ(BL、BR、BC、SiL、SiR、TpC、TpBL、TpBR、TpSiL、TpSiR、TpBC、BtFC)から出力される音声信号(第2音声信号)に与えるように設定される時間である。このため、第2遅延時間は、フロント側よりもバック側に行くほど長く設定される。
第2遅延時間は、ホールの奥行き方向における最も前(最もフロント)に位置するスピーカFL、FRが出力する音声信号に対して、スピーカFL、FRよりも後(バック)側にあるスピーカが出力する音声信号を遅延させる時間である。
視聴者の前方にあるディスプレイ50に表示される画像の物体又は生物等が発する音声信号を前(フロント)側よりも後(バック)側で遅延させることによって、前(フロント)側から音声信号が聞こえていることを視聴者に聴覚的に認識させるためである。
なお、奥行き方向のフロントに位置する、チャンネル3、4、7、8、10、13〜15のスピーカ(FC、LFE1、FLc、FRc、LFE2、TpFL、TpFR、TpFC、BtFL、BtFR)から出力される音声信号について、チャンネル1、2のスピーカ(FL、FR)の位置との違いに基づく遅延時間を与えてもよい。
遅延部15は、第1遅延時間と第2遅延時間との和に基づいて設定される遅延時間を音声信号に与える。これは、第1遅延時間と第2遅延時間との和を遅延時間として設定する場合の他に、例えば、第1遅延時間及び/又は第2遅延時間に係数を掛けてから求めた和を遅延時間として設定する場合や、第1遅延時間と第2遅延時間との和に係数を掛けてから求めた和を遅延時間として設定する場合があることを意味する。
係数は、例えば、前(フロント)側のスピーカと、前(フロント)側のスピーカよりも後(バック)側のスピーカとの間の距離、又は、前(フロント)側のスピーカと、前(フロント)側のスピーカよりも後(バック)側のスピーカとの間におけるホールの音響特性等に応じて設定すればよい。
係数は、正の値であり、係数をどのような値に設定しても、前(フロント)に位置するスピーカFL、FRが出力する音声信号に対して、スピーカFL、FRよりも後(バック)側にあるスピーカが出力する音声信号は遅延されることになる。
遅延時間は、入力端子9に接続されるコンピュータシステム510又は内蔵コンピュータから入力される制御信号DELAYによって設定される。
スイッチ16は、各チャンネルのオン/オフを切り替えるためのスイッチである。なお、スイッチ16は、コンピュータシステム510又は内蔵コンピュータによってオン/オフの切り替えが行われるように構成されていてもよい。
マスターレベル調整部17は、音響システム全体での音量を調整するための調整部であり、すべてのチャンネルにおいて、同一のレベルに設定される。なお、マスターレベル調整部17は、コンピュータシステム510又は内蔵コンピュータによってオン/オフの切り替えが行われるように構成されていてもよい。
ミュートスイッチ(MUTE)18は、音響システム全体での音量をミュートするためのスイッチである。なお、ミュートスイッチ(MUTE)18は、コンピュータシステム510又は内蔵コンピュータによってオン/オフの切り替えが行われるように構成されていてもよい。
エンコーダ20は、MADI ENCODE形式のエンコーダであり、24チャンネルのDSP部10Aから出力される音声信号が入力され、出力端子OUTから出力端子21に1つの音声信号として出力する。
出力端子21は、図9に示す音響システムが最終的に出力する音声信号を出力する端子であり、例えば、BNCプラグコネクタを用いればよい。
マトリクス出力部22は、例えば、24チャンネルから6チャンネルを選択して、5.1チャンネル用の音声信号を出力する際に用いる出力部である。
モニタ出力回路23は、各チャンネルのノイズチェックを行う際に用いる回路である。
図10は、音声信号の特性調整装置100及び100Aに含まれる機能ブロックを表す図である。
図10(A)には、音声信号の特性調整装置100に含まれる、コンピュータシステム510によって実現される、アップコンバータ1の設定装置550が実現する機能ブロックを示す。
設定装置550は、主制御部110、混合比制御部120、レベル制御部130、イコライザ制御部140、遅延制御部150、及びデータベース160を含む。
主制御部110は、設定装置550の処理を統括する。また、主制御部110は、各チャンネルのスイッチ16のオン/オフの切り替え制御、各チャンネルのマスターレベル調整部17による音量制御、及び、各チャンネルのミュートスイッチ(MUTE)18によるミュートの制御を行う。
混合比制御部120は、データベース160に格納されるパラメータデータを用いて、L(左)及びR(右)用の2つの音声信号を混合する割合(比率)を設定するために、混合比設定部11L及び11Rに制御信号MIXを出力する。
レベル制御部130は、データベース160に格納されるパラメータデータを用いて、レベル調整部13による音声信号の信号レベル(音量)を制御するために、制御信号LEVELを出力する。
イコライザ制御部140は、データベース160に格納されるパラメータデータを用いて、各チャンネルについて、ゲイン(GAIN)、周波数(FREQ)、ゲインのタイプ(TYPE)、又はQを設定するための制御信号PEQを出力する。イコライザ制御部140は、第2調整部の一例である。
遅延制御部150は、データベース160に格納されるパラメータデータを用いて、遅延部15における遅延時間を設定するための制御信号DELAYを出力する。遅延制御部150は、第1調整部の一例である。
データベース160は、パラメータデータを格納する。パラメータデータは、各チャンネルについて、L(左)及びR(右)用の2つの音声信号を混合する割合(比率)を設定するための制御信号MIX、音声信号の信号レベル(音量)制御するための制御信号LEVEL、ゲイン(GAIN)、周波数(FREQ)、ゲインのタイプ(TYPE)、又はQを設定するための制御信号PEQ、遅延時間を設定するための制御信号DELAYの値を含むテーブル形式のデータである。なお、パラメータデータについては図11を用いて説明する。
図10(B)は、音声信号の特性調整装置100Aの内蔵コンピュータ100Bによって実現される機能ブロックを示す。音声信号の特性調整装置100Aは、内蔵コンピュータ100Bとアップコンバータ1とを含む。
内蔵コンピュータ100Bは、主制御部110、混合比制御部120、レベル制御部130、イコライザ制御部140、遅延制御部150、及びデータベース160を含む。内蔵コンピュータ100Bの構成は、図10(A)に示す設定装置550と同様である。内蔵コンピュータ100Bには、アップコンバータ1が接続される。また、内蔵コンピュータ100Bのデータベース160には、予め遅延時間、ゲイン、及び周波数等を表すデータが格納されている。
図11は、パラメータデータを選択するGUI画面を示す図である。このようなGUI画面は、音声信号の特性調整装置100として機能するコンピュータシステム510(図1参照)のディスプレイ512に表示される。
パラメータデータは、映像や音響信号の内容や種類に合わせて複数あり、音声信号の特性調整装置100の利用者が選択できるようになっている。図11には、複数あるパラメータデータのうちの1つを示す。
また、図11は、チャンネル1〜24の各々についてのパラメータデータを示すため、パラメータデータのデータ構造を示している。
パラメータデータは、1チャンネルから24チャンネルまでの各チャンネルの、制御信号MIX、LEVEL、GAIN、FREQ、TYPE、Q、DELAYの値を関連付けたテーブル形式のデータである。
これらのうち、GAIN、FREQ、TYPE、Qの4つの値は、全帯域を4つの帯域に分けて、帯域毎に設定される。また、図11には、周波数の高い帯域から低い方の帯域にかけて、4つの帯域を上の行から下方の行にかけて示す。なお、ここでは、具体的な数値は示さないため、数値の代わりに・・・を記す。
TYPEについては、最も高い帯域と最も低い帯域とに設定され、Qについては、真ん中の2つの帯域に設定される。このため、最も高い帯域と最も低い帯域とには、GAIN、FREQ、TYPEの3つの値が設定され、真ん中の2つの帯域には、GAIN、FREQ、Qの3つの値が設定される。
GAIN、FREQ、TYPE、Qは、制御信号PEQとしてアップコンバータ1(図9参照)に入力される。
MIXは、混合比設定部11L及び11RがL(左)及びR(右)用の2つの音声信号を出力する割合(比率)を表す。混合比設定部11L及び11Rから出力されるL(左)及びR(右)用の2つの音声信号は、合成器12で合成(混合)される。
LEVELは、レベル調整部13が制御する音声信号の信号レベル(音量)を表す。
GAINとFREQは、それぞれ、イコライザ制御部140が制御する音声信号のゲインと周波数を表す。
ゲインのタイプ(TYPE)は、周波数の増大に対して、イコライザ制御部140が制御するGAINを増大させる特性にするか、又は、周波数の増大に対してGAINを低下させる特性にするかを表す。
また、Qは、(共振回路の共振のピークの鋭さを表すものとして、Quality Factorと呼ばれるものである。一般的に、Q=ω0/ω2?ω1として表され、ω2?ω1を半値幅と呼び、振幅がピークとなる共振周波数ω0の両側に其の振幅値の半分になるところの周波数で、周波数の大きい方をω2、ω0を挟んで等量(ω2-ω0)小さい周波数をω1としている。
DELAYは、遅延部15が音声信号に与える遅延時間を表す。DELAYが表す遅延時間は、上述した第1遅延時間と第2遅延時間との和に基づいて設定される。
以上のようなパラメータデータは、映像や音響信号の内容や種類に合わせて複数あるため、音声信号の特性調整装置100の利用者がいずれか1つを選択することにより、ディスプレイ512(図1参照)に図11に示すように表示される。
パラメータデータに含まれる1チャンネルから24チャンネルまでの各チャンネルの、制御信号MIX、LEVEL、GAIN、FREQ、TYPE、Q、DELAYの値は、実験によって求めた最適値であるため、そのまま用いればよいが、GUI画面における各数値の右側にある上向きの三角形と下向きの三角形のボタンで、値を増減させてもよい。
図11に示すように、パラメータデータは、スピーカの位置が後側に行くほど、遅延時間が長く、かつ、高域が低くなるように、FREQとGAINとQが調整されている。このような設定にすることにより、24個のスピーカの再生音響環境の中にいる視聴者に対して、音が前方から聞こえるようにすることができる。
視聴者の前方には、ディスプレイ50があるので、視聴者には、前方のディスプレイ50に映し出される映像から音が出ているように聞こえるようになる。このようなパラメータデータを用いることにより、音と映像による臨場感を最大限に発揮させることができる。
なお、図3乃至図6に示す音声信号の特性調整装置100Aでは、内蔵コンピュータ100Bのデータベース160に予め格納されている遅延時間、ゲイン、及び周波数等を表すデータを用いて、遅延時間、ゲイン、及び周波数等が設定される。
以上、実施の形態の実施の形態の音声信号の特性調整装置100及び100Aによれば、2チャンネル用の音声信号を22.2チャンネル用にアップコンバートする際に、チャンネル1、2の音声信号の模擬的な一次反射波に相当する遅延時間を有する音声信号をチャンネル3〜24用に生成することにより、二次反射波以上の高次反射波を用いなくても、22.2チャンネルの音響システムに十分に対応できる音声信号を得ることができる。
また、アップコンバートに際しては、上述の遅延時間に加えて、後側に位置するスピーカのチャンネルほどゲインや周波数の高域の信号レベルが低くなるように設定するので、音と映像による臨場感を最大限に発揮させることができる。
また、上方に設置されたスピーカーほど低域成分を落とし制限する。前方の下方に置かれたスピーカーほど高域を制限する。これらのことは、実験結果から実証されている。なお、上方とは、高さ方向に複数配置されるスピーカのうち、高さ方向の中央よりも上側をいう。この場合に、高さ方向の中央に位置するスピーカを上方のスピーカに含めてもよい。また、下方とは、高さ方向に複数配置されるスピーカのうち、高さ方向の中央よりも下側をいう。この場合に、高さ方向の中央に位置するスピーカを下方のスピーカに含めてもよい。また、前方とは、奥行き方向における前後方向に複数配置されるスピーカのうち、前後方向の中央よりも前側をいう。この場合に、前後方向の中央に位置するスピーカを前方のスピーカに含めてもよい。
また、二次反射波以上の高次反射波を用いなくても、22.2チャンネルの音響システムに十分に対応できる音声信号を得ることができるため、装置構成が非常に簡便であり、低コストで音声信号の特性調整装置100及び100Aを提供することができる。
特に、実施の形態の音声信号の特性調整装置100及び100Aで得られた結果に、サンプリングリバーブや既存のリバーブを加えることで、様々な音響表現が簡便に詳細に出来るようになる。
また、従来は、映像や音響信号の内容や種類に合わせて、ゲインや周波数等の音響信号の特性を手作業で設定していたため、音声信号のアップコンバートを容易に行うことができず、手間がかかるため、生放送には対応することが困難であった。
これに対して、実施の形態の音声信号の特性調整装置100及び100Aは、映像や音響信号の内容や種類に応じてパラメータデータを選択すれば、選択したパラメータデータを用いて、瞬時かつ容易に音声信号をアップコンバートすることができる。このため、手間がかからず、生放送にも対応可能である。
また、上述したように音声信号の特性調整装置100及び100Aは装置構成が非常に簡便である。また、アップコンバータ1も小型化が可能であり、音声信号の特性調整装置100Aは、所謂1Uのサイズに収まるように小型化されている。このため、例えば、中継車に搭載して、駅伝等の生放送の番組で、走者の音声を、8Kスーパーハイビジョンによる映像に合わせて、22.2チャンネルで音声を提供することが可能である。また、音声信号の特性調整装置100Aは、内蔵コンピュータ100Bのデータベース160に遅延時間、ゲイン、及び周波数等を表すデータが予め格納されているため、設定装置550で設定しなくても、簡単に音声信号をアップコンバートすることができる。
なお、以上では、2チャンネルの音声信号を22.2チャンネルにアップコンバートする形態について説明したが、アップコンバートするチャンネルは、22.2チャンネルに限られるものではなく、例えば、5.1チャンネル、7.1チャンネル、9.1チャンネル、10.2チャンネル、19.1チャンネル等であってもよく、さらに多くのチャンネルであってもよい。
図12及び図13は、5.1チャンネル及び7.1チャンネルのスピーカの配置を示す図である。なお、図12及び図13では、サブウーハーを省略する。サブウーハーは、センタースピーカCの近くに配置すればよい。
図12に示す5.1チャンネルでは、視聴者の前方(フロント)の正面にスピーカCが配置され、その左右にスピーカL,Rが配置される。また、視聴者の少し後方の左右には、スピーカLs,Rsが配置される。
図13に示す7.1チャンネルでは、5.1チャンネルに対して、後方(バック)のスピーカLb,Rbを追加した構成を有する。
5.1チャンネルの配置については、例えば、ITU勧告ITU-R BS.775-1という規格があり、7.1チャンネルの配置については、例えば、ドルビー社によって推奨されている配置がある。
音声信号の特性調整装置100又は100Aで5.1チャンネルの音声信号を22.2チャンネルにアップコンバートする際には、基本的には、2チャンネルの音声信号を22.2チャンネルにアップコンバートする場合と同様に、フロントの左右のスピーカL,Rが出力する音声信号を第1音声信号として取り扱う。
そして、5.1チャンネルの場合の第1遅延時間は、2チャンネルの場合と同様に、チャンネル3〜24のスピーカから出力される音声信号に与えるように設定し、チャンネル3〜24のスピーカから出力される音声信号に与えればよい。
また、5.1チャンネルの場合の第2遅延時間は、2チャンネルの場合と同様に、チャンネル5、6、9、11、12、16〜22のスピーカ(BL、BR、BC、SiL、SiR、TpC、TpBL、TpBR、TpSiL、TpSiR、TpBC、BtFC)から出力される音声信号に与えればよい。
また、このときに、5.1チャンネルのスピーカLs、Rsと22.2チャンネルのスピーカSiL、SiR、BL、BR、TpSiL、TpSiR、TpBL、TpBRとのように、ホールにおける位置が5.1チャンネルのスピーカLs、Rsに比較的近いスピーカから出力する音声信号については、5.1チャンネルのスピーカLs、Rsから出力される音声信号の特性を加味してもよい。
例えば、22.2チャンネルのスピーカBLから出力される音声信号については、スピーカFL、FRが出力する音声信号に第1遅延時間を与える。また、第1遅延時間が与えられた音声信号に、さらに、5.1チャンネルのスピーカLsの音声信号の5.1チャンネルのスピーカL、Rに対する遅延時間と、第2遅延時間とを所定の割合で合成した遅延時間を与えてもよい。
また、22.2チャンネルのスピーカBLから出力される音声信号のゲインや周波数をイコライザ14で設定する際に、5.1チャンネルのスピーカLsの音声信号のゲインや周波数を参考にして、ゲインや周波数を設定してもよい。
また、音声信号の特性調整装置100又は100Aで7.1チャンネルの音声信号を22.2チャンネルにアップコンバートする際には、基本的には、2チャンネルの音声信号を22.2チャンネルにアップコンバートする場合と同様に、フロントの左右のスピーカL,Rが出力する音声信号を第1音声信号として取り扱う。
そして、7.1チャンネルの場合の第1遅延時間は、2チャンネルの場合と同様に、チャンネル3〜24のスピーカから出力される音声信号に与えるように設定し、チャンネル3〜24のスピーカから出力される音声信号に与えればよい。
また、7.1チャンネルの場合の第2遅延時間は、2チャンネルの場合と同様に、チャンネル5、6、9、11、12、16〜22のスピーカ(BL、BR、BC、SiL、SiR、TpC、TpBL、TpBR、TpSiL、TpSiR、TpBC、BtFC)から出力される音声信号に与えればよい。
また、このときに、7.1チャンネルのスピーカLs、Rs、Lb、Rbと22.2チャンネルのスピーカSiL、SiR、BL、BR、TpSiL、TpSiR、TpBL、TpBRとのように、ホールにおける位置が7.1チャンネルのスピーカLs、Rs、Lb、Rbに比較的近いスピーカから出力する音声信号については、7.1チャンネルのスピーカLs、Rs、Lb、Rbから出力される音声信号の特性を加味してもよい。
例えば、22.2チャンネルのスピーカBLから出力される音声信号については、スピーカFL、FRが出力する音声信号に第1遅延時間を与える。また、第1遅延時間が与えられた音声信号に、さらに、7.1チャンネルのスピーカLsとLbの音声信号の平均を取った音声信号の7.1チャンネルのスピーカL、Rに対する遅延時間と、第2遅延時間とを所定の割合で合成した遅延時間を与えてもよい。
また、22.2チャンネルのスピーカBLから出力される音声信号のゲインや周波数をイコライザ14で設定する際に、7.1チャンネルのスピーカLs、Lbの音声信号のゲインや周波数を参考にして、ゲインや周波数を設定してもよい。
以上のようにすることにより、5.1チャンネルや7.1チャンネルの音声信号を22.2チャンネルに容易かつ簡単にアップコンバートすることができる。
図14は、実施の形態の第1変形例のアップコンバータ1Aの回路構成を示す図である。アップコンバータ1Aは、2チャンネルのスピーカL,Rの音声信号と、5.1チャンネルのスピーカLs、L、C、R、Rs、LFEの音声信号とのいずれかをアップコンバートできる構成を有する。
ここでは、5.1チャンネルのスピーカL,Rから出力される信号をチャンネル1、2として取り扱う。また、一例として、スピーカCから出力される信号をチャンネル3として取り扱い、サブウーハーLFEから出力される信号をチャンネル4、スピーカLs、Rsから出力される信号をチャンネル5、6として取り扱い、として取り扱う。
また、1チャンネル用から24チャンネル用の24個のDSP部10Aについては、1チャンネルのDSP部10Aについて、内部を詳細に示し、2チャンネル用から24チャンネル用のDSP部10Aの図示を省略する。
アップコンバータ1は、入力端子2A、2B、2C、アンプ3A、3B、3C、分離器4A、4B、4C、同期調整部5A、5B、5C、SRC(Sample Rate Converter)6A、6B、6C、分離器7A、7B、7C、バス8、入力端子9、DSP(Digital Signal Processor)10、エンコーダ20、出力端子21、マトリクス出力部22A、22B、22C、及びモニタ出力回路23を含む。
アップコンバータ1Aは、図9に示す2チャンネルの音声信号用のアップコンバータ1の入力端子2、アンプ3、分離器4、同期調整部5、SRC6、分離器7、マトリクス出力部22を、入力端子2A、アンプ3A、分離器4A、同期調整部5A、SRC6A、分離器7A、マトリクス出力部22Aに置き換えるとともに、図9に示す2チャンネルの音声信号用のアップコンバータ1に対して、入力端子2B、2C、アンプ3B、3C、分離器4B、4C、同期調整部5B、5C、SRC6B、6C、分離器7B、7C、マトリクス出力部22B、22Cを追加した構成を有する。
入力端子2A、アンプ3A、分離器4A、同期調整部5A、SRC6A、分離器7A、マトリクス出力部22Aは、1、2チャンネルの音声信号用であり、入力端子2B、アンプ3B、分離器4B、同期調整部5B、SRC6B、分離器7B、マトリクス出力部22Bは、3、4チャンネルの音声信号用であり、入力端子2C、アンプ3C、分離器4C、同期調整部5C、SRC6C、分離器7C、マトリクス出力部22Cは、3、4チャンネルの音声信号用である。
入力端子2B、2C、アンプ3B、3C、分離器4B、4C、同期調整部5B、5C、SRC6B、6C、分離器7B、7C、マトリクス出力部22B、22Cは、入力端子2A、アンプ3A、分離器4A、同期調整部5A、SRC6A、分離器7A、マトリクス出力部22Aに対して並列に設けられている。
入力端子2A、アンプ3A、分離器4A、同期調整部5A、SRC6A、分離器7A、マトリクス出力部22Aは、1、2チャンネルの音声信号用であるため、それぞれ、図9に示す入力端子2、アンプ3、分離器4、同期調整部5、SRC6、分離器7、マトリクス出力部22と同様である。
入力端子2B、2C、アンプ3B、3C、分離器4B、4C、同期調整部5B、5C、SRC6B、6C、分離器7B、7Cで処理される3、4、5、6チャンネルの音声信号は、チャンネル3〜24のスピーカから出力される音声信号の調整用に用いればよい。
また、24個のDSP部10Aの各々は、5.1チャンネルに合わせて、2チャンネル用のDSP部10A(図9参照)とは構成が異なる。以下、相違点について説明する。
DSP部10Aには、2チャンネルのスピーカL,Rの音声信号に加えて、5.1チャンネルのスピーカLs、L、C、R、Rs、LFEが入力されるように配線されている。なお、LFEは、5.1チャンネルのサブウーハーである。
DSP部10Aは、スイッチ11A、11B、混合機(MIX)11C、11D、合成器12、スイッチ12A、レベル調整部(LEVEL)13、イコライザ(4band PEQ)14、遅延部(DELAY)15、スイッチ16、マスターレベル調整部(MASTER LEVEL)17、及びミュートスイッチ(MUTE)18を含む。
スイッチ11A、11Bは、スイッチ11Aと11Bは、入力信号がAESデジタル信号端子のものか、MADI信号端子から入力されたものか、いずれか一方を選択する。
スイッチ11A、11Bは、2チャンネルのスピーカL,Rの音声信号と、5.1チャンネルのスピーカLs、L、C、R、Rsとのいずれか一方を選択することができ、2チャンネルを選択した場合は、図9に示すDSP部10Aと同様である。スイッチ11Aと11Bで、MADI入力を選択できるようにしているのは、5.1ch以上のチャンネル数を有するサラウンド信号を処理できるようにするためである。2チャンネルを選択した場合は、図9に示すDSP部10Aと同様である。
スイッチ11A、11Bで5.1チャンネルのスピーカLs、L、C、R、Rsを選択する場合には、5.1チャンネルに含まれるLFE以外の5つの音声信号のうちのいずれか2つを選択することができる。
混合比設定部11C及び11Dは、それぞれ、スイッチ11A、11Bで選択する2つの音声信号を混合する割合(比率)を調整する。調整する割合は、入力端子9に接続されるコンピュータシステム510又は内蔵コンピュータ100Cから入力される制御信号MIXによって設定される。
合成器12は、混合比設定部11C及び11Dから出力される2つの音声信号を混合する。
スイッチ12Aは、5.1チャンネルのスピーカLFE(サブウーハー)の音を選択するスイッチである。LFEchに送る場合、LFE−LとLFE−Rにはパラにして、同等の信号を送ることになる。
レベル調整部13、イコライザ14、遅延部15、スイッチ16、マスターレベル調整部17、ミュートスイッチ18、エンコーダ20、出力端子21は、図9に示すDSP部10Aと同様である。
図15は、実施の形態の第1変形例におけるパラメータデータを選択するGUI画面を示す図である。このようなGUI画面は、コンピュータシステム510(図1参照)のディスプレイ512に表示される。
パラメータデータは、映像や音響信号の内容や種類に合わせて複数あり、音声信号の特性調整装置100の利用者が選択できるようになっている。図15には、複数あるパラメータデータのうちの1つ(L200)を示す。
図15には、1チャンネルから24チャンネルまでの各チャンネルの、制御信号LEVEL、MIX、C0を示す。
LEVELは、レベル調整部13が制御する音声信号の信号レベル(音量)を表す。
MIXは、混合比設定部11C及び11Dが2つの音声信号を出力する割合(比率)を表す。混合比設定部11C及び11Dから出力される2つの音声信号は、合成器12で合成(混合)される。
C0は、5.1チャンネルのスピーカCの音声信号を合成(混合)する量を表しており、C0は、合成(混合)がゼロ(0)であることを示す。合成(混合)が増えると、Cの右の数値が増大する。C0は、5.1chのフロントLchとRchの音声信号を混合する制御項目であり、C=0の表示の時は、L+RつまりLchとRchの信号を等分に混ぜた状況を示す。また、表示例は、C0の他に、L−Max(Lchを最大値に設定)、L55(Lchを55%)、L12(Lchを12%)、R12(Rchを12%)、R55(Rchを55%)、R−Max(Rchを最大値に設定)がある。
このような実施の形態の第1変形例におけるパラメータデータを選択するGUI画面を用いて、2チャンネルのスピーカL,Rの音声信号と、5.1チャンネルのスピーカLs、L、C、R、Rs、LFEの音声信号とのいずれかをアップコンバートすることができる。
実施の形態の変形例によれば、5.1チャンネル用の音声信号を22.2チャンネル用にアップコンバートする際に、チャンネル1、2の音声信号の模擬的な一次反射波に相当する遅延時間を有する音声信号をチャンネル3〜24用に生成することにより、二次反射波以上の高次反射波を用いなくても、22.2チャンネルの音響システムに十分に対応できる音声信号を得ることができる。
なお、実施の形態の第1変形例では、5.1チャンネルの音声信号を22.2チャンネルにアップコンバートする形態について説明したが、アップコンバートの元になる音声信号は、5.1チャンネルに限られず、例えば、7.1チャンネルであってもよい。
また、5.1チャンネルや5.1チャンネルに限らず、さらにサブフーハーの数が多い、5.2チャンネルや7.2チャンネル、7.4チャンネル等であってもよい。
また、実施の形態の第2変形例では、図16を用いて、アップコンバータとダウンコンバータとを1つの装置にした構成について説明する。
図16は、実施の形態の第2変形例による音声信号の特性調整装置100Cの構成を示すブロック図である。
音声信号の特性調整装置100Cは、音声信号の特性調整装置100Aにダウンコンバータを追加した構成を有する。より具体的には、音声信号の特性調整装置100Cは、アップコンバータ1と、ダウンコンバータ200とを含む。
アップコンバータ1には、2チャンネルの音声信号(STEREO)又は5.1チャンネルあるいは7.0チャンネル等(5.1ch〜)の音声信号が入力され、22.2チャンネルにアップコンバートして出力する。
また、アップコンバータ1には、22.2チャンネルの音声信号が入力され、22.2チャンネルの音声信号をそのまま22.2チャンネルの音声信号として出力し、ダウンコンバータ200に入力する。ダウンコンバータ200は、22.2チャンネルの音声信号を2チャンネルの音声信号、又は、5.1チャンネルあるいは7.0チャンネル等(5.1ch〜)の音声信号にダウンコンバータして出力する。このようなダウンコンバータ200としては、周知のものを用いればよい。
音声信号の特性調整装置100Cは、音声信号の特性調整装置100Aと同様に、音声信号を22.2チャンネルにアップコンバートできるとともに、22.2チャンネルの音声信号をダウンコンバータ200でダウンコンバートすることができる。このような音声信号の特性調整装置100Cは、例えば、図3乃至図6に示す音声信号の特性調整装置100Aと同様に、1U(ワンユー)型の装置として実現することができる。
以上、本発明の例示的な実施の形態の音声信号の特性調整装置、音声信号の特性調整プログラム、及び、音声信号の特性調整方法について説明したが、本発明は、具体的に開示された実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。