JP5032921B2 - 音像制御装置および音像制御方法 - Google Patents

音像制御装置および音像制御方法 Download PDF

Info

Publication number
JP5032921B2
JP5032921B2 JP2007230583A JP2007230583A JP5032921B2 JP 5032921 B2 JP5032921 B2 JP 5032921B2 JP 2007230583 A JP2007230583 A JP 2007230583A JP 2007230583 A JP2007230583 A JP 2007230583A JP 5032921 B2 JP5032921 B2 JP 5032921B2
Authority
JP
Japan
Prior art keywords
sound image
image control
information
control parameter
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007230583A
Other languages
English (en)
Other versions
JP2008278446A (ja
Inventor
真也 阿部
圭 菊入
信彦 仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2007230583A priority Critical patent/JP5032921B2/ja
Publication of JP2008278446A publication Critical patent/JP2008278446A/ja
Application granted granted Critical
Publication of JP5032921B2 publication Critical patent/JP5032921B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、重複直交変換により変換された音声音響信号の変換係数に対し振幅特性または位相特性を補正する音像制御装置および音像制御方法に関するものである。
ヘッドフォンや複数のスピーカを用いて、立体的な音響再生をする音像制御が知られている。多くの音像制御では、左右の耳に到達する音の振幅や位相の特性を表す頭部伝達関数を音声音響信号に付加し、左右の耳に提示することで、擬似的な立体音再生を行っている。
一方で、音声音響信号の伝送や記録のための符号化方法として、時間領域の音声音響信号をMDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)により周波数スペクトルに対応する変換係数に変換し符号化する方法が知られている。
MDCTは、窓長の一部をオーバラップしながら変換-逆変換することで再構成性を保証するLOT(Lapped Orthogonal Transform:重複直交変換)の一種である。このMDCTは、符号化効率に優れた変換法であるため、MPEGLayer−3やAAC、Dolby−AC3など、多くの音声音響符号化に用いられている。
これらMDCTを利用した音声音響符号化データを復号する際に音像制御をすることは、臨場感のある映画音声や音楽のサラウンド再生や立体音響通信のために有効な技術である。
例えば、MDCTを利用した音声音響符号化データの復号時に音像制御する方法として、MDCTによる変換係数(MDCT係数)を帯域分割し、各帯域のMDCT係数をそれぞれ逆変換し、時間領域の音声音響信号に変換した後、各音声音響信号に対しFIRフィルタ処理等の音像制御処理を行う音像制御装置が知られている(下記特許文献1参照)。
音像制御のための振幅特性または位相特性の少なくともいずれか一方の補正方法として、複素指数を基底とし、フレーム単位で変換-逆変換の再構成が保証されるDFT(Discrete Fourier Transform:離散フーリエ変換)による変換係数(DFT係数)の単純な乗算による方法が広く知られている。前記DFTを用いた方法では、DFTの高速演算アルゴリズムであるFFT(Fast Fourier Transform:高速フーリエ変換)を用いることにより、時間領域でのFIRなどフィルタ処理と同等の処理をより少ない演算量で実現できる。
MDCTを利用した音声音響符号化データの復号時に、上記DFT領域での音像制御を適用するためには、MDCT係数を逆変換により時間領域の信号に変換した後、DFTによってDFT係数に変換する必要があり、演算量が大きくなる。
そこで、MDCTを利用した音声音響符号化データの復号時に、演算量を抑えつつ音像制御するために、DFTと同じようにMDCT係数の直接操作により音像制御のための振幅特性および/または位相特性の補正を行えることが望ましい。
特開平10−42400号公報
しかし、上記従来技術に係る音像制御装置は、以下に示すような問題点があった。すなわち、隣接フレームとのオーバラップにより再構成されるMDCTは、DFTで行われるような乗算による音像制御を実現しようとした場合、歪を多く生じるという問題があった。
図14に、位相補正による正弦波の遅延処理についての検証結果を示す。図14(a)は、音声音響信号の正弦波を示す図であり、図14(b)は、上述正弦波をDFT領域で乗算により遅延処理させた図であり、図14(c)は、上述正弦波をMDCT領域で乗算により遅延処理させた図である。
図14(b)で示されるように、DFT領域で遅延処理させ、それを元に戻したときの音声音響信号の正弦波は、DFTによる変換前のものとほとんど変わらないことが分かる。一方、図14(c)で示されるように、MDCT領域で乗算により遅延処理させ、それを基に元に戻したときの正弦波には、細かな歪が生じていることが分かる。例えば、符号901で示される部分では、振幅方向に比較的大きな歪が生じており、符号902で示される部分では位相方向に比較的大きな歪が生じていることが分かる。符号903〜908で示される部分についても同様に歪が生じていることが分かる。
MDCTにおいては、窓長の一部をオーバラップさせることにより原信号を再構成するために、窓関数w(n)を式(1)に示すPrincen-Bradley条件を満たす必要がある。ただし、Mはフレーム長であり、窓関数の長さは2Mである。
Figure 0005032921



ここで、MDCT領域において原信号をdサンプル遅延させたとき、Princen-Bradley条件は式(2)のように変形される。ただし、dは整数でなくてもよい。
Figure 0005032921



すなわち、MDCTの変換および逆変換時にそれぞれ用いる分析窓、合成窓について共通のものを使用した場合、Princen-Bradley条件の破綻によって、出力される信号には図14(c)に示したように歪が生じる。
そこで本発明は、上述の課題を解決するために、MDCTなどの重複直交変換による変換係数に対して音像制御情報に基づいて補正を行って得た音声音響信号の歪を低減させるように処理することのできる音像制御装置および音像制御方法を提供することを目的とする。
上述の課題を解決するために、本発明の音像制御装置は、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定手段と、入力された重複直交変換による変換係数を前記音像制御パラメータに基づいて補正する音像制御手段と、前記音像制御手段により補正された変換係数を時間領域の音声音響信号に変換する係数逆変換手段と、前記音像制御情報に基づいて合成窓関数を生成する合成窓制御手段と、前記係数逆変換手段により変換された音声音響信号に対して前記合成窓制御手段により生成された合成窓関数を乗算して出力信号を得る合成窓重畳手段とを備えている。
また、本発明の音像制御方法は、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定ステップと、入力された重複直交変換による変換係数を前記音像制御パラメータに基づいて補正する音像制御ステップと、前記音像制御ステップにより補正された変換係数を時間領域の音声音響信号に変換する係数逆変換ステップと、前記音像制御情報に基づいて合成窓関数を生成する合成窓制御ステップと、前記係数逆変換ステップにより変換された音声音響信号に対して前記合成窓制御ステップにより生成された合成窓関数を乗算して出力信号を得る合成窓重畳ステップとを備えている。
この発明によれば、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定し、入力された重複直交変換による変換係数を音像制御パラメータに基づいて補正する。そして、補正された変換係数を時間領域の音声音響信号に変換し、変換された音声音響信号に対して音像制御情報に基づいて生成された合成窓関数を乗算して出力信号を得ることができる。これにより、音声音響信号を重複直交変換して得られた変換係数を、音像制御パラメータを用いて補正するとともに、最終的な出力として得られる音声音響信号の歪を低減するよう窓関数を用いて補正する。よって、MDCTなどの重複直交変換による変換係数に対して位相をずらすなどの音像制御を行って得られた音声音響信号に生ずる歪を低減することができる。
また、本発明の音像制御装置は、前記音像制御手段、前記係数逆変換手段、および前記合成窓重畳手段を出力チャネル数分備え、前記音像制御パラメータ決定手段は、出力チャネルに対応付けて音像制御パラメータを決定し、前記音像制御手段のそれぞれは、前記音像制御パラメータ決定手段により決定された音像制御パラメータに従った補正を行い、前記合成窓重畳手段は、出力チャネル毎に対応して生成された合成窓関数を前記係数逆変換手段により変換された複数の音声音響信号に対して乗算することが好ましい。
この発明によれば、音像制御パラメータを出力チャネル数分生成し、その音像制御パラメータに従って補正を行い、出力チャネル毎に生成された合成窓関数を出力チャネルごとの音声音響信号に対して乗算することができ、複数チャネルを有する装置において、適切な合成窓関数を用いて歪の低減を行うことができる。
また、本発明の音像制御装置は、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定手段と、入力された重複直交変換による変換係数を所定周波数帯域ごとに分割する帯域分割手段と、前記音像制御パラメータに基づいて前記帯域分割手段により分割された各変換係数を補正する音像制御手段と、前記音像制御手段により補正された各変換係数を合成する帯域合成手段と、前記帯域合成手段により合成された変換係数を時間領域の音声音響信号に変換する係数逆変換手段と、前記音像制御情報に基づいて合成窓関数を生成する合成窓制御手段と、前記係数逆変換手段により変換された時間領域の音声音響信号に対し、前記合成窓制御手段により生成された合成窓関数を乗算する合成窓重畳手段とを備えている。
また、本発明の音像制御方法は、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定ステップと、入力された重複直交変換による変換係数を所定周波数帯域ごとに分割する帯域分割ステップと、前記音像制御パラメータに基づいて前記帯域分割ステップにより分割された各変換係数を補正する音像制御ステップと、前記音像制御ステップにより補正された各変換係数を合成する帯域合成ステップと、前記帯域合成ステップにより合成された変換係数を時間領域の音声音響信号に変換する係数逆変換ステップと、前記音像制御情報に基づいて合成窓関数を生成する合成窓制御ステップと、前記係数逆変換ステップにより変換された時間領域の音声音響信号に対し、前記合成窓制御手段により生成された合成窓関数を乗算する合成窓重畳ステップとを備えている。
この発明によれば、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定し、入力された重複直交変換による変換係数を所定周波数帯域ごとに分割する。そして、音像制御パラメータに基づいて、分割された各変換係数を補正し、補正された各変換係数を再び合成する。合成された変換係数を時間領域の音声音響信号に変換し、変換された時間領域の音声音響信号に対し、音像制御情報に基づいて生成された合成窓関数を乗算する。これにより、MDCTなどの重複直交変換による変換係数に対して位相をずらすなどの音像制御を行って得られた音声音響信号に生ずる歪を低減することができる。また、複数の周波数帯域に分割された変換係数に対して適切な音像制御パラメータを決定することができる。
また、本発明の音像制御装置は、前記帯域分割手段により分割されて出力された各音声音響信号を処理する分割数分の音像制御手段を備えるとともに、前記分割数分の音像制御手段、前記帯域合成手段、前記係数逆変換手段、および前記合成窓重畳手段を出力チャネル数分備え、前記音像制御パラメータ決定手段は、前記音像制御手段に個別に対応した音像制御パラメータを決定し、前記音像制御手段のそれぞれは、前記音像制御パラメータ決定手段により決定された音像制御パラメータに従った補正を行い、前記合成窓重畳手段は、出力チャネル毎に対応して生成された合成窓関数を前記係数逆変換手段により変換された複数の音声音響信号に対して乗算することが好ましい。
この発明によれば、音像制御パラメータを音像制御手段の数だけ生成し、その音像制御パラメータに従って補正を行い、出力チャネル毎に生成された合成窓関数を出力チャネルごとの音声音響信号に対して乗算することができ、複数チャネルを有する装置において、適切な合成窓関数を用いて歪の低減を行うことができる。
また、本発明の音像制御装置における音像制御パラメータの位相情報は、チャネル間時間差情報またはチャネル間位相差情報であることが好ましい。
この発明によれば、音像制御パラメータの位相情報はチャネル間時間差情報またはチャネル間位相差情報とすることで、音像制御パラメータを簡略化することができる。通常、MDCTを用いて頭部伝達関数により音像制御を行った場合、位相制御が複雑となるため、音声音響信号の歪は大きくなる。よって、位相制御を簡略化することで、最終的な出力として得られる音声音響信号に対する歪を低減することができる。
また、本発明の音像制御装置における前記チャネル間時間差情報または前記チャネル間位相差情報は、付加遅延時間量または付加遅延位相量の絶対値の最大値または総和をより小さくなるように記述されていることが好ましい。
この発明によれば、付加遅延時間量または付加遅延位相量の絶対値の最大値または総和をより小さくなるように記述されていることで、最終的な出力として得られる音声音響信号に対する歪をより効果的に低減することができる。
また、本発明の音像制御装置の合成窓制御手段は、前記音像制御情報に加えて各音像制御手段から出力された信号の振幅情報を用いて、合成窓関数を生成することが好ましい。
この発明によれば、音像制御情報に加えて補正後の変換係数の振幅情報を用いて、合成窓関数を生成することで、振幅の大きい帯域に対する歪を低減することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、本発明の音像制御装置における合成窓制御手段は、前記音像制御情報に加えて前記帯域分割手段により分割された各信号の振幅情報を用いて、合成窓関数を生成することが好ましい。
この発明によれば、音像制御情報に加えて分割された各帯域における信号の振幅情報を用いて、合成窓関数を生成することにより、振幅の大きい帯域に対する歪を低減することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、本発明の音像制御装置は、入力されたビット配列に基づいて、振幅情報に準じたパラメータおよび重複直交変換により生成された変換係数を出力する音声音響復号手段を備え、前記合成窓制御手段は、前記音像制御情報に加えて音声音響復号手段より出力された振幅情報に準じたパラメータを用いて、合成窓関数を生成することが好ましい。
この発明によれば、入力されたビット配列に基づいて、振幅情報に準じたパラメータおよび重複直交変換により生成された変換係数を出力するとともに、音像制御情報に加えて出力された振幅情報に準じたパラメータを用いて、合成窓関数を生成するで、振幅の大きい帯域に対する歪を低減することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、本発明の音像制御装置における合成窓制御手段は、前記音像制御情報、および各周波数帯域の信号における振幅情報を用いて、合成窓関数を生成するとともに、前記音像制御パラメータ決定手段により決定される音像制御パラメータを決定するための音像制御パラメータ変更情報を生成し、前記音像制御パラメータ決定手段は、前記音像制御情報および前記合成窓制御手段により生成された音像制御パラメータ変更情報に基づいて、音像制御パラメータを変更することが好ましい。
この発明によれば、音像制御情報、および各周波数帯域の信号における振幅情報を用いて、合成窓関数を生成するとともに、決定される音像制御パラメータを決定するための音像制御パラメータ変更情報を生成する。そして、音像制御情報および生成された音像制御パラメータ変更情報に基づいて、音像制御パラメータを変更する。この変更された音像制御パラメータを用いて変換係数を補正する。これにより、合成窓制御による歪抑制の効果をより効果的に得ることができる。
また、本発明の音像制御装置は、前記音像制御手段から出力された変換係数を、前記音像制御パラメータ決定手段により変更された音像制御パラメータに基づいて補正する音像再制御手段を備え、前記音像制御パラメータ決定手段は、前記音像制御手段に対して所定の音像制御パラメータを出力し、前記合成窓制御手段により生成された音像制御パラメータ変更情報に基づいて変更された音像制御パラメータを前記音像再制御手段に出力することが好ましい。
この発明によれば、決定された音像制御パラメータを用いて変換係数を補正し、その後、この変換係数の振幅情報を用いて音像制御パラメータ変更情報を生成する。そしてこの音像制御パラメータ変更情報に基づいて音像制御パラメータを変更し、この変更された音像制御パラメータを用いて各変換係数を補正する。これにより、合成窓制御による歪抑制の効果をより効果的に得ることができる。
また、本発明の音像制御装置は、各帯域における音声音響信号を定位させる定位位置を示す識別子であるインデックス情報に基づいて音像制御情報を生成する音像制御情報生成手段を備え、前記音像制御パラメータ決定手段は、前記音像制御情報生成手段により生成された音像制御情報に基づいて音像制御パラメータを決定することが好ましい。
この発明によれば、各帯域における音声音響信号を定位させる定位位置を示す識別子であるインデックス情報に基づいて音像制御情報を生成し、生成した音像制御情報に基づいて音像制御パラメータを決定することができ、BCC(Binaural Cue Coding:両耳音キュー符号化)などのインデックス情報に基づいて音像制御を行う技術に対しても、本発明を適用することができ、音像制御における演算量を抑えつつ歪を低減することができる。
また、本発明の音像制御装置の合成窓制御手段は、時間折り返し歪を低減するよう、両端部分のうち少なくとも一方の値が小さく設定された合成窓関数を生成することが好ましい。
この発明によれば、時間折り返し歪を低減することができる合成窓関数を用いた乗算処理を行うことができ、より効果的に歪を低減することができる。
この発明によれば、MDCTなどの重複直交変換による変換係数に対して位相をずらすなどの音像制御を行って得られた音声音響信号に生ずる歪を低減することができる。
本発明は、一実施形態のために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
まず、第1の実施形態に係る音像制御装置1の構成について説明する。図1は、第1の実施形態に係る音像制御装置1の構成を示すブロック図である。
第1の実施形態に係る音像制御装置1は、入力された音像制御情報から音像制御パラメータを決定する音像制御パラメータ決定部11、音像制御パラメータ決定部11により決定された音像制御パラメータにより、入力された音声音響信号の変換係数を補正する音像制御部12、音像制御部12により補正された変換係数を所定の変換法により時間領域の音声音響信号に変換する係数逆変換部13、入力された音像制御情報に従って合成窓関数を生成する合成窓制御部14、係数逆変換部13により逆変換された時間領域の音声音響信号に対し、合成窓制御部14により生成された合成窓関数を乗算する合成窓重畳部15を含んで構成されている。さらに各構成について詳細に説明する。
音像制御パラメータ決定部11は、入力された音像制御情報に基づいて音像制御パラメータを決定する部分である。ただし、音像制御情報とは、対象となる音声音響信号をどこに定位させるかを示す情報であり、距離および方位を示す情報である。なお、その情報の形態は問わない。また、距離に関しての情報は省略することが出来る。この音像制御情報は、CDやDVDなどの記録媒体に記録する際や、通信システムにおいて送信する際に予め設定した情報でもよいし、再生装置においてユーザが任意に設定するものでもよく、その具体的な生成方法は問わない。
また、音像制御パラメータ決定部11は、音像制御情報の指定する位置に定位させるための音像制御パラメータを決定する。ここで、音像制御パラメータ決定部11は、音像制御パラメータを複数保持し、音像制御情報により指定される指定位置に応じて選択してもよいし、当該指定位置に基づいて演算により音像制御パラメータを算出するようにしてもよい。ここで、音像制御パラメータとは、頭部伝達関数の周波数スペクトルを表現する変換係数や、チャネル間でのスペクトル強度差、位相差または時間差などの簡略化したパラメータが考えられるが、その形態は問わない。また、この変換係数は、振幅情報または位相情報のうち少なくとも一方を含むパラメータであってもよい。
つぎに、入力された変換係数が、式(3)のMDCTによる変換係数XMDCT(k)であり、音像制御情報に指定された定位位置を表現する頭部伝達インパルス応答がh(n)であったときの音像制御パラメータH(k)の一例を式(4)または式(5)に示す。
Figure 0005032921




Figure 0005032921




さらに、位相情報について、両耳間の位相差情報を用いることで、
Figure 0005032921




として表すことも考えられる。ここで、w(n)はMDCTの分析窓関数、x(n)は音声音響信号、Mはフレーム長、Δf(k)は両耳間位相差である。上記の例では、ヘッドフォンを利用した、左右両耳への立体音再生を想定しているが、複数個のスピーカを利用した立体音再生では、h(n)は立体感を得るためのFIRフィルタ係数、Δf(k)はチャネル間の位相差として考えることができる。また、音像制御パラメータは振幅特性または位相特性の少なくとも一方を表現したものであればよく、当然ながらこれに限ったものではない。
音像制御部12は、入力された変換係数を、上述の音像制御パラメータを用いて補正する。具体的には、位相をずらすなどの補正を行うことにより、音声音響信号の定位させる位置を制御するものである。ここで、入力される変換係数は、音声音響信号を第一の変換法により変換した変換係数のうち、全帯域の変換係数でもよいし、一部の帯域の変換係数でもよい。ただし、一部の帯域の変換係数である場合、出力される音声音響信号は、当然に変換係数の周波数帯域に該当する成分のみからなる信号となる。音像制御パラメータが式(4)に示すような伝達関数であった場合、具体的には、入力された式(3)のMDCTによる変換係数であるMDCT係数に対して乗算処理を行うことにより実現される。音像制御パラメータの表現によっては、加算や減算により補正することも考えられる。
係数逆変換部13は、音像制御部12により補正された変換係数を時間領域の音声音響信号に変換する。ここで、上述の例にある補正されたMDCT係数を時間領域に変換する変換法としては、以下の式(6)に示されるMCLT(Modulated Complex Lapped Transform:変調複素重複変換)を利用して、時間領域に変換することが考えられる。
Figure 0005032921



合成窓制御部14は、入力された音像制御情報に従って合成窓関数を生成する。合成窓制御部14は、合成窓関数を複数保持しておき、音像制御情報による指定位置に応じて一の合成窓関数を選択してもよいし、当該指定位置に基づいて演算により一の合成窓関数を算出するようにしてもよい。例として、式(5)に示されるように音像制御パラメータの位相情報がチャネル間位相差であり、かつ線形位相であった場合、MDCTの再構成性を満たすように、窓関数に対し位相差に対応する時間シフトを適用することが考えられる。
換言すれば、音像制御のためにあるチャネルの音声音響信号を+δサンプル遅延させる場合には、合成窓関数についても位相操作により+δサンプル遅延させる。ただし、δは整数である必要はない。また、周波数領域での乗算による畳み込み演算により、窓関数における端部に歪が生じる場合がある。つまり、いわゆる時間折り返し歪が発生する場合があるが、この時間折り返し歪を低減するため、窓関数の両端のうち少なくとも一方の値を抑制するなどの工夫も考えられる。合成窓制御の方法については、これに限定されない。
また、合成窓制御部14は、音像制御情報に従った合成窓関数を生成することに限定されるものではなく、音像制御パラメータにしたがって合成窓関数を生成するようにしてもよい。その場合には、音像制御パラメータ決定部11から音像制御パラメータが合成窓制御部14に入力される必要がある。
合成窓重畳部15は、係数逆変換部13から出力された時間領域の音声音響信号に対し、合成窓制御部14から出力された合成窓関数を乗算する。MDCTのようなLOTでは窓長の一部をオーバラップさせていくことで、最終的な音声音響信号を得るため、合成窓重畳部15の出力信号をオーバラップ加算していく必要がある。なお、オーバラップ加算の具体的方法は問わない。
本実施形態では、1チャネルの音像制御装置1について記述したが、実際の音像制御装置は立体感を得るために複数の出力が必要となる。ここで、複数チャネルのうち、少なくとも1つが本実施形態の音像制御装置1を含んでいるものとする。つまり、例えばヘッドフォン再生をする場合、左右の耳に提示するうち、左または右の復号にのみ本実施形態の音像制御装置1を使用しても、音像制御の効果を得ることができる。
つぎに、このように構成された音像制御装置1の動作について説明する。図2は、音像制御装置1の動作を示すフローチャートである。まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S101)。音像制御情報は音像制御パラメータ決定部11に入力され、音像制御パラメータ決定部11により音像制御パラメータが決定される(S102)。また、音像制御情報は、合成窓制御部14に入力され、合成窓制御部14により一の合成窓関数が決定される(S103)。
また、入力端子から入力された変換係数は、音像制御部12に入力され、音像制御が行われる。ここでは、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われる(S104)。
音像制御が行われた変換係数は、係数逆変換部13により逆変換され、周波数領域の変換係数から時間領域における音声音響信号に変換される(S105)。そして、この音声音響信号は、合成窓重畳部15により合成窓制御部14で決定された合成窓関数と重畳される(S106)。合成窓重畳部15により重畳された音声音響信号は、出力端子(図示せず)から出力される(S107)。
このように処理されることにより、音像制御パラメータにより補正された変換係数が逆変換され、適切な合成窓関数と重畳することにより、歪を低減することができる。よって、MDCTによる変換処理を行った場合でも、DFTを用いた処理を行うことなく、演算効率のよい処理を行うことができる。
続いて、第2の実施形態に係る音像制御装置2について説明する。図3は、第2の実施形態に係る音像制御装置2の構成を示すブロック図である。この音像制御装置2は、音像制御装置1に、変換係数を周波数帯域に分割する帯域分割部22と、複数の音像制御部23a〜23x、および分割された変換係数を合成する帯域合成部24を加えた構成である。以下、各構成要素について説明する。
音像制御パラメータ決定部21は、入力された音像制御情報に基づいて音像制御パラメータを決定する部分である。ここで、音像制御パラメータは帯域ごとに異なった値・表現であってもよい。
帯域分割部22は、入力された変換係数を任意の周波数帯域ごとに分割する部分である。ここで、分割する帯域幅は、一様であってもよいし、人間の聴覚特性を反映した臨界帯域に沿った非一様なものでもよく任意である。
音像制御部23a〜23xは、帯域分割部22により分割された各変換係数を、音像制御パラメータ決定部21により決定された音像制御パラメータを用いてそれぞれ補正する。ここで、音の定位感に重要でない帯域、例えば位相差を判別できない程度の所定の帯域より高い帯域に関しては、音像制御処理を省略することで、演算量を削減することも可能である。これは人間の聴覚は所定の帯域より高い帯域についてその位相差を判別できないためであり、その場合には、省略しても音質上何ら問題はないためである。本実施形態では、その帯域に該当する音像制御部23i(iは任意の音像制御部23を示す)を機能させないようにすることにより、演算量の削減を可能とする。
帯域合成部24は、音像制御部23a〜23xより出力された各変換係数を全帯域にわたって合成する。
係数逆変換部25は、帯域合成部24により合成された変換係数を時間領域の音声音響信号に変換する。
合成窓制御部26は、入力された音像制御情報に従って一の合成窓関数を生成する。ここで、帯域によって音像制御情報が異なる場合、任意の一の帯域の音像制御情報を用いて合成窓制御を行ってもよいし、複数の音像制御情報を用いて合成窓制御を行ってもよい。複数の音像制御情報を用いる方法として、任意の周波数帯域のうち、最も広い帯域を占める音像の音像制御情報を採用する方法や、複数の音像制御情報の平均値や加重平均値などの中間値を採用する方法が考えられる。例えば、10個に分割した周波数帯域のうち、8個の帯域は+60度方向、のこり2個の帯域は+10度方向に定位させる場合、前者の方法では、音像制御情報として+60度方向に定位させることを示す情報を、後者の方法では、音像制御情報として、+50度方向に定位させることを示す情報を用いて合成窓制御を行う。この合成窓関数の具体的な生成方法は、第1の実施形態における合成窓制御部14と同じである。
合成窓重畳部27は、係数逆変換部25により変換された時間領域の音声音響信号に対し、合成窓制御部により生成された合成窓関数を乗算し、出力信号を得る。そして、出力端子(図示せず)を介して出力信号を出力することになる。
つぎに、このように構成された音像制御装置2の動作について説明する。図4は、音像制御装置2の動作を示すフローチャートである。まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S201)。音像制御情報は音像制御パラメータ決定部21に入力され、音像制御パラメータ決定部21により音像制御パラメータが決定される(S202)。また、音像制御情報は、合成窓制御部26に入力され、合成窓制御部26により一の合成窓関数が決定される(S203)。
また、入力端子から入力された変換係数は、帯域分割部22により所定帯域毎に分割される(S204)。そして、分割された各帯域の変換係数は、各音像制御部23a〜23xに入力され、音像制御が行われる。ここでは、音像制御パラメータ決定部21により複数の音像制御パラメータが帯域毎に決定され、それぞれ帯域毎に定められた音像制御部23a〜23xに入力される。各音像制御部23a〜23xにおいては、それぞれ定められた音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御部23aにおいては音像制御パラメータを、時間サンプルをδずらすようなパラメータとし、これとは別の音像制御部23bにおいては時間サンプルを2δずらすようなパラメータに設定し、それぞれ位相をずらす補正が行われる(S205)。
音像制御部23a〜23xにおいて音像制御が行われ、帯域合成部24により合成される(S206)。そして、合成された変換係数は、係数逆変換部25により逆変換され、周波数領域の変換係数から時間領域における音声音響信号に変換される(S207)。そして、この音声音響信号は、合成窓重畳部27により合成窓制御部26で決定された合成窓関数と重畳される(S208)。合成窓重畳部27により重畳された音声音響信号は、出力端子(図示せず)から出力される(S209)。
このように処理されることにより、各帯域における音像制御パラメータにより変換係数が補正され、この変換された変換係数が合成されて逆変換され、適切な合成窓関数と重畳することにより、その歪を低減することができる。よって、MDCTによる変換処理を行った場合でも、DFTを用いた処理を行うことなく、演算効率のよい処理を行うことができる。
ところで、第2の実施形態における合成窓制御部26は、音像制御情報に基づいて合成窓関数を生成しているが、音像制御部23a〜23xから出力される振幅情報を加えて合成窓関数を生成するようにしてもよい。図5は、第2の実施形態の変形例における音像制御装置2aの構成を示すブロック図である。
図5に示すように合成窓制御部26aは、音像制御情報に加えて、各帯域の変換係数の振幅情報に基づき合成窓制御を行うことも可能である。振幅情報の具体的な利用方法としては、例えば、合成窓制御部26aは、各音像制御部23a〜23xから出力される振幅情報のうち振幅の絶対値、絶対値平均、自乗値または自乗平均値が一番大きい帯域を検出し、その帯域に付加する遅延時間量と同じ遅延時間量を窓関数に付加することで合成窓関数を生成する。また、帯域の振幅が均衡している場合は、これら主要な帯域に付加する遅延時間量の加重平均値などの中間値を窓関数に付加することも考えられ、振幅情報から窓関数生成を行う方法についてはこれに限定されない。
例えば、この他に合成窓関数を生成する方法として、以下の合成窓制御部26aが考えられる。すなわち、合成窓制御部26aは、各帯域の振幅情報と帯域幅とから、各音源の占める割合を算出し、全体または任意の周波数帯域のうち、最も割合の大きい音源を検出する。そして、その音源に付加する遅延時間量と同じ遅延時間量を窓関数に付加する。また、音源のパワーが均衡している場合は、これら主要な音源に付加する遅延時間量の加重平均値などの中間値を窓関数に付加することも考えられる。
以上の振幅情報の利用例について、図15を用いて説明する。図15は、帯域分割した音声音響信号の変換係数を模式的に示したものである。図15に示されているように、各帯域に割り振られている符号AおよびBは、各帯域の音像制御情報(音声音響信号を定位させる位置を示す位置情報)である。振幅の自乗値が最も大きい帯域を検出する方法では、合成窓制御部26aは、最も大きい帯域をもつAを選択する。一方、全体に対して占める割合の最も高い音源を検出する方法では、合成窓制御部26aは、Aで示される面積より広いBを検出する。
また、任意の閾値を決めて、これらの検出方法を切り替えて使用することも可能である。例えば、合成窓制御部26aは、面積の差が閾値以下である場合には、振幅の自乗値が最も大きい帯域をもつ音像制御情報(上述の例ではA)を検出するようにし、面積の差が所定値より大きければ、全体に対して占める割合が最も高い音像制御情報(上述の例ではB)を検出するようにする。
これにより、聴覚的に最も聞こえやすい帯域にかかる歪量を抑えることができ、聴覚的な改善を得ることが可能となる。
また、聴覚的な改善をより得るために、振幅情報を利用する際に、人間の聴覚における感度の周波数依存性を考慮し、周波数に応じて重み付けを行うことや、大きな音の近傍にある小さな音は聞こえにくいというマスキング現象を利用し、聴覚的に重要な周波数帯域の振幅情報のみを用いるといった方法が考えられる。
本実施形態では、音像制御部23a〜23xから出力される変換係数を合成窓制御部26aへ入力しているが、図16に示すとおり、音像制御部23a〜23xへの入力前の各変換係数、すなわち帯域分割部22により各帯域に分割された複数の変換係数を合成窓制御部26aの入力とすることも当然に可能である。
また、図17に示すとおり、音像制御装置2cが音声音響復号機能である音声音響復号部20を備えている場合、この音声音響復号部20は、入力された入力信号である入力ビット配列を復号し、変換係数を抽出するとともに、振幅情報若しくは当該振幅情報を示すパラメータを抽出することができる。そして、音声音響復号部20は、振幅情報若しくは当該振幅情報を示すパラメータを合成窓制御部26に出力するとともに、変換係数を帯域分割部22に出力する。
合成窓制御部26は、入力された振幅情報若しくは当該振幅情報に準じたパラメータに基づいて合成窓関数を生成する。また、帯域分割部22は、音声音響復号部20から出力された変換係数を所定周波数帯域ごとに分割する。
ここで、振幅情報に準じたパラメータとは、周波数帯域の利得情報、変換係数の逆量子化に用いる量子化ステップのサイズまたはビット割当て量が考えられるが、これに限らず周波数帯域ごとの音の大きさや聴覚的な重要度を示すパラメータであればよい。また、これらの情報を利用する際においても、聴覚の感度重みやマスキング効果を利用できる。
この音像制御装置2a〜2cの動作は、音像制御装置2とほぼ同じであるが、図4におけるS203で、合成窓関数を生成する際に、音像制御情報に加えて、各帯域における振幅情報、例えば各音像制御部23a〜23xから出力された振幅情報に基づいて合成窓関数は生成されることになる。
つぎに、第3の実施形態に係る音像制御装置3について説明する。図6は、音像制御装置1を複数チャネル分備えた音像制御装置3の構成を示すブロック図である。
この音像制御装置3は、音像制御パラメータ決定部31、合成窓制御部32、チャネル毎に備えられた複数の音像制御部33a〜33x、チャネル毎に備えられた複数の係数逆変換部34a〜34x、およびチャネル毎に備えられた複数の合成窓重畳部35a〜35xを含んで構成されている。
音像制御パラメータ決定部31は、音像制御情報に基づいて、音像制御パラメータを決定する。ここで、音像制御パラメータの位相情報はチャネル間時間差情報またはチャネル間位相差情報である。音像制御パラメータ決定部31は、各チャネルへの付加遅延時間量または付加遅延位相量を調整して音像制御パラメータを決定する。配分の方法としては、例えば付加遅延量の絶対値の総和を最小とする方法や、絶対値の最大値を最小とする方法が考えられる。
付加遅延量の絶対値の総和を最小とする場合、例えば音像制御部33a〜33cからなる3チャネルの音像制御部を有する音像制御装置3において、10、8、6サンプルの遅延を付加する場合、+2、0、−2サンプルの遅延として配分する。また、絶対値の最大値を最小とする場合、例えば音像制御部33a〜33bからなる2チャネルの音像制御部を有する音像制御装置3において、4、0サンプルの遅延を付加する場合、+2、−2サンプルの遅延として配分する。付加遅延量をより小さい値に変換することにより、音像制御による歪をより抑えることが可能となる。一般に、遅延量の絶対値が大きい場合、音声音響信号の歪は大きくなる傾向にあるが、上述の通り絶対値の総和をより小さくなるようにまたは絶対値の最大値をより小さくように、音像制御パラメータを調整することで、音声音響信号における歪をより小さくすることができる。
合成窓制御部32は、合成窓制御部14と同様に入力された音像制御情報に従って合成窓関数を生成する。さらに加えて、合成窓制御部32は、音像制御パラメータ決定部31により決定され、上述の通り調整された音像制御パラメータに基づいて各チャネルへの付加遅延時間量または付加遅延位相量に対応した合成窓関数をチャネル毎に生成する。
音像制御部33a〜33xは、入力された変換係数に対し、音像制御パラメータ決定部31により決定された各音像制御パラメータを用いて補正を行う。
係数逆変換部34a〜34xは、音像制御部33a〜33xにより補正された各変換係数を、第二の変換法により時間領域の音声音響信号に変換する。
合成窓重畳部35a〜35xは、係数逆変換部34a〜34xにより逆変換された各チャネルの音声音響信号を、合成窓制御部32によって生成された各合成窓関数と乗算することにより重畳し、重畳した音声音響信号を、出力端子(図示せず)を介して各チャネルの出力信号として出力する。
つぎにこのように構成された音像制御装置3の動作について説明する。図7は、音像制御装置3の動作を示すフローチャートである。
まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S301)。音像制御情報は音像制御パラメータ決定部31に入力され、音像制御パラメータ決定部31により各音像制御部33a〜33xに対する音像制御パラメータが決定される(S302)。また、音像制御情報は、合成窓制御部32に入力され、合成窓制御部32により、各音像制御部33a〜33xに対応した各合成窓重畳部35a〜35xに入力させるための複数の合成窓関数が生成される(S303)。
また、入力端子から入力された変換係数は、音像制御部33a〜33xに入力され、音像制御が行われる。ここでは、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われる(S304)。
各音像制御部33a〜33xにおいて音像制御が行われた変換係数は、各係数逆変換部34a〜34xにおいて逆変換され、周波数領域の変換係数から時間領域における音声音響信号にそれぞれ変換される(S305)。そして、変換された複数の音声音響信号は、合成窓重畳部15により合成窓制御部14で決定された、上述音像制御部33a〜33xに対応する合成窓関数と重畳される(S306)。合成窓重畳部15により重畳された各音声音響信号は、それぞれの出力端子(図示せず)から出力される(S307)。
これにより、チャネル毎に音像制御パラメータを設定することができ、チャネル毎に定められたより適切な音像パラメータを用いて音像制御を行うことができる。よって、音像の定位感を向上させることができる。また、チャネル時間差情報またはチャネル間位相差情報をより小さい値または最小値にすることで、その歪をより低減することができる。
つぎに、第4の実施形態に係る音像制御装置4について説明する。図8は、音像制御装置2を上述の音像制御装置3と同じく複数チャネル分備えた音像制御装置4の構成を示すブロック図である。
音像制御装置4は、図3に示した音像制御装置2と同じく、入力された変換係数を複数チャネルで音像制御し再生するものである。音像制御装置4は、帯域分割部41、音像制御部42Aa〜42Xx、音像制御パラメータ決定部43、合成窓制御部44、帯域合成部45a〜45x、係数逆変換部46a〜46x、および合成窓重畳部47a〜47xを含んで構成されている。本実施形態においては、音像制御装置4は、帯域分割部41および帯域合成部42Aa〜42Xxを用いて、チャネルごとに音声パラメータによる補正を行うとともに、各チャネルにおける周波数帯域ごとに音像制御パラメータを分割して制御する。以下、各構成について説明する。
音像制御パラメータ決定部43は、前記音像制御装置3における音像制御パラメータ決定部31と同じく、音像制御情報に従って音像制御パラメータを生成するとともに、各チャネルへの付加遅延時間量または付加遅延位相量を調整した音像制御パラメータを決定することができる。
合成窓制御部44は、音像制御装置3における合成窓制御部32と同じく、音像制御パラメータ決定部43により調整された各チャネルへの付加遅延時間量または付加遅延位相量に対応した合成窓関数を生成することができる。
そのほか、帯域分割部41、音像制御部42Aa〜42Xx、帯域合成部45a〜45x、係数逆変換部46a〜46x、および合成窓重畳部47a〜47xは、図3における帯域分割部22、音像制御部23a〜23x、帯域合成部24、係数逆変換部25、および合成窓重畳部27と同じ動作を行うよう構成されている。
つぎに、この音像制御装置4の動作について説明する。図9は、音像制御装置4の動作を示すフローチャートである。
まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S401)。音像制御情報は音像制御パラメータ決定部43に入力され、音像制御パラメータ決定部43により、各チャネルおよび各帯域における各音像制御部42Aa〜42Xxに対する音像制御パラメータが決定される(S402)。また、音像制御情報は、合成窓制御部44に入力され、合成窓制御部44により、各チャネルに対応した各合成窓重畳部47a〜47xに入力させるための複数の合成窓関数が決定される(S403)。
また、入力端子から入力された変換係数は、帯域分割部41により所定の帯域に分割され(S404)、分割された変換係数は各帯域に対応した音像制御部42Ia〜42Ix(Iは各チャネルに対応した音像制御部を示す)に入力され、音像制御が行われる(S405)。この音像制御は、各チャネルにおける音像制御部でも同様に行われる。なお、上述したのと同様に、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われ、チャネルに対応したおよび帯域に対応した音像制御パラメータに従った音像制御が行われる。
各音像制御部42Aa〜42Xxにおいて音像制御が行われた変換係数は、チャネル毎に合成される(S406)。チャネル毎に合成された変換係数は、各係数逆変換部46a〜46xにおいて逆変換され、周波数領域の変換係数から時間領域における音声音響信号にそれぞれ変換される(S407)。そして、変換された複数の音声音響信号は、合成窓重畳部47a〜47xにより合成窓制御部44で決定された、各チャネルに対応する合成窓関数と重畳される(S408)。合成窓重畳部47a〜47xにより重畳された各音声音響信号は、それぞれの出力端子(図示せず)から出力される(S409)。
このように処理されることにより、各帯域における音像制御パラメータにより変換係数が補正され、この変換された変換係数が合成されて逆変換され、適切な合成窓関数と重畳することにより、その歪を低減することができる。よって、MDCTによる変換処理を行った場合でも、DFTを用いた処理を行うことなく、演算効率のよい処理を行うことができる。さらに、チャネル毎に音像制御パラメータを設定することができ、チャネル毎に定められたより適切な音像パラメータを用いて音像制御を行うことができる。よって、その歪をより低減することができる。
ところで、第4の実施形態における合成窓制御部44は、音像制御情報に基づいて合成窓関数を生成しているが、音像制御部42Aa〜42Xxから出力される振幅情報を加えて合成窓関数を生成するようにしてもよい。図10は、第4の実施形態の変形例における音像制御装置4aの構成を示すブロック図である。
図10に示すように合成窓制御部44aは、図5における合成窓制御部26aと同様に、音像制御情報に加えて、各帯域の変換係数の振幅情報に基づき合成窓制御を行うことも可能である。
ここで具体的な方法としては、合成窓制御部44aは、チャネル毎に区別して振幅情報を受信することが好ましい。合成窓制御部44aでは、このようにチャネル毎に区別して振幅情報を受信すると、チャネル毎に各帯域における振幅情報のうち振幅の絶対値平均が大きい帯域を検出し、その帯域に付加する遅延時間量と同じかまたは近い遅延時間量をチャネル毎に生成された窓関数に付加することができる。よって、チャネル毎に適切な窓関数を生成することができる。
これにより、聴覚的に最も聞こえやすい帯域にかかる歪量を抑えることができ、聴覚的な改善を得ることが可能となる。本実施形態では、音像制御部42Aa〜42Xxから出力される変換係数を合成窓制御部44aへ入力しているが、音像制御部42Aa〜42Xxへの入力前の各変換係数、すなわち帯域分割部22により各帯域に分割された複数の変換係数を合成窓制御部26aの入力とすることも当然に可能である。
つぎに、図11に示す第5の実施形態に係る音像制御装置5について説明する。この音像制御装置5は、下記文献1に記載されているBCC(Binaural Cue Coding:両耳音キュー符号化) Type Iにおいて符号化された立体音響である入力信号を処理するものである。
本実施形態の音像制御装置5の説明に先立って、下記文献1に記載されている両耳音キュー符号化を行う装置について説明する。
文献1に記載されているBCCは複数チャネルの音声音響信号を圧縮し、復号時に立体音として再生するための効率的な符号化方法である。
文献1 “Binaural Cue Coding : A novel andefficient representation ofspatial audio,” C. Faller and F. Baumgarte, Proc.ICASSP 2002, 2002.
図12は、BCC Type Iの符号化装置6の構成を示すブロック図である。この符号化装置6では、時間−周波数変換部61a〜61xが各チャネルの入力信号(1)〜(x)をDFT係数などの変換係数に変換し、帯域分割部62a〜62xはそれぞれの変換係数をy個の周波数帯域に分割する。最大強度チャネル決定部63a〜63yにおいては、y個に分割された周波数帯域の変換係数を各チャネルから入力し、同じ帯域の変換係数において最大強度の変換係数を有するチャネルを決定する。すなわち、帯域ごとに各チャネルの強度を比較し、最も強度の大きいチャネル(インデックス情報)を決定する。補助情報符号化部64は、各周波数帯域において最大のチャネルを示すチャネル情報を入力し、補助情報として符号化する。この最大強度のチャネル(インデックス情報)は、各帯域における音声音響信号を定位させる定位位置を示す識別子としての役割を有するものである。
また、音声音響信号合成部65は、入力信号(1)〜(x)を入力し、合成する。そして、音声音響符号化部66は、所定の符号化方法で符号化してモノラル信号を得て、多重化部67は、符号化された符号化音声音響信号と符号化補助情報とを多重化し、出力信号として多重化した多重化情報を出力する。なお、上述の補助情報および音声音響信号はハフマン符号化などで符号化されることが考えられる。
このように構成された符号化装置6は、主にネットワーク上に配置されているサーバに設置されており、通話されている音声情報を集約して、通信相手に送信することで、ネットワーク上の負荷を低減しようとするものである。
このような符号化装置6から出力された多重化信号をBCC Type I復号装置として適用した音像制御装置5が入力し、再生する。以下、図11の音像制御装置5の構成について説明する。この音像制御装置5は、逆多重化部500、復号部501、復号部502、音像制御情報変換部50、音像制御パラメータ決定部51、帯域分割部52、音像制御部53Aa〜53Bx、帯域合成部54a〜54b、係数逆変換部55a〜55b、合成窓制御部56、および合成窓重畳部57a〜57bを含んで構成されている。
逆多重化部500は、BCC Type I符号化装置6により多重化された多重化信号を入力し、符号化補助情報と符号化音声音響信号とに分離する部分である。なお、入力された多重化信号は、複数チャネルの音声音響信号をモノラル信号にミックスダウンし、MDCTなどの変換をかけた変換係数であるが、その具体的な生成方法については、上述のBCC Type I符号化装置6を用いた生成方法に限定するものではない
復号部501は、逆多重化部500において逆多重化されて得られた符号化音声音響信号を復号する部分である。
復号部502は、逆多重化部500において逆多重化されて得られた符号化補助情報を復号する部分である。
音像制御情報変換部50は、復号部502により復号されて得られた補助情報を音像制御情報に変換する部分である。この音像制御情報変換部50には、逐次ユーザ設定により、またプリセットにより補助情報(インデックス情報)と音像制御情報とが対応付けて記憶されており、音像制御情報変換部50は、入力された補助情報に基づいて、その補助情報に対応する音像制御情報に変換する。例えば、音像制御情報変換部50において、入力信号(1)の信号を定位させる位置として「2時の方向」と設定されていた場合、入力された補助情報は2時の方向の位置で定位させるような音像制御情報に変換される。なお、音像制御情報変換部50は、図12に示されるBCC符号化装置6において生成された補助情報に限るものではなく、少なくとも各帯域における音声音響信号を定位させる定位位置を示す識別子としての役割を有するインデックス情報であればよい。
音像制御パラメータ決定部51は、音像制御情報変換部50により変換された音像制御情報に基づいて、各帯域の定位位置に対応した音像制御パラメータを決定する。
帯域分割部52は、逆多重化部500により分離された音声音響信号の変換係数を入力し、任意の周波数帯域ごとに分割する。帯域分割部52は、分割した変換係数を左チャネルと右チャネルとにそれぞれ出力する。
音像制御部53Aa〜53Bxは、音像制御パラメータ決定部51により決定された音像制御パラメータを用いてそれぞれ補正する。
帯域合成部54a〜54bは、音像制御部53Aa〜53Bxにおいて音像制御された変換係数を、それぞれチャネル毎に、すなわち音像制御部53Aa〜53Ax、音像制御部53Ba〜53Bxごとに合成する。
係数逆変換部55a〜55bは、それぞれの帯域合成部54a〜54bにおいて合成された変換係数を時間領域の音声音響信号に変換する。
合成窓制御部56は、音像制御情報変換部50により変換された音像制御情報、および音像制御部53Aa〜53Bxから出力される変換係数の振幅情報に基づきそれぞれのチャネルに対応した合成窓関数を生成し、合成窓制御を行う。なお、音像制御部53Aa〜53Axおよび音像制御部53Ba〜53Bxの振幅情報を区別して入力し、それぞれのチャネルにあった合成窓関数を生成するようにすることが好ましい。また、合成窓制御部56における具体的な合成窓関数の生成方法は、図10における合成窓制御部44aと同等の方法を用いる。
合成窓重畳部57aおよび57bは、係数逆変換部55aおよび55bより出力された時間領域の音声音響信号に対し、合成窓制御部より出力された各合成窓関数をそれぞれ乗算し、最終的に左チャネルおよび右チャネルの出力信号を得て出力する。
つぎに、この音像制御装置5の動作について説明する。図13は、音像制御装置5の動作を示すフローチャートである。逆多重化部500において、例えばBCC type Iにより符号化され、多重化された多重化信号が入力される(S501)。逆多重化部500により、多重化信号は、符号化補助情報と符号化音声音響信号とに分離され、さらにそれぞれの復号部501、502により復号され補助情報および音声音響信号とが得られる(S502)。
分離された補助情報は、音像制御情報変換部50により音像制御情報に変換され、変換された音像制御情報は音像制御パラメータ決定部51に入力され、音像制御パラメータ決定部51においては音像制御情報に基づいた音像制御パラメータが読み出され、各チャネルおよび各帯域の音像制御パラメータが決定される(S503)。
また、入力端子から入力され分離された変換係数は、帯域分割部52により所定の帯域に分割され(S505)、分割された変換係数は各帯域に対応した音像制御部53Aa〜53Axおよび音像制御部53Ba〜53Bxにチャネル毎に入力され、音像制御が行われる(S506)。なお、上述したのと同様に、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われ、チャネルに対応したおよび帯域に対応した音像制御パラメータにしたがった音像制御が行われる。
各音像制御部53Aa〜53Bxにおいて音像制御が行われた変換係数は、チャネル毎に合成される(S507)。チャネル毎に合成された変換係数は、各係数逆変換部55a〜55bにおいて逆変換され、周波数領域の変換係数から時間領域における音声音響信号にそれぞれ変換される(S508)。そして、変換された複数の音声音響信号は、合成窓重畳部57a〜57bにより合成窓制御部56で決定された、各チャネルに対応する合成窓関数と重畳される(S509)。合成窓重畳部57a〜57xにより重畳された各音声音響信号は、それぞれの左右の出力端子(図示せず)から出力される(S510)。
このように、BCC Type Iの符号化装置6で符号化された多重化信号などのように、音像制御情報にかえて各帯域における最大強度のチャネルを示すインデックス情報を補助情報として入力し、その補助情報に従った音像制御パラメータに基づいた音像制御および合成窓制御を行うことができる。
一方、BCC Type Iの符号化装置6に対してBCC Type II符号化装置がある。このBCC Type II符号化装置は、5.1chサラウンドシステムなど複数チャネル音源データを効率的に符号化し、復号装置では復号時に再生音場を再構成する符号化法である。BCC Type II符号化装置およびそれに対応する復号装置は入力チャネル間の強度差、位相差情報およびチャネル間の相関情報を利用するが、基本的な考え方はBCC Type Iの符号化装置6およびそれに対応する復号装置と同じである。
つぎに、第6の実施形態に係る音像制御装置7aについて説明する。図18は、音像制御装置2a(図5参照)に音像再制御部28a〜28xを加えた構成である音像制御装置7aの構成を示すブロック図である。
この音像制御装置7aは、音像制御装置2aと比較して、音像制御パラメータ決定部21a、合成窓制御部26b、および音像再制御部28a〜28xを備えている点で、相違している。以下、これら相違点を中心に各構成について説明する。
合成窓制御部26bは、音像制御情報および音像制御部23a〜23xから出力される振幅情報に基づき、歪を抑制する合成窓関数を生成し、出力する部分である。また、合成窓制御部26bは、各帯域における振幅情報に基づいて合成窓制御情報を生成し、音像制御パラメータ決定部21aに出力する部分である。すなわち、合成窓制御部26bは、音像制御情報で定められている各位置情報で占める、全帯域における割合をそれぞれ算出し、最も多く占める位置情報を把握し、これを合成窓制御情報(音像制御パラメータ変更情報)とする。なお、この合成窓制御情報は、合成窓重畳による歪抑制の効果をより得るために生成された情報であり、音声音響信号を定位させる位置を示す位置情報(すなわち音像制御情報に相当)若しくは位置情報に基づいて生成されたパラメータ情報であってもよい。
音像制御パラメータ決定部21aは、外部から入力された音像制御情報に基づいて音像制御パラメータを生成するとともに、合成窓制御部26bから出力された合成窓制御情報に基づいて、先に生成された音像制御パラメータを変更する部分である。すなわち、一旦決定された音像制御パラメータにより音像制御された変換係数に基づいて合成窓制御情報が生成され、この合成窓制御情報に基づいて、所定閾値以上の周波数帯域に対応付けられている音像制御パラメータは変更される。
音像再制御部28a〜28xは、変更された音像制御パラメータを用いて音像制御部23a〜23xから出力された変換係数をそれぞれ補正し、帯域合成部24に出力する。
他の構成およびその処理については、音像制御装置2aと同じであるため、その説明を省略する。
つぎに、音像制御パラメータの変更方法について図19を用いて具体的に説明する。図19は、ある時間フレーム(変換係数)において、変換係数の電力と音像制御情報(例では定位位置)との関係を示す説明図である。
図19においては、音声音響信号の定位位置Aと定められた周波数に対して、音像制御パラメータとして遅延時間量+10が与えられ、音声音響信号の定位位置Bと定められた周波数に対して、音像制御パラメータとして遅延時間量+6が与えられている。ただし、この遅延対象となる変換係数は、図18に示されているように音像制御部23a〜23xにより既に補正されていてもよいし、音像制御部23a〜23xに入力する前の値であってもよい。
図19で示すように、合成窓制御部26bは、全帯域において、その電力値(図15で示される面積に相当)の占める割合が大きい定位位置は定位位置Aと把握し、これを音像制御情報として音像制御パラメータ決定部21aに出力する。そして、音像制御パラメータ決定部21aは、音像制御情報を入力すると、所定閾値以上の周波数に対しては、定位位置Aに合わせた音像制御パラメータに変更する。例えば、本実施形態においては、約1.5kHz以上の周波数帯域では、定位位置Aの音像制御パラメータに合わせるため、定位位置Bの音像制御パラメータ“+6”を“+10”に変更している。
ところで、約1.5kHz以上の周波数帯域では遅延時間量は定位感に及ぼす影響が少ないと一般的に考えられており、よって、1.5kHz以上の周波数帯域に適用する遅延時間量を変更しても定位感は劣化しないと考えられる。そこで、本実施形態においては、合成窓制御による歪抑制の効果をより得るために、1.5kHz以上の周波数帯域に適用する時間遅延量を、合成窓関数に適用する値と同一または近い値に変更することが提案されている。
なお、図19の例では、音像制御パラメータを変更する周波数帯域を1.5kHz以上としているが、これに限定したものではない。また、変更する音像制御パラメータは遅延時間量に限らず、聴覚的な歪を抑制するために歪を多く含む成分を抑制するなどの振幅情報制御をしてもよい。また、音像制御パラメータの変更および再制御については、フレームや帯域によって適用の有無を変更できる。
また、音像制御について、音像制御部23a〜23xでは振幅情報のみを補正し、音像再制御部28a〜28xでは位相情報または遅延位相量もしくは遅延時間量を補正することも可能であり、音像制御部23a〜23xと音像再制御部28a〜28xとにおいて、必ずしも同じパラメータについて二度補正する必要はない。
つぎに、この第6の実施形態の変形例について説明する。図20は、音像制御装置7bの構成を示すブロック図である。図20に示すとおり、この音像制御装置7bは、音像制御パラメータ決定部21a、帯域分割部22、音像制御部23a〜23x、帯域合成部24、係数逆変換部25、合成窓制御部26b、および合成窓重畳部27を含んで構成されている。この音像制御装置7bは、図18における音像制御装置7aと比較して、音像再制御部28a〜28xがなく、帯域分割部22により分割された各帯域における振幅情報に基づいて合成窓制御部26bにより合成窓制御情報が生成され、この合成窓制御情報に基づいて変更された音像制御パラメータに基づいて音像制御を行うことができるよう構成されている。
この音像制御装置7bにおいては、合成窓制御部26bは帯域分割部22により分割された各帯域の振幅情報を入力する。合成窓制御部26bは、この振幅情報に基づいて合成窓制御情報を生成し、音像制御パラメータ決定部21aに出力する。音像制御パラメータ決定部21aは、音像制御情報および合成窓制御情報に基づいて音像制御パラメータを決定する。ここで音像制御パラメータ決定部21aは、上述図19にて説明したとおり、所定周波数を閾値として、音像制御情報に基づいて定められた音像制御パラメータのうち、その所定周波数以上に定められている音像制御パラメータを変更することになる。
そして、各音像制御部23a〜23xは、決定された音像制御パラメータを用いて、各帯域の変換係数を補正する。合成窓制御部26bにおいては任意の周波数帯域に限定して合成窓制御情報を生成することや、聴覚的な重み付けやマスキング効果を利用してもよい。
また、別の変形例として、図21に示される構成が考えられる。図21は、音像制御装置7cの構成を示すブロック図である。図21に示すように、この音像制御装置7cは、音声音響復号部20、音像制御パラメータ決定部21a、帯域分割部22、音像制御部23a〜23x、帯域合成部24、係数逆変換部25、合成窓制御部26b、および合成窓重畳部27を含んで構成されている。
この音像制御装置7cは、図18における音像制御装置7aと比較して、音像再制御部28a〜28xがなく、音声音響復号部20により抽出された振幅情報に基づいて合成窓制御部26bにより合成窓制御情報が生成され、この合成窓制御情報に基づいて変更された音像制御パラメータに基づいて音像制御を行うことができるよう構成されている。
この音像制御装置7cにおいては、音声音響復号部20は、入力ビット配列から抽出された振幅情報または振幅情報に準じた情報を合成窓制御部26bに出力する。合成窓制御部26bは、この振幅情報または振幅情報に準じた情報に基づいて合成窓制御情報を生成し、音像制御パラメータ決定部21aに出力する。音像制御パラメータ決定部21aは、音像制御情報および合成窓制御情報に基づいて音像制御パラメータを決定する。ここで音像制御パラメータ決定部21aは、上述図19にて説明したとおり、所定周波数を閾値として、音像制御情報に基づいて定められた音像制御パラメータのうち、その所定周波数以上に定められている音像制御パラメータを変更することになる。
そして、各音像制御部23a〜23xは、決定された音像制御パラメータを用いて、各帯域の変換係数を補正する。合成窓制御部26bにおいては任意の周波数帯域に限定して、合成窓制御情報を生成することや、聴覚的な重み付けやマスキング効果を利用してもよい。
さらに、別の変形例として図22に示される音像制御装置7dが考えられる。この音像制御装置7dは、図3に示される音像制御装置2と同じブロック構成をとりつつ、合成窓制御部26cは、音像制御情報に基づいて合成窓制御情報を生成し、これを音像制御パラメータ決定部21aにフィードバックさせる点で、音像制御装置2(図3参照)と相違する。この変形例における合成窓制御部26cは、振幅情報を用いることなく周波数帯域ごとの音像制御情報のみから合成窓関数および合成窓制御情報(音像制御パラメータ変更情報)を生成し、これをそれぞれ合成窓重畳部27および音像制御パラメータ決定部21aに出力することも可能である。
例えば、合成窓制御部26cは、周波数帯域ごとに定められている定位させる位置情報を同じにする周波数帯域の数(または帯域幅)が多い位置情報を示す合成窓制御情報を生成し、これを音像制御パラメータ決定部21に出力する。より具体的には、周波数帯域が所定幅ごとに区切られ、それぞれ定位させる位置情報として、定位位置AまたはB(例えば、Aが+60度の方向、Bが+10度の方向)が定められているとする。定位させる位置情報としてAとする周波数帯域が10個、Bとする周波数帯域が2個とした場合には、合成窓制御情報を位置情報Aを示す情報とする。
なお、個数(幅)に基づいて一義的に合成窓制御情報を生成することに限らず、各周波数帯域に対して重み付けを行い、その重み付けにより得られた個数に基づいて合成窓制御情報を生成するようにしてもよい。例えば、1kHzおよびその周辺の帯域は聴覚的に聞こえやすい帯域であるが、1kHzの周波数帯域から離れるにしたがって聴覚的には徐々に聞こえづらい帯域となる。よって、1kHzおよびその所定周波数帯域内の位置情報に対しては所定の重み付け係数を乗算することで(例えば、1kHzおよびその周辺の帯域については、1つの帯域につき2つの帯域があることとするなど)、相対的に1kHzおよびその周辺の位置情報の数を多くなるように管理し、その数に基づいて合成窓制御情報を生成するようにしてもよい。
上述の通り、第6の実施形態およびその変形例においては、音像制御パラメータの変更を、合成窓制御部26bおよび26cにおいて音像制御パラメータの変更のための合成窓制御情報(音声音響信号を定位させる位置情報)を決定しているが、合成窓制御部26bおよび26cとは別の構成で行っても当然によい。例えば、音像制御パラメータ決定部21a内において、合成窓制御情報を生成してもよい。また、本発明の音像制御装置7a〜7dを複数チャネル分備える装置に適用することや、BCCの復号装置として適用することも可能である。
また、本実施形態の音像制御装置においては、第一の変換法としてMDCT以外にMDST(Modified Discrete Sine Transform:修正離散サイン変換)など他のLOTを用いることが考えられ、少なくとも重複直交変換を行う技術において適用することができる。
また、本実施形態の合成窓制御部26、26a、32、44、44aおよび56は、合成窓制御部14と同様に、音像制御情報に従った合成窓関数を生成することに限定されるものではなく、音像制御パラメータにしたがって合成窓関数を生成するようにしてもよい。その場合には、音像制御パラメータ決定部21、31、43および51から音像制御パラメータが合成窓制御部26、26a、32、44、44aおよび56に入力される必要がある。
つぎに、本実施形態の音像制御装置の作用効果について説明する。第1の実施形態の音像制御装置1においては、音像制御パラメータ決定部11が音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する。音像制御部12は、入力された重複直交変換による変換係数を音像制御パラメータに基づいて、位相をずらすなどで、補正する。そして、係数逆変換部13は、補正された変換係数を時間領域の音声音響信号に変換する。
通常、音声音響信号に対して予め定められた固定の合成窓関数を合成窓重畳部が乗算し、オーバラップ加算することで最終的な出力信号である音声音響信号を得ることになるが、このままでは歪が生じてしまうものとなる。
そのため、この歪を低減するために、合成窓制御部14は、音像制御情報に基づいて合成窓関数を生成し、合成窓重畳部15は、音像制御情報に基づいて生成された合成窓関数を乗算して、音声音響信号を得る。これにより、MDCTなどの重複直交変換による変換係数に対して位相をずらすなどの音像制御を行って得られた音声音響信号に生ずる歪を低減することができる。
また、第2の実施形態の音像制御装置2において、音像制御パラメータ決定部21は、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する。また、帯域分割部22は、入力されたMDCTなどの重複直交変換による変換係数を所定周波数帯域ごとに分割する。そして、音像制御パラメータ決定部21により決定された音像制御パラメータに基づいて、各音像制御部23a〜23xは分割された各変換係数を補正し、帯域合成部24は補正された各変換係数を合成する。係数逆変換部25は、合成された変換係数を時間領域の音声音響信号に変換し、合成窓重畳部27は変換された時間領域の音声音響信号に対し、合成窓制御部26において音像制御情報に基づいて生成された合成窓関数を乗算する。これにより、複数の周波数帯域に分割された変換係数に対して適切な音像制御パラメータを決定することができる。
また、第3の実施形態の音像制御装置3は、音像制御部33a〜33x、係数逆変換部34a〜34x、合成窓重畳部35a〜35xのように出力チャネル数分(a〜x)備え、音像制御パラメータ決定部31は、音像制御パラメータを出力チャネル数分生成する。その音像制御パラメータに従って、各音像制御部33a〜33xは補正を行い、合成窓重畳部35a〜35xは、出力チャネル毎に生成された合成窓関数を出力チャネルごとの音声音響信号に対して乗算する。よって、複数チャネルを有する装置において、適切な合成窓関数を用いて歪の低減を行うことができる。
また、第4の実施形態の音像制御装置4は、音像制御パラメータを音像制御部42Aa〜42Xxの数だけ(チャネル数×帯域分割数)生成し、各音像制御部42Aa〜42Xxは、音像制御パラメータに従って補正を行う。帯域合成部45a〜45xにおいて合成し、係数逆変換部46a〜46xにおいて逆変換した後、合成窓重畳部47a〜47xは出力チャネル毎に生成された合成窓関数を出力チャネルごとの音声音響信号に対して乗算する。よって、複数チャネルを有する装置において、適切な合成窓関数を用いて歪の低減を行うことができる。
また、第5の実施形態の音像制御装置5において、音像制御情報変換部50はBCCなどで用いられる、各帯域における音声音響信号を定位させる定位位置を示す識別子であるインデックス情報を音像制御情報に変換し、音像制御パラメータ決定部51は変換した音像制御情報に基づいて音像制御パラメータを決定することができる。よって、BCCなどのインデックス情報に基づいて音像制御を行う技術に対しても、本発明を適用することができ、歪を低減することができる。なお、BCC符号装置およびそれに対応する復号装置においては、各帯域において入力チャネルの最も強度の大きいチャネルを示す情報をインデックス情報として入出力する。
また、第6の実施形態の音像制御装置7b〜7dにおいて、合成窓制御部26bは、音像制御情報、および各帯域における振幅情報を用いて、合成窓関数を生成するとともに、音像制御パラメータ決定部21aにより決定される音像制御パラメータを決定するための合成窓制御情報(音像制御パラメータ変更情報)を生成する。例えば、この振幅情報は、帯域分割部22により分割された周波数帯域のそれぞれの振幅情報、または音声音響復号部20から出力される振幅情報または振幅情報に準じた情報である。
音像制御パラメータ決定部21aは、音像制御情報および合成窓制御部26bにより生成された合成窓制御情報(音像制御パラメータ変更情報)に基づいて、音像制御パラメータを決定する。すなわち、音像制御情報に基づいて音像制御パラメータを決定するとともに、合成窓制御情報に基づいて所定周波数以上の帯域の信号に対応する音像制御パラメータを変更する。音像制御部23a〜23xは、ここで変更された音像制御パラメータを用いて変換係数を補正する。
これにより、振幅の大きい帯域に対する歪を低減するよう音像制御パラメータを決定することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
さらに、第6の実施形態の音像制御装置7aにおいて、音像制御パラメータ決定部21aは、音像制御部23a〜23xに対して所定の音像制御パラメータを出力する。音像制御部23a〜23xは、この音像制御パラメータに従って変換係数の補正を行い、補正された変換係数を音像再制御部28a〜28xに出力する。
一方、各音像制御部23a〜23xは、各帯域における振幅情報を合成窓制御部26bに出力する。合成窓制御部26bは、各帯域における振幅情報に従って、合成窓制御情報を生成する。この合成窓制御情報は、例えば、所定閾値以上における周波数帯域に対して音声音響信号を定位させる位置を示す位置情報であり、位置情報を同じにするそれぞれの周波数帯域のうち、全体の周波数帯域内において最も多くの割合を占める位置情報である。
音像制御パラメータ決定部21aは、合成窓制御部26bからの合成窓制御情報に基づいて、先に決定した音像制御パラメータを変更し、変更した音像制御パラメータを音像再制御部28a〜28xに出力する。音像再制御部28a〜28xは、音像制御部23a〜23xから出力された変換係数を、音像制御パラメータ決定部21aにより変更された音像制御パラメータに基づいて補正する。
これにより、振幅の大きい帯域に対する歪を低減するよう音像制御パラメータを決定することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、本実施形態の音像制御装置1〜5において、音像制御パラメータ11〜51は、音像制御パラメータの位相差情報をチャネル間時間差情報またはチャネル間位相差情報とすることで、音像制御パラメータを簡略化することができる。通常、MDCTを用いて頭部伝達関数により音像制御を行った場合、位相制御が複雑となるため、音声音響信号の歪は大きくなる。よって、位相制御を簡略化することで、最終的な出力として得られる音声音響信号に対する歪を低減することができる。
また、本実施形態の音像制御装置1〜5においては、付加遅延時間量または付加遅延位相量の絶対値の最大値または総和をより小さくなるように記述されていることで、最終的な出力として得られる音声音響信号に対する歪をより効果的に低減することができる。
また、本実施形態の音像制御装置1〜5においては、合成窓制御部11〜56は、時間折り返し歪を低減することができるよう窓関数の両端部分のうち少なくとも一方の値が小さく(通常の窓関数の両端部分より小さい値であり、例えば極めて0に近い値、または0など)設定された合成窓関数を生成し、合成窓重畳部15〜57a・57bはその合成窓関数を用いることで、より効果的に歪を低減することができる。
また、本実施形態の音像制御装置2aまたは4aにおいて、合成窓制御部26aまたは44aは音像制御情報に加えて補正後の変換係数の振幅情報を用いて、合成窓関数を生成することで、振幅の大きい帯域に対する歪を低減することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、上述第2の実施形態の変形例である音像制御装置2bにおいて、合成窓制御部26aは、音像制御情報に加えて帯域分割部22により分割された各信号の振幅情報を用いて、合成窓関数を生成する。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、さらなる変形例である音像制御装置2cにおいて、音声音響復号部20は、入力されたビット配列に基づいて、振幅情報に準じたパラメータおよび重複直交変換により生成された変換係数を出力する。合成窓制御部26aは、音像制御情報に加えて振幅情報に準じたパラメータを用いて、合成窓関数を生成する。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
これら変形例は、当然音像制御装置4aにも適用可能である。
なお、上述の実施形態における音像制御装置は、CPU、RAM、ROM等から構成されるコンピュータ、携帯電話、通信装置などに備えられており、ROM等のメモリに記憶されたプログラムにしたがって動作することになる。
第1の実施形態に係る音像制御装置1の構成を示すブロック図である。 音像制御装置1の動作を示すフローチャートである。 第2の実施形態に係る音像制御装置2の構成を示すブロック図である。 音像制御装置2の動作を示すフローチャートである。 第2の実施形態の変形例における音像制御装置2aの構成を示すブロック図である。 第3の実施形態に係る音像制御装置3の構成を示すブロック図である。 音像制御装置3の動作を示すフローチャートである。 第4の実施形態に係る音像制御装置4の構成を示すブロック図である。 音像制御装置4の動作を示すフローチャートである。 第4の実施形態の変形例における音像制御装置4aの構成を示すブロック図である。 第5の実施形態に係る音像制御装置5の構成を示すブロック図である。 BCC Type Iの符号化装置6の構成を示すブロック図である。 音像制御装置5の動作を示すフローチャートである。 (a)は正弦波信号の波形を示す図であり、(b)はDFT係数の乗算処理により正弦波を遅延させた波形を示す図であり、(c)はMDCT係数の乗算処理により正弦波を遅延させた波形示す図である。 帯域分割した音声音響信号の変換係数を模式的に示したものである。 第2の実施形態の変形例における音像制御装置2bの構成を示すブロック図である。 第2の実施形態の変形例における音像制御装置2cの構成を示すブロック図である。 第6の実施形態に係る音像制御装置7aの構成を示すブロック図である。 ある時間フレーム(変換係数)において、変換係数の電力と音像制御情報との関係を示す説明図である。 第6の実施形態の変形例に係る音像制御装置7bの構成を示すブロック図である。 第6の実施形態の変形例に係る音像制御装置7cの構成を示すブロック図である。 第6の実施形態の変形例に係る音像制御装置7dの構成を示すブロック図である。
符号の説明
1…音像制御装置、2…音像制御装置、2a…音像制御装置、3…音像制御装置、4…音像制御装置、4a…音像制御装置、5…音像制御装置、6…符号化装置、11…音像制御パラメータ決定部、12…音像制御部、13…係数逆変換部、14…合成窓制御部、15…合成窓重畳部、20…音声音響復号部、21、21a…音像制御パラメータ決定部、22…帯域分割部、22a−23x…音像制御部、24…帯域合成部、25…係数逆変換部、26、26a、26b…合成窓制御部、26a…合成窓制御部、27…合成窓重畳部、28a−28x…音像再制御部、31…音像制御パラメータ決定部、32…合成窓制御部、33a−33x…音像制御部、34a−34x…係数逆変換部、35a−35x…合成窓重畳部、41…帯域分割部、42Aa−42Xx…音像制御部、43…音像制御パラメータ決定部、44…合成窓制御部、44a…合成窓制御部、45a−45x…帯域合成部、46a−46x…係数逆変換部、47a−47x…合成窓重畳部、500…逆多重化部、501、502…復号部、50…音像制御情報変換部、51…音像制御パラメータ決定部、52…帯域分割部、53Aa−53Bx…音像制御部、54a−54b…帯域合成部、55a−55b…係数逆変換部、57a−57x…合成窓重畳部、56…合成窓制御部、57a、57b…合成窓重畳部、61a−61x…周波数変換部、62a−62x…帯域合成部、63a−63y…最大強度チャネル決定部、64…補助情報符号化部、65…音声音響信号合成部、66…音声音響符号化部、67…多重化部。

Claims (15)

  1. 音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定手段と、
    入力された重複直交変換による変換係数を前記音像制御パラメータに基づいて補正する音像制御手段と、
    前記音像制御手段により補正された変換係数を時間領域の音声音響信号に変換する係数逆変換手段と、
    前記音像制御情報に基づいて合成窓関数を生成する合成窓制御手段と、
    前記係数逆変換手段により変換された音声音響信号に対して前記合成窓制御手段により生成された合成窓関数を乗算して出力信号を得る合成窓重畳手段と
    を備える音像制御装置。
  2. 前記音像制御手段、前記係数逆変換手段、および前記合成窓重畳手段を出力チャネル数分備え、
    前記音像制御パラメータ決定手段は、出力チャネルに対応付けて音像制御パラメータを決定し、
    前記音像制御手段のそれぞれは、前記音像制御パラメータ決定手段により決定された音像制御パラメータに従った補正を行い、
    前記合成窓重畳手段は、出力チャネル毎に対応して生成された合成窓関数を前記係数逆変換手段により変換された複数の音声音響信号に対して乗算することを特徴とする
    請求項1に記載の音像制御装置。
  3. 音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定手段と、
    入力された重複直交変換による変換係数を所定周波数帯域ごとに分割する帯域分割手段と、
    前記音像制御パラメータに基づいて前記帯域分割手段により分割された各変換係数を補正する音像制御手段と、
    前記音像制御手段により補正された各変換係数を合成する帯域合成手段と、
    前記帯域合成手段により合成された変換係数を時間領域の音声音響信号に変換する係数逆変換手段と、
    前記音像制御情報に基づいて合成窓関数を生成する合成窓制御手段と、
    前記係数逆変換手段により変換された時間領域の音声音響信号に対し、前記合成窓制御手段により生成された合成窓関数を乗算する合成窓重畳手段と
    を備える音像制御装置。
  4. 前記帯域分割手段により分割されて出力された各音声音響信号を処理する分割数分の音像制御手段を備えるとともに、前記分割数分の音像制御手段、前記帯域合成手段、前記係数逆変換手段、および前記合成窓重畳手段を出力チャネル数分備え、
    前記音像制御パラメータ決定手段は、前記音像制御手段に個別に対応した音像制御パラメータを決定し、
    前記音像制御手段のそれぞれは、前記音像制御パラメータ決定手段により決定された音像制御パラメータに従った補正を行い、
    前記合成窓重畳手段は、出力チャネル毎に対応して生成された合成窓関数を前記係数逆変換手段により変換された複数の音声音響信号に対して乗算することを特徴とする
    請求項3に記載の音像制御装置。
  5. 音像制御パラメータの位相情報は、チャネル間時間差情報またはチャネル間位相差情報であることを特徴とする請求項1から4のいずれか1項に記載の音像制御装置。
  6. 前記チャネル間時間差情報または前記チャネル間位相差情報は、付加遅延時間量または付加遅延位相量の絶対値の最大値または総和をより小さくなるように記述されていることを特徴とする請求項5に記載の音像制御装置。
  7. 前記合成窓制御手段は、前記音像制御情報に加えて各音像制御手段から出力された信号の振幅情報を用いて、合成窓関数を生成することを特徴とする請求項3から6のいずれか1項に記載の音像制御装置。
  8. 前記合成窓制御手段は、前記音像制御情報に加えて前記帯域分割手段により分割された各信号の振幅情報を用いて、合成窓関数を生成することを特徴とする請求項3から6のいずれか1項に記載の音像制御装置。
  9. 入力されたビット配列に基づいて、振幅情報に準じたパラメータおよび重複直交変換により生成された変換係数を出力する音声音響復号手段を備え、
    前記合成窓制御手段は、前記音像制御情報に加えて音声音響復号手段より出力された振幅情報に準じたパラメータを用いて、合成窓関数を生成することを特徴とする請求項3から6のいずれか1項に記載の音像制御装置。
  10. 前記合成窓制御手段は、前記音像制御情報、および各周波数帯域の信号における振幅情報を用いて、合成窓関数を生成するとともに、前記音像制御パラメータ決定手段により決定される音像制御パラメータを決定するための音像制御パラメータ変更情報を生成し、
    前記音像制御パラメータ決定手段は、前記音像制御情報および前記合成窓制御手段により生成された音像制御パラメータ変更情報に基づいて、音像制御パラメータを変更することを特徴とする請求項1から9のいずれか1項に記載の音像制御装置。
  11. 前記音像制御手段から出力された変換係数を、前記音像制御パラメータ決定手段により変更された音像制御パラメータに基づいて補正する音像再制御手段を備え、
    前記音像制御パラメータ決定手段は、前記音像制御手段に対して所定の音像制御パラメータを出力し、前記合成窓制御手段により生成された音像制御パラメータ変更情報に基づいて変更された音像制御パラメータを前記音像再制御手段に出力することを特徴とする請求項10に記載の音像制御装置。
  12. 各帯域における音声音響信号を定位させる定位位置を示す識別子であるインデックス情報に基づいて音像制御情報を生成する音像制御情報生成手段を備え、
    前記音像制御パラメータ決定手段は、前記音像制御情報生成手段により生成された音像制御情報に基づいて音像制御パラメータを決定することを特徴とする請求項1から11のいずれか1項に記載の音像制御装置。
  13. 前記合成窓制御手段は、時間折り返し歪を低減するよう、両端部分のうち少なくとも一方の値が小さく設定された合成窓関数を生成することを特徴とする請求項1から12のいずれか1項に記載の音像制御装置。
  14. 音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定ステップと、
    入力された重複直交変換による変換係数を前記音像制御パラメータに基づいて補正する音像制御ステップと、
    前記音像制御ステップにより補正された変換係数を時間領域の音声音響信号に変換する係数逆変換ステップと、
    前記音像制御情報に基づいて合成窓関数を生成する合成窓制御ステップと、
    前記係数逆変換ステップにより変換された音声音響信号に対して前記合成窓制御ステップにより生成された合成窓関数を乗算して出力信号を得る合成窓重畳ステップと
    を備える音像制御方法。
  15. 音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する音像制御パラメータ決定ステップと、
    入力された重複直交変換による変換係数を所定周波数帯域ごとに分割する帯域分割ステップと、
    前記音像制御パラメータに基づいて前記帯域分割ステップにより分割された各変換係数を補正する音像制御ステップと、
    前記音像制御ステップにより補正された各変換係数を合成する帯域合成ステップと、
    前記帯域合成ステップにより合成された変換係数を時間領域の音声音響信号に変換する係数逆変換ステップと、
    前記音像制御情報に基づいて合成窓関数を生成する合成窓制御ステップと、
    前記係数逆変換ステップにより変換された時間領域の音声音響信号に対して合成窓制御ステップにより生成された合成窓関数を乗算する合成窓重畳ステップと
    を備える音像制御方法。
JP2007230583A 2007-03-30 2007-09-05 音像制御装置および音像制御方法 Expired - Fee Related JP5032921B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007230583A JP5032921B2 (ja) 2007-03-30 2007-09-05 音像制御装置および音像制御方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007094332 2007-03-30
JP2007094332 2007-03-30
JP2007230583A JP5032921B2 (ja) 2007-03-30 2007-09-05 音像制御装置および音像制御方法

Publications (2)

Publication Number Publication Date
JP2008278446A JP2008278446A (ja) 2008-11-13
JP5032921B2 true JP5032921B2 (ja) 2012-09-26

Family

ID=40055819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007230583A Expired - Fee Related JP5032921B2 (ja) 2007-03-30 2007-09-05 音像制御装置および音像制御方法

Country Status (1)

Country Link
JP (1) JP5032921B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09224300A (ja) * 1996-02-16 1997-08-26 Sanyo Electric Co Ltd 音像位置の補正方法及び装置
JPH1042400A (ja) * 1996-07-25 1998-02-13 Sanyo Electric Co Ltd 音像制御方法及び装置
JPH1188994A (ja) * 1997-09-04 1999-03-30 Matsushita Electric Ind Co Ltd 音像定位装置及び音像制御方法

Also Published As

Publication number Publication date
JP2008278446A (ja) 2008-11-13

Similar Documents

Publication Publication Date Title
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
TWI352971B (en) Apparatus and method for generating an ambient sig
RU2407226C2 (ru) Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
AU2014295309B2 (en) Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
US8817992B2 (en) Multichannel audio coder and decoder
CN101133680B (zh) 用于产生已编码立体声信号的设备及方法
TWI424754B (zh) 利用側邊資訊之聲道重新組配技術
JP5587551B2 (ja) オーディオ符号化
JP4874555B2 (ja) 聴覚情景の後部残響音ベースの合成
US9326085B2 (en) Device and method for generating an ambience signal
US20090292544A1 (en) Binaural spatialization of compression-encoded sound data
JP2004535145A (ja) 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
NO338701B1 (no) Parametrisk felleskoding av audiokilder
TWI468031B (zh) 用以產生供提供額外輸出聲道的立體音響輸出信號之裝置、方法及電腦程式
RU2420026C2 (ru) Способы и устройства для кодирования и декодирования аудиосигналов на основе объектов
JP5032921B2 (ja) 音像制御装置および音像制御方法
JP5483813B2 (ja) マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
JP2006270649A (ja) 音声・音響信号処理装置およびその方法
MX2008009565A (en) Apparatus and method for encoding/decoding signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120629

R150 Certificate of patent or registration of utility model

Ref document number: 5032921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees