本発明は、一実施形態のために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
まず、第1の実施形態に係る音像制御装置1の構成について説明する。図1は、第1の実施形態に係る音像制御装置1の構成を示すブロック図である。
第1の実施形態に係る音像制御装置1は、入力された音像制御情報から音像制御パラメータを決定する音像制御パラメータ決定部11、音像制御パラメータ決定部11により決定された音像制御パラメータにより、入力された音声音響信号の変換係数を補正する音像制御部12、音像制御部12により補正された変換係数を所定の変換法により時間領域の音声音響信号に変換する係数逆変換部13、入力された音像制御情報に従って合成窓関数を生成する合成窓制御部14、係数逆変換部13により逆変換された時間領域の音声音響信号に対し、合成窓制御部14により生成された合成窓関数を乗算する合成窓重畳部15を含んで構成されている。さらに各構成について詳細に説明する。
音像制御パラメータ決定部11は、入力された音像制御情報に基づいて音像制御パラメータを決定する部分である。ただし、音像制御情報とは、対象となる音声音響信号をどこに定位させるかを示す情報であり、距離および方位を示す情報である。なお、その情報の形態は問わない。また、距離に関しての情報は省略することが出来る。この音像制御情報は、CDやDVDなどの記録媒体に記録する際や、通信システムにおいて送信する際に予め設定した情報でもよいし、再生装置においてユーザが任意に設定するものでもよく、その具体的な生成方法は問わない。
また、音像制御パラメータ決定部11は、音像制御情報の指定する位置に定位させるための音像制御パラメータを決定する。ここで、音像制御パラメータ決定部11は、音像制御パラメータを複数保持し、音像制御情報により指定される指定位置に応じて選択してもよいし、当該指定位置に基づいて演算により音像制御パラメータを算出するようにしてもよい。ここで、音像制御パラメータとは、頭部伝達関数の周波数スペクトルを表現する変換係数や、チャネル間でのスペクトル強度差、位相差または時間差などの簡略化したパラメータが考えられるが、その形態は問わない。また、この変換係数は、振幅情報または位相情報のうち少なくとも一方を含むパラメータであってもよい。
つぎに、入力された変換係数が、式(3)のMDCTによる変換係数XMDCT(k)であり、音像制御情報に指定された定位位置を表現する頭部伝達インパルス応答がh(n)であったときの音像制御パラメータH(k)の一例を式(4)または式(5)に示す。
さらに、位相情報について、両耳間の位相差情報を用いることで、
として表すことも考えられる。ここで、w(n)はMDCTの分析窓関数、x(n)は音声音響信号、Mはフレーム長、Δf(k)は両耳間位相差である。上記の例では、ヘッドフォンを利用した、左右両耳への立体音再生を想定しているが、複数個のスピーカを利用した立体音再生では、h(n)は立体感を得るためのFIRフィルタ係数、Δf(k)はチャネル間の位相差として考えることができる。また、音像制御パラメータは振幅特性または位相特性の少なくとも一方を表現したものであればよく、当然ながらこれに限ったものではない。
音像制御部12は、入力された変換係数を、上述の音像制御パラメータを用いて補正する。具体的には、位相をずらすなどの補正を行うことにより、音声音響信号の定位させる位置を制御するものである。ここで、入力される変換係数は、音声音響信号を第一の変換法により変換した変換係数のうち、全帯域の変換係数でもよいし、一部の帯域の変換係数でもよい。ただし、一部の帯域の変換係数である場合、出力される音声音響信号は、当然に変換係数の周波数帯域に該当する成分のみからなる信号となる。音像制御パラメータが式(4)に示すような伝達関数であった場合、具体的には、入力された式(3)のMDCTによる変換係数であるMDCT係数に対して乗算処理を行うことにより実現される。音像制御パラメータの表現によっては、加算や減算により補正することも考えられる。
係数逆変換部13は、音像制御部12により補正された変換係数を時間領域の音声音響信号に変換する。ここで、上述の例にある補正されたMDCT係数を時間領域に変換する変換法としては、以下の式(6)に示されるMCLT(Modulated Complex Lapped Transform:変調複素重複変換)を利用して、時間領域に変換することが考えられる。
合成窓制御部14は、入力された音像制御情報に従って合成窓関数を生成する。合成窓制御部14は、合成窓関数を複数保持しておき、音像制御情報による指定位置に応じて一の合成窓関数を選択してもよいし、当該指定位置に基づいて演算により一の合成窓関数を算出するようにしてもよい。例として、式(5)に示されるように音像制御パラメータの位相情報がチャネル間位相差であり、かつ線形位相であった場合、MDCTの再構成性を満たすように、窓関数に対し位相差に対応する時間シフトを適用することが考えられる。
換言すれば、音像制御のためにあるチャネルの音声音響信号を+δサンプル遅延させる場合には、合成窓関数についても位相操作により+δサンプル遅延させる。ただし、δは整数である必要はない。また、周波数領域での乗算による畳み込み演算により、窓関数における端部に歪が生じる場合がある。つまり、いわゆる時間折り返し歪が発生する場合があるが、この時間折り返し歪を低減するため、窓関数の両端のうち少なくとも一方の値を抑制するなどの工夫も考えられる。合成窓制御の方法については、これに限定されない。
また、合成窓制御部14は、音像制御情報に従った合成窓関数を生成することに限定されるものではなく、音像制御パラメータにしたがって合成窓関数を生成するようにしてもよい。その場合には、音像制御パラメータ決定部11から音像制御パラメータが合成窓制御部14に入力される必要がある。
合成窓重畳部15は、係数逆変換部13から出力された時間領域の音声音響信号に対し、合成窓制御部14から出力された合成窓関数を乗算する。MDCTのようなLOTでは窓長の一部をオーバラップさせていくことで、最終的な音声音響信号を得るため、合成窓重畳部15の出力信号をオーバラップ加算していく必要がある。なお、オーバラップ加算の具体的方法は問わない。
本実施形態では、1チャネルの音像制御装置1について記述したが、実際の音像制御装置は立体感を得るために複数の出力が必要となる。ここで、複数チャネルのうち、少なくとも1つが本実施形態の音像制御装置1を含んでいるものとする。つまり、例えばヘッドフォン再生をする場合、左右の耳に提示するうち、左または右の復号にのみ本実施形態の音像制御装置1を使用しても、音像制御の効果を得ることができる。
つぎに、このように構成された音像制御装置1の動作について説明する。図2は、音像制御装置1の動作を示すフローチャートである。まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S101)。音像制御情報は音像制御パラメータ決定部11に入力され、音像制御パラメータ決定部11により音像制御パラメータが決定される(S102)。また、音像制御情報は、合成窓制御部14に入力され、合成窓制御部14により一の合成窓関数が決定される(S103)。
また、入力端子から入力された変換係数は、音像制御部12に入力され、音像制御が行われる。ここでは、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われる(S104)。
音像制御が行われた変換係数は、係数逆変換部13により逆変換され、周波数領域の変換係数から時間領域における音声音響信号に変換される(S105)。そして、この音声音響信号は、合成窓重畳部15により合成窓制御部14で決定された合成窓関数と重畳される(S106)。合成窓重畳部15により重畳された音声音響信号は、出力端子(図示せず)から出力される(S107)。
このように処理されることにより、音像制御パラメータにより補正された変換係数が逆変換され、適切な合成窓関数と重畳することにより、歪を低減することができる。よって、MDCTによる変換処理を行った場合でも、DFTを用いた処理を行うことなく、演算効率のよい処理を行うことができる。
続いて、第2の実施形態に係る音像制御装置2について説明する。図3は、第2の実施形態に係る音像制御装置2の構成を示すブロック図である。この音像制御装置2は、音像制御装置1に、変換係数を周波数帯域に分割する帯域分割部22と、複数の音像制御部23a〜23x、および分割された変換係数を合成する帯域合成部24を加えた構成である。以下、各構成要素について説明する。
音像制御パラメータ決定部21は、入力された音像制御情報に基づいて音像制御パラメータを決定する部分である。ここで、音像制御パラメータは帯域ごとに異なった値・表現であってもよい。
帯域分割部22は、入力された変換係数を任意の周波数帯域ごとに分割する部分である。ここで、分割する帯域幅は、一様であってもよいし、人間の聴覚特性を反映した臨界帯域に沿った非一様なものでもよく任意である。
音像制御部23a〜23xは、帯域分割部22により分割された各変換係数を、音像制御パラメータ決定部21により決定された音像制御パラメータを用いてそれぞれ補正する。ここで、音の定位感に重要でない帯域、例えば位相差を判別できない程度の所定の帯域より高い帯域に関しては、音像制御処理を省略することで、演算量を削減することも可能である。これは人間の聴覚は所定の帯域より高い帯域についてその位相差を判別できないためであり、その場合には、省略しても音質上何ら問題はないためである。本実施形態では、その帯域に該当する音像制御部23i(iは任意の音像制御部23を示す)を機能させないようにすることにより、演算量の削減を可能とする。
帯域合成部24は、音像制御部23a〜23xより出力された各変換係数を全帯域にわたって合成する。
係数逆変換部25は、帯域合成部24により合成された変換係数を時間領域の音声音響信号に変換する。
合成窓制御部26は、入力された音像制御情報に従って一の合成窓関数を生成する。ここで、帯域によって音像制御情報が異なる場合、任意の一の帯域の音像制御情報を用いて合成窓制御を行ってもよいし、複数の音像制御情報を用いて合成窓制御を行ってもよい。複数の音像制御情報を用いる方法として、任意の周波数帯域のうち、最も広い帯域を占める音像の音像制御情報を採用する方法や、複数の音像制御情報の平均値や加重平均値などの中間値を採用する方法が考えられる。例えば、10個に分割した周波数帯域のうち、8個の帯域は+60度方向、のこり2個の帯域は+10度方向に定位させる場合、前者の方法では、音像制御情報として+60度方向に定位させることを示す情報を、後者の方法では、音像制御情報として、+50度方向に定位させることを示す情報を用いて合成窓制御を行う。この合成窓関数の具体的な生成方法は、第1の実施形態における合成窓制御部14と同じである。
合成窓重畳部27は、係数逆変換部25により変換された時間領域の音声音響信号に対し、合成窓制御部により生成された合成窓関数を乗算し、出力信号を得る。そして、出力端子(図示せず)を介して出力信号を出力することになる。
つぎに、このように構成された音像制御装置2の動作について説明する。図4は、音像制御装置2の動作を示すフローチャートである。まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S201)。音像制御情報は音像制御パラメータ決定部21に入力され、音像制御パラメータ決定部21により音像制御パラメータが決定される(S202)。また、音像制御情報は、合成窓制御部26に入力され、合成窓制御部26により一の合成窓関数が決定される(S203)。
また、入力端子から入力された変換係数は、帯域分割部22により所定帯域毎に分割される(S204)。そして、分割された各帯域の変換係数は、各音像制御部23a〜23xに入力され、音像制御が行われる。ここでは、音像制御パラメータ決定部21により複数の音像制御パラメータが帯域毎に決定され、それぞれ帯域毎に定められた音像制御部23a〜23xに入力される。各音像制御部23a〜23xにおいては、それぞれ定められた音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御部23aにおいては音像制御パラメータを、時間サンプルをδずらすようなパラメータとし、これとは別の音像制御部23bにおいては時間サンプルを2δずらすようなパラメータに設定し、それぞれ位相をずらす補正が行われる(S205)。
音像制御部23a〜23xにおいて音像制御が行われ、帯域合成部24により合成される(S206)。そして、合成された変換係数は、係数逆変換部25により逆変換され、周波数領域の変換係数から時間領域における音声音響信号に変換される(S207)。そして、この音声音響信号は、合成窓重畳部27により合成窓制御部26で決定された合成窓関数と重畳される(S208)。合成窓重畳部27により重畳された音声音響信号は、出力端子(図示せず)から出力される(S209)。
このように処理されることにより、各帯域における音像制御パラメータにより変換係数が補正され、この変換された変換係数が合成されて逆変換され、適切な合成窓関数と重畳することにより、その歪を低減することができる。よって、MDCTによる変換処理を行った場合でも、DFTを用いた処理を行うことなく、演算効率のよい処理を行うことができる。
ところで、第2の実施形態における合成窓制御部26は、音像制御情報に基づいて合成窓関数を生成しているが、音像制御部23a〜23xから出力される振幅情報を加えて合成窓関数を生成するようにしてもよい。図5は、第2の実施形態の変形例における音像制御装置2aの構成を示すブロック図である。
図5に示すように合成窓制御部26aは、音像制御情報に加えて、各帯域の変換係数の振幅情報に基づき合成窓制御を行うことも可能である。振幅情報の具体的な利用方法としては、例えば、合成窓制御部26aは、各音像制御部23a〜23xから出力される振幅情報のうち振幅の絶対値、絶対値平均、自乗値または自乗平均値が一番大きい帯域を検出し、その帯域に付加する遅延時間量と同じ遅延時間量を窓関数に付加することで合成窓関数を生成する。また、帯域の振幅が均衡している場合は、これら主要な帯域に付加する遅延時間量の加重平均値などの中間値を窓関数に付加することも考えられ、振幅情報から窓関数生成を行う方法についてはこれに限定されない。
例えば、この他に合成窓関数を生成する方法として、以下の合成窓制御部26aが考えられる。すなわち、合成窓制御部26aは、各帯域の振幅情報と帯域幅とから、各音源の占める割合を算出し、全体または任意の周波数帯域のうち、最も割合の大きい音源を検出する。そして、その音源に付加する遅延時間量と同じ遅延時間量を窓関数に付加する。また、音源のパワーが均衡している場合は、これら主要な音源に付加する遅延時間量の加重平均値などの中間値を窓関数に付加することも考えられる。
以上の振幅情報の利用例について、図15を用いて説明する。図15は、帯域分割した音声音響信号の変換係数を模式的に示したものである。図15に示されているように、各帯域に割り振られている符号AおよびBは、各帯域の音像制御情報(音声音響信号を定位させる位置を示す位置情報)である。振幅の自乗値が最も大きい帯域を検出する方法では、合成窓制御部26aは、最も大きい帯域をもつAを選択する。一方、全体に対して占める割合の最も高い音源を検出する方法では、合成窓制御部26aは、Aで示される面積より広いBを検出する。
また、任意の閾値を決めて、これらの検出方法を切り替えて使用することも可能である。例えば、合成窓制御部26aは、面積の差が閾値以下である場合には、振幅の自乗値が最も大きい帯域をもつ音像制御情報(上述の例ではA)を検出するようにし、面積の差が所定値より大きければ、全体に対して占める割合が最も高い音像制御情報(上述の例ではB)を検出するようにする。
これにより、聴覚的に最も聞こえやすい帯域にかかる歪量を抑えることができ、聴覚的な改善を得ることが可能となる。
また、聴覚的な改善をより得るために、振幅情報を利用する際に、人間の聴覚における感度の周波数依存性を考慮し、周波数に応じて重み付けを行うことや、大きな音の近傍にある小さな音は聞こえにくいというマスキング現象を利用し、聴覚的に重要な周波数帯域の振幅情報のみを用いるといった方法が考えられる。
本実施形態では、音像制御部23a〜23xから出力される変換係数を合成窓制御部26aへ入力しているが、図16に示すとおり、音像制御部23a〜23xへの入力前の各変換係数、すなわち帯域分割部22により各帯域に分割された複数の変換係数を合成窓制御部26aの入力とすることも当然に可能である。
また、図17に示すとおり、音像制御装置2cが音声音響復号機能である音声音響復号部20を備えている場合、この音声音響復号部20は、入力された入力信号である入力ビット配列を復号し、変換係数を抽出するとともに、振幅情報若しくは当該振幅情報を示すパラメータを抽出することができる。そして、音声音響復号部20は、振幅情報若しくは当該振幅情報を示すパラメータを合成窓制御部26に出力するとともに、変換係数を帯域分割部22に出力する。
合成窓制御部26は、入力された振幅情報若しくは当該振幅情報に準じたパラメータに基づいて合成窓関数を生成する。また、帯域分割部22は、音声音響復号部20から出力された変換係数を所定周波数帯域ごとに分割する。
ここで、振幅情報に準じたパラメータとは、周波数帯域の利得情報、変換係数の逆量子化に用いる量子化ステップのサイズまたはビット割当て量が考えられるが、これに限らず周波数帯域ごとの音の大きさや聴覚的な重要度を示すパラメータであればよい。また、これらの情報を利用する際においても、聴覚の感度重みやマスキング効果を利用できる。
この音像制御装置2a〜2cの動作は、音像制御装置2とほぼ同じであるが、図4におけるS203で、合成窓関数を生成する際に、音像制御情報に加えて、各帯域における振幅情報、例えば各音像制御部23a〜23xから出力された振幅情報に基づいて合成窓関数は生成されることになる。
つぎに、第3の実施形態に係る音像制御装置3について説明する。図6は、音像制御装置1を複数チャネル分備えた音像制御装置3の構成を示すブロック図である。
この音像制御装置3は、音像制御パラメータ決定部31、合成窓制御部32、チャネル毎に備えられた複数の音像制御部33a〜33x、チャネル毎に備えられた複数の係数逆変換部34a〜34x、およびチャネル毎に備えられた複数の合成窓重畳部35a〜35xを含んで構成されている。
音像制御パラメータ決定部31は、音像制御情報に基づいて、音像制御パラメータを決定する。ここで、音像制御パラメータの位相情報はチャネル間時間差情報またはチャネル間位相差情報である。音像制御パラメータ決定部31は、各チャネルへの付加遅延時間量または付加遅延位相量を調整して音像制御パラメータを決定する。配分の方法としては、例えば付加遅延量の絶対値の総和を最小とする方法や、絶対値の最大値を最小とする方法が考えられる。
付加遅延量の絶対値の総和を最小とする場合、例えば音像制御部33a〜33cからなる3チャネルの音像制御部を有する音像制御装置3において、10、8、6サンプルの遅延を付加する場合、+2、0、−2サンプルの遅延として配分する。また、絶対値の最大値を最小とする場合、例えば音像制御部33a〜33bからなる2チャネルの音像制御部を有する音像制御装置3において、4、0サンプルの遅延を付加する場合、+2、−2サンプルの遅延として配分する。付加遅延量をより小さい値に変換することにより、音像制御による歪をより抑えることが可能となる。一般に、遅延量の絶対値が大きい場合、音声音響信号の歪は大きくなる傾向にあるが、上述の通り絶対値の総和をより小さくなるようにまたは絶対値の最大値をより小さくように、音像制御パラメータを調整することで、音声音響信号における歪をより小さくすることができる。
合成窓制御部32は、合成窓制御部14と同様に入力された音像制御情報に従って合成窓関数を生成する。さらに加えて、合成窓制御部32は、音像制御パラメータ決定部31により決定され、上述の通り調整された音像制御パラメータに基づいて各チャネルへの付加遅延時間量または付加遅延位相量に対応した合成窓関数をチャネル毎に生成する。
音像制御部33a〜33xは、入力された変換係数に対し、音像制御パラメータ決定部31により決定された各音像制御パラメータを用いて補正を行う。
係数逆変換部34a〜34xは、音像制御部33a〜33xにより補正された各変換係数を、第二の変換法により時間領域の音声音響信号に変換する。
合成窓重畳部35a〜35xは、係数逆変換部34a〜34xにより逆変換された各チャネルの音声音響信号を、合成窓制御部32によって生成された各合成窓関数と乗算することにより重畳し、重畳した音声音響信号を、出力端子(図示せず)を介して各チャネルの出力信号として出力する。
つぎにこのように構成された音像制御装置3の動作について説明する。図7は、音像制御装置3の動作を示すフローチャートである。
まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S301)。音像制御情報は音像制御パラメータ決定部31に入力され、音像制御パラメータ決定部31により各音像制御部33a〜33xに対する音像制御パラメータが決定される(S302)。また、音像制御情報は、合成窓制御部32に入力され、合成窓制御部32により、各音像制御部33a〜33xに対応した各合成窓重畳部35a〜35xに入力させるための複数の合成窓関数が生成される(S303)。
また、入力端子から入力された変換係数は、音像制御部33a〜33xに入力され、音像制御が行われる。ここでは、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われる(S304)。
各音像制御部33a〜33xにおいて音像制御が行われた変換係数は、各係数逆変換部34a〜34xにおいて逆変換され、周波数領域の変換係数から時間領域における音声音響信号にそれぞれ変換される(S305)。そして、変換された複数の音声音響信号は、合成窓重畳部15により合成窓制御部14で決定された、上述音像制御部33a〜33xに対応する合成窓関数と重畳される(S306)。合成窓重畳部15により重畳された各音声音響信号は、それぞれの出力端子(図示せず)から出力される(S307)。
これにより、チャネル毎に音像制御パラメータを設定することができ、チャネル毎に定められたより適切な音像パラメータを用いて音像制御を行うことができる。よって、音像の定位感を向上させることができる。また、チャネル時間差情報またはチャネル間位相差情報をより小さい値または最小値にすることで、その歪をより低減することができる。
つぎに、第4の実施形態に係る音像制御装置4について説明する。図8は、音像制御装置2を上述の音像制御装置3と同じく複数チャネル分備えた音像制御装置4の構成を示すブロック図である。
音像制御装置4は、図3に示した音像制御装置2と同じく、入力された変換係数を複数チャネルで音像制御し再生するものである。音像制御装置4は、帯域分割部41、音像制御部42Aa〜42Xx、音像制御パラメータ決定部43、合成窓制御部44、帯域合成部45a〜45x、係数逆変換部46a〜46x、および合成窓重畳部47a〜47xを含んで構成されている。本実施形態においては、音像制御装置4は、帯域分割部41および帯域合成部42Aa〜42Xxを用いて、チャネルごとに音声パラメータによる補正を行うとともに、各チャネルにおける周波数帯域ごとに音像制御パラメータを分割して制御する。以下、各構成について説明する。
音像制御パラメータ決定部43は、前記音像制御装置3における音像制御パラメータ決定部31と同じく、音像制御情報に従って音像制御パラメータを生成するとともに、各チャネルへの付加遅延時間量または付加遅延位相量を調整した音像制御パラメータを決定することができる。
合成窓制御部44は、音像制御装置3における合成窓制御部32と同じく、音像制御パラメータ決定部43により調整された各チャネルへの付加遅延時間量または付加遅延位相量に対応した合成窓関数を生成することができる。
そのほか、帯域分割部41、音像制御部42Aa〜42Xx、帯域合成部45a〜45x、係数逆変換部46a〜46x、および合成窓重畳部47a〜47xは、図3における帯域分割部22、音像制御部23a〜23x、帯域合成部24、係数逆変換部25、および合成窓重畳部27と同じ動作を行うよう構成されている。
つぎに、この音像制御装置4の動作について説明する。図9は、音像制御装置4の動作を示すフローチャートである。
まず、音像制御情報および変換係数が、入力端子(図示せず)を介して入力される(S401)。音像制御情報は音像制御パラメータ決定部43に入力され、音像制御パラメータ決定部43により、各チャネルおよび各帯域における各音像制御部42Aa〜42Xxに対する音像制御パラメータが決定される(S402)。また、音像制御情報は、合成窓制御部44に入力され、合成窓制御部44により、各チャネルに対応した各合成窓重畳部47a〜47xに入力させるための複数の合成窓関数が決定される(S403)。
また、入力端子から入力された変換係数は、帯域分割部41により所定の帯域に分割され(S404)、分割された変換係数は各帯域に対応した音像制御部42Ia〜42Ix(Iは各チャネルに対応した音像制御部を示す)に入力され、音像制御が行われる(S405)。この音像制御は、各チャネルにおける音像制御部でも同様に行われる。なお、上述したのと同様に、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われ、チャネルに対応したおよび帯域に対応した音像制御パラメータに従った音像制御が行われる。
各音像制御部42Aa〜42Xxにおいて音像制御が行われた変換係数は、チャネル毎に合成される(S406)。チャネル毎に合成された変換係数は、各係数逆変換部46a〜46xにおいて逆変換され、周波数領域の変換係数から時間領域における音声音響信号にそれぞれ変換される(S407)。そして、変換された複数の音声音響信号は、合成窓重畳部47a〜47xにより合成窓制御部44で決定された、各チャネルに対応する合成窓関数と重畳される(S408)。合成窓重畳部47a〜47xにより重畳された各音声音響信号は、それぞれの出力端子(図示せず)から出力される(S409)。
このように処理されることにより、各帯域における音像制御パラメータにより変換係数が補正され、この変換された変換係数が合成されて逆変換され、適切な合成窓関数と重畳することにより、その歪を低減することができる。よって、MDCTによる変換処理を行った場合でも、DFTを用いた処理を行うことなく、演算効率のよい処理を行うことができる。さらに、チャネル毎に音像制御パラメータを設定することができ、チャネル毎に定められたより適切な音像パラメータを用いて音像制御を行うことができる。よって、その歪をより低減することができる。
ところで、第4の実施形態における合成窓制御部44は、音像制御情報に基づいて合成窓関数を生成しているが、音像制御部42Aa〜42Xxから出力される振幅情報を加えて合成窓関数を生成するようにしてもよい。図10は、第4の実施形態の変形例における音像制御装置4aの構成を示すブロック図である。
図10に示すように合成窓制御部44aは、図5における合成窓制御部26aと同様に、音像制御情報に加えて、各帯域の変換係数の振幅情報に基づき合成窓制御を行うことも可能である。
ここで具体的な方法としては、合成窓制御部44aは、チャネル毎に区別して振幅情報を受信することが好ましい。合成窓制御部44aでは、このようにチャネル毎に区別して振幅情報を受信すると、チャネル毎に各帯域における振幅情報のうち振幅の絶対値平均が大きい帯域を検出し、その帯域に付加する遅延時間量と同じかまたは近い遅延時間量をチャネル毎に生成された窓関数に付加することができる。よって、チャネル毎に適切な窓関数を生成することができる。
これにより、聴覚的に最も聞こえやすい帯域にかかる歪量を抑えることができ、聴覚的な改善を得ることが可能となる。本実施形態では、音像制御部42Aa〜42Xxから出力される変換係数を合成窓制御部44aへ入力しているが、音像制御部42Aa〜42Xxへの入力前の各変換係数、すなわち帯域分割部22により各帯域に分割された複数の変換係数を合成窓制御部26aの入力とすることも当然に可能である。
つぎに、図11に示す第5の実施形態に係る音像制御装置5について説明する。この音像制御装置5は、下記文献1に記載されているBCC(Binaural Cue Coding:両耳音キュー符号化) Type Iにおいて符号化された立体音響である入力信号を処理するものである。
本実施形態の音像制御装置5の説明に先立って、下記文献1に記載されている両耳音キュー符号化を行う装置について説明する。
文献1に記載されているBCCは複数チャネルの音声音響信号を圧縮し、復号時に立体音として再生するための効率的な符号化方法である。
文献1 “Binaural Cue Coding : A novel andefficient representation ofspatial audio,” C. Faller and F. Baumgarte, Proc.ICASSP 2002, 2002.
図12は、BCC Type Iの符号化装置6の構成を示すブロック図である。この符号化装置6では、時間−周波数変換部61a〜61xが各チャネルの入力信号(1)〜(x)をDFT係数などの変換係数に変換し、帯域分割部62a〜62xはそれぞれの変換係数をy個の周波数帯域に分割する。最大強度チャネル決定部63a〜63yにおいては、y個に分割された周波数帯域の変換係数を各チャネルから入力し、同じ帯域の変換係数において最大強度の変換係数を有するチャネルを決定する。すなわち、帯域ごとに各チャネルの強度を比較し、最も強度の大きいチャネル(インデックス情報)を決定する。補助情報符号化部64は、各周波数帯域において最大のチャネルを示すチャネル情報を入力し、補助情報として符号化する。この最大強度のチャネル(インデックス情報)は、各帯域における音声音響信号を定位させる定位位置を示す識別子としての役割を有するものである。
また、音声音響信号合成部65は、入力信号(1)〜(x)を入力し、合成する。そして、音声音響符号化部66は、所定の符号化方法で符号化してモノラル信号を得て、多重化部67は、符号化された符号化音声音響信号と符号化補助情報とを多重化し、出力信号として多重化した多重化情報を出力する。なお、上述の補助情報および音声音響信号はハフマン符号化などで符号化されることが考えられる。
このように構成された符号化装置6は、主にネットワーク上に配置されているサーバに設置されており、通話されている音声情報を集約して、通信相手に送信することで、ネットワーク上の負荷を低減しようとするものである。
このような符号化装置6から出力された多重化信号をBCC Type I復号装置として適用した音像制御装置5が入力し、再生する。以下、図11の音像制御装置5の構成について説明する。この音像制御装置5は、逆多重化部500、復号部501、復号部502、音像制御情報変換部50、音像制御パラメータ決定部51、帯域分割部52、音像制御部53Aa〜53Bx、帯域合成部54a〜54b、係数逆変換部55a〜55b、合成窓制御部56、および合成窓重畳部57a〜57bを含んで構成されている。
逆多重化部500は、BCC Type I符号化装置6により多重化された多重化信号を入力し、符号化補助情報と符号化音声音響信号とに分離する部分である。なお、入力された多重化信号は、複数チャネルの音声音響信号をモノラル信号にミックスダウンし、MDCTなどの変換をかけた変換係数であるが、その具体的な生成方法については、上述のBCC Type I符号化装置6を用いた生成方法に限定するものではない
復号部501は、逆多重化部500において逆多重化されて得られた符号化音声音響信号を復号する部分である。
復号部502は、逆多重化部500において逆多重化されて得られた符号化補助情報を復号する部分である。
音像制御情報変換部50は、復号部502により復号されて得られた補助情報を音像制御情報に変換する部分である。この音像制御情報変換部50には、逐次ユーザ設定により、またプリセットにより補助情報(インデックス情報)と音像制御情報とが対応付けて記憶されており、音像制御情報変換部50は、入力された補助情報に基づいて、その補助情報に対応する音像制御情報に変換する。例えば、音像制御情報変換部50において、入力信号(1)の信号を定位させる位置として「2時の方向」と設定されていた場合、入力された補助情報は2時の方向の位置で定位させるような音像制御情報に変換される。なお、音像制御情報変換部50は、図12に示されるBCC符号化装置6において生成された補助情報に限るものではなく、少なくとも各帯域における音声音響信号を定位させる定位位置を示す識別子としての役割を有するインデックス情報であればよい。
音像制御パラメータ決定部51は、音像制御情報変換部50により変換された音像制御情報に基づいて、各帯域の定位位置に対応した音像制御パラメータを決定する。
帯域分割部52は、逆多重化部500により分離された音声音響信号の変換係数を入力し、任意の周波数帯域ごとに分割する。帯域分割部52は、分割した変換係数を左チャネルと右チャネルとにそれぞれ出力する。
音像制御部53Aa〜53Bxは、音像制御パラメータ決定部51により決定された音像制御パラメータを用いてそれぞれ補正する。
帯域合成部54a〜54bは、音像制御部53Aa〜53Bxにおいて音像制御された変換係数を、それぞれチャネル毎に、すなわち音像制御部53Aa〜53Ax、音像制御部53Ba〜53Bxごとに合成する。
係数逆変換部55a〜55bは、それぞれの帯域合成部54a〜54bにおいて合成された変換係数を時間領域の音声音響信号に変換する。
合成窓制御部56は、音像制御情報変換部50により変換された音像制御情報、および音像制御部53Aa〜53Bxから出力される変換係数の振幅情報に基づきそれぞれのチャネルに対応した合成窓関数を生成し、合成窓制御を行う。なお、音像制御部53Aa〜53Axおよび音像制御部53Ba〜53Bxの振幅情報を区別して入力し、それぞれのチャネルにあった合成窓関数を生成するようにすることが好ましい。また、合成窓制御部56における具体的な合成窓関数の生成方法は、図10における合成窓制御部44aと同等の方法を用いる。
合成窓重畳部57aおよび57bは、係数逆変換部55aおよび55bより出力された時間領域の音声音響信号に対し、合成窓制御部より出力された各合成窓関数をそれぞれ乗算し、最終的に左チャネルおよび右チャネルの出力信号を得て出力する。
つぎに、この音像制御装置5の動作について説明する。図13は、音像制御装置5の動作を示すフローチャートである。逆多重化部500において、例えばBCC type Iにより符号化され、多重化された多重化信号が入力される(S501)。逆多重化部500により、多重化信号は、符号化補助情報と符号化音声音響信号とに分離され、さらにそれぞれの復号部501、502により復号され補助情報および音声音響信号とが得られる(S502)。
分離された補助情報は、音像制御情報変換部50により音像制御情報に変換され、変換された音像制御情報は音像制御パラメータ決定部51に入力され、音像制御パラメータ決定部51においては音像制御情報に基づいた音像制御パラメータが読み出され、各チャネルおよび各帯域の音像制御パラメータが決定される(S503)。
また、入力端子から入力され分離された変換係数は、帯域分割部52により所定の帯域に分割され(S505)、分割された変換係数は各帯域に対応した音像制御部53Aa〜53Axおよび音像制御部53Ba〜53Bxにチャネル毎に入力され、音像制御が行われる(S506)。なお、上述したのと同様に、音像制御パラメータに基づいた変換係数の補正が行われる。例えば、音像制御パラメータが位相をずらすようなパラメータである場合には、位相をずらす補正が行われ、チャネルに対応したおよび帯域に対応した音像制御パラメータにしたがった音像制御が行われる。
各音像制御部53Aa〜53Bxにおいて音像制御が行われた変換係数は、チャネル毎に合成される(S507)。チャネル毎に合成された変換係数は、各係数逆変換部55a〜55bにおいて逆変換され、周波数領域の変換係数から時間領域における音声音響信号にそれぞれ変換される(S508)。そして、変換された複数の音声音響信号は、合成窓重畳部57a〜57bにより合成窓制御部56で決定された、各チャネルに対応する合成窓関数と重畳される(S509)。合成窓重畳部57a〜57xにより重畳された各音声音響信号は、それぞれの左右の出力端子(図示せず)から出力される(S510)。
このように、BCC Type Iの符号化装置6で符号化された多重化信号などのように、音像制御情報にかえて各帯域における最大強度のチャネルを示すインデックス情報を補助情報として入力し、その補助情報に従った音像制御パラメータに基づいた音像制御および合成窓制御を行うことができる。
一方、BCC Type Iの符号化装置6に対してBCC Type II符号化装置がある。このBCC Type II符号化装置は、5.1chサラウンドシステムなど複数チャネル音源データを効率的に符号化し、復号装置では復号時に再生音場を再構成する符号化法である。BCC Type II符号化装置およびそれに対応する復号装置は入力チャネル間の強度差、位相差情報およびチャネル間の相関情報を利用するが、基本的な考え方はBCC Type Iの符号化装置6およびそれに対応する復号装置と同じである。
つぎに、第6の実施形態に係る音像制御装置7aについて説明する。図18は、音像制御装置2a(図5参照)に音像再制御部28a〜28xを加えた構成である音像制御装置7aの構成を示すブロック図である。
この音像制御装置7aは、音像制御装置2aと比較して、音像制御パラメータ決定部21a、合成窓制御部26b、および音像再制御部28a〜28xを備えている点で、相違している。以下、これら相違点を中心に各構成について説明する。
合成窓制御部26bは、音像制御情報および音像制御部23a〜23xから出力される振幅情報に基づき、歪を抑制する合成窓関数を生成し、出力する部分である。また、合成窓制御部26bは、各帯域における振幅情報に基づいて合成窓制御情報を生成し、音像制御パラメータ決定部21aに出力する部分である。すなわち、合成窓制御部26bは、音像制御情報で定められている各位置情報で占める、全帯域における割合をそれぞれ算出し、最も多く占める位置情報を把握し、これを合成窓制御情報(音像制御パラメータ変更情報)とする。なお、この合成窓制御情報は、合成窓重畳による歪抑制の効果をより得るために生成された情報であり、音声音響信号を定位させる位置を示す位置情報(すなわち音像制御情報に相当)若しくは位置情報に基づいて生成されたパラメータ情報であってもよい。
音像制御パラメータ決定部21aは、外部から入力された音像制御情報に基づいて音像制御パラメータを生成するとともに、合成窓制御部26bから出力された合成窓制御情報に基づいて、先に生成された音像制御パラメータを変更する部分である。すなわち、一旦決定された音像制御パラメータにより音像制御された変換係数に基づいて合成窓制御情報が生成され、この合成窓制御情報に基づいて、所定閾値以上の周波数帯域に対応付けられている音像制御パラメータは変更される。
音像再制御部28a〜28xは、変更された音像制御パラメータを用いて音像制御部23a〜23xから出力された変換係数をそれぞれ補正し、帯域合成部24に出力する。
他の構成およびその処理については、音像制御装置2aと同じであるため、その説明を省略する。
つぎに、音像制御パラメータの変更方法について図19を用いて具体的に説明する。図19は、ある時間フレーム(変換係数)において、変換係数の電力と音像制御情報(例では定位位置)との関係を示す説明図である。
図19においては、音声音響信号の定位位置Aと定められた周波数に対して、音像制御パラメータとして遅延時間量+10が与えられ、音声音響信号の定位位置Bと定められた周波数に対して、音像制御パラメータとして遅延時間量+6が与えられている。ただし、この遅延対象となる変換係数は、図18に示されているように音像制御部23a〜23xにより既に補正されていてもよいし、音像制御部23a〜23xに入力する前の値であってもよい。
図19で示すように、合成窓制御部26bは、全帯域において、その電力値(図15で示される面積に相当)の占める割合が大きい定位位置は定位位置Aと把握し、これを音像制御情報として音像制御パラメータ決定部21aに出力する。そして、音像制御パラメータ決定部21aは、音像制御情報を入力すると、所定閾値以上の周波数に対しては、定位位置Aに合わせた音像制御パラメータに変更する。例えば、本実施形態においては、約1.5kHz以上の周波数帯域では、定位位置Aの音像制御パラメータに合わせるため、定位位置Bの音像制御パラメータ“+6”を“+10”に変更している。
ところで、約1.5kHz以上の周波数帯域では遅延時間量は定位感に及ぼす影響が少ないと一般的に考えられており、よって、1.5kHz以上の周波数帯域に適用する遅延時間量を変更しても定位感は劣化しないと考えられる。そこで、本実施形態においては、合成窓制御による歪抑制の効果をより得るために、1.5kHz以上の周波数帯域に適用する時間遅延量を、合成窓関数に適用する値と同一または近い値に変更することが提案されている。
なお、図19の例では、音像制御パラメータを変更する周波数帯域を1.5kHz以上としているが、これに限定したものではない。また、変更する音像制御パラメータは遅延時間量に限らず、聴覚的な歪を抑制するために歪を多く含む成分を抑制するなどの振幅情報制御をしてもよい。また、音像制御パラメータの変更および再制御については、フレームや帯域によって適用の有無を変更できる。
また、音像制御について、音像制御部23a〜23xでは振幅情報のみを補正し、音像再制御部28a〜28xでは位相情報または遅延位相量もしくは遅延時間量を補正することも可能であり、音像制御部23a〜23xと音像再制御部28a〜28xとにおいて、必ずしも同じパラメータについて二度補正する必要はない。
つぎに、この第6の実施形態の変形例について説明する。図20は、音像制御装置7bの構成を示すブロック図である。図20に示すとおり、この音像制御装置7bは、音像制御パラメータ決定部21a、帯域分割部22、音像制御部23a〜23x、帯域合成部24、係数逆変換部25、合成窓制御部26b、および合成窓重畳部27を含んで構成されている。この音像制御装置7bは、図18における音像制御装置7aと比較して、音像再制御部28a〜28xがなく、帯域分割部22により分割された各帯域における振幅情報に基づいて合成窓制御部26bにより合成窓制御情報が生成され、この合成窓制御情報に基づいて変更された音像制御パラメータに基づいて音像制御を行うことができるよう構成されている。
この音像制御装置7bにおいては、合成窓制御部26bは帯域分割部22により分割された各帯域の振幅情報を入力する。合成窓制御部26bは、この振幅情報に基づいて合成窓制御情報を生成し、音像制御パラメータ決定部21aに出力する。音像制御パラメータ決定部21aは、音像制御情報および合成窓制御情報に基づいて音像制御パラメータを決定する。ここで音像制御パラメータ決定部21aは、上述図19にて説明したとおり、所定周波数を閾値として、音像制御情報に基づいて定められた音像制御パラメータのうち、その所定周波数以上に定められている音像制御パラメータを変更することになる。
そして、各音像制御部23a〜23xは、決定された音像制御パラメータを用いて、各帯域の変換係数を補正する。合成窓制御部26bにおいては任意の周波数帯域に限定して合成窓制御情報を生成することや、聴覚的な重み付けやマスキング効果を利用してもよい。
また、別の変形例として、図21に示される構成が考えられる。図21は、音像制御装置7cの構成を示すブロック図である。図21に示すように、この音像制御装置7cは、音声音響復号部20、音像制御パラメータ決定部21a、帯域分割部22、音像制御部23a〜23x、帯域合成部24、係数逆変換部25、合成窓制御部26b、および合成窓重畳部27を含んで構成されている。
この音像制御装置7cは、図18における音像制御装置7aと比較して、音像再制御部28a〜28xがなく、音声音響復号部20により抽出された振幅情報に基づいて合成窓制御部26bにより合成窓制御情報が生成され、この合成窓制御情報に基づいて変更された音像制御パラメータに基づいて音像制御を行うことができるよう構成されている。
この音像制御装置7cにおいては、音声音響復号部20は、入力ビット配列から抽出された振幅情報または振幅情報に準じた情報を合成窓制御部26bに出力する。合成窓制御部26bは、この振幅情報または振幅情報に準じた情報に基づいて合成窓制御情報を生成し、音像制御パラメータ決定部21aに出力する。音像制御パラメータ決定部21aは、音像制御情報および合成窓制御情報に基づいて音像制御パラメータを決定する。ここで音像制御パラメータ決定部21aは、上述図19にて説明したとおり、所定周波数を閾値として、音像制御情報に基づいて定められた音像制御パラメータのうち、その所定周波数以上に定められている音像制御パラメータを変更することになる。
そして、各音像制御部23a〜23xは、決定された音像制御パラメータを用いて、各帯域の変換係数を補正する。合成窓制御部26bにおいては任意の周波数帯域に限定して、合成窓制御情報を生成することや、聴覚的な重み付けやマスキング効果を利用してもよい。
さらに、別の変形例として図22に示される音像制御装置7dが考えられる。この音像制御装置7dは、図3に示される音像制御装置2と同じブロック構成をとりつつ、合成窓制御部26cは、音像制御情報に基づいて合成窓制御情報を生成し、これを音像制御パラメータ決定部21aにフィードバックさせる点で、音像制御装置2(図3参照)と相違する。この変形例における合成窓制御部26cは、振幅情報を用いることなく周波数帯域ごとの音像制御情報のみから合成窓関数および合成窓制御情報(音像制御パラメータ変更情報)を生成し、これをそれぞれ合成窓重畳部27および音像制御パラメータ決定部21aに出力することも可能である。
例えば、合成窓制御部26cは、周波数帯域ごとに定められている定位させる位置情報を同じにする周波数帯域の数(または帯域幅)が多い位置情報を示す合成窓制御情報を生成し、これを音像制御パラメータ決定部21に出力する。より具体的には、周波数帯域が所定幅ごとに区切られ、それぞれ定位させる位置情報として、定位位置AまたはB(例えば、Aが+60度の方向、Bが+10度の方向)が定められているとする。定位させる位置情報としてAとする周波数帯域が10個、Bとする周波数帯域が2個とした場合には、合成窓制御情報を位置情報Aを示す情報とする。
なお、個数(幅)に基づいて一義的に合成窓制御情報を生成することに限らず、各周波数帯域に対して重み付けを行い、その重み付けにより得られた個数に基づいて合成窓制御情報を生成するようにしてもよい。例えば、1kHzおよびその周辺の帯域は聴覚的に聞こえやすい帯域であるが、1kHzの周波数帯域から離れるにしたがって聴覚的には徐々に聞こえづらい帯域となる。よって、1kHzおよびその所定周波数帯域内の位置情報に対しては所定の重み付け係数を乗算することで(例えば、1kHzおよびその周辺の帯域については、1つの帯域につき2つの帯域があることとするなど)、相対的に1kHzおよびその周辺の位置情報の数を多くなるように管理し、その数に基づいて合成窓制御情報を生成するようにしてもよい。
上述の通り、第6の実施形態およびその変形例においては、音像制御パラメータの変更を、合成窓制御部26bおよび26cにおいて音像制御パラメータの変更のための合成窓制御情報(音声音響信号を定位させる位置情報)を決定しているが、合成窓制御部26bおよび26cとは別の構成で行っても当然によい。例えば、音像制御パラメータ決定部21a内において、合成窓制御情報を生成してもよい。また、本発明の音像制御装置7a〜7dを複数チャネル分備える装置に適用することや、BCCの復号装置として適用することも可能である。
また、本実施形態の音像制御装置においては、第一の変換法としてMDCT以外にMDST(Modified Discrete Sine Transform:修正離散サイン変換)など他のLOTを用いることが考えられ、少なくとも重複直交変換を行う技術において適用することができる。
また、本実施形態の合成窓制御部26、26a、32、44、44aおよび56は、合成窓制御部14と同様に、音像制御情報に従った合成窓関数を生成することに限定されるものではなく、音像制御パラメータにしたがって合成窓関数を生成するようにしてもよい。その場合には、音像制御パラメータ決定部21、31、43および51から音像制御パラメータが合成窓制御部26、26a、32、44、44aおよび56に入力される必要がある。
つぎに、本実施形態の音像制御装置の作用効果について説明する。第1の実施形態の音像制御装置1においては、音像制御パラメータ決定部11が音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する。音像制御部12は、入力された重複直交変換による変換係数を音像制御パラメータに基づいて、位相をずらすなどで、補正する。そして、係数逆変換部13は、補正された変換係数を時間領域の音声音響信号に変換する。
通常、音声音響信号に対して予め定められた固定の合成窓関数を合成窓重畳部が乗算し、オーバラップ加算することで最終的な出力信号である音声音響信号を得ることになるが、このままでは歪が生じてしまうものとなる。
そのため、この歪を低減するために、合成窓制御部14は、音像制御情報に基づいて合成窓関数を生成し、合成窓重畳部15は、音像制御情報に基づいて生成された合成窓関数を乗算して、音声音響信号を得る。これにより、MDCTなどの重複直交変換による変換係数に対して位相をずらすなどの音像制御を行って得られた音声音響信号に生ずる歪を低減することができる。
また、第2の実施形態の音像制御装置2において、音像制御パラメータ決定部21は、音声音響信号を定位させるための音像制御情報に基づいて音像制御パラメータを決定する。また、帯域分割部22は、入力されたMDCTなどの重複直交変換による変換係数を所定周波数帯域ごとに分割する。そして、音像制御パラメータ決定部21により決定された音像制御パラメータに基づいて、各音像制御部23a〜23xは分割された各変換係数を補正し、帯域合成部24は補正された各変換係数を合成する。係数逆変換部25は、合成された変換係数を時間領域の音声音響信号に変換し、合成窓重畳部27は変換された時間領域の音声音響信号に対し、合成窓制御部26において音像制御情報に基づいて生成された合成窓関数を乗算する。これにより、複数の周波数帯域に分割された変換係数に対して適切な音像制御パラメータを決定することができる。
また、第3の実施形態の音像制御装置3は、音像制御部33a〜33x、係数逆変換部34a〜34x、合成窓重畳部35a〜35xのように出力チャネル数分(a〜x)備え、音像制御パラメータ決定部31は、音像制御パラメータを出力チャネル数分生成する。その音像制御パラメータに従って、各音像制御部33a〜33xは補正を行い、合成窓重畳部35a〜35xは、出力チャネル毎に生成された合成窓関数を出力チャネルごとの音声音響信号に対して乗算する。よって、複数チャネルを有する装置において、適切な合成窓関数を用いて歪の低減を行うことができる。
また、第4の実施形態の音像制御装置4は、音像制御パラメータを音像制御部42Aa〜42Xxの数だけ(チャネル数×帯域分割数)生成し、各音像制御部42Aa〜42Xxは、音像制御パラメータに従って補正を行う。帯域合成部45a〜45xにおいて合成し、係数逆変換部46a〜46xにおいて逆変換した後、合成窓重畳部47a〜47xは出力チャネル毎に生成された合成窓関数を出力チャネルごとの音声音響信号に対して乗算する。よって、複数チャネルを有する装置において、適切な合成窓関数を用いて歪の低減を行うことができる。
また、第5の実施形態の音像制御装置5において、音像制御情報変換部50はBCCなどで用いられる、各帯域における音声音響信号を定位させる定位位置を示す識別子であるインデックス情報を音像制御情報に変換し、音像制御パラメータ決定部51は変換した音像制御情報に基づいて音像制御パラメータを決定することができる。よって、BCCなどのインデックス情報に基づいて音像制御を行う技術に対しても、本発明を適用することができ、歪を低減することができる。なお、BCC符号装置およびそれに対応する復号装置においては、各帯域において入力チャネルの最も強度の大きいチャネルを示す情報をインデックス情報として入出力する。
また、第6の実施形態の音像制御装置7b〜7dにおいて、合成窓制御部26bは、音像制御情報、および各帯域における振幅情報を用いて、合成窓関数を生成するとともに、音像制御パラメータ決定部21aにより決定される音像制御パラメータを決定するための合成窓制御情報(音像制御パラメータ変更情報)を生成する。例えば、この振幅情報は、帯域分割部22により分割された周波数帯域のそれぞれの振幅情報、または音声音響復号部20から出力される振幅情報または振幅情報に準じた情報である。
音像制御パラメータ決定部21aは、音像制御情報および合成窓制御部26bにより生成された合成窓制御情報(音像制御パラメータ変更情報)に基づいて、音像制御パラメータを決定する。すなわち、音像制御情報に基づいて音像制御パラメータを決定するとともに、合成窓制御情報に基づいて所定周波数以上の帯域の信号に対応する音像制御パラメータを変更する。音像制御部23a〜23xは、ここで変更された音像制御パラメータを用いて変換係数を補正する。
これにより、振幅の大きい帯域に対する歪を低減するよう音像制御パラメータを決定することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
さらに、第6の実施形態の音像制御装置7aにおいて、音像制御パラメータ決定部21aは、音像制御部23a〜23xに対して所定の音像制御パラメータを出力する。音像制御部23a〜23xは、この音像制御パラメータに従って変換係数の補正を行い、補正された変換係数を音像再制御部28a〜28xに出力する。
一方、各音像制御部23a〜23xは、各帯域における振幅情報を合成窓制御部26bに出力する。合成窓制御部26bは、各帯域における振幅情報に従って、合成窓制御情報を生成する。この合成窓制御情報は、例えば、所定閾値以上における周波数帯域に対して音声音響信号を定位させる位置を示す位置情報であり、位置情報を同じにするそれぞれの周波数帯域のうち、全体の周波数帯域内において最も多くの割合を占める位置情報である。
音像制御パラメータ決定部21aは、合成窓制御部26bからの合成窓制御情報に基づいて、先に決定した音像制御パラメータを変更し、変更した音像制御パラメータを音像再制御部28a〜28xに出力する。音像再制御部28a〜28xは、音像制御部23a〜23xから出力された変換係数を、音像制御パラメータ決定部21aにより変更された音像制御パラメータに基づいて補正する。
これにより、振幅の大きい帯域に対する歪を低減するよう音像制御パラメータを決定することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、本実施形態の音像制御装置1〜5において、音像制御パラメータ11〜51は、音像制御パラメータの位相差情報をチャネル間時間差情報またはチャネル間位相差情報とすることで、音像制御パラメータを簡略化することができる。通常、MDCTを用いて頭部伝達関数により音像制御を行った場合、位相制御が複雑となるため、音声音響信号の歪は大きくなる。よって、位相制御を簡略化することで、最終的な出力として得られる音声音響信号に対する歪を低減することができる。
また、本実施形態の音像制御装置1〜5においては、付加遅延時間量または付加遅延位相量の絶対値の最大値または総和をより小さくなるように記述されていることで、最終的な出力として得られる音声音響信号に対する歪をより効果的に低減することができる。
また、本実施形態の音像制御装置1〜5においては、合成窓制御部11〜56は、時間折り返し歪を低減することができるよう窓関数の両端部分のうち少なくとも一方の値が小さく(通常の窓関数の両端部分より小さい値であり、例えば極めて0に近い値、または0など)設定された合成窓関数を生成し、合成窓重畳部15〜57a・57bはその合成窓関数を用いることで、より効果的に歪を低減することができる。
また、本実施形態の音像制御装置2aまたは4aにおいて、合成窓制御部26aまたは44aは音像制御情報に加えて補正後の変換係数の振幅情報を用いて、合成窓関数を生成することで、振幅の大きい帯域に対する歪を低減することができる。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、上述第2の実施形態の変形例である音像制御装置2bにおいて、合成窓制御部26aは、音像制御情報に加えて帯域分割部22により分割された各信号の振幅情報を用いて、合成窓関数を生成する。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
また、さらなる変形例である音像制御装置2cにおいて、音声音響復号部20は、入力されたビット配列に基づいて、振幅情報に準じたパラメータおよび重複直交変換により生成された変換係数を出力する。合成窓制御部26aは、音像制御情報に加えて振幅情報に準じたパラメータを用いて、合成窓関数を生成する。よって、出力値の大きい帯域に対して特に歪を低減するよう作用することになり、聴覚的に聞えやすい帯域に対する歪を低減することができ、聴覚的な改善を実現できる。
これら変形例は、当然音像制御装置4aにも適用可能である。
なお、上述の実施形態における音像制御装置は、CPU、RAM、ROM等から構成されるコンピュータ、携帯電話、通信装置などに備えられており、ROM等のメモリに記憶されたプログラムにしたがって動作することになる。
1…音像制御装置、2…音像制御装置、2a…音像制御装置、3…音像制御装置、4…音像制御装置、4a…音像制御装置、5…音像制御装置、6…符号化装置、11…音像制御パラメータ決定部、12…音像制御部、13…係数逆変換部、14…合成窓制御部、15…合成窓重畳部、20…音声音響復号部、21、21a…音像制御パラメータ決定部、22…帯域分割部、22a−23x…音像制御部、24…帯域合成部、25…係数逆変換部、26、26a、26b…合成窓制御部、26a…合成窓制御部、27…合成窓重畳部、28a−28x…音像再制御部、31…音像制御パラメータ決定部、32…合成窓制御部、33a−33x…音像制御部、34a−34x…係数逆変換部、35a−35x…合成窓重畳部、41…帯域分割部、42Aa−42Xx…音像制御部、43…音像制御パラメータ決定部、44…合成窓制御部、44a…合成窓制御部、45a−45x…帯域合成部、46a−46x…係数逆変換部、47a−47x…合成窓重畳部、500…逆多重化部、501、502…復号部、50…音像制御情報変換部、51…音像制御パラメータ決定部、52…帯域分割部、53Aa−53Bx…音像制御部、54a−54b…帯域合成部、55a−55b…係数逆変換部、57a−57x…合成窓重畳部、56…合成窓制御部、57a、57b…合成窓重畳部、61a−61x…周波数変換部、62a−62x…帯域合成部、63a−63y…最大強度チャネル決定部、64…補助情報符号化部、65…音声音響信号合成部、66…音声音響符号化部、67…多重化部。