JP4740242B2

JP4740242B2 - 聴覚の情景分析を用いたオーディオ信号の結合

Info

Publication number: JP4740242B2
Application number: JP2007524817A
Authority: JP
Inventors: スミザーズ、マイケル・ジョン
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2004-08-03
Filing date: 2005-07-13
Publication date: 2011-08-03
Anticipated expiration: 2025-07-13
Also published as: PL1787495T3; TW200608352A; MY139731A; BRPI0514059A; HK1101053A1; IL180712A0; ES2346070T3; CA2574834C; ATE470322T1; KR101161703B1; IL180712A; EP1787495A1; CA2574834A1; DK1787495T3; AU2005275257A1; US20060029239A1; TWI374435B; EP1787495B1; MX2007001262A; WO2006019719A1

Description

本発明は、いくつかのオーディオチャンネルが結合されている多チャンネルオーディオ信号のチャンネル数の変更に関する。本発明の応用例には映画館や車両における多チャンネルオーディオの提供が含まれる。本発明には方法だけでなく、コンピュータプログラムによる実施及び装置による実施が含まれる。

最近の数十年間で、多チャンネルオーディオ素材の制作、配給、及び上演が増え続けている。この増加は、５．１チャンネル再生システムがほとんど普遍的になっている映画産業により、最近では５．１多チャンネルミュージックを制作し始めた音楽産業により目覚しく推進されてきた。

一般に、このようなオーディオ素材は、素材として同じ数のチャンネルを持つ再生システムにより上演される。例えば、５．１チャンネルフイルムサウンドトラックは５．１チャンネルシネマ又は５．１チャンネルホームシアターオーディオシステムにより上演される。しかし、例えば、２個又は４個の再生チャンネルしか持たない自動車で５．１チャンネル素材を再生したり、５．１チャンネルシステムしか装備しない映画館で５．１チャンネル以上の映画サウンドトラックを再生したりするような、オーディオ素材のチャンネル数と同じ表現チャンネル数を持たないシステム又は環境中で多チャンネル素材を上演したいという要求は増大している。このような状況の元で、多チャンネル信号を表現するためにいくつかの又はすべてのチャンネルを結合又は「ダウンミックス」したいとするニーズがある。

チャンネルの結合により可聴アーティファクトが生じることがある。例えば、ある周波数成分は、他の周波数成分が強くなったとき又は大きくなったとき打ち消されることがある。結合された２以上のチャンネル中に類似の又は相互に関係のあるオーディオ信号が存在する結果生じることがよくある。

チャンネルを結合した結果生じるアーティファクトを極小化又は削除することが本発明の１つの目的である。本発明の他の目的は、本明細書を読んで理解することにより認識できるであろう。

チャンネルを結合することは、チャンネル数を減少させるためだけではなく他の目的のためにも必要であることに留意しなければならない。例えば、多チャンネル信号中の２つ以上の元のチャンネルを組み合わせである付加的な再生チャンネルを作るニーズがあるかもしれない。これは、元のチャンネル数より多くする「アップミックス」の一形式として特徴づけることもできる。このように、「ダウンミックス」又は「アップミックス」のいずれの状況においても、チャンネルを結合することによりさらなるチャンネルを作ることは、可聴アーティファクトの原因となる可能性がある。

チャンネルを結合することによるアーティファクトを最小限にするために共通する技法は、例えば、結合すべきチャンネル、又は、結合した後のチャンネル、又は、その両方に位相及び振幅（又はパワー）の調整を１回以上加えることを伴う。オーディオ信号は本質的に動的である。即ち、その特性は時間により変化する。したがって、オーディオ信号のそのような調整は一般に動的に計算し適用される。結合処理の結果生じたアーティファクトを削除するときに、そのような動的な処理により他のアーティファクトを生じさせることがある。このような動的な処理によるアーティファクトを最小限にするために、本発明は、聴覚の情景分析を採用し、原則として、聴覚の情景又は聴覚イベントの期間の動的な処理の調整を実質的に一定に保持し、そのような調整の変更を聴覚の情景又は聴覚イベントの境界部でのみ許可する。

［聴覚の情景分析］
サウンドを、別の音と認識される単位に分割することは、しばしば「聴覚イベント分析」又は「聴覚の情景分析」（「ＡＳＡ」）と称される。聴覚の情景分析についての広範な議論はAlbert S. Bregmanの「Auditory Scene Analysis‐The Perceptual Organization of Sund, Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition」に述べられている。

聴覚の情景分析の見地から聴覚イベント（イベントの境界を含む）を特定するための技法は、２００２年２月５日、米国を指定して出願した国際出願ＰＣＴ／ＵＳ０２／０５９９９であって、２００２年１２月５日、ＷＯ０２／０９７７９２として国際公開された出願の米国国内出願であるBrett G. Crockettが２００３年１１月２０に出願した、米国特許出願Ｓ．Ｎ．１０／４７８，５３８、表題「Segmenting Audio Signal into Auditory Events」、代理人受領証ＤＯＬ０９８ＵＳ、に記載されている。この出願は参照としてすべて本明細書に組み込まれる。前記Crockettの出願の聴覚イベントを特定するための応用例は、２００２年２月２２日、米国を指定して出願した国際出願ＰＣＴ／ＵＳ０２／０５３２９であって、２００２年１２月５日、ＷＯ０２／０９７７９０として国際公開された出願の米国国内出願であるBrett G. Crockett及びMichael J. Smithersが２００３年１１月２０に出願した、米国特許出願Ｓ．Ｎ．１０／４７８，３９７、表題「Comparing Audio Using Characterizations Based on Auditory Events」、代理人受領証ＤＯＬ０９２ＵＳ、と、２００２年２月２５日、米国を指定して出願した国際出願ＰＣＴ／ＵＳ０２／０５８０６であって、２００２年１２月５日、ＷＯ０２／０９７７９１として国際公開された出願の米国国内出願であるBrett G. Crockett及びMichael J. Smithersが２００３年１１月２０に出願した、米国特許出願Ｓ．Ｎ．１０／４７８，３９８、表題「Method for time Aligning Audio Signals Using Characterizations Based on Auditory Events」、２００４年７月２９日ＵＳ２００４／０１４８１５９Ａｌとして公開、代理人受領証ＤＯＬ０９２０１ＵＳ、に記載されている。前記Crockett及びSmithersの出願もまたそれぞれ参照としてすべて本明細書に組み込まれる。

前記Crockettの出願及びCrockett/Smithersの出願に記載された技法が、本発明の特徴との関連で特に有用であるものの、聴覚イベントとイベントの境界を特定する他の技法も本発明の特徴として採用される。

本発明の特徴によれば、オーディオチャンネルを結合する方法であって、結合されたオーディオチャンネルを生成するためにオーディオチャンネルを結合するステップと、前記チャンネル、又は、前記結合されたチャンネル、又は、前記チャンネルと前記結合されたチャンネルの両方に、時間と位相と振幅又はパワーのうちの１つ以上の調整を動的に行うステップとを具備し、前記１つ以上の調整は、少なくとも一部は、前記１つ以上のチャンネル及び／又は前記結合されたチャンネルにおける聴覚イベントの指標により制御される。前記調整は、聴覚イベントの最中は実質的に一定になるよう、そして聴覚イベントの境界又は境界の近くで変更を許容するように制御することができる。

本発明の主な目的は結合されたオーディオ信号のサウンドの質を改善することである。これは、例えば、オーディオ信号の時間、位相及び／又は振幅（又はパワー）をさまざまに修正することにより、そして、このような修正の少なくとも一部を聴覚の情景分析情報の指標により制御することにより行われる。本発明の特徴によれば、オーディオ信号に適用される調整は、聴覚イベントの期間は比較的一定に保ち、聴覚イベント同士の境界又は境界近傍又は変わり目で変更を許容する。もちろん、このような調整を各境界毎に行う必要はない。そのような調整に対する制御は、各チャンネルの聴覚イベントに応答してチャンネル毎に実行することができる。あるいは、すべてのチャンネルを結合した、又は一部のチャンネルを結合した聴覚イベント情報に応答して、このような調整の一部又はすべてを実行してもよい。

本発明の他の特徴には、上述の方法を実行するコンピュータプログラムと共に、本発明の応用例として記載した上述の方法及び他の方法を実行するための装置又は素子が含まれる。さらなる本発明の特徴は、本明細書を読み理解することで認識することができるであろう。

本発明の一般的な実施の形態を図１に示す。ここでは、オーディオチャンネル結合器又は結合処理１００が示される。複数の入力チャンネル、Ｐ入力チャンネル、１０１−１から１０１−Ｐまで、がチャンネル結合器又は結合機能（「結合チャンネル」）１０２及び聴覚の情景分析装置又は聴覚の情景分析機能（「聴覚の情景分析」）１０３に入力される。２以上の入力チャンネルを結合することができる。チャンネル１〜Ｐは、１組の入力チャンネルの一部又は全部を構成する。結合チャンネル１０２は、ここに入力されたチャンネルを結合する。この結合が、例えば、線形の付加結合であっても、結合技術は本発明にとって重要ではない。入力されたチャンネルを結合するのに加えて、結合チャンネル１０２は、結合すべきチャンネル又は結合した後のチャンネル又は結合すべきチャンネルと結合した後のチャンネルの両方のチャンネルに、時間、位相、及び振幅又はパワーの調整を動的に加える。このような調整は、混合アーティファクト又はチャンネル結合アーティファクトを削減することにより、チャンネル結合の質を改善する目的で行うことができる。特別な調整技術は、本発明において決定的なものではない。結合と調整のための適切な技法の例は、Mark Franklin Davisが２００４年３月１日に出願した、米国暫定特許出願Ｓ．Ｎ．６０／５４９，３６８、表題「Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels Are Represented by a Monophonic Channel and Auxiliary Information」代理人受領証ＤＯＬ１１５０１と、Mark Franklin Davis等が２００４年６月１４日に出願した、米国暫定特許出願Ｓ．Ｎ．６０／５７９，９７４、表題「Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels Are Represented by a Monophonic Channel and Auxiliary Information」代理人受領証ＤＯＬ１１５０２と、Mark Franklin Davis等が２００４年７月１４日に出願した、米国暫定特許出願Ｓ．Ｎ．６０／５８８，２５６、表題「Low Bit Rate Audio Encoding and Decoding in Which Multiple Channels Are Represented by a Monophonic Channel and Auxiliary Information」代理人受領証ＤＯＬ１１５０３とに記載されている。DavisとDavis等の上記３つの暫定特許出願のそれぞれは、参照としてすべて本明細書に組み込まれる。聴覚の情景分析１０３は、例えば、上述の出願における１つ以上の技法を用いて、又は他の適切な聴覚の情景分析装置又は聴覚の情景分析方法により、聴覚の情景情報を導き出す。少なくとも聴覚イベント同士の境界位置を含むこのような情報１０４は、結合チャンネル１０２に入力される。１以上の上記調整は、少なくともその一部は、結合されるべき１以上のチャンネル及び／又は結合された後のチャンネルにおける聴覚イベントの指標により制御される。

図２は、本発明の特徴を実施したオーディオ信号プロセッサ又はオーディオ信号の処理方法２００の一例を示している。結合すべき複数のオーディオチャンネル１〜Ｐの信号１０１−１〜１０１−Ｐは、図１と関連して説明したように、時間及び／又は位相修正装置又は時間及び／又は位相修正処理（「時間及び位相修正」）２０２に適用され、そして、聴覚の情景分析装置又は聴覚の情景分析処理（「聴覚の情景分析」）１０３に適用される。チャンネル１〜Ｐは、１組の入力チャンネルの一部又はすべてを構成することができる。以下に図３と関連して説明するように、聴覚の情景分析１０３は、聴覚の情景情報１０４を導き出し、時間及び／又は位相修正を個々のチャンネルに適用し結合する時間及び位相修正２０２にそれを入力する。修正されたチャンネル２０５−１から２０５−Ｐまでは、次いで、チャンネルを結合して単一の出力チャンネル２０７を生成するチャンネル混合装置又はチャンネル混合処理（「チャンネルの混合」）２０６に適用される。さらに以下に記載するように、随意的に、チャンネルの混合２０６も聴覚の情景分析情報１０４により制御してもよい。図１及び図２の例に示したように、本発明の特徴を実施するオーディオ信号プロセッサ又はオーディオ信号処理方法は、チャンネル１〜Ｐを結合して１以上の出力チャンネルを生成することもできる。

［聴覚の情景分析１０３（図１及び２）］
聴覚の情景分析による調査は、知覚した聴覚イベントの最初と最後を特定するためにいくつかの相異なる聴覚的手掛かりを用いる。上記の出願に教示されているように、最も強い手掛かりはオーディオ信号のスペクトルの内容の変化である。各入力チャンネルに対して、聴覚の情景分析１０３は、所定の時間区間においてチャンネル１〜Ｐの各々のオーディオについてスペクトル分析を行い、その信号についての一連の周波数表現を生成する。上記の出願に記載されている方法で、スペクトルの内容が閾値より大きくなる変更点を見つけるために、一連の周波数表現を比較する。このような変更点を見つけることは、１つの聴覚イベントの終端であり他の聴覚イベントの開始点を概ね意味する連続する一対の周波数表現の間の聴覚イベントの境界を示す。各入力チャンネルの聴覚イベントの境界の位置は、聴覚の情景分析情報１０４の成分として出力される。これは上記の出願に記載された方法で行うことができるが、聴覚イベントとその境界は他の適切な技法で検出してもよい。

聴覚イベントは、そのイベントの期間中実質的に一定の特性を持つサウンドの単位として知覚される。もし、本発明の実施の形態で用いられるような時間、位相、及び／又は振幅（又はパワー）の調整が、聴覚イベント期間内で著しく変動したとすると、このような調整により、可聴な好ましくないアーティファクトを生じさせる結果となる。イベントの期間中調整を一定に保持し、イベント境界に十分近いところで調整を変化させることにより、聴覚イベントの類似性が損なわれず、また、この変化はおそらく、本質的にイベント境界を示すもっと顕著なオーディオコンテンツの変化の中に隠されてしまう。

本発明の特徴によれば、理想的には、聴覚イベント期間内で動的な変化が生じないように、チャンネルを結合又は「ダウンミックス」するパラメータを、聴覚イベントの境界でのみ変化させることができるようにする。しかしながら、聴覚イベントを検出する実際のシステムは、時間領域のディジタルオーディオサンプルのブロックが周波数領域に変換されているディジタル領域で一般に動作し、この周波数領域では、聴覚イベント境界の時間分解能はかなり粗い時間分解能となり、この分解能はディジタルオーディオサンプルのブロック長さに関係する。もし、実際のイベント境界の使いものになる近似を生じさせるように、（ブロック長さと周波数分解能とがトレードオフの関係を持ったままで）この分解能を選択したとすると、言い換えれば、もし、その分解能ではリスナーが誤差を感知できないほど近い境界の近似を生じさせるとしたら、本発明による動的なダウンミックスの目的に対して、未知の実際の境界ではなくて、ブロック境界により提示された近似を用いることで足りる。かくして、上記Crockettの出願に記載された例に従い、イベント境界はブロック長さの半分以内、即ち、例えば４４．１ｋＨｚのサンプリングレートを採用したシステムにおいて５１２サンプルのブロック長さに対してでは、約５．８ミリ秒とすることができる。

本発明の現実的な実施の形態において、各入力チャンネルは離散的な時間領域のオーディオ信号である。この離散信号は、約５．８ミリ秒が重複する、重複のある約１０．６ミリ秒のブロックに区分けすることができる。４８ｋＨｚのオーディオサンプルでは、これは前のブロックと２５６サンプルが重複する５１２サンプルのブロックと等価である。各ブロックは、例えばハニング窓を使って窓処理し、例えば（速度を上げるために高速フーリエ変換として実施される）離散フーリエ変換を使って周波数領域に変換してもよい。デシベル（ｄＢ）単位のパワーは、各スペクトル値について計算され、そのスペクトルは最大のｄＢスペクトル値で正規化される。計算コストを下げるために、重複のないブロック又は部分的に重複するブロックを用いてもよい。また、他の窓関数を用いてもよい。しかし、ハニング窓がこの出願に十分適していることが分かっている。

上記Crockettの出願に記載されているように、現ブロックの正規化された周波数スペクトルは、次のブロックから正規化されたスペクトルと比較しそれらの違いの指標を得ることができる。具体的には、現在のスペクトル値と次のスペクトル値とのｄＢ値での差の絶対値を加えることにより１つの差の指標を計算することができる。

このような差の指標は、次に、閾値と比べられる。もし、差の指標が閾値より大きいならば、イベントの境界は現在のブロックとその前のブロックとの間にあることを示し、そうでないならば、現在のブロックとその前のブロックとの間にイベントの境界がないことを示している。この閾値についての適切な値は、２５００（ｄＢ単位で）あることが分かった。したがって、イベントの境界をブロックの半分の精度で決定することができる。

この閾値によるアプローチは、各サブバンドが明確な異なった指標を有する周波数サブ帯域に適用することもできる。しかし、本発明との関連では、時間のどの瞬間においても１つのイベントに焦点を当てる人間の認知能力の観点から、全帯域幅のオーディオに基づく単一の指標で十分である。

チャンネル１〜Ｐの各々についての聴覚境界の情報は、聴覚の情景分析情報１０４の成分として出力される。

［時間及び位相の修正２０２（図２）］
時間及び位相の修正２０２では、入力チャンネル同士の高い相関性及び時間及び位相の差を探す。図３は、時間及び位相の修正２０２をさらに詳細に示したものである。以下に説明するように、各ペアの内の１つのチャンネルが参照チャンネルとなる。相関性検出に適切な１技法を以下に説明する。他の適当な相関性検出技法を用いることもできる。非参照チャンネルと参照チャンネルとの間に高い相関性がある場合、この装置又はプロセスにおいて、非参照チャンネルの位相特性又は時間特性を修正することにより２つのチャンネル間の位相差又は時間差を減少させるよう試み、そして、この２つのチャンネルを結合するとき生じる可能性のあった可聴なチャンネル結合アーティファクトを減少又は削減する。そのようなアーティファクトのいくつかを一例として説明する。図５は、白色ノイズ信号の振幅スペクトルを示す。図５ｂは、白色ノイズからなる第１のチャンネルと、同じ白色ノイズからなるが約０．２１ミリ秒の時間遅れを持つ第２のチャンネルとを単純に結合させた結果の振幅スペクトルを示す。遅れの無い白色ノイズと遅れのある白色ノイズとを結合させるとスペクトルの削除とスペクトルシェーピングとを行い、一般にくし型フィルタによるフィルタリングと呼ばれ、聞こえるサウンドは各入力信号の白色ノイズとは大きく異なる。

図３は、位相遅れ又は時間遅れを削減させるのに適した装置又は方法３００を示す。各入力オーディオチャンネルからの入力１０１−１〜１０１−Ｐは、各チャンネルの遅れ表示信号３０２を出力する、遅れ計算装置又は遅れ計算プロセス（「遅れ計算」）３０１に入力される。チャンネル１〜Ｐの各々についての成分を有することもある聴覚イベント境界情報１０４は、それぞれ遅れ装置又は遅れ機能により用いられる遅れ信号３０４−１〜３０４−Ｐを条件付きで更新するための一時記憶装置又は一時記憶プロセス（「保持」）３０３を含む装置又はプロセスにより用いられる。

［遅れ計算３０１（図３）］
遅れ計算３０１は、ペアとなった２つの入力チャンネル同士の相対的な遅れを計測する。最初に入力チャンネルから参照チャンネルを選択することが好ましい方法である。この参照基準は、固定してもよく、時間の経過と共に変更してもよい。参照チャンネルを変更させることにより、例えば音の無い参照チャンネルという問題を回避できる。もし参照チャンネルを変更するならば、それは例えば、チャンネル音量により決定してもよい（例えば、最大音量のものを参照基準とする）。上述のように、各入力チャンネルの入力オーディオ信号は、５．３ミリ秒重複させて、重複のある約１０．６ミリ秒のブロックに分割することができる。これは、４８ｋＨｚのサンプルレートのオーディオについて、２５６サンプルが前のブロックと重複した５１２サンプルのブロックと等価である。

非参照チャンネルと参照チャンネルとの間の遅れはどんな相互相関計算方法を用いて計算してもよい。例えば、Ｓ_１（長さＮ_１）を、参照チャンネルからのサンプルのブロックとし、Ｓ２（長さＮ２）を、非参照チャンネルの１つからのサンプルのブロックとする。まず、相互相関配列Ｒ_１，２を計算する。

計算時間を短縮するために、この相互相関計算は標準のＦＦＴに基づく技法を用いて行う。Ｓ_１もＳ_２も長さが有限なので、Ｒ_１，２のゼロでない成分はＮ_１＋Ｎ_２−１の長さを持つ。Ｒ_１，２における最大要素に相当する遅れｌは、Ｓ_２のＳ_１に対する遅れを表す。

この遅れ又は遅延は、配列Ｓ_１及びＳ_２のような同じサンプルの群れを持つ。

現ブロックの相互相関計算結果は、平滑化された相互相関Ｑ_１，２を生成するために１次有限インパルス応答フィルターを用いて前のブロックの相互相関計算結果を時間平滑化したものである。以下の等式はそのフィルター計算を示す。ここで、ｍは現ブロックを示しｍ−１は前のブロックを示す。

好都合なαの値は、０．１であることが分かった。Ｒ_１，２の相互相関については、Ｑ_１，２の最大要素に相当する遅れｌは、Ｓ_２のＳ_１に対する遅れを表す。各非参照チャンネルのこの遅れ又は遅延は、信号３０２の１つの信号成分として出力される。信号３０２の１つの成分としてゼロの値も出力されるが、これは参照チャンネルの時間遅れを表す。

計測される遅れの程度はオーディオ信号ブロックの大きさに比例する。これは、ブロックの大きさが大きいほど、この方法を用いて計測される遅れの程度が大きくなるということを意味する。

［保持３０３（図３）］
あるチャンネルに対するイベント境界がＡＳＡ情報１０４を介して表示された場合、保持３０３では、そのチャンネルの遅れ値を３０２から対応する出力チャンネルの遅れ信号３０４にコピーする。イベント境界が表示されない場合は、保持３０３では、直前の遅れ値を保持する。このようにして、イベント境界において時間整列が行われ、それにより、可聴アーティファクトを誘発しにくくする。

［遅れ３０５−１〜３０５−Ｐ（図３）］
遅れ信号３０４は正にも負にもなるので、遅れ３０５−１〜３０５−Ｐの各々は、初期状態では、遅れ計算３０１で計算することのできる最大遅れの絶対値を各チャンネルに導入してもよい。したがって、遅れ３０５−１〜３０５−Ｐの各々におけるサンプルの遅れのトータルは、３０４−１〜３０４−Ｐのそれぞれの入力遅れ信号の遅れの初期値を加えたものの総和である。これは、信号３０２と３０４が正でも負でもよく、負の場合はチャンネルが参照チャンネルと比べて時間的に進んでいることを意味する。

入力された遅れ信号３０５−１〜３０５−Ｐのいずれかの値が変わったときは、サンプルを除去又は複製する必要があるかもしれない。これは可聴アーティファクトを生じさせないような方法で行うことが好ましい。このような方法には、サンプルを重複させること及びサンプルをクロスフェードさせることが含まれる。あるいは、出力信号３０６−１から３０６−Ｐまでにフィルターバンク（図４参照）を適用することができるので、フィルターバンクに適用されたサンプルの配列調整を遅れで制御するように、遅れとフィルターバンクとを結合させることも有効であろう。

あるいは、もっと複雑な方法を個々の周波数帯域又は周波数帯域のグループの時間差又は位相差の測定及び修正に用いることができる。そのような複雑な方法として、遅れ計算３０１と遅れ３０５−１〜３０５−Ｐの両方を周波数領域で行ってもよく、この場合、遅れ３０５−１〜３０５−Ｐは、時間領域で遅れさせるというより帯域又はサブ帯域で位相調整を行う。この場合、信号３０６−１〜３０６−Ｐはすでに周波数領域にあるので、それに続くフィルターバンク４０１が必要でなくなる（以下に記載の図４）。

遅れ計算３０１及び聴覚の情景分析１０３のような装置又は処理のいくつかは、イベント境界のより正確な推定とイベント内に適用すべき時間修正又は位相修正を行うために、オーディオチャンネルを前もって見ることができる。

［チャンネルの混合２０６（図２）］
図２のチャンネルの混合２０６の詳細は、ダウンミックスされた出力チャンネルを生成するために、どのようにパワー修正を行って結合させるかを示す、図４の装置又は処理として示されている。チャンネルの混合又は結合に加えて、この装置又は処理において、図２の時間及び位相の修正２０３で完全に修正されなかった残余の周波数削除のための修正が行われる。これはまた、パワーの保存を維持する働きがある。換言すれば、チャンネルの混合２０６は、ダウンミックス信号出力４１４（図４）が時間調整又は位相調整された入力チャンネル２０５−１〜２０５−Ｐのパワーの総和に実質的に等しくなるようにすることを追求する。さらに、これは、ダウンミックスされた信号の各周波数帯域におけるパワーが、それに対応する個々に時間調整又は位相調整された入力チャンネルのパワーの実質的な総和となるようにすることを追求してもよい。この処理は、ダウンミックスされたチャンネルの帯域パワーと入力チャンネルの帯域パワーとを比較し、次いで、各帯域の値を修正するゲインを計算することにより行われる。時間と周波数の両方にまたがってゲインを変更することにより可聴アーティファクトが生じるかもしれないので、ゲインは、ダウンミックスされたチャンネルに適用する前に時間及び周波数の両方で平滑化しておくことが好ましい。この装置又は処理は、チャンネルを結合する１つの可能な方法を示している。他の適切な装置又は処理を採用してもよい。特定の結合装置又結合処理が本発明にとって決定的なものというわけではない。

［フィルターバンク（「ＦＢ］）４０１−１〜４０１−Ｐ（図４）］
各入力チャンネルに入力したオーディオ信号は、上述したように、時間領域の信号であり、約５．３ミリ秒重複させた、約１０．６ミリ秒の長さの重複ブロックに分割されている。４８ｋＨｚのオーディオサンプルレートにおいては、これは、２５６サンプルが前のブロックと重複している、５１２サンプルのブロックと等価である。このサンプルブロックは窓処理され、フィルターバンク４０１−１〜４０１−Ｐ（各入力信号に対して１つのフィルターバンク）により周波数領域に変換される。さまざまな窓のタイプからどのようなタイプを用いてもよいが、ハニング窓が適切であることが分かった。さまざまな時間領域から周波数領域への変換器のうちからどれを用いてもよいが、適切な変換器又は変換方法として、離散フーリエ変換（速度を上げるため高速フーリエ変換として実行される）を用いることができる。各フィルターバンクのパワーは、複素スペクトル値を持つ配列４０１−１〜４０１−Ｐのそれぞれ、すなわち、各周波数帯域（又はビン）に対して１つの値、となる。

［帯域（「ＢＮＤ」）パワー４０３−１〜４０３−Ｐ（図４）］
各チャンネルに対して、帯域パワー計算装置又は帯域パワー計算処理（「ＢＮＤパワー」）４０３−１〜４０３−Ｐは、それぞれ、複素スペクトル値４０２−１〜４０２−Ｐのパワーを計算し、それぞれのパワースペクトル４０４−１〜４０４−Ｐとして出力する。各チャンネルからのパワースペクトル値は、付加的な結合器又は結合機能４１５において加算され結合されたパワースペクトル４０５を生成する。各チャンネルからの対応する複素スペクトル値４０２−１〜４０２−Ｐも又、付加的な結合器又は結合機能４１６において加算されダウンミックス複素スペクトル４０６を生成する。ダウンミックス複素スペクトル４０６のパワーは、他のパワー計算装置又はパワー計算処理（「ＢＮＤパワー」）４０３で計算されダウンミックスパワースペクトル４０７として出力される。

［帯域（「ＢＮＤ」）ゲイン４０８（図４）］
帯域ゲイン計算装置又は帯域ゲイン計算処理（帯域ゲイン４０８）では、パワースペクトル４０５がダウンミックスパワースペクトル４０７で割算され、各スペクトル値に対して１つのパワーゲイン又はパワーレシオの配列を生成する。もし、ダウンミックスパワースペクトル値がゼロならば（パワーゲインを無限大にしてしまうので）、それに対応するパワーゲインを「１」に設定する。次いで、パワーゲインの平方根を計算し、振幅ゲイン４０９を生成する。

［制限、時間及び周波数の平滑４１０（図４）］
制限器及び平滑器又は制限及び平滑機能（制限、時間及び周波数の平滑）４１０は、適切なゲイン制限と時間／周波数の平滑とを行う。上記のスペクトル振幅ゲインは広い範囲を持つ。最善の結果は、このゲインが制限範囲内に保持される場合に得られる。例えば、ゲインが上限閾値より大きい場合は、ゲインは上限閾値に設定される。同様に、例えば、ゲインが下限閾値より小さい場合は、ゲインは下限閾値に設定される。好都合な閾値は０．５と２．０（±６ｄＢと等価）である。次に、スペクトルゲインを、１次有限インパルス応答（ＨＲ）フィルターを用いて時間的に平滑化してもよい。以下の等式は、この平滑化計算を示す。ここで、ｂはスペクトル帯域指数を意味し、Ｂは全帯域数を意味し、ｎは現ブロックを意味し、ｎ−１は前のブロックを意味し、Ｇは平滑化されていないゲインを意味し、Ｇｓは時間的に平滑化したゲインを意味する。

δ（ｂ）の好適な値は、約２００Ｈｚ以下の帯域を除いて０．５であることが分かった。この周波数以下では、δ（ｂ）は、帯域ｂ＝０で０の値すなわちＤＣに向かう傾向がある。もし、平滑化されたゲインＧ_ｓが１．０に初期化されると、ＤＣでの値は１．０に等しくなる。すなわち、ＤＣは決してゲイン調整されず、２００Ｈｚ以下の帯域のゲインはそれ以外のスペクトルの帯域よりゆっくりと変動する。このことは、低周波数において可聴な調整を防止するために好都合かもしれない。これは、２００Ｈｚ以下の周波数において、そのような周波数の波長はフィルターバンクで用いられるブロックの大きさに近づくか又は越えてしまい、これらの周波数を正確に弁別すべきフィルターバンクの能力が不正確になるからである。これは一般的かつよく知られた現象である。

時間平滑化されたゲインは、隣り合う帯域同士でゲインの大きな変化がないようにするためさらに周波数に関して平滑化される。好ましい実施の形態において、帯域ゲインは５帯域（又は約４７０Ｈｚ）平均を用いてスライディングすることにより平滑化される。つまり、各ビンは、自分自身の帯域と高周波側と低周波側に隣り合う帯域との平均値に更新される。スペクトルの上端及び下端で、端の値（帯域０とＮ−１）はそれでも５帯域平均を行うことができるように繰り返し使用される。

平滑化された帯域ゲインは、信号４１１として出力され、乗算器又は乗算機能４１９にてダウンミックス複素スペクトル値で乗算される。任意的に、出力信号４１１は、ＡＳＡ情報１０４の制御の下で一時的な記憶装置又は記憶処理（「保持」）４１７を経由して乗算器又は乗算機能４１９に入力させてもよい。保持４１７は、図３の保持３０３と同じような動作を行う。例えば、１つのイベントの期間中ゲインを比較的一定に保ちイベントの境界でゲイン変化させることができる。このようにして、イベント中の可聴で劇的なゲインの変化を防止することができる。

［逆フィルターバンク（逆ＦＢ）図４］
乗算器又は乗算機能４１９からのダウンミックススペクトル４１２は、逆フィルターバンク又は逆フィルターバンク機能（「逆ＦＢ」）４１３を介して出力時間サンプルのブロックを創り出す。このフィルターバンクは入力フィルターバンクを逆にしたものである。周知の通り、隣り合うブロックは前のブロックと重複して加算され、時間領域出力信号４１４を生成する。

記載した構成は、順フィルターバンク４０１で、窓を増加させてもシステムを通して信号の同一性が保持されるような２つの窓（１つは順フィルターバンク１つは逆フィルターバンク）に窓を分割する慣行を除外するものではない。

［ダウンミックスアプリケーション］
本発明の特長によるダウンミックスの位置応用例は、自動車内で５．１チャンネルコンテンツを再生することである。自動車は、５．１チャンネルコンテンツに対して左チャンネル、右チャンネル、左サラウンドチャンネル、右サラウンドチャンネルに相当する４つのチャンネルしか生成できない。各チャンネルは、特定のチャンネルに対応する方向情報を再生するのに適当だと判断される位置に置かれた１以上のラウドスピーカに導かれる。しかし自動車は通常５．１再生システムにあるような中央チャンネルを生成するための中央に位置するラウドスピーカが無い。この状況に対応するために、中央チャンネル信号を（例えば３ｄＢ又は６ｄＢ）弱めて、それを左右のチャンネル信号に結合させ、見せかけの中央チャンネルを提供することが知られている。しかし、そのように単純に結合すると、先に説明したようにアーティファクトが生じる。

このように単純に混合する代わりに、本発明の特徴によるチャンネル結合又はチャンネルダウンミックスを適用することができる。例えば、図１の構成又は図２の構成を２回、すなわち、１回は左信号と中央信号とを結合させるため、もう１回は中央信号と右信号とを結合させるために適用してもよい。しかし、それでも、中央チャンネル信号から出力される音響パワーが専用の中央チャンネルスピーカが存在するとすればそれとほぼ同じとなるよう、中央チャンネル信号と左右のチャンネル信号とを結合させる前に、中央チャンネル信号を例えば３ｄＢ又は６ｄＢ（自動車内の線形フィールドスペースでは６ｄＢの方が３ｄＢより適切であろう）弱めることは有益であろう。さらに、中央チャンネルに適用される時間及び位相の修正１０３が、中央チャンネルの時間整列又は位相を変更するのではなく、左チャンネル及び右チャンネルの信号の時間整列又は位相のみを変更するように、中央チャンネルを左チャンネル及び右チャンネルの信号のそれぞれと結合させるときに、中央チャンネルを参照チャンネルとすることは有益であろう。その結果、中央チャンネル信号が２つの和（左チャンネル信号と中央チャンネル信号の和、及び、右チャンネルと中央チャンネル信号の和）のそれぞれにおいて異なる調整を受けることがなく、見かけの中央チャンネルの音像を安定させる。

この逆も当てはまる。すなわち、時間又は位相の調整は中央チャンネルのみに対して行う場合も、見かけの中央チャンネルの音像を安定させる。

本発明の特徴によるダウンミックスの応用例は、映画における多チャンネルオーディオの再生における例である。次世代ディジタルシネマシステムとして開発中の標準では、すぐにそれ以上となるだろうが、１６チャンネルまでのオーディオの提供を求めている。既設のシネマシステムの多くは（良く知られているように「０．１」が低周波数の「効果」チャンネルを表現する）５．１再生又は「表現」チャンネルしか提供していない。したがって、再生システムがアップグレードされるまでは、５．１チャンネル以上のコンテンツを５．１チャンネルのコンテンツにダウンミックスするニーズが存在する。そのようなダウンミックス又はチャンネルの結合は、上述の通りアーティファクトをもたらす。

したがって、もしＰチャンネルがＱチャンネルにダウンミックスされるなら（ここでＰ＞Ｑ）、本発明の特徴（例えば、図１及び２の模範的な実施の形態に示したような）によるダウンミックスをＱ出力チャンネルの１以上に適用し、出力チャンネルの一部又は全部を結合してＰ入力に対応する２以上のチャンネルにすることができる。もし、入力チャンネルが２以上の出力チャンネルに結合されるならば、そのようなチャンネルを参照チャンネルにし、図２の時間及び位相の修正２０２が入力チャンネルの時間整列又は位相を結合された後の出力チャンネルのそれぞれで異なる変更を行わないようにするとは好適なことであろう。

［代案］
ここに記載したような時間又は位相の調整により、ダウンミックス時の完全な又は部分的な周波数の削除が最小限になる。すでに、入力チャンネルが１以上の出力チャンネルに結合されるとき、このチャンネルは、混合して複数の出力チャンネルにするときに時間又は位相に異なる変更を行わないように、参照チャンネルとすることが好ましい。これは、他のチャンネルが実質的に同じコンテンツを含まないときにうまく行く。しかし、２以上の他のチャンネルが同じか又は実質的に同じコンテンツを含むときに問題が起こる。もしそのようなチャンネルが結合されて２以上の出力チャンネルになると、その結果出力されるチャンネルを聞くとき、これらの出力チャンネルを受け取るラウドスピーカの物理的な位置のどこかの位置に、共通コンテンツの見かけの音像があるように知覚される。出略チャンネルを生成するために他のチャンネルと結合する前に、これらの実質的に等しいコンテンツを持つ２以上の入力チャンネルが独立に位相調整されたときこの問題が起こる。このように独立に位相調整されると、不適切な見かけの音像位置及び／又ははっきりしない音像位置がもたらされ、どちらも不自然に聞こえる。

実質的に類似するコンテンツを有する入力チャンネルを探して、それらの見かけの音像位置が変化しないように同じ又は類似の方法でそのようなチャンネルに時間又は位相の調整を行おうとするシステムを工夫することもできる。しかし、そのようなシステムは、特に入力チャンネルの数が出力チャンネルの数より実質的に大きい時に非常に複雑となる。２以上のチャンネルで実質的に類似のコンテンツがしばしば起こるシステムにおいて、位相の調整の手間を省きパワーの修正のみ行うことは容易であろう。

この調整の問題は、先に説明した左右のラウドスピーカで再生するために中央チャンネル信号が左右それぞれのチャンネルに結合される自動車への応用例でさらに説明することができる。５．１チャンネル素材において、左右の入力チャンネルはしばしば複数の信号を含み（例えば、楽器、声楽、会話及び／又は効果音）、これらの信号のあるものは異なりあるものは同じである。中央チャンネルが左右それぞれのチャンネルに結合される場合、この中央チャンネルが参照チャンネルとなり、中央チャンネルには時間又は位相の調整が行われない。左チャンネルは、中央チャンネルと結合されるときに位相消去が最小限になるよう時間又は位相の調整が行われ、同様に右チャンネルも中央チャンネルと結合されるときに位相消去が最小限になるよう時間又は位相の調整が行われる。左右のチャンネルに独立して位相の調整を行うので、左右のチャンネルに共通する信号が左右のラウドスピーカの物理的な位置の中間に見かけ上の音像はもはや生じることはない。さらに、この見かけ上の音像は、不自然で好ましい効果を与える１つの方向に局在することはなく、リスナーの空間全体に広がる。

調整の問題を解決する１つの手段は、１以上の入力チャンネルに共通する信号をそのような入力チャンネルから抽出し、それらを新しく別々の入力チャンネルとする。このことは、ダウンミックスすべき入力チャンネル全体の数を増やすことになるが、ダウンミックスされた出力チャンネルに虚偽の好ましくない見かけ上の音像の誤認を削減する。３つのチャンネルを２つにダウンミックスする、自動車における装置又は処理６００の例を図６に示した。左右の入力チャンネルに共通する成分を左右のチャンネルから抽出し、マトリックスデコーダ又は共通信号成分を抽出する他の形式のチャンネル乗算器のような、乗算器又は乗算処理（「チャンネルの無相関化」）６０１を用いて、もう１つの新しいチャンネルに入力する。このような装置は、デコリレータ又はデコリレーション機能の形式として特徴づけることができる。ドルビーサラウンド・プロロジックIIとして知られる１つの適切なアクティブマトリックスデコーダが、２０００年３月２２日にJames W. Fosgateにより出願された米国特許出願Ｓ．Ｎ．０９／５３２，７１１、表題「Method for deriving at least three audio signals from two input audio signals」代理人受領証ＤＯＬ０７２０１と、２００１年８月３０日に米国を指定国として出願された国際出願ＰＣＴ／ＵＳ０１／２７００６、２００２年３月７日にＷＯ０２／１９７６８で国際公開、の結果としての、２００３年２月２５日にJames W. Fosgate他により出願された米国特許出願Ｓ．Ｎ．１０／３６２，７８６、表題「Method for apparatus for audio matrix decoding」、２００４年７月１日にＵＳ２００４／０１２５９６０Ａ１として公開、代理人受領証ＤＯＬ０７２０３Ｕに記載されている。上記FosgateとFosgate他による出願は参照としてすべて本明細書に組み込まれる。採用可能なもう１つの形式の適切なチャンネル乗算器及びデコリレータは、２００２年２月７日に米国を指定国として出願された国際出願ＰＣＴ／ＵＳ０２／０３１６、２００３年８月７日にＷＯ０２／０６３９２５で国際公開、の結果としての、２００３年８月５日にMark Franklin Davisにより出願された米国特許出願Ｓ．Ｎ．１０／４６７，２１３、表題「Audio Channel Translation」、２００４年４月１日にＵＳ２００４／００６２４０１Ａ１として公開、代理人受領証ＤＯＬ０８８ＵＳと、２００３年８月６日に米国を指定国として出願された国際出願ＰＣＴ／ＵＳ０３／２４５７０、代理人受領証ＤＯＬ０８８０１ＰＣＴ、２００４年３月４日にＷＯ２００４／０１９６５６として国際公開、とに記載されている。上記Davisによる出願は参照としてすべて本明細書に組み込まれる。他の適切な乗算／デコリレーション技術は、Mitianoudis及びDaviesの「Intelligent Audio Source Separation using Independent Component Analysis」、Audio Engineering Society Convention Paper 5529、２００２年５月１０〜１３日ドイツ、ミュンヘンにて１１２回会議で公開、に記載されている。この論文も参照としてすべて本明細書に組み込まれる。この結果は、４チャンネル、すなわち、新しいチャンネルＣ_Ｄ、元の中央チャンネルＣ、及び、修正された左右のチャンネルＬ_ＤとＲ_Ｄである。

装置又は処理６０２は、図２の構成に基づくが、ここでは２つの出力チャンネルを持ち、４つのチャンネルを結合して左右の再生チャンネルＬ_ＰとＲ_Ｐとを作る。修正されたチャンネルＬ_ＤとＲ_Ｄは各々混合されてただ１つの再生チャンネルとなる。すなわちそれぞれＬ_ＰとＲ_Ｐである。それらは相互に関係のあるコンテンツを実質的に含まないので、そこから共通成分Ｃ_Ｄが抽出されている、修正されたＬ_Ｄ及びＲ_Ｄには、入力チャンネルＬ及びＲに存在する中央の見かけの音像に影響を与えないで時間又は位相の調整を行うことができる。この時間及び／又は位相の調整を行うために、例えばチャンネルＣ_Ｄのような１つのチャンネルを参照チャンネルとする。次いで、この参照チャンネルと比較して、その他のチャンネルＬ_Ｄ，Ｒ_Ｄ，及びＣに時間及び／又は位相の調整を行う。あるいは、Ｌ_ＤチャンネルとＲ_Ｄチャンネルとは、Ｃチャンネルとおそらく相関がないので、また、処理６０１によりＣ_Ｄと無相関化されているので、時間又は位相の調整を行うことなくチャンネルの混合に送ってもよい。チャンネルの混合部６０２において再生チャンネルＬ_ＰとＲ_Ｐとを作るため、元のチャンネルＣと抽出されたチャンネルＣ_Ｄとは両方とも中間チャンネルＬ_Ｄ及びＲ_Ｄの各々とそれぞれ混合することができる。ＣとＣ_Ｄとが同じ比率であることが満足できる結果となることが分かったが、正確に同じ比率であることが決定的要素ではなく、同じ比率でなくてもよい。したがって、Ｃ_ＤとＣとに適用される時間及び位相の調整が２つの再生チャンネルに現れ、そして見かけ上の中央音像を維持する。中央チャンネルのそれぞれが２つのスピーカにより再生されるので、いくらかの減衰（例えば３ｄＢ）がこれらのそれぞれのチャンネルに必要かもしれない。また、混合されて出力チャンネルとなる各中央チャンネルＣとＣ_Ｄの量はリスナーによりコントロールすることもできる。例えば、リスナーは元の中央チャンネルを全部要求するが導き出した中央チャンネルＣ_Ｄを減衰させることもできる。

解決手法は、映画オーディオにおける実施例での方法で説明することもできる。図７ａと図７ｂは２組のオーディオチャンネルの部屋又は空間での位置を示す。図７ａは、多チャンネルオーディオ信号中に表現されている、あるいは、「コンテンツチャンネル」と称されているチャンネルの概略空間位置を示している。図７ｂは、５チャンネルオーディオ素材を再生する装備がなされた映画館で再生することのできる「再生チャンネル」と称されているチャンネルの概略位置を示している。あるコンテンツチャンネルは対応する再生チャンネル位置、すなわちＬ，Ｃ，Ｒ，Ｒ_Ｓ，及びＬ_Ｓチャンネルを持っている。他のコンテンツチャンネルは対応する再生チャンネル位置を有せず、したがって、１以上の再生チャンネルに混合させなければならない。一般的な方法は、そのようなコンテンツチャンネルを直近の再生チャンネルに結合させることである。

先に説明したように、単純に加算するような結合では、可聴アーティファクトが生じることがある。また、説明したように、実質的に共通するコンテンツを持つチャンネルが異なった位相又は時間調整がなされたとき、図１及び２に関連して説明したような結合では見かけ上の音像にアーティファクトが生じるかもしれない。解決手段として、入力チャンネルから２以上の入力チャンネルに共通する信号を抽出しそれを新しい別のチャンネルにすることが含まれる。

図７ｃは、装置又は処理（「チャンネルの無相関化」）７０１を用いて、入力チャンネル又はコンテンツチャンネルのある組み合わせに共通する情報を抽出することにより、Ｑ_１からＱ_５までの５つの付加的なチャンネルが作られる場合の装置又は処理７００を示している。装置又は処理７０１では、「チャンネルの無相関化」装置又は機能６０１の使用について上述したような、適切なチャンネル乗算／チャンネルデコリレーション技法を用いることができる。これらの付加的な中間チャンネルの実際の数及び位置は、コンテンツチャンネルに含まれるオーディオ信号の変動にしたがって変化することがある。図２の構成とするが５つの出力チャンネルのものに基づき、装置又は処理７０２ではチャンネルの無相関化７０１からの中間チャンネルを結合して５つの再生チャンネルを作る。

時間及び位相の修正のために、Ｃチャンネルのような中間チャンネルのうちの１つを参照チャンネルとし、他のすべての中間チャンネルをこの参照チャンネルと比較して時間及び位相調整を行ってもよい。あるいは、２以上のチャンネルを参照チャンネルとし、中間チャンネルの全チャンネル数よりも少ないチャンネルのグループにおいて、時間又は位相の調整を行うことも好適である。例えば、もしチャンネルＱ_１がコンテンツチャンネルＬ及びＣから抽出された共通信号を表し、Ｑ_１及びＬ_Ｃが中間チャンネルＬ及びＣと結合して再生チャンネルＬ及びＣを作るならば、チャンネルＬ_Ｃを参照チャンネルとすることができる。中間チャンネルＬ，Ｃ，及びＱ１は、参照中間チャンネルＬ_Ｃと比較して時間又は位相が調整される。すべての中間チャンネルが時間及び位相修正処理されたと考えられるまで、中間チャンネルの各小グループが連続的に時間又は位相調整がなされる。

再生チャンネルを作るに際して、装置又は処理７０２は、コンテンツチャンネルの空間位置についての知識をあらかじめ想定しておいてもよい。付加的な中間チャンネルの数と空間位置に関する情報を仮定し又は無相関化装置又は処理７０１から経路７０３を介してこの装置又は処理に送ってもよい。これにより、装置又は処理７０２は、これらの付加的なチャンネルの見かけの音像方向を保持するために、付加的な中間チャンネルを結合して、例えば、最も近い２つの再生チャンネルにすることができる。

［実施］
本発明はハードウェア又はソフトウェアあるいはそれらの結合（例えば、プログラマブルロジックアレー）により実施することができる。他に記載がないかぎり、本発明の１部として含まれるこの演算手順は、特定のコンピュータ又は他の装置と生得的に関連付けられるということではない。特に、種々の汎用機械は、ここに記載したプログラムを使うことができ、あるいは、必要な手順を実行するもっと専用装置（例えば、集積回路）を組み立てるほうが便利かもしれない。このようにして、本発明は、それぞれ少なくとも１つのプロセッサ、少なくとも１つのデータ記憶システム
（揮発性メモリ及び不揮発性メモリ及び／又は記憶装置を含む）、少なくとも１つの入力装置又は入力ポート、及び少なくとも１つの出力装置又は入力ポートからなる、プログラム可能な少なくとも１つのコンピュータシステムにより実行される少なくとも１つのプログラムにより実施することができる。ここに記載した機能を実行し出力情報を生成するために入力データにプログラムコードが適用される。出力情報は、既知の方法で１つ以上の出力装置に適用される。

このようなプログラムの各々は、コンピュータシステムと通信するために必要とされるどのようなコンピュータ言語（機械語、アセンブリ言語、高級な手続言語、ロジック言語、あるいは、オブジェクト指向型プログラム言語を含む）により実行してもよい。いずれにせよ、この言語はコンパイル言語又はインタプリタ言語とすることができる。

ここに記載した手順を実行するために記憶装置又は記憶媒体がコンピュータシステムにより読み込まれたとき、コンピュータを設定し動作させるために、このようなコンピュータプログラムの各々は、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより読み取り可能な記憶装置又は記憶媒体（例えば、半導体メモリ又は媒体、又は磁気媒体又は光学媒体）に記憶されることが好ましい。本発明のシステムは、コンピュータプログラムにより設定されたコンピュータ読み取り可能な記憶媒体として実施することを考えてもよく、ここで、この記憶媒体は、ここに記載した機能を実行する特定のあらかじめ定めた方法でコンピュータシステムを動作させるよう設定されている。

本発明のいくつかの実施の形態を説明したが、本発明の精神及び技術的範囲を逸脱することなく種々の変更が可能であることは了解されよう。例えば、上記のステップのいくつかの順序は独立であり、それゆえに、上記とは異なった順序で実施することができる。したがって、他の実施の形態も請求の範囲に含まれる。

本発明の一般的な実施の形態の概略機能ブロック図である。本発明の特徴を実行するオーディオ信号処理又はオーディオ信号処理方法の概略機能ブロック図である。図２の時間及び位相の修正２０２の詳細を示す概略機能ブロック図である。図２のチャンネルの混合２０２の詳細を示す概略機能ブロック図である。白色ノイズ信号のシンプルスペクトルを示す理想化された応答である。白色ノイズからなる第１のチャンネルと、同じ白色ノイズからなるが１ミリ秒以下程度の時間遅れを持つ第２のチャンネルとを単純に結合させた結果の振幅スペクトルを示す理想化された応答である。図５ａと図５ｂは両方とも、水平軸がＨｚ単位の周波数であり、垂直軸はデシベル（ｄＢ）単位の相対レベルである。本発明の特徴に従い３チャンネルを２チャンネルにダウンミックスする機能の概略ブロック図である。映画の観客席のような部屋における２セットのオーディオチャンネルの空間位置を示す理想化された表現であって、多チャンネルオーディオ信号の「コンテンツ」チャンネルの空間的な概略位置を示す。映画の観客席のような部屋における２セットのオーディオチャンネルの空間位置を示す理想化された表現であって、５チャンネルオーディオ素材を上演するために映画に装備された空間的な概略「再生」位置を示す。本発明の特徴に従い１０チャンネルを５チャンネルにダウンミックスする機能の概略ブロック図である。

Claims

オーディオチャンネルを結合する処理であって、
前記オーディオチャンネルを結合し結合されたオーディオチャンネルを生成するステップと、
前記オーディオチャンネル又は前記結合されたオーディオチャンネル又は前記オーディオチャンネルと前記結合されたオーディオチャンネルの両方に、時間、位相、及び振幅又はパワー調整のうちの１つ以上を動的に適用するステップであって、前記１つ以上の調整は、聴覚イベントの期間中は調整を実質的に一定に保ち、聴覚イベントの境界又は境界近傍で調整の変更を許容するように、少なくとも一部は、１以上の前記オーディオチャンネル及び／又は前記結合されたオーディオチャンネルにおける聴覚イベントの指標により制御されることを特徴とするステップと、
を具備し、
各聴覚イベントの境界は、閾値を越えたチャンネルにおける時間に関する信号特性の変化に応答して、該チャンネルに対して１組の聴覚イベントの境界が得られるように特定され、該聴覚イベントの境界は１つの聴覚イベントの終端でありかつ他の聴覚イベントの開始点であることを意味することを特徴とする処理。
請求項１に記載の方法を実施するための装置。
請求項１に記載の方法をコンピュータに実行させるための、コンピュータが読み取り可能な媒体に記憶させた、コンピュータプログラム。
前記信号特性は、（ａ）スペクトル内容、又は（ｂ）スペクトル内容及び振幅内容のうちの１つであることを特徴とする、請求項１に記載の処理。
チャンネル中の聴覚イベントを特定するステップには、前記オーディオ信号を時間ブロックに分割するステップと、各ブロック中のデータを周波数領域に変換するステップと、前記チャンネル中の前記オーディオ信号の連続する時間ブロック間での（ａ）スペクトル内容、又は（ｂ）スペクトル内容及び振幅内容の変化を検出するステップが含まれることを特徴とする、請求項４に記載の処理。
連続する時間ブロック中のオーディオデータは、係数で表現され、チャンネル中の聴覚イベントを特定するステップには、ブロック中の係数を隣接するブロックの対応する係数と比較するステップが含まれることを特徴とする、請求項５に記載の処理。
単一の差異の指標は、現ブロックのスペクトルの対応する対数値で表現したスペクトル値と、１つ前のブロックのスペクトルの対応する対数値で表現したスペクトル値との差の絶対値を加算することで計算されることを特徴とする、請求項６に記載の処理。
聴覚イベントの境界は、前記加算した振幅が前記閾値を越えたときで特定されることを特徴とする、請求項７に記載の処理。