JP2016537855A - アップミキサーにおける適応的な拡散性信号生成 - Google Patents

アップミキサーにおける適応的な拡散性信号生成 Download PDF

Info

Publication number
JP2016537855A
JP2016537855A JP2016519877A JP2016519877A JP2016537855A JP 2016537855 A JP2016537855 A JP 2016537855A JP 2016519877 A JP2016519877 A JP 2016519877A JP 2016519877 A JP2016519877 A JP 2016519877A JP 2016537855 A JP2016537855 A JP 2016537855A
Authority
JP
Japan
Prior art keywords
audio signals
transient
matrix
audio
diffusible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016519877A
Other languages
English (en)
Other versions
JP6186503B2 (ja
Inventor
ジェイ. シーフェルドット,アラン
ジェイ. シーフェルドット,アラン
エス. ヴィントン,マーク
エス. ヴィントン,マーク
フィリップ ブラウン,シー.
フィリップ ブラウン,シー.
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2016537855A publication Critical patent/JP2016537855A/ja
Application granted granted Critical
Publication of JP6186503B2 publication Critical patent/JP6186503B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

アップミキサーのようなオーディオ処理装置が、N個の入力オーディオ信号の拡散性部分および非拡散性部分を分離することができてもよい。アップミキサーは、過渡的オーディオ信号条件のインスタンスを検出することができてもよい。過渡的オーディオ信号条件のインスタンスの間、アップミキサーは、M個のオーディオ信号が出力される拡散性信号展開プロセスに、信号適応的な制御を加えることができてもよい。アップミキサーは、過渡的オーディオ信号条件のインスタンスの間、オーディオ信号の拡散性部分が実質的に、入力チャネルに空間的に近い出力チャネルのみに分配されうるよう、時間を通じて拡散性信号展開プロセスを変化させてもよい。非過渡的オーディオ信号条件のインスタンスの間は、オーディオ信号の拡散性部分は実質的に一様な仕方で分配されてもよい。

Description

関連出願への相互参照
本願は2013年10月3日に出願された米国仮特許出願第61/886,554号および2013年11月22日に出願された米国仮特許出願第61/907,890号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本開示は、オーディオ・データの処理に関する。詳細には、本開示は、アップミックス工程の間に拡散性オーディオ信号および方向性オーディオ信号の両方を含むオーディオ・データを処理することに関する。
アップミックスとして知られるプロセスは、何らかの数M個のオーディオ信号チャネルを、より少数N個のオーディオ信号チャネルから導出することに関わる。アップミックス機能をもついくつかのオーディオ処理装置(本稿では「アップミキサー」と称されることがある)は、たとえば、二つの入力オーディオ・チャネルに基づいて3、5、7、9個またはそれ以上のオーディオ・チャネルを出力できることがある。いくつかのアップミキサーは、二つの入力信号チャネルの位相および振幅を解析して、それらが表わす音場が方向の印象を聴取者にどのように伝えることが意図されているかを決定することができることがある。そのようなアップミックス装置の一例は非特許文献1に記載されるドルビー(登録商標)・プロロジック(登録商標)IIデコーダである。
入力オーディオ信号は、拡散性および/または方向性のオーディオ・データを含むことがある。方向性のオーディオ・データに関しては、アップミキサーは、聴取者に、見かけの位置および/または方向をもつ一つまたは複数の聴覚成分の感覚を提供するよう、複数チャネルのための出力信号を生成できるべきである。発砲音に対応するもののようないくつかのオーディオ信号は非常に方向性が強いことがある。風、雨、周囲ノイズなどに対応するもののような拡散性のオーディオ信号は、見かけの指向性をほとんどまたは全くもたないことがある。拡散性オーディオ信号をも含むオーディオ・データを処理するとき、聴取者は、該拡散性オーディオ信号に対応する包み込むような拡散性音場の知覚を提供されるべきである。
Gundry、"A New Active Matrix Decoder for Surround Sound"、19th AES Conference, May 2001
拡散性のオーディオ信号を処理するための改善された方法が提供される。いくつかの実装は、拡散性音場の呈示のためにN個のオーディオ信号からM個の拡散性オーディオ信号を導出する方法に関わる。ここで、MはNより大きく、2より大きい。N個のオーディオ信号のそれぞれは、ある空間位置に対応してもよい。
本方法は、前記N個のオーディオ信号を受領し、前記N個のオーディオ信号の拡散性部分を導出し、過渡的オーディオ信号条件のインスタンスを検出することに関わってもよい。本方法は、前記N個のオーディオ信号の前記拡散性部分を処理して、前記M個の拡散性オーディオ信号を導出することに関わってもよい。過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い空間位置に対応する一つまたは複数に対してより大きな割合で、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配することに関わってもよい。
本方法は、非過渡的オーディオ信号条件のインスタンスを検出することに関わってもよい。非過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号に対して実質的に一様な仕方で分配することに関わってもよい。
前記処理は、前記N個のオーディオ信号の前記拡散性部分に混合行列を適用して、前記M個の拡散性オーディオ信号を導出することに関わってもよい。前記混合行列は、可変な分配行列であってもよい。前記可変な分配行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列からおよび過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出されてもよい。いくつかの実装では、過渡行列の各要素は、非過渡行列から導出されてもよい。過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わしてもよい。いくつかの事例では、スケーリングは、入力チャネル位置と出力チャネル位置の間の関係の関数であってもよい。
本方法は、過渡制御信号値を決定することに関わってもよい。いくつかの実装では、前記可変な分配行列は、少なくとも部分的には前記過渡制御信号値に基づいて過渡行列と非過渡行列の間を補間することによって導出されてもよい。過渡制御信号値は時間変化してもよい。いくつかの実装では、過渡制御信号値は、ある最小値からある最大値に連続的な仕方で変化してもよい。あるいはまた、過渡制御信号値は、ある最小値からある最大値まで離散的な値の範囲において変化してもよい。
いくつかの実装では、可変な分配行列の決定は、過渡制御信号値に従って可変な分配行列を計算することに関わってもよい。しかしながら、可変な分配行列の決定は、メモリ・デバイスから、記憶されている可変な分配行列を取得することに関わってもよい。
本方法は、前記N個のオーディオ信号に応答して過渡制御信号値を導出することに関わってもよい。本方法は、前記N個のオーディオ信号のそれぞれをB個の周波数帯域に変換し、前記の導出し、検出し、処理することを、前記B個の周波数帯域のそれぞれについて別個に実行することに関わってもよい。本方法は、前記N個のオーディオ信号の非拡散性部分をパンしてM個の非拡散性オーディオ信号を形成し、前記M個の拡散性オーディオ信号を前記M個の非拡散性オーディオ信号と組み合わせてM個の出力オーディオ信号を形成することに関わってもよい。
いくつかの実装では、本方法は、前記N個のオーディオ信号の前記拡散性部分からK個の中間的な信号を導出することに関わってもよい。ここで、Kは1以上であり、M−N以下である。各中間的なオーディオ信号は、前記N個のオーディオ信号の前記拡散性部分と音響心理学的に脱相関されてもよい。Kが1より大きい場合、各中間的なオーディオ信号は、他のすべての中間的なオーディオ信号と音響心理学的に脱相関されてもよい。いくつかの実装では、前記K個の中間的な信号を導出することは、遅延、全通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムのうちの一つまたは複数を含んでいてもよい脱相関プロセスに関わってもよい。前記M個の拡散性オーディオ信号は、前記N個の拡散性信号のほか前記K個の中間的な信号に応答して導出されてもよい。
本開示のいくつかの側面は、インターフェース・システムおよび論理システムを含む装置において実装されてもよい。論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような一つまたは複数のプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントおよび/またはそれらの組み合わせを含んでいてもよい。インターフェース・システムはユーザー・インターフェースまたはネットワーク・インターフェースのうちの少なくとも一つを含んでいてもよい。本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、論理システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。
論理システムは、インターフェース・システムを介して、N個の入力オーディオ信号を受領することができてもよい。N個のオーディオ信号のそれぞれはある空間位置に対応してもよい。論理システムは、前記N個のオーディオ信号の拡散性部分を導出し、過渡的オーディオ信号条件のインスタンスを検出することができてもよい。論理システムは、前記N個のオーディオ信号の前記拡散性部分を処理して、M個の拡散性オーディオ信号を導出することができてもよい。MはNより大きく、2より大きい。過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い空間位置に対応する一つまたは複数に対してより大きな割合で、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配することに関わってもよい。
論理システムは、非過渡的オーディオ信号条件のインスタンスを検出することができてもよい。非過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号に対して実質的に一様な仕方で分配することに関わってもよい。
前記処理は、前記N個のオーディオ信号の前記拡散性部分に混合行列を適用して、前記M個の拡散性オーディオ信号を導出することに関わってもよい。前記混合行列は、可変な分配行列であってもよい。前記可変な分配行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列からおよび過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出されてもよい。いくつかの実装では、過渡行列の各要素は、非過渡行列から導出されてもよい。過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わしてもよい。いくつかの例では、スケーリングは、入力チャネル位置と出力チャネル位置の間の関係の関数であってもよい。
論理システムは、過渡制御信号値を決定することができてもよい。いくつかの例では、前記可変な分配行列は、少なくとも部分的には前記過渡制御信号値に基づいて過渡行列と非過渡行列の間を補間することによって導出されてもよい。
いくつかの実装では、論理システムは、前記N個のオーディオ信号のそれぞれをB個の周波数帯域に変換することができてもよい。論理システムは、前記の導出し、検出し、処理することを、前記B個の周波数帯域のそれぞれについて別個に実行することができてもよい。
論理システムは、前記N個のオーディオ信号の非拡散性部分をパンしてM個の非拡散性オーディオ信号を形成することができてもよい。論理システムは、前記M個の拡散性オーディオ信号を前記M個の非拡散性オーディオ信号と組み合わせてM個の出力オーディオ信号を形成することができてもよい。
本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよい。本明細書に記載される主題の一つまたは複数の実装の詳細が、付属の図面および以下の記述において記載される。他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。以下の図の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。
アップミックスの例を示す図である。 オーディオ処理システムの例を示す図である。 オーディオ処理システムによって実行されうるオーディオ処理方法のブロックの概要を示す流れ図である。 オーディオ処理システムのもう一つの例を与えるブロック図である。 オーディオ処理システムのもう一つの例を与えるブロック図である。 ステレオ入力信号および5チャネル出力信号に関わる実装のためのスケーリング因子の例を示す図である。 一例に基づく拡散性信号プロセッサのさらなる詳細を示すブロック図である。 N個の中間的入力信号からM個の中間的出力信号の集合を生成することができる装置のブロック図である。 選択された中間的信号を脱相関させることの例を示すブロック図である。 脱相関器コンポーネントの例を示すブロック図である。 脱相関器コンポーネントの代替例を示すブロック図である。 オーディオ処理装置のコンポーネントの例を与えるブロック図である。 さまざまな図における同様の参照符号および指定は同様の要素を示す。
以下の記述は、本開示のいくつかの斬新な側面およびこれら斬新な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。さらに、記載される実装は、ハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステム等のようなさまざまな装置およびシステムにおいて少なくとも部分的には実装されてもよい。したがって、本開示の教示は、図面に示されるおよび/または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。
図1は、アップミックスの例を示している。本稿に記載されるさまざまな実施形態において、オーディオ処理システム10は、アップミキサー機能を提供することができ、本稿ではアップミキサーと称されることもある。この例において、オーディオ処理システム10は、この例では左入力(Li)および右入力(Ri)チャネルである二つの入力チャネルについてのオーディオ信号をアップミックスすることによって、左(L)、右(R)、中央(C)、左サラウンド(LS)および右サラウンド(RS)と指定される五つの出力チャネルのためのオーディオ信号を取得することができる。いくつかのアップミキサーは、二つまたは異なる数の入力チャネル、たとえば3個、5個またはそれ以上の入力チャネルから、異なる数のチャネル、たとえば3個、7個、9個またはそれ以上の出力チャネルを出力することができてもよい。
入力オーディオ信号は一般に、拡散性および方向性のオーディオ・データを含むであろう。方向性オーディオ・データに関しては、オーディオ処理システム10は、聴取者105に、見かけの位置および/または方向をもつ一つまたは複数の聴覚成分の感覚を提供する方向性出力信号を生成できるべきである。たとえば、オーディオ処理システム10は、パン・アルゴリズムを適用して、各スピーカー110を通じて同じオーディオ信号を再生することによってファントム像または二つのスピーカー110の間の音の見かけの方向を作り出すことができてもよい。
拡散性のオーディオ・データに関しては、聴取者105に、音が聴取者105のまわりの(全方向ではないまでも)多くの方向から発しているように思える包み込むような拡散性音場の知覚を提供する拡散性オーディオ信号を生成できるべきである。高品質の拡散性音場は典型的には、単に聴取者のまわりに位置する複数のスピーカー110を通じて同じオーディオ信号を再生することによって作り出すことはできない。結果として得られる音場は一般には、異なる聴取位置において実質的に変化する振幅をもち、しばしば聴取者105の位置の非常に小さな変化について大きく変わる。聴取領域内のいくつかの位置は、一方の耳については音がないように思えるが他方の耳についてはそうではないこともありうる。結果として得られる音場は、人工的に感じられる。したがって、いくつかのアップミキサーは、オーディオ信号の拡散性部分が聴取者105のまわりに一様に分配されている印象を作り出すために、出力信号の拡散性部分を脱相関させてもよい。しかしながら、入力オーディオ信号の「過渡的」または「衝撃的」瞬間の間は、拡散性信号をすべての出力チャネルにわたって一様に散布させることは、もとの過渡音における知覚される「ぼけ」または「パンチの欠如」となることがある。これは、出力チャネルのいくつかがもとの入力チャネルから空間的に隔たっているときに特に問題となりうる。たとえば、標準的なステレオ入力から導出されたサラウンド信号ではそうである。
上記の問題に対処するために、本稿に開示されるいくつかの実装は、N個の入力オーディオ信号の拡散性部分および非拡散性もしくは「直接」部分を分離することができるアップミキサーを提供する。アップミキサーは、過渡的オーディオ信号条件のインスタンスを検出することができてもよい。過渡的オーディオ信号条件のインスタンスの間、アップミキサーは、M個のオーディオ信号が出力される拡散性信号展開プロセスに、信号適応的な制御を加えることができてもよい。本開示は、数Nは1以上であり、数Mは3以上であり、数MはNより大きいとする。
いくつかのそのような実装によれば、アップミキサーは、過渡的オーディオ信号条件のインスタンスの間、オーディオ信号の拡散性部分が、実質的に、入力チャネルに空間的に近い出力チャネルのみに分配されうるよう、時間を通じて拡散性信号展開プロセスを変更してもよい。非過渡的オーディオ信号条件のインスタンスの間は、オーディオ信号の拡散性部分は実質的に一様な仕方で分配されてもよい。このアプローチでは、過渡的オーディオ信号条件のインスタンスの間は、過渡音のインパクトを維持するために、オーディオ信号の拡散性部分はもとのオーディオ信号の空間的近傍に留まる。非過渡的オーディオ信号条件のインスタンスの間は、包み込み感を最大にするために、オーディオ信号の拡散性部分は実質的に一様な仕方でちらされてもよい。
図2は、オーディオ処理システムの例を示している。この実装では、オーディオ処理システム10は、インターフェース・システム205、論理システム210およびメモリ・システム215を含む。インターフェース・システム205はたとえば、一つまたは複数のネットワーク・インターフェース、ユーザー・インターフェースなどを含んでいてもよい。インターフェース・システム205は、一つまたは複数のユニバーサル・シリアル・バス(USB)インターフェースまたは同様のインターフェースを含んでいてもよい。インターフェース・システム205は無線または有線のインターフェースを含んでいてもよい。
論理システム210システムは、一つまたは複数の汎用の単一チップまたは複数チップ・プロセッサのような一つまたは複数のプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントおよび/またはそれらの組み合わせを含んでいてもよい。
メモリ・システム215は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような一つまたは複数の非一時的媒体を含んでいてもよい。メモリ・システム215は、フラッシュメモリ、一つまたは複数のハードドライブなどといった一つまたは複数の他の好適な型の非一時的記憶媒体を含んでいてもよい。いくつかの実施形態では、インターフェース・システム205は、論理システム210とメモリ・システム215の間の少なくとも一つのインターフェースを含んでいてもよい。
オーディオ処理システム10は、本稿に記載される処理方法の一つまたは複数を実行することができてもよい。図3は、オーディオ処理システムによって実行されうるオーディオ処理方法のブロックの概要を示す流れ図である。よって、図3に概要を示される方法300は、図2のオーディオ処理システム10をも参照して記述される。本稿に記載される他の方法と同様に、方法300の動作は必ずしも図3に示される順序で実行されるのではない。さらに、方法300(および本稿で与えられる他の方法)は、図示または説明されるより多数または少数のブロックを含んでいてもよい。
この例において、図3のブロック305は、N個の入力オーディオ信号を受領することに関わる。N個のオーディオ信号のそれぞれは、ある空間位置に対応してもよい。たとえば、N=2であるいくつかの実装について、空間位置は、左および右の入力オーディオ・チャネルの想定される位置に対応してもよい。いくつかの実装では、論理システム210は、インターフェース・システム205を介して、N個の入力オーディオ信号を受領することができてもよい。
いくつかの実装では、方法300のブロックは、複数の周波数帯域のそれぞれについて実行されてもよい。よって、いくつかの実装では、ブロック305は、N個のオーディオ信号に対応する、複数の周波数帯域に分解されているオーディオ・データを受領することに関わっていてもよい。代替的な実施形態では、ブロック305は、入力オーディオ・データを複数の周波数帯域に分解するプロセスを含んでいてもよい。たとえば、このプロセスは、短時間フーリエ変換(STFT)または直交ミラー・フィルタバンク(QMF)のような何らかの型のフィルタバンクに関わってもよい。
この実装では、図3のブロック310は、N個の入力オーディオ信号の拡散性部分を導出することに関わる。たとえば、論理システム210は、N個の入力オーディオ信号の非拡散性部分から拡散性部分を分離することができてもよい。このプロセスのいくつかの例は後述する。任意の所与の時点において、N個の入力オーディオ信号の拡散性部分に対応するオーディオ信号の数はNである、Nより少ないまたはNより多いことがありうる。
論理システム210は、少なくとも部分的には、オーディオ信号を脱相関させることができてもよい。二つの信号の数値的な相関は、多様な既知の数値アルゴリズムを使って計算できる。これらのアルゴリズムは、マイナス1とプラス1の間で変わる相関係数と呼ばれる数値相関の指標を与える。1に等しいまたは1に近い大きさをもつ相関係数は、二つの信号が密に関係していることを示す。0に等しいまたは0に近い大きさをもつ相関係数は、二つの信号が概して互いに独立であることを示す。
音響心理学的な相関は、いわゆる臨界帯域幅をもつ諸周波数サブバンドを横断して存在するオーディオ信号の相関属性をいう。人間の聴覚系の周波数分解能力はオーディオ・スペクトルを通じて周波数とともに変わる。人間の耳は、約500Hzより下の低周波数では周波数においてより密接したスペクトル成分を聞き分けることができるが、周波数が可聴限界に向けて上がるとそれほど密接していないスペクトル成分しか聞き分けられない。この周波数分解の幅が臨界帯域幅と称され、これは周波数とともに変わる。
二つのオーディオ信号は、音響心理学的な諸臨界帯域幅を横断して平均数値相関係数が0に等しいまたは0に近い場合に、互いに対して音響心理学的に脱相関されているといわれる。音響心理学的脱相関は、二つの信号の間の数値相関係数がすべての周波数において0に等しいまたは0に近い場合に達成される。音響心理学的脱相関は、二つの信号の間の数値相関係数がすべての周波数において0に等しいまたは0に近いのではない場合でも、数値相関が、各音響心理学的臨界帯域にわたる平均がその臨界帯域内の任意の周波数についての最大相関係数の半分より小さいように変化する場合には、達成される。よって、音響心理学的脱相関は、二つの信号が、互いとある程度の数値相関を有していたとしても音響心理学的には脱相関されていると考えられることがあるという点で、数値的な脱相関ほど厳格ではない。
論理システム210は、N個のオーディオ信号の拡散性部分からK個の中間的な信号を導出することができてもよい。その際、K個の中間的なオーディオ信号のそれぞれはN個のオーディオ信号の前記拡散性部分と音響心理学的に脱相関されるようにする。Kが1より大きい場合は、K個の中間的なオーディオ信号のそれぞれは、他のすべての中間的なオーディオ信号と音響心理学的に脱相関されてもよい。いくつかの例を後述する。
いくつかの実装では、論理システム210は、図3のブロック315および320で記述される動作を実行することができてもよい。この例において、ブロック315は、過渡的オーディオ信号条件のインスタンスを検出することに関わる。たとえば、ブロック315は、たとえば時間を通じたパワーの変化が所定の閾値を超えたかどうかを判定することによって、パワーの急激な変化の始まりを検出することに関わってもよい。よって、過渡検出は、本稿では開始検出と称されることがある。図4Bおよび図6の開始検出モジュール415を参照して下記で例を与える。いくつかのそのような例は、複数の周波数帯域における開始検出に関わる。したがって、いくつかの事例では、ブロック315は、全部ではないがいくつかの周波数帯域における過渡的オーディオ信号のインスタンスを検出することに関わってもよい。
ここで、ブロック320は、N個のオーディオ信号の拡散性部分を処理してM個の拡散性オーディオ信号を導出することに関わる。過渡的オーディオ信号条件のインスタンスの間、ブロック320の処理は、N個のオーディオ信号の拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い空間位置に対応する一つまたは複数に対してより大きな割合で分配することに関わってもよい。ブロック320の処理は、N個のオーディオ信号の拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配することに関わってもよい。図5に示される一つの例が下記で論じられる。いくつかのそのような実装では、ブロック320の処理は、N個のオーディオ信号の拡散性部分とK個の中間的なオーディオ信号を混合して、M個の拡散性オーディオ信号を導出することに関わってもよい。過渡的オーディオ信号条件のインスタンスの間、混合プロセスは、オーディオ信号の拡散性部分を、主として、入力チャネルに空間的に近い出力チャネルに対応する出力オーディオ信号に分配することに関わってもよい。いくつかの実装は、非過渡的オーディオ信号条件のインスタンスを検出することにも関わってもよい。非過渡的オーディオ信号条件のインスタンスの間、混合は、出力チャネルへの拡散性信号を、M個の出力オーディオ信号に実質的に一様な仕方で分配することに関わってもよい。
いくつかの実装では、ブロック320の処理は、N個のオーディオ信号の拡散性部分とK個の中間的なオーディオ信号に混合行列を適用して、M個の拡散性オーディオ信号を導出することに関わってもよい。たとえば、混合行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列および過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出される可変な分配行列であってもよい。いくつかの実装では、過渡行列は、非過渡行列から導出されてもよい。いくつかのそのような実装によれば、過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わしてもよい。スケーリングはたとえば、入力チャネル位置と出力チャネル位置の間の関係の関数であってもよい。
方法300のより詳細な例を以下で与える。これは過渡行列および非過渡行列の例を含むが、それに限定されるものではない。たとえば、ブロック315および320のさまざまな例は図4B、図5を参照して後述する。
図4Aは、オーディオ処理システムのもう一つの例を与えるブロック図である。図4Aのブロックは、たとえば、図2の論理システム210によって実装されてもよい。いくつかの実装では、図4Aのブロックは、図2の論理システム210によって実装されてもよい。いくつかの実装では、図4Aのブロックは、少なくとも部分的には、非一時的媒体に記憶されたソフトウェアによって実装されてもよい。この実装では、オーディオ処理システム10は、信号経路19からの一つまたは複数の入力チャネルについてオーディオ信号を受領し、複数の出力チャネルについて信号経路59に沿ってオーディオ信号を生成することができる。信号経路19を横切る短い線分および他の信号経路を横切る短い線分は、これらの信号経路が一つまたは複数のチャネルのための信号を担持することができることを示す。短い線分のすぐ下の記号NおよびMは、これらさまざまな信号経路がそれぞれN個およびM個のチャネルについての信号を搬送することができることを示す。短い線分のいくつかのすぐ下の記号「x」および「y」は、それぞれの信号経路が指定されない数の信号を搬送することができることを示す。
オーディオ処理システム10では、入力信号解析器20は、信号経路19から一つまたは複数の入力チャネルについてのオーディオ信号を受領し、入力オーディオ信号のどの部分が拡散性音場を表わし、入力オーディオ信号のどの部分が拡散性でない音場を表わすかを判別することができる。入力信号解析器20は、非拡散性音場を表わすと見なされる入力オーディオ信号の部分を、信号経路28に沿って非拡散性信号プロセッサ30に渡すことができる。ここで、非拡散性信号プロセッサ30はラウドスピーカーのような複数の音響トランスデューサを通じて非拡散性音場を再生することが意図されているM個のオーディオ信号の集合を生成し、これらのオーディオ信号を信号経路39に沿って伝送することができる。この型の処理を実行することができるアップミックス装置の一例はドルビー・プロロジックII(商標)デコーダである。
この例において、入力信号解析器20は、拡散性音場に対応する入力オーディオ信号の部分を信号経路29に沿って拡散性信号プロセッサ40に伝送することができる。ここで、拡散性信号プロセッサ40は拡散性音場に対応するM個のオーディオ信号の集合を信号経路49に沿って生成することができる。本開示は、拡散性信号プロセッサ40によって実行されうるオーディオ処理のさまざまな例を提供する。
この実施形態において、加算コンポーネント50は、非拡散性信号プロセッサ30からのM個のオーディオ信号のそれぞれを、拡散性信号プロセッサ40からのM個のオーディオ信号の対応するものと組み合わせて、M個の出力チャネルの対応するものについてオーディオ信号を生成することができる。各出力チャネルについてのオーディオ信号は、スピーカーのような音響トランスデューサを駆動することが意図されていてもよい。
本稿に記載されるさまざまな実装は、拡散性音場を表わすことのできるオーディオ信号の集合を生成するための混合の式の系を形成し、使用することに向けられる。いくつかの実装では、混合の式は線形の混合の式であってもよい。混合の式は、たとえば、拡散性信号プロセッサ40において使用されてもよい。
しかしながら、オーディオ処理システム10は、本開示がどのように実装されうるかの一例に過ぎない。本開示は、本稿で示され、記述されるものとは機能または構造において異なりうる他の装置において実装されてもよい。たとえば、音場の拡散性および非拡散性の部分の両方を表わす信号が単一のコンポーネントによって処理されてもよい。区別される拡散性信号プロセッサ40についてのいくつかの実装であって、行列によって定義される線形の式の系に従って信号を混合するものが下記に記述される。拡散性信号プロセッサ40および非拡散性信号プロセッサ30の両方についてのプロセスのさまざまな部分は、単一の行列によって定義される線形の式の系によって実装されてもよい。さらに、本発明の諸側面は、入力信号解析器20、非拡散性信号プロセッサ30または加算コンポーネント50は組み込むことなく、装置に組み込まれてもよい。
図4Bは、オーディオ処理システムのもう一つの例を与えるブロック図である。図4Bのブロックは、いくつかの実装によれば、図4Aのブロックのより詳細な例を含んでいる。よって、図4Bのブロックはたとえば、図2の論理システム210によって実装されてもよい。いくつかの実装では、図4Bのブロックは、少なくとも部分的には、非一時的媒体に記憶されたソフトウェアによって実装されてもよい。
ここで、入力信号解析器20は、統計的解析モジュール405および信号分離モジュール410を含む。この実装では、拡散性信号プロセッサ40は、開始検出モジュール415および適応的拡散性信号展開モジュール420を含む。しかしながら、代替的な実装では、図4Bに示されるブロックの機能は、異なるモジュールの間で分配されてもよい。たとえば、いくつかの実装では、入力信号解析器20が、開始検出モジュール415の機能を実行してもよい。
統計的解析モジュール405は、Nチャネル入力オーディオ信号に対するさまざまな型の解析を実行することができてもよい。たとえば、N=2であれば、統計的解析モジュール405は、左右の信号のパワーの和、左右の信号のパワーの差および入力の左右の信号の間の相互相関の実部の推定値を計算することができてもよい。それぞれの統計的推定値は、ある時間ブロックにわたってかつある周波数帯域にわたって累積されてもよい。統計的推定値は、時間的に平滑化されてもよい。たとえば、統計的推定値は、一次無限インパルス応答(IIR)フィルタのような、周波数依存の漏れのある積分器(leaky integrator)を使って平滑化されてもよい。統計的解析モジュール405は、他のモジュール、たとえば信号分離モジュール410および/またはパン・モジュール425に統計的解析データを提供してもよい。
この実装において、信号分離モジュール410は、N個の入力オーディオ信号の拡散性部分を、N個の入力オーディオ信号の非拡散性または「直接」部分から分離することができる。信号分離モジュール410はたとえば、N個の入力オーディオ信号の高度に相関した部分が非拡散性オーディオ信号に対応すると判別してもよい。たとえば、N=2の場合、信号分離モジュール410は、統計的解析モジュール405からの統計的解析データに基づいて、非拡散性オーディオ信号は、左右の入力両方に含まれる当該オーディオ信号の高度に相関した部分であると判別してもよい。
同じ(または同様の)統計的解析データに基づいて、パン・モジュール425は、オーディオ信号のこの部分が、たとえば点源のような局在化されたオーディオ源を表わすものとして、適切な位置に方向制御されるべきであることを判別してもよい。パン・モジュール425または非拡散性信号プロセッサ30の別のモジュールは、N個の入力オーディオ信号の非拡散性部分と対応するM個の非拡散性オーディオ信号を生成することができてもよい。非拡散性信号プロセッサ30は、該M個の非拡散性オーディオ信号を加算コンポーネント50に提供することができてもよい。
信号分離モジュール410は、いくつかの例では、入力オーディオ信号の拡散性部分は、非拡散性部分が単離されたあとに残る当該信号の部分であると判別してもよい。たとえば、信号分離モジュール410は、入力オーディオ信号とオーディオ信号の非拡散性部分との間の差を計算することによって、オーディオ信号の拡散性部分を決定してもよい。信号分離モジュール410は、オーディオ信号の拡散性部分を、適応的拡散性信号展開モジュール420に提供してもよい。
ここで、開始検出モジュール415は、過渡的オーディオ信号条件のインスタンスを検出することができる。この例において、開始検出モジュール415は、過渡制御信号値を決定し、該過渡制御信号値を適応的拡散性信号展開モジュール420に提供することができる。いくつかの事例では、開始検出モジュール415は、複数の周波数帯域のそれぞれにおけるオーディオ信号が過渡的オーディオ信号を含んでいるかどうかを判定できてもよい。よって、いくつかの事例では、開始検出モジュール415によって決定され、適応的拡散性信号展開モジュール420に提供される過渡制御信号値は、すべての周波数帯域ではなく、一つまたは複数の特定の周波数帯域に固有であってもよい。
この実装では、適応的拡散性信号展開モジュール420は、N個の入力オーディオ信号の拡散性部分からK個の中間的な信号を導出することができる。いくつかの実装では、それぞれの中間的なオーディオ信号は、N個の入力オーディオ信号の拡散性部分と音響心理学的に脱相関されてもよい。Kが1より大きい場合、各中間的オーディオ信号は、他のすべての中間的オーディオ信号と音響心理学的に脱相関されてもよい。
この実装において、適応的拡散性信号展開モジュール420は、N個のオーディオ信号の拡散性部分とK個の中間的なオーディオ信号を混合して、M個の拡散性オーディオ信号を導出することができる。ここで、MはNより大きく、2より大きい。この例において、Kは1以上であり、M−N以下である。(少なくとも部分的には、開始検出モジュール415から受領される過渡制御信号値に従って判別される)過渡的オーディオ信号条件のインスタンスの間、混合プロセスは、N個のオーディオ信号の拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い、たとえばN個の入力チャネルの想定される空間位置により近い空間位置に対応する一つまたは複数に対してより大きな割合で、分配することに関わっていてもよい。過渡的オーディオ信号条件のインスタンスの間、混合プロセスは、N個のオーディオ信号の拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配することに関わってもよい。しかしながら、非過渡的オーディオ信号条件のインスタンスの間は、混合プロセスは、N個のオーディオ信号の拡散性部分を、前記M個の拡散性オーディオ信号に対して実質的に一様な仕方で分配することに関わってもよい。
いくつかの実装では、適応的拡散性信号展開モジュール420は、N個のオーディオ信号の拡散性部分とK個の中間的なオーディオ信号に混合行列を適用して、M個の拡散性オーディオ信号を導出することができてもよい。適応的拡散性信号展開モジュール420は、M個の拡散性オーディオ信号を、加算コンポーネント50に提供することができてもよい。加算コンポーネント50は、M個の拡散性オーディオ信号を、M個の非拡散性オーディオ信号と組み合わせてM個の出力オーディオ信号を形成することができてもよい。
いくつかのそのような実装によれば、適応的拡散性信号展開モジュール420によって適用される混合行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列からおよび過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出されてもよい。過渡行列および非過渡行列のさまざまな例はのちに与える。
いくつかのそのような実装によれば、過渡行列は非過渡行列から導出される可変な分配行列であってもよい。たとえば、過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わしてもよい。スケーリングは、たとえば、入力チャネル位置と出力チャネル位置の間の関係の関数であってもよい。いくつかの実装では、適応的拡散性信号展開モジュール420は、少なくとも部分的には開始検出モジュール415から受領される過渡制御信号値に基づいて過渡行列と非過渡行列の間を補間することができてもよい。
いくつかの実装では、適応的拡散性信号展開モジュール420は、過渡制御信号値に従って可変な分配行列を計算することができてもよい。いくつかの例が下記で与えられる。しかしながら、代替的な実装では、適応的拡散性信号展開モジュール420は、メモリ・デバイスから、記憶されている可変な分配行列を取得することによって可変な分配行列を決定することができてもよい。たとえば、適応的拡散性信号展開モジュール420は、複数の記憶された可変な分配行列のうちのどの可変な分配行列をメモリ・デバイスから取得するかを、少なくとも部分的には、過渡制御信号値に基づいて決定することができてもよい。
過渡制御信号値は一般には時間変化するだろう。いくつかの実装では、過渡制御信号値は、ある最小値からある最大値に連続的な仕方で変化してもよい。しかしながら、代替的な実装では、過渡制御信号値は、ある最小値からある最大値まで離散的な値の範囲において変化してもよい。
c(t)が、値0と1の間で連続的に変化する過渡制御信号値を有する時間変化する過渡制御信号を表わすとする。この例において、過渡制御信号値1は、対応するオーディオ信号が過渡的な性質であることを示し、過渡制御信号値0は対応するオーディオ信号が非過渡的であることを示す。Tが、過渡的オーディオ信号条件のインスタンスの間に使うのにより好適な「過渡行列」を表わし、Cが非過渡的オーディオ信号条件のインスタンスの間に使うのにより好適な「非過渡行列」を表わすとする。非過渡行列のさまざまな例は後述する。可変な分配行列の非規格化バージョンD(t)は、過渡行列と非過渡行列との間のパワーを保存する補間として計算されてもよい。
Figure 2016537855
Mチャネル拡散性出力信号の相対エネルギーを維持するために、この非規格化行列は次いで、この行列のすべての要素の平方の和が1に等しくなるよう、規格化されてもよい。
Figure 2016537855
式(2b)において、Dij(t)は、規格化されていない分配行列D(t)のi番目の行およびj番目の列の要素を表わす。分配行列のi番目の行およびj番目の列の要素は、j番目の入力拡散性チャネルがi番目の出力拡散性チャネルに寄与する量を指定する。適応的拡散性信号展開モジュール420は次いで、規格化された分配行列〔式(2a)〕をN+Kチャネルの拡散性入力信号に適用して、Mチャネル拡散性出力信号を生成してもよい。
しかしながら、代替的な実装では、適応的拡散性信号展開モジュール420は、それぞれの新たな時点について規格化された分配行列を計算し直すのではなく、(たとえばルックアップテーブルからの)記憶されている複数の規格化された分配行列から規格化された分配行列を取得してもよい。たとえば、規格化された分配行列のそれぞれは、制御信号c(t)の対応する値(または値の範囲)について前もって計算されていてもよい。
上記のように、過渡行列Tは、入力および出力チャネルの想定される空間位置とともに、Cの関数として計算されてもよい。具体的には、過渡行列の各要素は対応する非過渡行列要素のスケーリングとして計算されてもよい。スケーリングは、たとえば、対応する出力チャネルの位置の、入力チャネルの位置との関係の関数であってもよい。分配行列のi番目の行およびj番目の列の要素がj番目の入力拡散性チャネルがi番目の出力拡散性チャネルに寄与する量を指定することを認識して、過渡行列Tの各要素は
Figure 2016537855
として計算されてもよい。
式(3)において、スケーリング因子βiは、入力信号のN個のチャネルの位置に対するMチャネル出力信号のi番目のチャネルの位置に基づいて計算される。一般に、入力チャネルに近い出力チャネルについては、βiが1に近いことが望ましいことがある。出力チャネルが入力チャネルから空間的に隔たっていくにつれて、βiがより小さくなることが望ましいことがある。
図5は、ステレオ入力信号および5チャネル出力信号に関わる実装についてのスケール因子の例を示している。この例において、入力チャネルはLiおよびRiと指示されており、出力チャネルはL、R、C、LSおよびRSと指示されている。想定されるチャネル位置およびスケーリング因子βiの例示的値が図5に描かれている。入力チャネルLiおよびRiに空間的に近い出力チャネルL、R、Cについては、スケーリング因子βiはこの例では1に設定されていることがわかる。入力チャネルLiおよびRiから空間的により隔たっていると想定される出力チャネルLS、RSについては、スケーリング因子βiはこの例では0.25に設定されている。
入力チャネルLiおよびRiが正中面505からマイナスおよびプラスの30度のところに位置されているとすると、いくつかのそのような実装によれば、正中面505からの出力チャネルの角度の絶対値が45度より大きい場合に、βi=0.25となる。他の場合にはβi=1である。この例は、スケーリング因子を生成するための一つの簡単な方針を提供する。しかしながら、他の多くの方針が可能である。たとえば、いくつかの実装では、スケーリング因子βiは異なる最小値を有していてもよく、および/または最小値と最大値の間の範囲の複数の値を有していてもよい。
図6は、一例による、拡散性信号プロセッサのさらなる詳細を示すブロック図である。この実装では、拡散性信号プロセッサ40の適応的拡散性信号展開モジュール420は、脱相関器モジュール605および可変分配行列モジュール610を含む。この例では、脱相関器モジュール605は、拡散性オーディオ信号のN個のチャネルを脱相関して、可変分配行列モジュール610へのK個の実質的に直交する出力チャネルを生成することができる。本稿での用法では、二つのベクトルが互いに「実質的に直交」すると考えられるのは、両者のドット積が両者の絶対値の積の35%より小さい場合である。これは、ベクトル間の、約70度から約110までの間の角度に対応する。
可変分配行列モジュール610は、少なくとも部分的には、開始検出モジュール415から受領される過渡制御信号値に基づいて、適切な可変な分配行列を決定し、適用することができる。いくつかの実装では、可変分配行列モジュール610は、可変な分配行列を、少なくとも部分的には、過渡制御信号値に基づいて計算することができてもよい。代替的な実装では、可変分配行列モジュール610は、少なくとも部分的は過渡制御信号値に基づいて、記憶されている可変な分配行列を選択し、選択された可変な分配行列をメモリ・デバイスから取り出すことができてもよい。
いくつかの実装は広帯域の仕方で動作してもよいが、適応的拡散性信号展開モジュール420は多数の周波数帯域に対して作用するほうが好ましいことがある。このようにして、過渡音に関連付けられていない周波数帯域は、すべてのチャネルを横断して均等に分配されるままであることが許容されうる。それにより、適切な周波数帯域における過渡音のインパクトを保存しつつ、包み込む感じの度合いを最大化する。これを達成するために、オーディオ処理システム10は、入力オーディオ信号を多数の周波数帯域に分解することができてもよい。
たとえば、オーディオ処理システム10は、短時間フーリエ変換(STFT)または直交ミラー・フィルタバンク(QMF)のような何らかの型のフィルタバンクを適用することができてもよい。フィルタバンクの各帯域について、(たとえば図4Bまたは図6に示されるような)オーディオ処理システム10の一つまたは複数のコンポーネントのインスタンスが並列に実行されてもよい。たとえば、適応的拡散性信号展開モジュール420のインスタンスが、フィルタバンクの各帯域について実行されてもよい。
いくつかのそのような実装によれば、開始検出モジュール415は、各周波数帯域においてオーディオ信号の過渡的な性質を示す複数帯域過渡制御信号を生成することができてもよい。いくつかの実装では、開始検出モジュール415は、各帯域において時間を横断したエネルギーの増大を検出して、そのようなエネルギー増に対応する過渡制御信号を生成することができてもよい。そのような制御信号は、各周波数帯域における時間変化するエネルギーから生成され、すべての入力チャネルを横断してダウンミックスされてもよい。E(b,t)が周波数帯域bにおける時刻tにおけるこのエネルギーを表わすとすると、このエネルギーの時間平滑化されたバージョンは、まず、一例では、たとえば次の一極平坦化器(one-pole smoother)を使って計算されてもよい。
Figure 2016537855
一例では、平滑化係数αsは、約200msの半減時間(half-decay time)を与えるように選ばれてもよい。しかしながら、他の平滑化係数の値が満足いく結果を与えることもある。次に、現時点での平滑化されていないエネルギーのdB値から、前の時刻における平滑化されたエネルギーのdB値を引くことによって、生の過渡信号o(b,t)が計算されてもよい。
Figure 2016537855
この生の過渡信号は、次いで、過渡規格化限界olowおよびohighを使って0と1の間にあるよう規格化されてもよい。
Figure 2016537855
olow=3dBおよびohigh=9dBの値がうまくいくことが見出されている。しかしながら、他の値が受け入れ可能な結果を生じることもある。最後に、過渡制御信号c(b,t)が計算されうる。一例では、過渡制御信号c(b,t)は、無限アタック、ゆっくりしたリリースの一極平滑化フィルタ(one-pole smoothing filter)
Figure 2016537855
を用いて規格化された過渡信号を平滑化することによって計算されてもよい。
約200msの半減時間を与えるリリース係数αrがうまくいくことが見出されている。しかしながら、他のリリース係数値も満足いく結果を与えることもある。この例において、各周波数帯域の、結果として得られる過渡制御信号c(b,t)は、その帯域におけるエネルギーが有意な上昇を示すときに瞬時に1に上昇し、その後、信号エネルギーが減少するにつれて徐々に0まで減少する。各帯域における分配行列のその後の比例的な変動は、拡散性音場の知覚的に透明な変調を与える。これは、過渡音のインパクトと全体的な包み込み感の両方を維持する。
下記は、非過渡行列Cを形成し、適用することならびに関係した方法およびプロセスのいくつかの例である。
第一の導出方法
再び図4Aを参照するに、この例において、拡散性信号プロセッサ40は、経路29から受領されたオーディオ信号のN個のチャネルを線形の式の系に従って混合することによって、M個の信号の集合を経路49に沿って生成する。以下の議論における記述の簡単のため、経路29から受領されるオーディオ信号のN個のチャネルの前記諸部分は、中間入力信号と称され、経路49に沿って生成される中間信号のM個のチャネルは中間出力信号と称される。この混合動作は、たとえば下記に示されるような行列乗算によって表わされてもよい線形の式の系を使うことを含む。
Figure 2016537855
式(8)において、ベクトルXはN個の中間入力信号から得られるN+K個の信号に対応する列ベクトルであり、Cは混合係数のM×(N+K)行列もしくはアレイを表わし、ベクトルYはM個の中間出力信号に対応する列ベクトルを表わす。混合動作は、時間領域または周波数領域で表わされる信号に対して実行されてもよい。以下の議論は、より具体的に時間領域実装に言及する。
式(1)に示されるように、Kは1以上であり、差(M−N)以下である。結果として、信号Xiの数および行列Cにおける列数はN+1からMまでの間である。行列Cの係数は、互いに実質的に直交するM次元空間におけるN+K個の単位絶対値のベクトルの集合から得られてもよい。上記のように、二つのベクトルが互いに「実質的に直交」すると考えられるのは、両者のドット積が両者の絶対値の積の35%より小さい場合である。
行列Cにおける各列は、前記集合中のベクトルのうちの一つのベクトルの要素に対応するM個の係数を有していてもよい。たとえば、行列Cの第一列にある係数は、前記集合中のベクトルVのうちの一つに対応し、その要素は(V1,…,VM)と記される。よって、C1,1=p・V1,…,CM,1=p・VMである。ここで、pは、所望に応じて行列係数をスケーリングするために使われるスケーリング因子である。多くの応用において、係数は、行列のフロベニウス・ノルムが√Nに等しいまたはその10%以内であるようスケーリングされる。スケーリングのさらなる側面が下記で論じられる。
N+K個のベクトルの集合は、所望されうる任意の仕方で導出されうる。一つの方法は、ガウス分布をもつ擬似乱数値をもつ係数のM×M行列Gを生成し、この行列の特異値分解を計算して、ここでU、S、Vと記される三つのM×M行列を得る。UおよびV行列はいずれもユニタリー行列である。C行列は、U行列またはV行列のいずれかからN+K個の列を選択し、これらの列における係数をスケーリングして√Nに等しいまたはその10%イア内のフロベニウス・ノルムを達成することによって、得られることができる。直交性についての要件のいくつかを緩和する方法について下記で述べる。
二つの信号の数値相関は、多様な既知の数値アルゴリズムを使って計算できる。これらのアルゴリズムは、マイナス1とプラス1の間で変化する相関係数と呼ばれる数値相関の指標を与える。1に等しいまたは近い絶対値をもつ相関係数は、二つの信号が密接に関係していることを示す。0に等しいまたは近い絶対値をもつ相関係数は、二つの信号が概して互いに独立であることを示す。
N+K個の入力信号は、N個の中間入力信号を互いに対して脱相関することによって得られてもよい。いくつかの実装では、脱相関は、本稿で「音響心理学的脱相関」と称されるものであってもよい。これについては上記で簡単に論じた。音響心理学的脱相関は、二つの信号が、互いとある程度の数値相関を有していたとしても音響心理学的には脱相関されていると考えられてもよいという点で、数値的な脱相関ほど厳格ではない。
音響心理学的脱相関は、遅延または他の型のフィルタを使って達成されることができる。そのいくつかは後述する。多くの実装において、音響心理学的脱相関を達成するためには、N+K個の信号XiのうちのN個はN個の中間入力信号から、何らの遅延やフィルタも使うことなく、直接取ることができる。これらN個の信号は、拡散性の音場を表わし、すでに音響心理学的に脱相関されている可能性が高いからである。
第二の導出方法
拡散性信号プロセッサ40によって生成される信号が、上記の第一の導出方法に従って、非拡散性音場を表わす他の信号と組み合わされる場合、結果として得られる信号の組み合わせは、時に、望ましくないアーチファクトを生成することがある。いくつかの事例では、これらのアーチファクトは、行列Cの設計が音場の拡散性と非拡散性の部分の間の可能な相互作用を適正に考慮していなかったために生じうる。上述したように、拡散性および非拡散性の間の区別は、常に確定的ではない。たとえば、図4Aを参照するに、入力信号解析器20は、ある程度拡散性の音場を表わす、経路28に沿ったいくつかの信号を生成してもよく、ある程度非拡散性の音場を表わす、経路29に沿った信号を生成してもよい。拡散性信号生成器40が、経路29上の信号によって表わされる音場の非拡散性の特徴を破壊するまたは修正する場合には、望ましくないアーチファクトまたは可聴な歪みが、経路59に沿って生成される出力信号から生成される音場において、生じうる。たとえば、経路49上のM個の拡散性の処理された信号の、経路39上のM個の非拡散性の処理された信号との和が、いくつかの非拡散性信号成分の打ち消しを引き起こす場合には、これは、普通なら達成されるはずの主観的な印象を劣化させることがありうる。
非拡散性信号プロセッサ30によって処理される音場の非拡散性の性質を考慮するように行列Cを設計することによって、改善が達成されうる。これは、経路19から受領された入力オーディオ信号のN個のチャネルを作り出すためにオーディオ信号のM個のチャネルを処理するエンコード処理を表わすまたは表わすと想定される行列Eをまず識別し、たとえば下記で論じるようにして、この行列の逆を導出することによって、できる。
行列Eの一例は、五つのチャネルL、C、R、LS、RSを、左総合(left-total)(LT)および右総合(right total)(RT)と記される二つのチャネルにダウンミックスするために使われる5×2行列である。LTおよびRTチャネルのための信号は、経路19から受領される二つの(N=2)チャネルについての入力オーディオ信号の一例である。この例において、装置10は、もとの五つのオーディオ信号から作り出されることができたはずの音場と(実質的に同一でないとしても)知覚的に同様の音場を作り出すことができる出力オーディオ信号の五つの(M=5)チャネルを合成するために使用されうる。
L、C、R、LS、RSチャネル信号からLTおよびRTチャネル信号をエンコードするために使用されうる5×2行列Eの例が次の式に示される。
Figure 2016537855
N×Mの行列Eから、M×Nの擬似逆行列Bが、数値計算ソフトウェアにおいて実装されるもののような既知の数値技法、たとえば米国マサチューセッツ州ネーティックのThe Math Works(商標)から市販されているMatlab(登録商標)におけるpinv関数または米国イリノイ州シャンペーンのWolfram Researchから市販されているMathematica(登録商標)におけるPseudoInverse、を使って、導出されうる。行列Bは、その係数がチャネルのどれかの間の望まれない漏話を作り出す場合、あるいはどれかの係数が虚数または複素数である場合には、最適でないことがある。行列Bは、これらの望ましくない特性を除去するために修正されることができる。行列Bは、選択されたスピーカーのための信号を強調するために係数を変更することによって、多様な所望される芸術的効果を達成するよう修正されることもできる。たとえば、係数は、左右のチャネルについてのスピーカーを通じた再生のために予定されている信号におけるエネルギーを増大させ、中央チャネルのためのスピーカー(単数または複数)を通じた再生のために予定されている信号におけるエネルギーを減少させるよう変更されることができる。行列Bにおける係数は、該行列の各列がM次元空間における絶対値1のベクトルを表わすようスケーリングされてもよい。行列Bの列によって表わされるベクトルは、互いに実質的に直交する必要はない。
5×2行列Bの一例は次式に示される。
Figure 2016537855
式(10)のような行列は、次の演算によってN個の中間入力信号からM個の中間出力信号の集合を生成するために使われてもよい。
Figure 2016537855
図7は、N個の中間入力信号からM個の中間出力信号の集合を生成することができる装置のブロック図である。アップミキサー41はたとえば、たとえば図4Aに示されるような拡散性信号プロセッサ40のコンポーネントであってもよい。この例では、アップミキサー41は、信号経路29−1および29−2からN個の中間入力信号を受領し、これらの信号を線形の式の系に従って混合して、信号経路49−1ないし49−5に沿ってM個の中間出力信号の集合を生成する。アップミキサー41内の四角は、線形の式の系に従った行列Bの係数の信号乗算または増幅を表わす。
行列Bは単独で使用できるが、追加的なM×Kの増強(augmentation)行列Aを使ってパフォーマンスが改善されうる。ここで、1≦K≦M−Nである。行列Aの各列は、行列BのN個の列によって表わされるベクトルと実質的に直交するM次元空間における絶対値1のベクトルを表わしていてもよい。Kが1より大きい場合、各列は、行列Aの他のすべての列によって表わされるベクトルにも実質的に直交するベクトルを表わしうる。
行列Aの列についてのベクトルは、多様な仕方で導出されうる。たとえば、上述した技法が使われてもよい。他の方法は、下記で説明するように増強行列Aおよび行列Bの係数をスケーリングし、それらの係数を連結して行列Cを生成することに関わる。一例では、スケーリングおよび連結は代数的に次のように表わされてもよい。
Figure 2016537855
式(12)において、「|」は行列Bおよび行列Aの列の横方向の連結を表わし、αは行列Aの係数についてのスケール因子を表わし、βは行列Bの係数についてのスケール因子を表わす。
いくつかの実装では、スケール因子αおよびβは、合成行列Cのフロベニウス・ノルムが行列Bのフロベニウス・ノルムに等しいまたはその10%以内となるよう選ばれてもよい。行列Cのフロベニウス・ノルムは次のように表わされてもよい。
Figure 2016537855
式(13)において、ci,jは行i列jにおける行列係数を表わす。
行列BにおけるN個の列のそれぞれおよび行列AにおけるK個の列のそれぞれが絶対値1のベクトルを表わす場合、行列Bのフロベニウス・ノルムは√Nに等しく、行列Aのフロベニウス・ノルムは√Kに等しい。この場合、行列Cのフロベニウス・ノルムが√Nに等しくなるよう設定されれば、スケール因子αおよびβについての値は次式に示されるように互いに関係付けられることが示される。
Figure 2016537855
スケール因子βの値を設定したのち、スケール因子αについての値は、式(14)から計算できる。いくつかの実装では、スケール因子βは、行列Bの列における係数によって混合される信号が、増強行列Aの列における係数によって混合される信号より少なくとも5dB大きな重みを与えられるよう選択されてもよい。少なくとも6dBの重みの差は、α<(1/2)βとなるようスケール因子を制約することによって達成できる。行列Bおよび行列Aの列についてのスケーリング重みのより大きなまたはより小さな差は、オーディオ・チャネル間の所望される音響バランスを達成するために使用されてもよい。
あるいはまた、増強行列Aの各列における係数は、次式に示されるように個々にスケーリングされてもよい。
Figure 2016537855
式(15)では、Ajは増強行列Aの列jを表わし、αjは列jについてのそれぞれのスケール因子を表わす。この代替について、各スケール因子が制約条件αj<(1/2)βを満たす限り、各スケール因子αjについて任意の値を選んでよい。いくつかの実装では、αjおよびβ係数の値は、Cのフロベニウス・ノルムが行列Bのフロベニウス・ノルムにほぼ等しいことを保証するよう選ばれる。
増強行列Aに従って混合される信号のそれぞれは、N個の中間入力信号からも増強行列Aに従って混合される他のすべての信号からも音響心理学的に脱相関されるように処理されてもよい。図8は、選択された中間信号を脱相関する例を示すブロック図である。この例では二つの(N=2)中間入力信号、五つの(M=5)中間出力信号および三つの(K=3)脱相関された信号が増強行列Aに従って混合される。図8に示した例では、二つの中間入力信号は、ブロック41によって表わされる基本逆行列Bに従って混合される。二つの中間入力信号は脱相関器43によって脱相関されて三つの脱相関された信号を与え、それがブロック42によって表わされる増強行列Aに従って混合される。
脱相関器43は多様な仕方で実装されうる。図9は、脱相関器コンポーネントの例を示すブロック図である。図9に示される実装は、入力信号をさまざまな量だけ遅延させることによって音響心理学的脱相関を達成することができる。1ないし20ミリ秒の範囲の遅延が多くの用途のために好適である。
図10は、脱相関器コンポーネントの代替的な例を示すブロック図である。この例においては、中間入力信号の一つが処理される。中間入力信号は、二つの重複する周波数サブバンドにおいてそれぞれの信号にフィルタを適用する二つの異なる信号処理経路に沿って渡される。より低い周波数の経路は、第一の周波数サブバンドにおけるその入力信号を、第一のインパルス応答に従ってフィルタリングする位相反転(phase-flip)フィルタ61と、前記第一の周波数サブバンドを定義する低域通過フィルタ62とを含む。より高い周波数の経路は、第二の周波数サブバンドにおけるその入力信号を、前記第一のインパルス応答と等しくない第二のインパルス応答に従ってフィルタリングするフィルタによって実装される周波数依存遅延63と、前記第二の周波数サブバンドを定義する高域通過フィルタ64と、遅延コンポーネント65とを含む。遅延65および低域通過フィルタ62の出力は、加算ノード66において組み合わされる。加算ノード66の出力は、中間入力信号に関して音響心理学的に脱相関されている信号である。
位相反転フィルタ61の位相応答は、周波数依存であってもよく、プラスおよびマイナス90度に実質的に等しいピークをもつ周波数における双峰分布を有していてもよい。位相反転フィルタ61の理想的な実装は、1の絶対値応答と、フィルタの通過帯域内の二つ以上の周波数帯域の端においてプラス90度とマイナス90度の間で交互するまたは反転する位相応答である。位相反転は、次式に示されるインパルス応答をもつ疎なヒルベルト変換によって実装されてもよい。
Figure 2016537855
該疎なヒルベルト変換のインパルス応答は、好ましくは、過渡パフォーマンスと周波数応答のなめらかさとの間のトレードオフを勘案することによって脱相関器パフォーマンスを最適化するために選択された長さに打ち切られる。位相反転の数は、Sパラメータの値によって制御されうる。このパラメータは、脱相関の度合いとインパルス応答長との間のトレードオフのバランスを取るよう選ばれるべきである。Sパラメータ値が増すほどより長いインパルス応答が必要とされてもよい。Sパラメータ値が小さすぎる場合には、フィルタは不十分な脱相関を与えることがありうる。Sパラメータが大きすぎる場合には、フィルタは、脱相関された信号における不快なアーチファクトを作り出すのに十分長い時間区間にわたって過渡音をぼかすことがありうる。
これらの特性のバランスを取る能力は、位相反転フィルタ21を、隣り合う位相反転の間の周波数における非一様な間隔をもつよう実装することによって、改善できる。より低い周波数ではより狭い間隔、より高い周波数ではより広い間隔とするのである。いくつかの実装では、隣り合う位相反転の間の間隔は周波数の対数関数である。
周波数依存の遅延63は、シーケンスの継続時間にわたって瞬時周波数がπから0に単調に減少する有限長正弦波シーケンスh[n]に等しいインパルス応答をもつフィルタによって実装されてもよい。このシーケンスは次のように表わせる。
Figure 2016537855
式(17)において、ω(n)は瞬時周波数を表わし、ω′(n)は瞬時周波数の一階微分を表わし、Gは規格化因子を表わし、
Figure 2016537855
は瞬時位相を表わし、Lは遅延フィルタの長さを表わす。いくつかの例では、規格化因子Gは
Figure 2016537855
となるような値に設定されてもよい。
このインパルス応答をもつフィルタは、過渡成分をもつオーディオ信号に適用される場合、時に「チャープ」アーチファクトを生成することがある。この効果は、次式に示されるように、瞬時位相項にノイズ様の項を加えることによって低減できる。
Figure 2016537855
ノイズ様の項がπよりずっと小さい分散をもつ白色ガウス雑音シーケンスである場合には、過渡成分をフィルタリングすることによって生成されるアーチファクトは、チャープではなくノイズのように聞こえ、遅延と周波数との間の所望される関係はそれでも達成されうる。
低域通過フィルタ62および高域通過フィルタ64ののカットオフ周波数は約2.5Hzに選ばれてもよい。それにより、二つのフィルタの通過帯域の間にギャップがなく、通過帯域が重なるクロスオーバー周波数の近くの領域におけるそれらの組み合わされた出力のスペクトル・エネルギーは、この領域における中間入力信号のスペクトル・エネルギーに実質的に等しくなる。遅延65によって課される遅延の量は、より高い周波数およびより低い周波数の信号処理経路の伝搬遅延がクロスオーバー周波数においてほぼ等しくなるように設定されてもよい。
脱相関器は種々の仕方で実装されてもよい。たとえば、低域通過フィルタ62および高域通過フィルタ64のどちらか一方または両方がそれぞれ位相反転フィルタ61および周波数依存遅延63に先行してもよい。遅延65は、所望に応じて信号処理経路に配置される一つまたは複数の遅延コンポーネントによって実装されてもよい。
図11は、オーディオ処理システムのコンポーネントの例を与えるブロック図である。この例では、オーディオ処理システム1100はインターフェース・システム1105を含む。インターフェース・システム1105は無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム1105は、ユニバーサル・シリアル・バス(USB)インターフェースまたは他のそのようなインターフェースを含んでいてもよい。
オーディオ処理システム1100は論理システム1110を含む。論理システム1110は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム1110は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム1110は、オーディオ処理システム1100の他のコンポーネントを制御するよう構成されていてもよい。図11にはオーディオ処理システム1100のコンポーネント間のインターフェースは示されていないが、論理システム1110は、他のコンポーネントとの通信のためのインターフェースをもって構成されていてもよい。それらの他のコンポーネントは、適宜互いとの通信のために構成されていてもいなくてもよい。
論理システム1110は、本稿に記載される型の機能を含むがそれに限られないオーディオ処理機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム1110は、(少なくとも部分的には)一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような、論理システム1110に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム1115のメモリを含んでいてもよい。メモリ・システム1115は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的記憶媒体を含んでいてもよい。
表示システム1130は、オーディオ処理システム1100の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム1130は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。
ユーザー入力システム1135は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、表示システム1130のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム1135はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび/または表示システム1130上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、マイクロホン1125を含んでいてもよい:ユーザーは、マイクロホン1125を介してオーディオ処理システム1100についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従ってオーディオ処理システム1100の少なくともいくつかの動作を制御するために構成されていてもよい。いくつかの実装では、ユーザー入力システム1135はユーザー・インターフェースであり、したがってインターフェース・システム1105の一部であると考えられてもよい。
電力システム1140は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム1140は電気コンセントから電力を受領するよう構成されていてもよい。
本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装に適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本稿に開示される開示、原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

Claims (42)

  1. 拡散性音場の呈示のためにN個のオーディオ信号からM個の拡散性オーディオ信号を導出する方法であって、MはNより大きく、2より大きく、当該方法は:
    前記N個のオーディオ信号を受領する段階であって、前記N個のオーディオ信号のそれぞれはある空間位置に対応する、段階と;
    前記N個のオーディオ信号の拡散性部分を導出する段階と;
    過渡的オーディオ信号条件のインスタンスを検出する段階と;
    前記N個のオーディオ信号の前記拡散性部分を処理して、前記M個の拡散性オーディオ信号を導出する段階であって、過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い空間位置に対応する一つまたは複数に対してより大きな割合で、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配することを含む、段階とを含む、
    方法。
  2. 非過渡的オーディオ信号条件のインスタンスを検出する段階をさらに含み、
    非過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号に対して、実質的に一様な仕方で分配することを含む、
    請求項1記載の方法。
  3. 前記処理は、前記N個のオーディオ信号の前記拡散性部分に混合行列を適用して、前記M個の拡散性オーディオ信号を導出することを含む、請求項2記載の方法。
  4. 前記混合行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列および過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出される可変な分配行列である、請求項3記載の方法。
  5. 前記過渡行列は前記非過渡行列から導出される、請求項4記載の方法。
  6. 前記過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わす、請求項5記載の方法。
  7. 前記スケーリングは、入力チャネル位置と出力チャネル位置の間の関係の関数である、請求項6記載の方法。
  8. 過渡制御信号値を決定する段階をさらに含み、前記可変な分配行列は、少なくとも部分的には前記過渡制御信号値に基づいて前記過渡行列と前記非過渡行列の間を補間することによって導出される、請求項4記載の方法。
  9. 前記過渡制御信号値は時間変化する、請求項8記載の方法。
  10. 前記過渡制御信号値は、ある最小値からある最大値に連続的な仕方で変化できる、請求項8記載の方法。
  11. 前記過渡制御信号値は、ある最小値からある最大値まで離散的な値の範囲において変化できる、請求項8記載の方法。
  12. 前記可変な分配行列を決定する段階は、前記過渡制御信号値に従って前記可変な分配行列を計算することを含む、請求項8ないし11のうちいずれか一項記載の方法。
  13. 前記可変な分配行列を決定する段階は、メモリ・デバイスから、記憶されている可変な分配行列を取得することを含む、請求項8ないし11のうちいずれか一項記載の方法。
  14. 前記N個のオーディオ信号に応答して前記過渡制御信号値を導出する段階をさらに含む、請求項8ないし13のうちいずれか一項記載の方法。
  15. 前記N個のオーディオ信号のそれぞれをB個の周波数帯域に変換し;
    前記の導出し、検出し、処理することを、前記B個の周波数帯域のそれぞれについて別個に実行することをさらに含む、
    請求項1ないし14のうちいずれか一項記載の方法。
  16. 前記N個のオーディオ信号の非拡散性部分をパンしてM個の非拡散性オーディオ信号を形成する段階と;
    前記M個の拡散性オーディオ信号を前記M個の非拡散性オーディオ信号と組み合わせてM個の出力オーディオ信号を形成する段階とをさらに含む、
    請求項1ないし15のうちいずれか一項記載の方法。
  17. 前記N個のオーディオ信号の前記拡散性部分からK個の中間的な信号を導出して、各中間的なオーディオ信号は、前記N個のオーディオ信号の前記拡散性部分と音響心理学的に脱相関されていて、Kが1より大きい場合には、他のすべての中間的なオーディオ信号と音響心理学的に脱相関されているようにする段階であって、Kは1以上であり、M−N以下である、段階をさらに含む、
    請求項1ないし16のうちいずれか一項記載の方法。
  18. 前記K個の中間的な信号を導出することは、遅延、全通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムのうちの一つまたは複数を含む脱相関プロセスを含む、請求項17記載の方法。
  19. 前記M個の拡散性オーディオ信号は、前記N個の拡散性信号のほか前記K個の中間的な信号に応答して導出される、請求項17または18記載の方法。
  20. インターフェース・システムおよび論理システムを有する装置であって、前記論理システムは:
    前記インターフェース・システムを介して、N個の入力オーディオ信号を受領する段階であって、前記N個のオーディオ信号のそれぞれはある空間位置に対応する、段階と;
    前記N個のオーディオ信号の拡散性部分を導出する段階と;
    過渡的オーディオ信号条件のインスタンスを検出する段階と;
    前記N個のオーディオ信号の前記拡散性部分を処理して、M個の拡散性オーディオ信号を導出する段階であって、MはNより大きく、2より大きく、過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い空間位置に対応する一つまたは複数に対してより大きな割合で、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配する段階とを実行できる、
    装置。
  21. 前記論理システムは、非過渡的オーディオ信号条件のインスタンスを検出することができ、非過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号に対して、実質的に一様な仕方で分配することを含む、請求項20記載の装置。
  22. 前記処理は、前記N個のオーディオ信号の前記拡散性部分に混合行列を適用して、前記M個の拡散性オーディオ信号を導出することを含む、請求項21記載の装置。
  23. 前記混合行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列および過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出される可変な分配行列である、請求項22記載の装置。
  24. 前記過渡行列は前記非過渡行列から導出される、請求項23記載の装置。
  25. 前記過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わす、請求項24記載の装置。
  26. 前記スケーリングは、入力チャネル位置と出力チャネル位置の間の関係の関数である、請求項25記載の装置。
  27. 前記論理システムは、過渡制御信号値を決定することができ、前記可変な分配行列は、少なくとも部分的には前記過渡制御信号値に基づいて前記過渡行列と前記非過渡行列の間を補間することによって導出される、請求項23ないし26のうちいずれか一項記載の装置。
  28. 前記論理システムは、前記N個のオーディオ信号のそれぞれをB個の周波数帯域に変換し;
    前記の導出し、検出し、処理することを、前記B個の周波数帯域のそれぞれについて別個に実行することができる、
    請求項20ないし27のうちいずれか一項記載の装置。
  29. 前記論理システムは、前記N個のオーディオ信号の非拡散性部分をパンしてM個の非拡散性オーディオ信号を形成し;
    前記M個の拡散性オーディオ信号を前記M個の非拡散性オーディオ信号と組み合わせてM個の出力オーディオ信号を形成することができる、
    請求項20ないし28のうちいずれか一項記載の装置。
  30. 前記論理システムは、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントまたはそれらの組み合わせのうちの少なくとも一つを含む、請求項20ないし29のうちいずれか一項記載の装置。
  31. 前記インターフェース・システムはユーザー・インターフェースまたはネットワーク・インターフェースのうちの少なくとも一つを含む、請求項20ないし30のうちいずれか一項記載の装置。
  32. メモリ・システムをさらに有しており、前記インターフェース・システムは、前記論理システムと前記メモリ・システムとの間の少なくとも一つのインターフェースを含む、請求項20ないし31のうちいずれか一項記載の装置。
  33. ソフトウェアが記憶されている非一時的媒体であって、前記ソフトウェアは、少なくとも一つの装置を制御して:
    N個のオーディオ信号を受領する段階であって、前記N個のオーディオ信号のそれぞれはある空間位置に対応する、段階と;
    前記N個のオーディオ信号の拡散性部分を導出する段階と;
    過渡的オーディオ信号条件のインスタンスを検出する段階と;
    前記N個のオーディオ信号の前記拡散性部分を処理して、M個の拡散性オーディオ信号を導出する段階であって、MはNより大きく、2より大きく、過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置に相対的により近い空間位置に対応する一つまたは複数に対してより大きな割合で、前記M個の拡散性オーディオ信号のうちの、前記N個のオーディオ信号の空間位置から相対的により遠い空間位置に対応する一つまたは複数に対してより小さな割合で分配することを含む、段階とを実行させるための命令を含む、
    非一時的媒体。
  34. 前記ソフトウェアは、前記少なくとも一つの装置を制御して、非過渡的オーディオ信号条件のインスタンスを検出させるための命令を含み、非過渡的オーディオ信号条件のインスタンスの間、前記処理は、前記N個のオーディオ信号の前記拡散性部分を、前記M個の拡散性オーディオ信号に対して、実質的に一様な仕方で分配することを含む、請求項33記載の非一時的媒体。
  35. 前記混合は、前記N個のオーディオ信号の前記拡散性部分に混合行列を適用して、前記M個の拡散性オーディオ信号を導出することを含む、請求項34記載の非一時的媒体。
  36. 前記混合行列は、非過渡的オーディオ信号条件の間に使うのにより好適な非過渡行列および過渡的オーディオ信号条件の間に使うのにより好適な過渡行列から導出される可変な分配行列である、請求項35記載の非一時的媒体。
  37. 前記過渡行列は前記非過渡行列から導出される、請求項36記載の非一時的媒体。
  38. 前記過渡行列の各要素は、対応する非過渡行列要素のスケーリングを表わす、請求項37記載の非一時的媒体。
  39. 前記スケーリングは、入力チャネル位置と出力チャネル位置の間の関係の関数である、請求項38記載の非一時的媒体。
  40. 前記ソフトウェアは、前記少なくとも一つの装置を制御して、過渡制御信号値を決定させるための命令を含み、前記可変な分配行列は、少なくとも部分的には前記過渡制御信号値に基づいて前記過渡行列と前記非過渡行列の間を補間することによって導出される、請求項36ないし39のうちいずれか一項記載の非一時的媒体。
  41. 前記ソフトウェアは、前記少なくとも一つの装置を制御して:
    前記N個のオーディオ信号のそれぞれをB個の周波数帯域に変換させ;
    前記の導出し、検出し、処理することを、前記B個の周波数帯域のそれぞれについて別個に実行させるための命令を含む、
    請求項33ないし40のうちいずれか一項記載の非一時的媒体。
  42. 前記ソフトウェアは、前記少なくとも一つの装置を制御して:
    前記N個のオーディオ信号の非拡散性部分をパンしてM個の非拡散性オーディオ信号を形成させ;
    前記M個の拡散性オーディオ信号を前記M個の非拡散性オーディオ信号と組み合わせてM個の出力オーディオ信号を形成させるための命令を含む、
    請求項33ないし41のうちいずれか一項記載の非一時的媒体。
JP2016519877A 2013-10-03 2014-09-26 アップミキサーにおける適応的な拡散性信号生成 Active JP6186503B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361886554P 2013-10-03 2013-10-03
US61/886,554 2013-10-03
US201361907890P 2013-11-22 2013-11-22
US61/907,890 2013-11-22
PCT/US2014/057671 WO2015050785A1 (en) 2013-10-03 2014-09-26 Adaptive diffuse signal generation in an upmixer

Publications (2)

Publication Number Publication Date
JP2016537855A true JP2016537855A (ja) 2016-12-01
JP6186503B2 JP6186503B2 (ja) 2017-08-23

Family

ID=51660694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016519877A Active JP6186503B2 (ja) 2013-10-03 2014-09-26 アップミキサーにおける適応的な拡散性信号生成

Country Status (11)

Country Link
US (1) US9794716B2 (ja)
EP (1) EP3053359B1 (ja)
JP (1) JP6186503B2 (ja)
KR (1) KR101779731B1 (ja)
CN (1) CN105612767B (ja)
AU (1) AU2014329890B2 (ja)
BR (1) BR112016006832B1 (ja)
CA (1) CA2924833C (ja)
ES (1) ES2641580T3 (ja)
RU (1) RU2642386C2 (ja)
WO (1) WO2015050785A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
CN112584300B (zh) * 2020-12-28 2023-05-30 科大讯飞(苏州)科技有限公司 音频上混方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511845A (ja) * 2008-12-11 2012-05-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネルオーディオ信号を生成するための装置
JP2013507048A (ja) * 2009-10-05 2013-02-28 ハーマン インターナショナル インダストリーズ インコーポレイテッド オーディオ信号の空間的抽出のためのシステム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
RU2393646C1 (ru) 2006-03-28 2010-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио
ATE493731T1 (de) 2007-06-08 2011-01-15 Dolby Lab Licensing Corp Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten
BR122021003142B1 (pt) 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
TWI413109B (zh) * 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
JP6009547B2 (ja) 2011-05-26 2016-10-19 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・システム及びオーディオ・システムのための方法
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511845A (ja) * 2008-12-11 2012-05-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネルオーディオ信号を生成するための装置
JP2013507048A (ja) * 2009-10-05 2013-02-28 ハーマン インターナショナル インダストリーズ インコーポレイテッド オーディオ信号の空間的抽出のためのシステム

Also Published As

Publication number Publication date
BR112016006832B1 (pt) 2022-05-10
KR101779731B1 (ko) 2017-09-18
EP3053359A1 (en) 2016-08-10
WO2015050785A1 (en) 2015-04-09
AU2014329890A1 (en) 2016-04-07
AU2014329890B2 (en) 2017-10-26
JP6186503B2 (ja) 2017-08-23
CA2924833A1 (en) 2015-04-09
ES2641580T3 (es) 2017-11-10
CN105612767A (zh) 2016-05-25
US20160241982A1 (en) 2016-08-18
RU2642386C2 (ru) 2018-01-24
US9794716B2 (en) 2017-10-17
EP3053359B1 (en) 2017-08-30
KR20160048964A (ko) 2016-05-04
CA2924833C (en) 2018-09-25
CN105612767B (zh) 2017-09-22
BR112016006832A2 (pt) 2017-08-01
RU2016111711A (ru) 2017-10-04

Similar Documents

Publication Publication Date Title
KR101380167B1 (ko) 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용
TWI527473B (zh) 用以獲得環繞音效音訊頻道之方法、適於執行該方法之裝置、及相關電腦程式
EP2329661B1 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
EP3090576B1 (en) Methods and systems for designing and applying numerically optimized binaural room impulse responses
KR20180075610A (ko) 사운드 스테이지 향상을 위한 장치 및 방법
JP6186503B2 (ja) アップミキサーにおける適応的な拡散性信号生成
EP3745744A2 (en) Audio processing
JP2016536855A (ja) マルチチャンネル信号をダウンミックスし、ダウンミックス信号をアップミックスする方法及び装置
US9794717B2 (en) Audio signal processing apparatus and audio signal processing method
Kraft et al. Time-domain implementation of a stereo to surround sound upmix algorithm
CN112584300B (zh) 音频上混方法、装置、电子设备和存储介质
US20240187806A1 (en) Virtualizer for binaural audio
JP6643779B2 (ja) 音響装置およびプログラム
Vilkamo Perceptually motivated time-frequency processing of spatial audio

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170731

R150 Certificate of patent or registration of utility model

Ref document number: 6186503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250