JP7183467B2 - 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成 - Google Patents

少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成 Download PDF

Info

Publication number
JP7183467B2
JP7183467B2 JP2022141956A JP2022141956A JP7183467B2 JP 7183467 B2 JP7183467 B2 JP 7183467B2 JP 2022141956 A JP2022141956 A JP 2022141956A JP 2022141956 A JP2022141956 A JP 2022141956A JP 7183467 B2 JP7183467 B2 JP 7183467B2
Authority
JP
Japan
Prior art keywords
channel
reverberation
output
channels
downmix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022141956A
Other languages
English (en)
Other versions
JP2022172314A (ja
Inventor
イェン,クアン―チック
ジェイ. ブリーバルト,ディルク
エイ. デヴィッドソン,グラント
ウィルソン,ロンダ
エム. クーパー,デイヴィッド
シュアン,ズーウェイ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020218137A external-priority patent/JP7139409B2/ja
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022172314A publication Critical patent/JP2022172314A/ja
Priority to JP2022186535A priority Critical patent/JP2023018067A/ja
Application granted granted Critical
Publication of JP7183467B2 publication Critical patent/JP7183467B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Description

関連出願への相互参照
本願は2014年4月29日に出願された中国特許出願第201410178258.0号、2014年1月3日に出願された米国仮特許出願第61/923,579号および2014年5月5日に出願された米国仮特許出願第61/988,617号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
1.発明の分野
本発明は、入力信号のチャネルの集合の各チャネルに(たとえば全チャネルに)バイノーラル室内インパルス応答(BRIR: Binaural Room Impulse Response)を適用することによって、マルチチャネル・オーディオ入力信号に応答してバイノーラル信号を生成するための方法(時にヘッドフォン仮想化方法と称される)およびシステムに関する。いくつかの実施形態では、少なくとも一つのフィードバック遅延ネットワーク(FDN: feedback delay network)がダウンミックスBRIRの後期残響部分を前記チャネルのダウンミックスに適用する。
2.発明の背景
ヘッドフォン仮想化(またはバイノーラル・レンダリング)は、標準的なステレオ・ヘッドフォンを使ってサラウンド・サウンド経験または没入的な音場を送達することをねらいとする技術である。
初期のヘッドフォン仮想化器は、バイノーラル・レンダリングにおける空間的情報を伝えるために頭部伝達関数(HRTF: head-related transfer function)を適用した。HRTFは、無響環境において空間内の特定の点(音源位置)から聴取者の両耳に音がどのように伝わるかを特徴付ける方向および距離依存のフィルタ対の集合である。両耳間時間差(ITD: interaural time difference)、両耳間レベル差(ILD: interaural level difference)、頭のシャドーイング効果(head shadowing effect)、肩および耳介反射に起因するスペクトルのピークおよびノッチといった本質的な空間的手がかりが、レンダリングされるHRTFフィルタリングされたバイノーラル・コンテンツにおいて知覚されることができる。人間の頭のサイズの制約条件のため、HRTFは、ほぼ1メートルより先の源距離に関しては十分または堅牢な手がかりを提供しない。結果として、HRTFのみに基づく仮想化器は通例、良好な頭外定位または知覚される距離を達成しない。
日常生活における音響イベントの多くは残響のある環境で生起する。残響のある環境では、HRTFによってモデル化される(源から耳への)直接経路に加えて、さまざまな反射経路を通じてもオーディオ信号が聴取者の耳に達する。反射は、距離、部屋サイズおよび空間の他の属性といった聴覚体験に深遠な影響を導入する。この情報をバイノーラル・レンダリングにおいて伝えるために、仮想化器は、直接経路HRTFにおける手がかりに加えて、部屋残響を適用する必要がある。バイノーラル室内インパルス応答(BRIR)は、特定の音響環境における空間内の特定の点から聴取者の耳までのオーディオ信号の変換を特徴付ける。理論上は、BRIRは空間的知覚に関するすべての音響手がかりを含む。
図1は、マルチチャネル・オーディオ入力信号のそれぞれの全周波数範囲チャネル(X1,…,XN)にバイノーラル室内インパルス応答(BRIR)を適用するよう構成された通常のヘッドフォン仮想化器の一つの型のブロック図である。チャネルX1,…,XNのそれぞれは、想定される聴取者に対する異なる源方向(すなわち、対応するスピーカーの想定される位置から想定される聴取者位置への直接経路の方向)に対応するスピーカー・チャネルであり、そのような各チャネルは対応する源方向についてのBRIRによって畳み込みされる。各チャネルからの音響経路は、各耳についてシミュレートする必要がある。したがって、本稿の残りでは、用語BRIRは、一つのインパルス応答または左右の耳に関連付けられたインパルス応答の対のいずれをも指す。よって、サブシステム2はチャネルX1をBRIR1(対応する源方向についてのBRIR)と畳み込みするよう構成され、サブシステム4はチャネルXNをBRIRN(対応する源方向についてのBRIR)と畳み込みするよう構成される、などとなる。各BRIRサブシステム(サブシステム2、…、4のそれぞれ)の出力は、左チャネルおよび右チャネルを含む時間領域信号である。BRIRサブシステムの左チャネル出力どうしは加算要素6において混合され、BRIRサブシステムの右チャネルどうしは加算要素8において混合される。要素6の出力は、仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLであり、要素8の出力は、仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRである。
マルチチャネル・オーディオ入力信号は、低域効果(LFE: low frequency effects)またはサブウーファー・チャネルをも含んでいてもよい。これは図1では「LFE」チャネルとして同定されている。通常の仕方では、LFEチャネルはBRIRと畳み込みされないが、その代わり、図1の利得段5において(たとえば-3dB以上)減衰させられ、利得段5の出力が仮想化器のバイノーラル出力信号の各チャネルに等しく(加算要素6および8によって)混合される。段5の出力をBRIRサブシステム(2、…、4)の出力と時間整列させるために、LFE経路において追加的な遅延段が必要とされることがある。あるいはまた、LFEチャネルは単に無視されてもよい(すなわち、仮想化器に呈されないまたは仮想化器によって処理されない)。たとえば、本発明の図2の実施形態(後述)は、それが処理するマルチチャネル・オーディオ入力信号のいかなるLFEチャネルをも単に無視する。多くの消費者ヘッドフォンは、LFEチャネルを正確に再生することができない。
いくつかの通常の仮想化器では、入力信号は、時間領域から周波数領域への変換を受けてQMF(quadrature mirror filter[直交ミラー・フィルタ])領域にされ、QMF領域周波数成分の諸チャネルを生成する。これらの周波数成分は(たとえば図1のサブシステム2、…、4のQMF領域実装において)QMF領域でフィルタリングを受けて、結果として得られる周波数成分が次いで(たとえば図1のサブシステム2、…、4のそれぞれの最終段において)時間領域に変換し戻される。それにより、仮想化器のオーディオ出力は時間領域信号(たとえば、時間領域バイノーラル信号)である。
一般に、ヘッドフォン仮想化器に入力されるマルチチャネル・オーディオ信号のそれぞれの全周波数範囲チャネルは、聴取者の耳に対して既知の位置にある音源から放出されるオーディオ・コンテンツを示すと想定される。ヘッドフォン仮想化器は、入力信号のそのような各チャネルにバイノーラル室内インパルス応答(BRIR)適用するよう構成される。各BRIRは、直接応答および反射という二つの部分に分解できる。直接応答は、音源の到来方向(DOA: direction of arrival)に対応するHRTFを、(音源と聴取者の間の)距離に起因する適正な利得および遅延をもって調整し、任意的には小さな距離についてのパララックス(parallax)効果をもって増強したものである。
BRIRの残りの部分は反射をモデル化する。早期の反射は通例一次または二次反射であり、比較的疎な時間的分布をもつ。各一次または二次反射のミクロ構造(たとえばITDおよびILD)は重要である。後期反射(聴取者に達する前に三つ以上の表面から反射された音)については、反射回数の増大とともにエコー密度が増大し、個々の反射のミクロ属性は観察しにくくなる。ますますより後期の反射については、マクロ構造(たとえば、残響減衰レート、両耳間コヒーレンスおよび全体的な残響のスペクトル分布)がより重要になる。このため、反射は、早期反射および後期残響という二つの部分にさらにセグメント分割できる。
直接応答の遅延は聴取者からの源距離を音速で割ったものであり、そのレベルは(源位置近くの壁または大きな表面がない場合)源距離に反比例する。他方、後期残響の遅延およびレベルは一般に源位置には敏感でない。実際的な事情のため、仮想化器は、異なる距離をもつ源からの直接応答を時間整列させるおよび/またはそのダイナミックレンジを圧縮することを選びうる。しかしながら、BRIR内での直接応答、早期反射および後期残響の間の時間的およびレベル関係は維持されるべきである。
典型的なBRIRの有効長さは、多くの音響環境において数百ミリ秒以上に達する。BRIRの直接的な適用は、数千のタップのフィルタとの畳み込みを必要とするが、これは計算的に高価である。加えて、パラメータ化なしでは、十分な空間分解能を達成するためには、異なる源位置についての諸BRIRを記憶する大きなメモリ・スペースを必要とする。最後だが軽んじてはならないこととして、音源位置は時間とともに変化しうるおよび/または聴取者の位置および配向は時間とともに変化しうる。そのような動きの正確なシミュレーションは時間変化するBRIRインパルス応答を要求する。そのような時間変化するフィルタの適正な補間および適用は、これらのフィルタのインパルス応答が多くのタップをもつ場合には、困難であることがある。
シミュレートされた残響をマルチチャネル・オーディオ入力信号の一つまたは複数のチャネルに適用するよう構成された空間的残響器を実装するために、フィードバック遅延ネットワーク(FDN)として知られる周知のフィルタ構造をもつフィルタが使用されることができる。FDNの構造は単純である。いくつかの残響タンク(たとえば、図4のFDNでは利得要素g1および遅延線z-n1を有する残響タンク)を有し、各残響タンクは遅延および利得をもつ。FDNの典型的な実装では、すべての残響タンクからの出力は、ユニタリー・フィードバック・マトリクスによって混合され、該マトリクスの出力がフィードバックされて残響タンクの入力と合計される。残響タンク出力に利得調整がなされてもよい。残響タンク出力(またはその利得調整されたバージョン)はマルチチャネルまたはバイノーラル再生のために好適に再混合されることができる。コンパクトな計算およびメモリ・フットプリントをもつFDNによって、自然に聞こえる残響が生成され、適用されることができる。したがって、FDNは、HRTFによって生成された直接応答を補足するよう仮想化器において使用されてきた。
たとえば、商業的に入手可能な「ドルビー・モバイル」ヘッドフォン仮想化器は、(左前方、右前方、中央、左サラウンドおよび右サラウンド・チャネルをもつ)五チャネル・オーディオ信号の各チャネルに残響を加え、五つの頭部伝達関数(「HRTF」)フィルタ対の集合の異なるフィルタ対を使って、それぞれの残響付加されたチャネルをフィルタリングするよう動作可能であるFDNベースの構造をもつ残響器を含む。「ドルビー・モバイル」ヘッドフォン仮想化器は、二チャネル・オーディオ入力信号に応答して二チャネルの「残響付加された」バイノーラル・オーディオ出力(残響が加えられた二チャネルの仮想サラウンド・サウンド出力)を生成するようにも動作可能である。残響付加されたバイノーラル出力がレンダリングされ、ヘッドフォン対によって再生されるとき、それは聴取者の鼓膜において、左前方、右前方、中央、左後方(サラウンド)および右後方(サラウンド)位置にある五つのラウドスピーカーからのHRTFフィルタリングされた残響付加された音として知覚される。仮想化器は、ダウンミックスされた二チャネル・オーディオ入力を(該オーディオ入力とともに受領されるいかなる空間的手がかりパラメータを使うこともなく)アップミックスし、五つのアップミックスされたオーディオ・チャネルを生成し、アップミックスされたチャネルに残響を加え、五つの残響付加されたチャネル信号をダウンミックスして仮想化器の二チャネルの残響付加された出力を生成する。それぞれのアップミックスされたチャネルについての残響はHRTFフィルタの異なる対においてフィルタリングされる。
仮想化器では、FDNはある残響減衰時間およびエコー密度を達成するよう構成される。しかしながら、FDNは早期反射のミクロ構造をシミュレートする柔軟性を欠く。さらに、通常の仮想化器では、FDNのチューニングおよび構成設定は大半が試行錯誤的なものである。
すべての反射経路(早期および後期)をシミュレートするのでないヘッドフォン仮想化器は有効な頭外定位を達成できない。発明者は、すべての反射経路(早期および後期)をシミュレートしようとするFDNを用いる仮想化器は、通例、早期反射および後期残響の両方をシミュレートし、両方をオーディオ信号に加えることにおいて、高々限られた成功しか収めていないことを認識するに至った。発明者はまた、FDNを用いるが残響減衰時間、両耳間コヒーレンスおよび直接対後期比といった空間的な音響属性を適正に制御する能力をもたない仮想化器は、ある程度の頭外定位を達成するかもしれないが、過度の音色の歪みおよび残響を導入するという代償を伴うことをも認識するに至った。
第一のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合(たとえば、それらのチャネルのそれぞれまたは全周波数範囲チャネルのそれぞれ)に応答してバイノーラル信号を生成する方法である。本方法は:(a)前記集合の各チャネルに(たとえば前記集合の各チャネルを前記チャネルに対応するBRIRと畳み込みすることによって)バイノーラル室内インパルス応答(BRIR)を適用し、それによりフィルタリングされた信号を生成する段階であって、前記集合のチャネルのダウンミックス(たとえばモノフォニック・ダウンミックス)に共通の後期残響を加えるよう少なくとも一つのフィードバック遅延ネットワーク(FDN)を使うことによることを含む、段階と;(b)フィルタリングされた信号を組み合わせてバイノーラル信号を生成する段階とを含む。典型的には、前記ダウンミックスに前記共通の後期残響を加えるために、FDNのバンクが使用される(たとえば、各FDNが異なる周波数帯域に共通の後期残響を加える)。典型的には、段階(a)は前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの「直接応答および早期反射」部分を適用する段階を含み、前記共通の後期残響は、前記単一チャネルBRIRの少なくとも一部(たとえば全部)の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されたものである。
マルチチャネル・オーディオ入力信号に応答して(またはそのような信号のチャネルのある集合に応答して)バイノーラル信号を生成する方法は、本稿では時に、「ヘッドフォン仮想化」方法と称され、そのような方法を実行するよう構成されたシステムは本稿では時に「ヘッドフォン仮想化器」(または「ヘッドフォン仮想化システム」または「バイノーラル仮想化器」)と称される。
第一のクラスの典型的な実装では、各FDNはフィルタバンク領域(たとえば、ハイブリッド複素直交ミラー・フィルタ(HCQMF: hybrid complex quadrature mirror filter)領域または直交ミラー・フィルタ(QMF)領域または間引きを含みうる他の変換もしくはサブバンド領域)において実装される。いくつかのそのような実施形態では、バイノーラル信号の周波数依存の空間的な音響属性は、後期残響を加えるために用いられる各FDNの構成を制御することによって制御される。典型的には、マルチチャネル信号のオーディオ・コンテンツの効率的なバイノーラル・レンダリングのために、チャネルのモノフォニック・ダウンミックスがFDNへの入力として使われる。第一のクラスの典型的な実施形態は、たとえば各FDNの入力利得、残響タンク利得、残響タンク遅延または出力マトリクス・パラメータのうちの少なくとも一つを設定するよう制御値をフィードバック遅延ネットワークに呈することによって、周波数依存の属性(たとえば、残響減衰時間、両耳間コヒーレンス、モード密度および直接対後期比)に対応するFDN係数を調整する段階を含む。これは、音響環境のよりよいマッチングおよびより自然に聞こえる出力を可能にする。
第二のクラスの実施形態では、本発明は、諸チャネルを有するマルチチャネル・オーディオ入力信号に応答してバイノーラル信号を生成する方法である。これは、入力信号のチャネルのある集合の各チャネル(たとえば、入力信号のチャネルのそれぞれまたは入力信号のそれぞれの全周波数範囲チャネル)にバイノーラル室内インパルス応答(BRIR)を適用することによる。これは、前記集合の各チャネルを、該チャネルについての単一チャネルBRIRの直接応答および早期反射をモデル化して該各チャネルに適用するよう構成された第一の処理経路において処理し、前記集合のチャネルのダウンミックス(たとえばモノフォニック(モノ)・ダウンミックス)を、該ダウンミックスへの共通の後期残響をモデル化して適用するよう構成された(前記第一の処理経路と並列な)第二の処理経路において処理することによることを含む。典型的には、前記共通の後期残響は、前記単一チャネルBRIRのうち少なくともいくつか(たとえば全部)の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されたものである。典型的には、第二の処理経路は少なくとも一つのFDN(たとえば複数の周波数帯域のそれぞれについて一つのFDN)を含む。典型的には、第二の処理経路によって実装される各FDNのすべての残響タンクへの入力として、モノ・ダウンミックスが使われる。典型的には、音響環境をよりよくシミュレートし、より自然に聞こえるバイノーラル仮想化を生じるために、各FDNのマクロ属性の系統的な制御のための機構が提供される。たいていのそのようなマクロ属性は周波数依存なので、各FDNは典型的にはハイブリッド複素直交ミラー・フィルタ(HCQMF)領域、周波数領域、領域または別のフィルタバンク領域において実装され、各周波数帯域について異なるまたは独立なFDNが使われる。FDNをフィルタバンク領域において実装することの主要な恩恵は、周波数依存の残響属性をもつ残響の適用を許容するということである。さまざまな実施形態において、FDNは、多様なフィルタバンクの任意のものを使って、幅広い多様なフィルタバンク領域の任意のものにおいて実装される。それは、実または複素数値の直交ミラー・フィルタ(QMF)、有限インパルス応答フィルタ(FIRフィルタ)、無限インパルス応答フィルタ(IIRフィルタ)、離散フーリエ変換(DFT)、(修正)コサインまたはサイン変換、ウェーブレット変換またはクロスオーバー・フィルタを含むがそれに限られない。ある好ましい実装では、用いられるフィルタバンクまたは変換は、FDNプロセスの計算上の複雑さを低減するために間引き(たとえば、周波数領域信号表現のサンプリング・レートの減少)を含む。
第一のクラス(および第二のクラス)のいくつかの実施形態は、以下の特徴の一つまたは複数を実装する。
1.フィルタバンク領域(たとえばハイブリッド複素直交ミラー・フィルタ領域)のFDN実装またはハイブリッドのフィルタバンク領域FDN実装および時間領域後期残響フィルタ実装。これは典型的には、各周波数帯域についてのFDNのパラメータおよび/または設定の独立な調整を許容する(これは、周波数依存の音響属性の単純で柔軟な制御を可能にする)。これはたとえば、モード密度を周波数の関数として変化させるよう異なる帯域における残響タンク遅延を変化させる能力を提供することによる。
2.(マルチチャネル入力オーディオ信号から)第二の処理経路において処理される、ダウンミックスされた(たとえばモノフォニック・ダウンミックスされた)信号を生成するために用いられる特定のダウンミックス・プロセスは、各チャネルの源距離ならびに直接応答と後期応答の間の適正なレベルおよびタイミング関係を維持するための直接応答の扱いに依存する。
3.結果として生じる残響のスペクトルおよび/または音色を変えることなく位相多様性(diversity)および増大したエコー密度を導入するために、第二の処理経路において(たとえばFDNのバンクの入力または出力において)全域通過フィルタ(APF: all-pass filter)が適用される。
4.ダウンサンプル因子格子(downsample-factor grid)に量子化された遅延に関係した問題を克服するために、複素数値のマルチレート構造における各FDNのフィードバック経路において、端数遅延(fractional delay)が実装される。
5.FDNにおいて、残響タンク出力は、各周波数帯域における所望される両耳間コヒーレンスに基づいて設定される出力混合係数を使って、バイノーラル・チャネル中に直接、線形に混合される。任意的に、残響タンクの、バイノーラル出力チャネルへのマッピングは、バイノーラル・チャネル間の均衡した遅延を達成するために、諸周波数帯域を横断して交互する。また任意的に、残響タンク出力には、端数遅延および全体的なパワーを保存しつつそのレベルを等化するために、規格化因子が適用される。
6.周波数依存の残響減衰時間および/またはモード密度が、実際の部屋をシミュレートするよう各周波数帯域における残響タンク遅延および利得の適正な組み合わせを設定することによって制御される。
7.周波数帯域毎に(たとえば関連する処理経路の入力または出力のいずれかにおいて)一つのスケーリング因子が適用される。これは:
実際の部屋のDLRにマッチする周波数依存の直接対後期比(DLR: direct-to-late ratio)を制御する(目標DLRおよび残響減衰時間、たとえばT60に基づいて、必要とされるスケーリング因子を計算するために、単純なモデルが使用されてもよい);
過剰なコーミング(combing)アーチファクトおよび/または低周波数のごろごろ音(low-frequency rumble)を緩和するための低周波数減衰を提供する;および/または
FDN応答に拡散場スペクトル整形(diffuse field spectral shaping)を適用するためである。
8.残響減衰時間、両耳間コヒーレンスおよび/または直接対後期比といった後期残響の本質的な周波数依存の属性を制御するために単純なパラメトリック・モデルが実装される。
本発明の諸側面は、オーディオ信号(たとえば、オーディオ・コンテンツがスピーカー・チャネルからなるオーディオ信号および/またはオブジェクト・ベースのオーディオ信号)のバイノーラル仮想化を実行する(または実行するよう構成されているまたはその実行をサポートする)方法およびシステムを含む。
別のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成する方法およびシステムである。これは、前記集合の各チャネルにバイノーラル室内インパルス応答(BRIR)を適用し、それによりフィルタリングされた信号を生成する段階であって、前記集合のチャネルのダウンミックスに共通の後期残響を加えるよう単一のフィードバック遅延ネットワーク(FDN)を使うことによることを含む、段階と;フィルタリングされた信号を組み合わせてバイノーラル信号を生成する段階とを実行することによることを含む。FDNは時間領域で実装される。そのようないくつかの実施形態では、時間領域FDNは:
前記ダウンミックスを受領するよう結合された入力をもつ入力フィルタであって、該入力フィルタは前記ダウンミックスに応答して第一のフィルタリングされたダウンミックスを生成するよう構成されている、入力フィルタと;
前記第一のフィルタリングされたダウンミックスに応答して第二のフィルタリングされたダウンミックスをするよう結合され、構成された全域通過フィルタと;
第一の出力および第二の出力をもつ残響適用サブシステムであって、前記残響適用サブシステムは残響タンクの集合を含み、各残響タンクは異なる遅延をもち、該残響適用サブシステムは、前記第二のフィルタリングされたダウンミックスに応答して第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルを生成し、前記第一の未混合バイノーラル・チャネルを前記第一の出力において呈し、前記第二の未混合バイノーラル・チャネルを前記第二の出力において呈するよう結合され、構成されている、残響適用サブシステムと;
前記残響適用サブシステムに結合され、前記第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルに応答して第一の混合済みバイノーラル・チャネルおよび第二の混合済みバイノーラル・チャネルを生成するよう構成されている、両耳間相互相関係数(IACC: interaural cross-correlation coefficient)フィルタリングおよび混合段とを含む。
入力フィルタは、各BRIRが少なくとも実質的に目標DLRにマッチする直接対後期比(DLR)をもつよう前記第一のフィルタリングされたダウンミックスを生成するよう(好ましくは、それを生成するよう構成された二つのフィルタのカスケードとして)実装されてもよい。
各残響タンクは、遅延された信号を生成するよう構成されていてもよく、前記各残響タンクにおいて伝搬する信号に利得を加えて、遅延された信号が少なくとも実質的に目標の遅延された利得にマッチする利得をもつようにするよう結合され、構成された残響フィルタ(たとえば、シェルフ・フィルタまたはシェルフ・フィルタのカスケードとして実装される)を含んでいてもよい。各BRIRの目標残響減衰時間特性(たとえばT60特性)を達成するためである。
いくつかの実施形態では、前記第一の未混合バイノーラル・チャネルは前記第二の未混合バイノーラル・チャネルより進んでおり、前記残響タンクは、最も短い遅延をもつ第一の遅延された信号を生成するよう構成された第一の残響タンクと、二番目に短い遅延をもつ第二の遅延された信号を生成するよう構成された第二の残響タンクとを含む。前記第一の残響タンクは前記第一の遅延された信号に第一の利得を適用するよう構成され、前記第二の残響タンクは前記第二の遅延された信号に第二の利得を適用するよう構成され、前記第二の利得は前記第一の利得とは異なり、前記第二の利得は前記第一の利得とは異なり、前記第一の利得および前記第二の利得の適用により、前記第二の未混合バイノーラル・チャネルに対して前記第一の未混合バイノーラル・チャネルの減衰が帰結する。典型的には、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルは、再センタリングされた(re-centered)ステレオ像を示す。いくつかの実施形態では、前記IACCフィルタリングおよび混合段は、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルが少なくとも実質的に目標IACC特性に一致するIACC特性をもつよう前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルを生成するよう構成されている。
本発明の典型的な実施形態は、スピーカー・チャネルからなる入力オーディオおよびオブジェクト・ベースの入力オーディオの両方をサポートするための単純で統一された枠組みを提供する。オブジェクト・チャネルである入力信号チャネルにBRIRが適用される実施形態では、各オブジェクト・チャネルに対して実行される「直接応答および早期反射」処理は、そのオブジェクト・チャネルのオーディオ・コンテンツと一緒に提供されたメタデータによって示される源方向を想定する。スピーカー・チャネルである入力信号チャネルにBRIRが適用される実施形態では、各スピーカー・チャネルに対して実行される「直接応答および早期反射」処理は、そのスピーカー・チャネルに対応する源方向(すなわち、対応するスピーカーの想定される位置から想定される聴取者位置への直接経路の方向)を想定する。入力チャネルがオブジェクト・チャネルであるかスピーカー・チャネルであるかに関わりなく、「後期残響」処理は、入力チャネルのダウンミックス(たとえばモノフォニック・ダウンミックス)に対して実行され、ダウンミックスのオーディオ・コンテンツについてのいかなる特定の源方向も想定しない。
本発明の他の側面は、本発明の方法の任意の実施形態を実行するよう構成された(たとえばプログラムされた)ヘッドフォン仮想化器、そのような仮想化器を含むシステム(たとえばステレオ、マルチチャネルまたは他のデコーダ)および本発明の方法の任意の実施形態を実装するためのコードを記憶するコンピュータ可読媒体(たとえばディスク)である。
通常のヘッドフォン仮想化システムのブロック図である。 本発明のヘッドフォン仮想化システムのある実施形態を含むシステムのブロック図である。 本発明のヘッドフォン仮想化システムのもう一つの実施形態のブロック図である。 図3のシステムの典型的な実装に含められる型のFDNのブロック図である。 二つの特定の周波数(fAおよびfB)のそれぞれにおけるT60の値が、fA=10HzでT60,A=320msおよびfB=2.4kHzでT60,B=150msのように設定されている本発明の仮想化器のある実施形態によって達成されうる、Hz単位の周波数の関数としてのミリ秒単位での残響減衰時間(T60)のグラフである。 制御パラメータCohmax、CohminおよびfCがCohmax=0.95、Cohmin=0.05およびfC=700Hzの値をもつよう設定されている本発明の仮想化器のある実施形態によって達成されうる、Hz単位の周波数の関数としての両耳間コヒーレンス(Coh)のグラフである。 制御パラメータDLR1K、DLRslope、DLRmin、HPFslopeおよびfTがDLR1K=18dB、DLRslope=周波数10倍毎に6dB、DLRmin=18dB、HPFslope=周波数10倍毎に6dBおよびfT=200Hzの値をもつよう設定されている本発明の仮想化器のある実施形態によって達成されうる、Hz単位の周波数の関数としての、1メートルの源距離でのdB単位での直接対後期比(DLR)のグラフである。 本発明のヘッドフォン仮想化システムの後期残響処理サブシステムのもう一つの実施形態のブロック図である。 本発明のシステムのいくつかの実施形態に含まれる型のFDNの時間領域実装のブロック図である。 図9のフィルタ400の実装の例のブロック図である。 図9のフィルタ406の実装の例のブロック図である。 後期残響処理サブシステム221が時間領域で実装される本発明のヘッドフォン仮想化システムのある実施形態のブロック図である。 図9のFDNの要素422、423および424の実施形態のブロック図である。Aは、フィルタ500の典型的な実装の周波数応答(R1)、フィルタ501の典型的な実装の周波数応答(R2)およびフィルタ500と501を並列に接続したものの周波数応答のグラフである。 図9のFDNのある実装によって達成されうるIACC特性(曲線「I」)および目標(target)IACC特性(曲線「IT」)の例のグラフである。 フィルタ406、407、408および409のそれぞれをシェルフ・フィルタとして適切に実装することによって図9のFDNのある実装によって達成されうるT60特性のグラフである。 フィルタ406、407、408および409のそれぞれを二つのIIRシェルフ・フィルタのカスケードとして適切に実装することによって図9のFDNのある実装によって達成されうるT60特性のグラフである。
〈記法および命名法〉
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する)という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して(たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して)該動作を実行することを表わすために広義で使用される。
請求項を含む本開示を通じて、「システム」という表現は、装置、システムまたはサブシステムを表わす広義で使用される。たとえば、仮想化器を実装するサブシステムは、仮想化器システムと称されてもよく、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、前記サブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部源から受領されるもの)も仮想化器システム(または仮想化器)と称されることがある。
請求項を含む本開示を通じて、用語「プロセッサ」は、データ(たとえばオーディオまたはビデオまたは他の画像データ)に対して動作を実行するよう(たとえばソフトウェアまたはファームウェアを用いて)プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わす広義で使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。
請求項を含む本開示を通じて、表現「分解フィルタバンク」は、時間領域信号に対して変換(たとえば時間領域から周波数領域への変換)を適用して、一組の周波数帯域のそれぞれにおいて該時間領域信号の内容を示す値(たとえば周波数成分)を生成するよう構成されたシステム(たとえばサブシステム)を表わす広義で使用される。請求項を含む本開示を通じて、表現「フィルタバンク領域」は、変換または分解フィルタバンクによって生成される周波数成分の領域(たとえばそのような周波数成分が処理される領域)を表わす広義で使用される。フィルタバンク領域の例は(これに限られないが)周波数領域、直交ミラー・フィルタ(QMF)領域およびハイブリッド複素直交ミラー・フィルタ(HCQMF)領域を含む。分解フィルタバンクによって適用されうる変換の例は(これに限られないが)離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、離散フーリエ変換(DFT)およびウェーブレット変換を含む。分解フィルタバンクの例は(これに限られないが)直交ミラー・フィルタ(QMF)、有限インパルス応答フィルタ(FIRフィルタ)、無限インパルス応答フィルタ(IIRフィルタ)、クロスオーバー・フィルタおよび他の好適なマルチレート構造をもつフィルタを含む。
請求項を含む本開示を通じて、「メタデータ」という用語は、対応するオーディオ・データ(メタデータをも含むビットストリームの、オーディオ・コンテンツ)とは別個の異なるデータを指す。メタデータは、オーディオ・データに関連付けられ、該オーディオ・データの少なくとも一つの特徴または特性(たとえばそのオーディオ・データに対してどの型(単数または複数)の処理がすでに実行されているか、あるいは実行されるべきかまたはそのオーディオ・データによって示されるオブジェクトの軌跡)を示す。メタデータのオーディオ・データとの関連付けは、時間同期的である。このように、現在の(最も最近受領または更新された)メタデータは、対応するオーディオ・データが同時的に、示される特徴をもつおよび/または示される型のオーディオ・データ処理の結果を含むことを示しうる。
請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために使われる。よって、第一の装置が第二の装置に結合する場合、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。
請求項を含む本開示を通じて、以下の表現は以下の定義をもつ。
スピーカーおよびラウドスピーカーは、任意の音を発するトランスデューサを表わすものとして同義に使われる。この定義は、複数のトランスデューサ(たとえばウーファーおよびツイーター)として実装されるラウドスピーカーを含む。
スピーカー・フィード:ラウドスピーカーに直接加えられるオーディオ信号または直列の増幅器およびラウドスピーカーに加えられるオーディオ信号。
チャネル(または「オーディオ・チャネル」):モノフォニック・オーディオ信号。そのような信号は典型的には、該信号を所望されるまたは公称上の位置にあるラウドスピーカーに直接加えるのと等価であるようにレンダリングされることができる。所望される位置は、物理的なラウドスピーカーでは典型的にそうであるように静的であってもよく、あるいは動的であってもよい。
オーディオ・プログラム:一つまたは複数のオーディオ・チャネル(少なくとも一つのスピーカー・チャネルおよび/または少なくとも一つのオブジェクト・チャネル)および任意的には関連するメタデータ(たとえば、所望される空間的オーディオ呈示を記述するメタデータ)の集合。
スピーカー・チャネル(または「スピーカー・フィード・チャネル」):(所望されるまたは公称上の位置にある)指定されたラウドスピーカーに関連付けられているまたは定義されたスピーカー配位内での指定されたスピーカー・ゾーンに関連付けられているオーディオ・チャネル。スピーカー・チャネルは、該オーディオ信号を(所望されるまたは公称上の位置にある)指定されたラウドスピーカーにまたは指定されたスピーカー・ゾーン内のスピーカーに直接加えるのと等価であるようにレンダリングされる。
オブジェクト・チャネル:オーディオ源(時にオーディオ「オブジェクト」と称される)によって発される音を示すオーディオ・チャネル。典型的には、オブジェクト・チャネルは、パラメトリックなオーディオ源記述を決定する(たとえば、パラメトリックなオーディオ源記述を示すメタデータがオブジェクト・チャネル内に含められるまたはオブジェクト・チャネルと一緒に提供される)。源記述は、(時間の関数としての)源によって発された音、時間の関数としての源の見かけの位置(たとえば、3D空間座標)および任意的には源を特徴付ける少なくとも一つの追加的パラメータ(たとえば見かけの源サイズまたは幅)を決定してもよい。
オブジェクト・ベースのオーディオ・プログラム:一つまたは複数のオブジェクト・チャネルの集合を(および任意的には少なくとも一つのスピーカー・チャネルも)および任意的には関連するメタデータ(たとえば、オブジェクト・チャネルによって示される音を発するオーディオ・オブジェクトの軌跡を示すメタデータ、あるいは他の仕方でオブジェクト・チャネルによって示される音の所望される空間的オーディオ呈示を示すメタデータまたはオブジェクト・チャネルによって示される音の源である少なくとも一つのオーディオ・オブジェクトの識別情報を示すメタデータ)も含むオーディオ・プログラム。
レンダリング:オーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換するプロセスまたはオーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換し、該スピーカー・フィードを一つまたは複数のラウドスピーカーを使って音に変換するプロセス。(後者の場合、レンダリングは本稿では時にラウドスピーカー「による」レンダリングと称される。)オーディオ・チャネルは、信号を所望される位置にある物理的なラウドスピーカーに直接加えることによって(所望される位置「において」)トリビアルにレンダリングされることができる。あるいは、一つまたは複数のオーディオ・チャネルは、(聴取者にとって)そのようなトリビアルなレンダリングと実質的に等価であるよう設計された多様な仮想化技法の一つを使ってレンダリングされることができる。この後者の場合、各オーディオ・チャネルは、一般には所望される位置とは異なる既知の位置にあるラウドスピーカー(単数または複数)に加えられるべき一つまたは複数のスピーカー・フィードに変換されてもよく、それによりフィードに応答してラウドスピーカーによって発される音は、所望される位置から発しているように知覚されることになる。そのような仮想化技法の例は、ヘッドフォンを介したバイノーラル・レンダリング(たとえばヘッドフォン装着者のために7.1チャネルまでのサラウンド・サウンドをシミュレートする「ドルビー・ヘッドフォン」処理を使う)および波面合成(wave field synthesis)を含む。
マルチチャネル・オーディオ信号が「x.y」または「x.y.z」チャネル信号であるという本稿での記法は信号が「x」個の全周波数スピーカー・チャネル(想定される聴取者の耳の水平面に公称上位置されているスピーカーに対応)と、「y」個のLFE(またはサブウーファー)チャネルと、任意的にはまた「z」個の全周波数頭上スピーカー・チャネル(想定される聴取者の頭の上方に、たとえば部屋の天井またはその近くに位置されるスピーカーに対応)とを有することを表わす。
表現「IACC」は、本稿では、その通常の意味での両耳間相互相関係数を表わす。これは、聴取者の耳でのオーディオ信号到達時刻の間の差の指標であり、典型的には、到達する信号が大きさにおいて等しく正確に逆相であることを示す第一の値から到達する信号が類似性をもたないことを示す中間的な値を経て、同じ振幅および位相をもつ同一の到達する信号を示す最大値までの範囲内の数によって示される。
〈好ましい実施形態の詳細な説明〉
本発明の多くの実施形態が技術的に可能である。本開示からそれらをどのように実装するかは当業者には明確であろう。本発明のシステムおよび方法の実施形態を図2~図14を参照して記述する。
図2は、本発明のヘッドフォン仮想化システムのある実施形態を含むシステム(20)のブロック図である。本ヘッドフォン仮想化システム(時に仮想化器と称される)は、マルチチャネル・オーディオ入力信号のN個の全周波数範囲チャネル(X1,…,XN)にバイノーラル室内インパルス応答(BRIR)を適用するよう構成されている。チャネルX1,…,XN(これらはスピーカー・チャネルまたはオブジェクト・チャネルでありうる)のそれぞれは、想定される聴取者に対する特定の源方向および距離に対応し、図2のシステムは、そのような各チャネルを、対応する源方向および距離についてのBRIRによって畳み込みするよう構成されている。
システム20は、エンコードされたオーディオ・プログラムを受領するよう結合されており、それからN個の全周波数範囲チャネル(X1,…,XN)を復元することによることを含め該プログラムをデコードし、それらを(図のように結合された要素12、…14、15、16、18を有する)仮想化システムの要素12、…、14、15に提供するよう結合され、構成されているサブシステム(図2には示さず)を含むデコーダであってもよい。デコーダは、追加的なサブシステムを含んでいてもよく、そのいくつかは、仮想化システムによって実行される仮想化機能に関係しない機能を実行し、そのいくつかは仮想化機能に関係する機能を実行してもよい。たとえば、後者の機能は、エンコードされたプログラムからのメタデータの抽出と、該メタデータを、該メタデータを用いて仮想化器システムの要素を制御する仮想化制御サブシステムに提供することとを含んでいてもよい。
サブシステム12は(サブシステム15とともに)チャネルX1をBRIR1(対応する源方向および距離についてのBRIR)と畳み込みするよう構成されており、サブシステム14は(サブシステム15とともに)チャネルXNをBRIRN(対応する源方向についてのBRIR)と畳み込みするよう構成されており、N-2個の他のBRIRサブシステムのそれぞれについても同様である。サブシステム12、…、14、15のそれぞれの出力は、左チャネルおよび右チャネルを含む時間領域信号である。加算要素16および18は要素12、…、14、15の出力に結合される。加算要素16は、諸BRIRサブシステムの左チャネル出力どうしを組み合わせる(混合する)よう構成されており、加算要素18は、諸BRIRサブシステムの右チャネル出力どうしを組み合わせる(混合する)よう構成されている。要素16の出力は、図2の仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLであり、要素18の出力は、図2の仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRである。
本発明の典型的な実施形態の重要な特徴は、本発明のヘッドフォン仮想化器の図2の実施形態を図1の通常のヘッドフォン仮想化器と比べることから明白になる。比較のために、図1および図2のシステムは、そのそれぞれに同じマルチチャネル・オーディオ入力信号が呈されるとき、それらのシステムが同じ直接応答および早期反射部分(すなわち、図2の関連するEBRIRi)をもつBRIRiを入力信号のそれぞれの全周波数範囲チャネルXiに適用するよう(必ずしも同じ度合いの成功ではないが)、構成されているとする。図1または図2のシステムによって適用される各BRIRiは、直接応答および早期反射部分(たとえば図2のサブシステム12~14によって適用されるEBRIR1、…、EBRIRNの一つ)と後期残響部分という二つの部分に分解できる。図2の実施形態(および本発明の他の典型的な実施形態)は、複数の単一チャネルBRIR、すなわちBRIRiの後期残響部分が源方向を横断して、よってすべてのチャネルを横断して共有されることができ、入力信号のすべての全周波数範囲チャネルのダウンミックスに同じ後期残響(すなわち共通の後期残響)を適用できることを想定する。このダウンミックスは、すべての入力チャネルのモノフォニック(モノ)ダウンミックスであることができるが、代替的には、入力チャネルから(たとえば入力チャネルの部分集合から)得られるステレオまたはマルチチャネルのダウンミックスであってもよい。
より具体的には、図2のサブシステム12は、入力信号チャネルX1をEBRIR1(対応する源方向についての直接応答および早期反射BRIR部分)と畳み込みするよう構成され、サブシステム14は、入力信号チャネルXNをEBRIRN(対応する源方向についての直接応答および早期反射BRIR部分)と畳み込みするよう構成される、などとなる。図2の後期残響サブシステム15は、入力信号のすべての全周波数範囲チャネルのモノ・ダウンミックスを生成し、該ダウンミックスをLBRIR(ダウンミックスされるチャネルのすべてについての共通の後期残響)と畳み込みするよう構成されている。図2の仮想化器の各BRIRサブシステム(サブシステム12、…、14、15のそれぞれ)の出力は、(対応するスピーカー・チャネルまたはダウンミックスから生成されたバイノーラル信号の)左チャネルおよび右チャネルを含む。それらのBRIRサブシステムの左チャネル出力は加算要素16において組み合わされ(混合され)、それらのBRIRサブシステムの右チャネル出力は加算要素18において組み合わされる(混合される)。
適切なレベル調整および時間整列がサブシステム12、…、14、15において実装されていると想定して、加算要素16は、対応する左バイノーラル・チャネル・サンプル(サブシステム12、…、14、15の左チャネル出力)を単に合計してバイノーラル出力信号の左チャネルを生成するよう実装されることができる。同様に、やはり適切なレベル調整および時間整列がサブシステム12、…、14、15において実装されていると想定して、加算要素18も、対応する右バイノーラル・チャネル・サンプル(サブシステム12、…、14、15の右チャネル出力)を単に合計してバイノーラル出力信号の右チャネルを生成するよう実装されることができる。
図2のサブシステム15は、多様な仕方の任意のもので実装できるが、典型的には、それに呈される入力信号チャネルのモノフォニック・ダウンミックスに共通の後期残響を加えるよう構成された少なくとも一つのフィードバック遅延ネットワークを含む。典型的には、サブシステム12、…、14のそれぞれが、処理対象のチャネル(Xi)についての単一チャネルBRIRの直接応答および早期反射部分(EBRIRi)を適用する場合、共通の後期残響は、(その「直接応答および早期反射部分」がサブシステム12、…、14によって適用される)それらの単一チャネルBRIRの少なくともいくつか(たとえば全部)の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されている。たとえば、サブシステム15のある実装は、それに呈される入力信号チャネルのモノフォニック・ダウンミックスに共通の後期残響を適用するよう構成されているフィードバック遅延ネットワーク(203、204、…、205)のバンクを含む、図3のサブシステム200と同じ構造をもつ。
同様に、図2のサブシステム12、…、14は、(時間領域またはフィルタバンク領域の)多様な仕方の任意のもので実装でき、何らかの特定の用途のための好ましい実装は、(たとえば)パフォーマンス、計算およびメモリのようなさまざまな事情に依存する。ある例示的実装では、サブシステム12、…、14のそれぞれは、それに呈されるチャネルを、そのチャネルに関連付けられた直接および早期応答に対応するFIRフィルタと畳み込みするよう構成される。利得および遅延は、サブシステム12、…、14の出力がサブシステム15の出力と単純にかつ効率的に組み合わされてもよいように適正に設定される。
図3は、本発明のヘッドフォン仮想化システムのもう一つの実施形態のブロック図である。図3の実施形態は図2の実施形態と同様であり、二つの(左および右チャネルの)時間領域信号が直接応答および早期反射処理サブシステム100から出力され、二つの(左および右チャネルの)時間領域信号が後期残響処理サブシステム200から出力される。加算要素210がサブシステム100および200の出力に結合される。要素210は、サブシステム100および200の左チャネル出力を組み合わせて(混合して)図3の仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLを生成し、サブシステム100および200の右チャネル出力を組み合わせて(混合して)図3の仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRを生成するよう構成される。適切なレベル調整および時間整列がサブシステム100および200において実装されていると想定して、要素210は、サブシステム100および200から出力される対応する左チャネル・サンプルを単純に合計してバイノーラル出力信号の左チャネルを生成し、サブシステム100および200から出力される対応する右チャネル・サンプルを単純に合計してバイノーラル出力信号の右チャネルを生成するよう実装されることができる。
図3のシステムでは、マルチチャネル・オーディオ入力信号のチャネルXiは、二つの並列な処理経路に向けられ、そこで処理を受ける。一方は直接応答および早期反射処理サブシステム100を通り、他方は後期残響処理サブシステム200を通る。図3のシステムは、各チャネルXiにBRIRiを適用するよう構成されている。各BRIRiは、直接応答および早期反射部分(サブシステム100によって適用される)と後期残響部分(サブシステム200によって適用される)という二つの部分に分解できる。動作では、直接応答および早期反射処理サブシステム100はこうして仮想化器から出力されるバイノーラル・オーディオ信号の直接応答および早期反射部分を生成し、後期残響処理サブシステム(「後期残響生成器」)200はこうして仮想化器から出力されるバイノーラル・オーディオ信号の後期残響部分を生成する。サブシステム100および200の出力は(加算サブシステム210によって)混合され、バイノーラル・オーディオ信号を生成し、該バイノーラル・オーディオ信号は典型的にはサブシステム210からレンダリング・システム(図示せず)に呈され、レンダリング・システムにおいてヘッドフォンによる再生のためのバイノーラル・レンダリングを受ける。
典型的には、一対のヘッドフォンによってレンダリングされ、再生されるとき、要素210から出力される典型的なバイノーラル・オーディオ信号は聴取者の鼓膜において、聴取者の前方、背後および上方の位置を含む幅広い多様な位置の任意のところにある「N」個のラウドスピーカーからの音として知覚される(ここでN≧2であり、Nは典型的には2、5または7である)。図3のシステムの動作において生成された出力信号の再生は、聴取者に、二つより多くの(たとえば五個または七個の)「サラウンド」源からくる音の経験を与えることができる。これらの源の少なくともいくつかは仮想的である。
直接応答および早期反射処理サブシステム100は、(時間領域またはフィルタバンク領域の)多様な仕方の任意のもので実装でき、何らかの特定の用途のための好ましい実装は、(たとえば)パフォーマンス、計算およびメモリのようなさまざまな事情に依存する。ある例示的実装では、サブシステム100は、それに呈される各チャネルを、そのチャネルに関連付けられた直接および早期応答に対応するFIRフィルタと畳み込みするよう構成される。利得および遅延は、サブシステム100の出力がサブシステム200の出力と(要素210において)単純にかつ効率的に組み合わされてもよいように適正に設定される。
図3に示されるように、後期残響生成器200は、ダウンミックス・サブシステム201、分解フィルタバンク202、FDN(FDN 203、204、…、205)のバンクおよび合成フィルタバンク207を図のように結合したものを含む。サブシステム201は、マルチチャネル入力信号のチャネルをモノ・ダウンミックスにダウンミックスするよう構成されており、分解フィルタバンク202はモノ・ダウンミックスに変換を適用して、モノ・ダウンミックスを「K」個の周波数帯域に分割するよう構成されている。ここで、Kは整数である。それぞれの異なる周波数帯域における(フィルタバンク202から出力される)フィルタバンク領域値は、FDN 203、204、…、205のうちの異なるものに呈される(これらのFDNは「K」個あり、それぞれそれに呈されたフィルタバンク領域値にBRIRの後期残響部分を適用するよう結合され、構成されている)。フィルタバンク領域値は好ましくは、FDNの計算上の複雑さを軽減するよう、時間において間引きされる。
原理的には、(図3のサブシステム100およびサブシステム201への)各入力チャネルは、そのBRIRの後期残響部分をシミュレートするよう独自のFDN(またはFDNのバンク)によって処理されることができる。異なる音源位置に関連付けられたBRIRの後期残響部分が典型的にはインパルス応答における二乗平均平方根の点では非常に異なっているという事実にもかかわらず、その平均パワー・スペクトル、そのエネルギー減衰構造、モード密度、ピーク密度などといった統計的な属性はしばしば非常に似通っている。したがって、一組のBRIRの後期残響部分は典型的には、チャネルを横断して知覚的にきわめて似通っているので、二つ以上のBRIRの後期残響部分をシミュレートするために一つの共通のFDNまたはFDN(たとえば、FDN 203、204、…、205)のバンクを使うことが可能である。典型的な実施形態では、そのような一つの共通のFDN(またはFDNのバンク)が用いられ、それへの入力は、入力チャネルから構築された一つまたは複数のダウンミックスから構成される。図2の例示的実装では、ダウンミックスはすべての入力チャネルのモノフォニック・ダウンミックス(サブシステム201の出力において呈される)である。
図2の実施形態を参照するに、FDN 203、204、…、205のそれぞれは、フィルタバンク領域において実装され、分解フィルタバンク202から出力される値のうちの異なる周波数帯域を処理して、各帯域についての左および右の残響付加された信号を生成するよう結合され、構成される。各帯域について、左の残響付加された信号はフィルタバンク領域値のシーケンスであり、右の残響付加された信号はフィルタバンク領域値の別のシーケンスである。合成フィルタバンク207は、周波数領域から時間領域への変換を、フィルタバンク領域値(たとえばQMF領域の周波数成分)の2K個のシーケンスに適用し、変換された値を集めて(後期残響が適用されたモノ・ダウンミックスのオーディオ・コンテンツを示す)左チャネル時間領域信号および(やはり後期残響が適用されたモノ・ダウンミックスのオーディオ・コンテンツを示す)右チャネル時間領域信号にする。これらの左チャネルおよび右チャネルの信号は要素210に出力される。
典型的な実装では、FDN 203、204、…、205のそれぞれはQMF領域で実装され、フィルタバンク202はサブシステム201からのモノ・ダウンミックスをQMF領域(たとえば、ハイブリッド複素直交ミラー・フィルタ(HCQMF)領域)に変換し、それにより、フィルタバンク202からFDN 203、204、…、205のそれぞれの入力に呈される信号はQMF領域周波数成分のシーケンスとなる。そのような実装では、フィルタバンク202からFDN 203に呈される信号は第一の周波数帯域におけるQMF領域周波数成分のシーケンスであり、フィルタバンク202からFDN 204に呈される信号は第二の周波数帯域におけるQMF領域周波数成分のシーケンスであり、フィルタバンク202からFDN 205に呈される信号は第「K」の周波数帯域におけるQMF領域周波数成分のシーケンスである。分解フィルタバンク202がそのように実装されるとき、合成フィルタバンク207はQMF領域から時間領域への変換をFDNからの出力QMF領域周波数成分の2K個のシーケンスに適用し、要素210に出力される左チャネルおよび右チャネルの後期残響付加された時間領域信号を生成する。
たとえば、図3のシステムにおいてK=3であれば、合成フィルタバンク207に対する六つの入力(FDN 203、204および205のそれぞれから出力される周波数領域またはQMF領域サンプルを含む、左および右のチャネル)および207からの二つの出力(それぞれ時間領域サンプルからなる左および右のチャネル)がある。この例では、フィルタバンク207は典型的には二つの合成フィルバンクとして実装される。一つ(FDN 203、204および205からの三つの左チャネルが呈されるもの)はフィルタバンク207から出力される時間領域左チャネル信号を生成するよう構成され、第二のもの(FDN 203、204および205からの三つの右チャネルが呈されるもの)はフィルタバンク207から出力される時間領域右チャネル信号を生成するよう構成される。
任意的に、制御サブシステム209は、FDN 203、204、…、205のそれぞれに結合され、サブシステム200によって適用される後期残響部分(LBRIR)を決定するためにそれらFDNのそれぞれに対して制御パラメータを呈するよう構成される。そのような制御パラメータの例を以下で述べる。いくつかの実装では、制御サブシステム209は、サブシステム200によって入力チャネルのモノフォニック・ダウンミックスに適用される後期残響部分(LBRIR)のリアルタイム変動を実装するよう、リアルタイムで(すなわち、入力装置によってそれに呈されるユーザー・コマンドに応答して)動作可能であることが考えられる。
たとえば、図2のシステムへの入力信号が5.1チャネル信号(その全周波数範囲チャネルは次のチャネル順:L,R,C,Ls,Rsである)であれば、すべての全周波数範囲チャネルは同じ源距離をもち、ダウンミックス・サブシステム201は次のダウンミックス行列として実装されることができる。これは単に全周波数範囲チャネルを合計してモノ・ダウンミックスを形成する。
Figure 0007183467000001

(FDN 203、204、…、205のそれぞれにおける要素301内の)全域通過フィルタリング後、モノ・ダウンミックスはパワーを保存する仕方で四つの残響タンクにアップミックスされる。
Figure 0007183467000002

あるいはまた、(一例として)左側の諸チャネルを最初の二つの残響タンクにパンし、右側の諸チャネルを最後の二つの残響タンクにパンし、中央チャネルをすべての残響タンクにパンすることを選ぶことができる。この場合、ダウンミックス・サブシステム201は二つのダウンミックス信号を形成するよう実装されることになる。
Figure 0007183467000003

この例では、(FDN 203、204、…、205のそれぞれにおける)残響タンクへのアップミックスは次のようになる。
Figure 0007183467000004

二つのダウンミックス信号があるので、(FDN 203、204、…、205のそれぞれにおける要素301内の)全域通過フィルタリングは二度適用される必要がある。(L,Ls)、(R,Rs)およびCの後期応答について、そのすべてが同じマクロ属性をもつにもかかわらず、多様性が導入される。入力信号チャネルが異なる源距離をもつときは、いまだダウンミックス・プロセスにおいて適正な遅延および利得が適用される必要がある。
次に、図3の仮想化器のダウンミックス・サブシステム201ならびにサブシステム100および200の個別的な実装についての考察を述べる。
サブシステム201によって実装されるダウンミックス・プロセスは、ダウンミックスされるべき各チャネルについての(音源と想定される聴取者位置との間の)源距離と、直接応答の扱いとに依存する。直接応答の遅延tdは:
td=d/vs
である。ここで、dは音源と聴取者との間の距離であり、vsは音速である。さらに、直接応答の利得は1/dに比例する。これらのルールが異なる源距離をもつチャネルの直接応答の扱いにおいて保存されるならば、サブシステム201は、すべてのチャネルのストレートなダウンミックスを実装できる。後期残響の遅延およびレベルは一般に、源位置に敏感ではないからである。
実際的な事情のため、仮想化器(たとえば図3の仮想化器のサブシステム100)は、異なる源距離をもつ入力チャネルについての直接応答を時間整列させるよう実装されてもよい。各チャネルについての直接応答と後期残響との間の相対的な遅延を保存するために、源距離dをもつチャネルは他のチャネルとダウンミックスされる前に(dmax-d)/vsだけ遅延させられるべきである。ここで、dmaxは最大可能な源距離を表わす。
仮想化器(たとえば図3の仮想化器のサブシステム100)は、直接応答のダイナミックレンジを圧縮するようにも実装されてもよい。たとえば、源距離dをもつチャネルについての直接応答は、d-1の代わりに因子dによってスケーリングされてもよい。ここで、0≦α≦1である。直接応答と後期残響との間のレベル差を保存するために、ダウンミックス・サブシステム201は、源距離dをもつチャネルを、他のスケーリングされたチャネルとダウンミックスする前に、因子d1-αによってスケーリングするよう実装される必要があることがある。
図4のフィードバック遅延ネットワークは図3のFDN 203(または204または205)の例示的な実装である。図4のシステムは四つの残響タンク(それぞれ利得段giおよび遅延線z-niを含む)をもつが、このシステムの変形(および本発明の仮想化器の実施形態において用いられる他のFDN)は四つより多いまたは四つより少ない残響タンクを実装する。
図4のFDNは、入力利得要素300と、要素300の出力に結合された全域通過フィルタ(APF: all-pass filter)301と、APF 301の出力に結合された加算要素302、303、304および305と、それぞれ要素302、303、304および305の異なるものの出力に結合された四つの残響タンクとを含む(各残響タンクは、利得要素gk(要素306の一つ)と、それに結合された遅延線z-Mk(要素307の一つ)と、それに結合された利得要素1/gk(要素309の一つ)とを有し、0≦k-1≦3)。ユニタリー・マトリクス308が遅延線307の出力に結合され、要素302、303、304および305のそれぞれの第二の入力に対してフィードバック出力を呈するよう構成されている。利得要素309のうちの二つのもの(第一および第二の残響タンク)の出力は、加算要素310の入力に呈され、要素310の出力は出力混合マトリクス312の一方の入力に呈される。利得要素309のうちの他の二つのもの(第三および第四の残響タンク)の出力は、加算要素311の入力に呈され、要素311の出力は出力混合マトリクス312の他方の入力に呈される。
要素302は、遅延線z-n1に対応するマトリクス308の出力を、第一の残響タンクの入力に加える(すなわち、マトリクス308を介した遅延線z-n1の出力からのフィードバックを適用する)よう構成されている。要素303は、遅延線z-n2に対応するマトリクス308の出力を、第二の残響タンクの入力に加える(すなわち、マトリクス308を介した遅延線z-n2の出力からのフィードバックを適用する)よう構成されている。要素304は、遅延線z-n3に対応するマトリクス308の出力を、第三の残響タンクの入力に加える(すなわち、マトリクス308を介した遅延線z-n3の出力からのフィードバックを適用する)よう構成されている。要素305は、遅延線z-n4に対応するマトリクス308の出力を、第四の残響タンクの入力に加える(すなわち、マトリクス308を介した遅延線z-n4の出力からのフィードバックを適用する)よう構成されている。
図4のFDNの入力利得要素300は、図3の分解フィルタバンク202から出力される変換されたモノフォニック・ダウンミックス信号(フィルタバンク領域信号)の一つの周波数帯域を受領するよう結合されている。入力利得要素300は、それに呈されるフィルタバンク領域信号に、利得(スケーリング)因子Ginを適用する。集団的に、すべての周波数帯域についての(図3のFDN 203、204、…、205すべてによって実装される)スケーリング因子Ginは、後期残響のスペクトル整形およびレベルを制御する。図3の仮想化器のすべてのFDNにおける入力利得Ginを設定することは、しばしば以下の目標を考慮に入れる:
実際の部屋にマッチする、各チャネルに適用されるBRIRの直接対後期比(DLR);
過剰なコーミング・アーチファクトおよび/または低周波数のごろごろ音を緩和するための必要な低周波数減衰;
拡散場スペクトル包絡のマッチング。
(図3のサブシステム100によって適用される)直接応答がすべての周波数帯域において単位利得(unitary gain)を提供するとすると、特定のDLR(パワー比)は:
Gin=sqrt(ln(106)/(T60*DLR))
となるようGinを設定することによって、達成できる。ここで、T60は、残響が60dB減衰するのにかかる時間として定義される残響減衰時間(これは以下で論じる残響遅延および残響利得によって決定される)であり、「ln」は自然対数関数を表わす。
入力利得因子Ginは処理されているコンテンツに依存してもよい。そのようなコンテンツ依存性の一つの応用は、入力チャネル信号間に存在するいかなる相関にもかかわりなく、各時間/周波数セグメントにおけるダウンミックスのエネルギーが、ダウンミックスされる個々のチャネル信号のエネルギーの和に等しいことを保証することである。その場合、入力利得因子は
Figure 0007183467000005

と似たまたはこれに等しい項であることができる(あるいはそのような項を乗算されることができる)。ここで、iは所与の時間/周波数タイルまたはサブバンドのすべてのダウンミックス・サンプルにわたるインデックスであり、y(i)はそのタイルについてのダウンミックス・サンプルであり、xi(j)はダウンミックス・サブシステム201の入力に呈される(チャネルXiについての)入力信号である。
図4のFDNの典型的なQMF領域実装では、全域通過フィルタ(APF)301の出力から残響タンクの入力に呈される信号はQMF領域周波数成分のシーケンスである。より自然に聞こえるFDN出力を生成するために、利得要素300の出力にAPF 301が適用されて、位相多様性および増大したエコー密度を導入する。代替的または追加的に、一つまたは複数の全域通過フィルタが、(図3の)ダウンミックス・サブシステム201への個々の入力に、該入力がサブシステム201においてダウンミックスされてFDNによって処理される前に適用されてもよく、あるいは図4に描かれる残響タンク・フィードフォワードまたはフィードバック経路において(たとえば、各残響タンクにおける遅延線z-Mkに加えてまたはその代わりに)適用されてもよく、あるいはFDNの出力に(すなわち、出力マトリクス312の出力に)適用されてもよい。
残響タンク遅延z-niを実装する際、残響モードが同じ周波数で整列するのを避けるために、残響遅延niは互いに素であるべきである。遅延の合計は、人工的に聞こえる出力を避けるために、十分なモード密度を提供するよう十分大きいべきである。だが、最短の遅延は、後期残響とBRIRの他の成分との間の過剰な時間ギャップを避けるために、十分短いべきである。
典型的には、残響タンク出力は、初期には、左または右のバイノーラル・チャネルのいずれかにパンされる。通常、二つのバイノーラル・チャネルにパンされている残響タンク出力のセットは同数であり、相互排他的である。二つのバイノーラル・チャネルのタイミングを均衡させることも望まれる。よって、最短の遅延をもつ残響タンク出力が一方のバイノーラル・チャネルに行くならば、二番目に短い遅延をもつ残響タンク出力は他方のチャネルに行くことになる。
周波数の関数としてモード密度を変えるよう、残響タンク遅延は周波数帯域を横断して異なることができる。一般に、より低い周波数帯域はより高いモード密度を必要とし、よってより長い残響タンク遅延を必要とする。
残響タンク利得giの振幅および残響タンク遅延は、合同して図4のFDNの残響遅延時間を決定する:
T60=-3ni/log10(|gi|)/FFRM
ここで、FFRMは(図3の)フィルタバンク202のフレーム・レートである。残響タンク利得の位相は、残響タンク遅延がフィルタバンクのダウンサンプル因子格子に量子化されていることに関係する問題を克服するよう、端数遅延を導入する。
ユニタリー・フィードバック・マトリクス308は、フィードバック経路における諸残響タンクの間の均等な混合を提供する。
残響タンク出力のレベルを等化するために、利得要素309は規格化利得1/|gi|を各残響タンクの出力に適用し、残響タンク利得のレベル効果を除去する一方でその位相によって導入される端数遅延を保存する。
出力混合マトリクス312(行列Moutとしても特定される)は、初期パニングからの未混合バイノーラル・チャネル(それぞれ要素310および311の出力)を混合して、所望される両耳間コヒーレンスをもつ出力の左および右のバイノーラル・チャネル(マトリクス312の出力において呈されるLおよびR信号)を達成するよう構成された2×2のマトリクスである。未混合バイノーラル・チャネルは、初期パニング後には、共通の残響タンク出力を全く含まないので、ほとんど無相関である。所望される両耳間コヒーレンスがCohであり、|Coh|≦1とすると、出力混合マトリクス312は
Figure 0007183467000006

と定義されてもよい。残響タンク遅延が異なるので、未混合バイノーラル・チャネルの一方が常時他方より進んでいる。残響タンク遅延およびパニング・パターンの組み合わせが周波数帯域を横断して同一であれば、音像バイアスが帰結するであろう。このバイアスは、混合済みバイノーラル・チャネルが交互の周波数帯域において互いに進んだり遅れたりするよう、パニング・パターンが周波数帯域を横断して交互にされるならば、緩和できる。これは、出力混合マトリクス312を、奇数番目の周波数帯域においては(たとえば、第一の周波数帯域(図3のFDN 203によって処理される)、第三の周波数帯域などにおいては)前の段落で述べた形をもつよう、偶数番目の周波数帯域においては(たとえば、第二の周波数帯域(図3のFDN 204によって処理される)、第四の周波数帯域などにおいては)
Figure 0007183467000007

の形をもつよう、実装することによって、達成されることができる。ここで、βの定義は同じままである。マトリクス312はすべての周波数帯域において同一であるよう実装されることができるが、交互の周波数帯域についてその入力のチャネル順が切り換えられてもよいことを注意しておくべきである。(たとえば、奇数周波数帯域では要素310の出力がマトリクス312の第一の入力に呈されてもよく、要素311の出力がマトリクス312の第二の入力に呈されてもよく、偶数周波数帯域では要素311の出力がマトリクス312の第一の入力に呈されてもよく、要素310の出力がマトリクス312の第二の入力に呈されてもよい。)
周波数帯域が(部分的に)重なり合う場合には、それについてマトリクス312の形が交互に変えられるような周波数範囲の幅を増すことができる(たとえば、二つまたは三つの連続する帯域ごとに一度変えることができる)。あるいは、連続する周波数帯域のスペクトル重なりについて補償するよう平均コヒーレンスが所望される値に等しいことを保証するために、(マトリクス312の形についての)上記の式におけるβの値が調整されることができる。
本発明の仮想化器におけるそれぞれの個別の周波数帯域についてのFDNについて、上記で定義した目標音響属性T60、CohおよびDLRが既知であれば、各FDN(各FDNは図4に示した構造を有していてもよい)は目標属性を達成するよう構成されることができる。特に、いくつかの実施形態では、本稿に記載される関係に従って目標属性を達成するよう、各FDNについての入力利得(Gin)および残響タンクの利得および遅延(giおよびni)ならびに出力マトリクスMoutのパラメータが(たとえば図3の制御サブシステム209によってそれに呈される制御値により)設定されることができる。実際上、特定の音響環境にマッチする自然に聞こえる後期残響を生成するために、単純な制御パラメータをもつモデルによって周波数依存の属性を設定することが十分であることがしばしばである。
次に、本発明の仮想化器のある実施形態の各特定の周波数帯域についてのFDNについての目標残響減衰時間(T60)が少数の周波数帯域のそれぞれについて目標残響減衰時間(T60)を決定することによってどのように決定できるかの例を述べる。FDN応答のレベルは時間とともに指数関数的に減衰する。T60は減衰因子(decay factor)df(単位時間に対するdB減衰として定義される)に反比例する、すなわち:
T60=60/df
である。
減衰因子dfは周波数に依存し、一般に、対数周波数スケールに対して線形に増大する。よって、残響減衰時間も、周波数の関数であり、周波数が増加するにつれて一般に減少する。したがって、二つの周波数点についてのT60の値を決定(たとえば設定)すれば、すべての周波数についてのT60曲線が決定される。たとえば、周波数点fAおよびfBについての残響減衰時間がそれぞれT60,AおよびT60,Bであれば、T60曲線は次のように定義される。
Figure 0007183467000008

図5は、二つの特定の周波数(fAおよびfB)のそれぞれにおいてT60値がfA=10HzにおいてT60,A=320msおよびfB=2.4kHzにおいてT60,B=150msに設定される本発明の仮想化器のある実施形態によって達成されうるT60曲線の例を示している。
次に、本発明の仮想化器のある実施形態の各特定の周波数帯域についてのFDNについての目標両耳間コヒーレンス(Coh)が少数の制御パラメータを設定することによってどのように達成できるかの例を述べる。後期残響の両耳間コヒーレンス(Coh)はおおむね拡散音場のパターンに従う。それはクロスオーバー周波数fCまでのsinc関数およびクロスオーバー周波数より上での定数によってモデル化できる。Coh曲線についての単純なモデルは次のようなものである。
Figure 0007183467000009

ここで、パラメータCohminおよびCohmaxは-1≦Cohmin<Cohmax≦1を満たし、Cohの範囲を制御する。最適なクロスオーバー周波数fCは聴取者の頭のサイズに依存する。高すぎるfCは頭の中に定位される音源像につながり、一方、小さすぎるfCは拡散したまたは分割された音源像につながる。図6は、制御パラメータCohmax、CohminおよびfCが次の値:Cohmax=0.95、Cohmin=0.05およびfC=700Hzをもつよう設定された本発明のある実施形態によって達成されうるCoh曲線の例である。
次に、本発明の仮想化器のある実施形態の各特定の周波数帯域についてのFDNについての目標直接対後期比(DLR)が少数の制御パラメータを設定することによってどのように達成できるかの例を述べる。dB単位での直接対後期比(DLR)は一般に、対数周波数に対して線形に増大し、DLR1K(1kHzでのdB単位でのDLR)とDLRslope(周波数10倍当たりのdB単位)を設定することによって制御される。しかしながら、低周波数範囲での低いDLRはしばしば過剰なコーミング・アーチファクトにつながる。該アーチファクトを緩和するために、DLRを制御する二つの修正機構が加えられる:
最小DLRフロア、DLRmin(dB単位);および
遷移周波数fTおよびそれより下の減衰曲線の傾きHPFslope(周波数10倍当たりのdB単位)によって定義される高域通過フィルタ(high-pass filter)。
dB単位での、結果として得られるDLR曲線は、次のように定義される。
Figure 0007183467000010

DLRはたとえ同じ音響環境にあっても源距離とともに変化することを注意しておくべきである。したがって、ここでのDLR1KおよびDLRminは1メートルなどの公称源距離についての値である。図7は、制御パラメータDLR1K、DLRslope、DLRmin、HPFslopeおよびfTが次の値:DLR1K=18dB、DLRslope=6dB/周波数10x、DLRmin=18dB、HPFslope=6dB/周波数10xおよびfT=200Hzをもつよう設定された本発明の仮想化器のある実施形態によって達成される、1メートルの源距離についてのDLR曲線の例である。
本稿に開示される実施形態の変形は次の特徴のうちの一つまたは複数をもつ:
本発明の仮想化器は、時間領域で実装される、あるいはFDNベースのインパルス応答捕捉およびFIRベースの信号フィルタリングをもつハイブリッド実装をもつ;
本発明の仮想化器は、後期残響処理サブシステムのためのダウンミックスされた入力信号を生成するダウンミックス段階の実行中に、周波数の関数としてエネルギー補償の適用を許容するよう実装される;
本発明の仮想化器は、外部因子に応答して(すなわち、制御パラメータの設定に応答して)適用される後期残響属性の手動または自動的な制御を許容するよう実装される。
システム・レイテンシーが決定的であり、分解および合成フィルタバンクによって引き起こされる遅延が禁止的である用途については、本発明の仮想化器の典型的な実施形態のフィルタバンク領域FDN構造は時間領域に変換されることができ、各FDN構造は本仮想化器のあるクラスの実施形態では時間領域で実装されることができる。時間領域実装では、入力利得因子(Gin)、残響タンク利得(gi)および規格化利得(1/|gi|)を適用するサブシステムは、周波数依存の制御を許容するために同様の振幅応答をもつフィルタによって置き換えられる。出力混合マトリクス(Mout)もフィルタのマトリクスによって置き換えられる。他のフィルタと異なり、フィルタのこのマトリクスの位相応答は枢要である。該位相応答によってパワー保存および両耳間コヒーレンスが影響されうるからである。時間領域実装における残響タンク遅延は、共通因子としてフィルタバンク・ストライドを共有することを避けるために(フィルタバンク領域実装における値とは)わずかに変えられる必要があることがある。さまざまな制約条件のため、本発明の仮想化器のFDNの時間領域実装の実行は、そのフィルタバンク実装の場合に正確にマッチしないことがある。
図8を参照して、次に、本発明の仮想化器の本発明の後期残響処理サブシステムのハイブリッド(フィルタバンク領域および時間領域)実装を記述する。本発明の後期残響処理サブシステムのこのハイブリッド実装は、図4の後期残響処理サブシステム200に対する変形であり、FDNに基づくインパルス応答捕捉およびFIRに基づく信号フィルタリングを実装する。
図8は、図3のサブシステム200の同一の符号を付けられた要素と同一である要素201、202、203、204、205および207を含む。これらの要素の上記の記述は図8の参照では繰り返さない。図8の実施形態では、単位インパルス生成器211が分解フィルタバンク202への入力信号(パルス)を呈するよう結合される。FIRフィルタとして実装されるLBRIRフィルタ208(モノ入力、ステレオ出力)は該BRIR(LBRIR)の適切な後期残響部分を、サブシステム201から出力されたモノフォニック・ダウンミックスに対して適用する。こうして、要素211、202、203、204、205および207は、LBRIRフィルタ208に対する処理サイドチェーンである。
後期残響部分LBRIRの設定が修正されるときはいつも、インパルス生成器211は、単位インパルスを要素202に対して呈するよう動作させられ、フィルタバンク207からの結果的な出力が捕捉され、(フィルタバンク207の出力によって決定された新たなLBRIRを適用するようフィルタ208を設定するため)フィルタ208に呈される。LBRIR設定変更から新たなLBRIRが有効になる時間までの時間経過を加速するために、新たなLBRIRのサンプルは、利用可能になるにつれて古いLBRIRを置き換えはじめることができる。FDNの内在的なレイテンシーを短縮するため、LBRIRの最初の諸ゼロは破棄できる。これらのオプションは、柔軟性を提供し、該ハイブリッド実装がFIRフィルタリングから追加される計算を代償として、(フィルタバンク領域実装によって提供されるパフォーマンスに比して)潜在的なパフォーマンス改善を提供することを許容する。
システム・レイテンシーが枢要であるが計算パワーがそれほど問題ではない用途については、サイドチェーン・フィルタバンク領域後期残響処理器(たとえば、図8の要素211、202、203、204、…、205によって実装されるもの)が、フィルタ208によって適用される有効FIRインパルス応答を補足するために使われることができる。FIRフィルタ208はこの捕捉されたFIR応答を実装し、(入力チャネルの仮想化の間に)入力チャネルのモノ・ダウンミックスに直接適用することができる。
さまざまなFDNパラメータ、よって結果として得られる後期残響属性は、手動でチューニングされ、その後、本発明の後期残響処理サブシステムの実施形態に固定構成として組み込まれることができる。たとえば、システムのユーザーによって(たとえば図3の制御サブシステム209を操作することによって)調整されることのできる一つまたは複数のプリセットによってである。しかしながら、後期残響の高レベルの記述、FDNパラメータとのその関係およびその挙動を修正する能力を与えられれば、FDNベースの後期残響処理器のさまざまな実施形態を制御するための幅広い多様な方法が構想される。それは以下のものを含む(ただしそれに限られない)。
1.エンドユーザーは、たとえば(たとえば図3の制御サブシステム209の実施形態によって実装される)ディスプレイ上のユーザー・インターフェースによってFDNパラメータを手動で制御し、あるいは(たとえば図3の制御サブシステム209の実施形態によって実装される)物理的なコントロールを使ってプリセットを切り換えてもよい。このようにして、エンドユーザーは、好み、環境またはコンテンツに応じて部屋シミュレーションを適応させることができる。
2.仮想化されるべきオーディオ・コンテンツの作者が、たとえば入力オーディオ信号と一緒に提供されるメタデータによって、コンテンツ自身と一緒に伝達される設定または所望されるパラメータを提供してもよい。そのようなメタデータは、パースされ、関連するFDNパラメータを制御するために(たとえば図3の制御サブシステム209の実施形態によって)用いられてもよい。したがって、メタデータは、残響時間、残響レベル、直接対残響比などといった属性を示してもよく、これらの属性は時間変化して、時間変化するメタデータによって示されてもよい。
3.再生装置が、一つまたは複数のセンサーによってその位置または環境を認識してもよい。たとえば、モバイル装置は、該装置がどこにあるかを判別するために、GSMネットワーク、全地球測位システム(GPS)、既知のWiFiアクセスポイントまたは他の任意の位置特定サービスを使ってもよい。その後、位置および/または環境を示すデータが、関連するFDNパラメータを制御するために(たとえば図3の制御サブシステム209の実施形態によって)用いられてもよい。こうして、FDNパラメータは、装置の位置に応答して、たとえば物理的環境を模倣するよう、修正されうる。
4.再生装置の位置に関係して、ある種の環境において消費者たちが使っている最も一般的な設定を導出するために、クラウド・サービスまたはソーシャル・メディアが使われてもよい。さらに、ユーザーは自分の現在の設定を、(既知の)位置と関連付けて、クラウドまたはソーシャル・メディア・サービスにアップロードして、他のユーザーまたは自分自身のために利用可能にしてもよい。
5.再生装置が、ユーザーの活動およびユーザーがいる環境を判別するために、カメラ、光センサー、マイクロフォン、加速度計、ジャイロスコープといった他のセンサーを含んでいてもよい。その特定の活動および/または環境についてFDNパラメータを最適化するためである。
6.FDNパラメータは、オーディオ・コンテンツによって制御されてもよい。オーディオ分類アルゴリズムまたは手動で注釈付けされたコンテンツが、オーディオの諸セグメントが発話、音楽、サウンド効果、無音などを含むかどうかを示してもよい。FDNパラメータはそのようなラベルに従って調整されてもよい。たとえば、直接対残響比は、ダイアログ了解性を改善するために、ダイアログについては低減されてもよい。さらに、現在のビデオ・セグメントの位置を判別するためにビデオ解析が使われてもよく、FDNパラメータはビデオにおいて描かれている環境をよりよくシミュレートするためにしかるべく調整されてもよい。および/または
7.半導体再生システムは、モバイル装置とは異なるFDN設定を使ってもよい。たとえば、設定は装置依存であってもよい。居間にある半導体システムは、典型的な(かなり残響のある)遠方の源をもつ居間シナリオをシミュレートしてもよく、一方、モバイル装置は聴取者により近くコンテンツをレンダリングしてもよい。
本発明の仮想化器のいくつかの実装は、整数サンプル遅延のほか端数遅延を適用するよう構成されているFDN(たとえば、図4のFDNの実装)を含む。たとえば、そのようなある実装では、整数個のサンプル期間に等しい整数遅延を加える遅延線と直列に、各残響タンク内で端数遅延要素が接続される(たとえば、各端数遅延要素は遅延線の一つの後に、または他の仕方でそれと直列に位置される)。端数遅延は、各周波数帯域において、fが遅延割合(fraction)、τがその帯域についての所望される遅延、Tがその帯域についてのサンプル期間であるとして、サンプル期間のある割合f=τ/Tに対応する位相シフト(単位複素数乗算)によって近似できる。QMF領域において残響を適用するコンテキストにおいて、どのようにして端数遅延を加えるかはよく知られている。
第一のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合(たとえば、それらのチャネルのそれぞれまたは全周波数範囲チャネルのそれぞれ)に応答してバイノーラル信号を生成するヘッドフォン仮想化方法である。本方法は:(a)前記集合の各チャネルに(たとえば図3のサブシステム100および200においてまたは図2のサブシステム12、…、14、15において前記集合の各チャネルを前記チャネルに対応するBRIRと畳み込みすることによって)バイノーラル室内インパルス応答(BRIR)を適用し、それによりフィルタリングされた信号(たとえば、図3のサブシステム100および200の出力または図2のサブシステム12、…、14、15の出力)を生成する段階であって、前記集合のチャネルのダウンミックス(たとえばモノフォニック・ダウンミックス)に共通の後期残響を加えるよう少なくとも一つのフィードバック遅延ネットワーク(たとえば図3のFDN 203、204、…、205)を使うことによることを含む、段階と;(b)フィルタリングされた信号を(たとえば図3のサブシステム210または図2の要素16および18を含むサブシステムにおいて)組み合わせてバイノーラル信号を生成する段階とを含む。典型的には、前記ダウンミックスに前記共通の後期残響を加えるために、FDNのバンクが使用される(たとえば、各FDNが異なる周波数帯域に後期残響を加える)。典型的には、段階(a)は(たとえば図3のサブシステム100または図2のサブシステム12、…、14において)前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの「直接応答および早期反射」部分を適用する段階を含み、前記共通の後期残響は、前記単一チャネルBRIRの少なくとも一部(たとえば全部)の後期残響部分の集団的なマクロ属性をエミュレートするよう生成されたものである。
第一のクラスの典型的な実装では、各FDNはハイブリッド複素直交ミラー・フィルタ(HCQMF: hybrid complex quadrature mirror filter)領域または直交ミラー・フィルタ(QMF)領域において実装される。いくつかのそのような実施形態では、バイノーラル信号の周波数依存の空間的な音響属性は、後期残響を加えるために用いられる各FDNの構成を制御することによって(たとえば図3の制御サブシステム209を使って)制御される。典型的には、マルチチャネル信号のオーディオ・コンテンツの効率的なバイノーラル・レンダリングのために、チャネルのモノフォニック・ダウンミックス(たとえば、図3のサブシステム201によって生成されたダウンミックス)がFDNへの入力として使われる。典型的には、ダウンミックス・プロセスは、各チャネルについての源距離(すなわち、チャネルのオーディオ・コンテンツの想定される源と想定されるユーザー位置との間の距離)に基づいて制御され、各BRIR(すなわち、あるチャネルについての単一チャネルBRIRの直接応答および早期反射部分ならびにそのチャネルを含むダウンミックスについての共通の後期残響によって決定される各BRIR)の時間的およびレベル構造を保存するために源距離に対応する直接応答の扱いに依存する。ダウンミックされるべきチャネルはダウンミックスの間に種々の仕方で時間整列され、スケーリングされることができるが、各チャネルについてのBRIRの直接応答、早期反射および共通の後期残響部分の間の適正なレベルおよび時間的関係が維持されるべきである。(ダウンミックスを生成するよう)ダウンミックスされるすべてのチャネルについて共通の後期残響部分を生成するために単一のFDNバンクを使う実施形態では、ダウンミックスの生成の間に(ダウンミックスされる各チャネルに対して)適正な利得および遅延が適用される必要がある。
このクラスの典型的な実施形態は、周波数依存の属性(たとえば、残響減衰時間、両耳間コヒーレンス、モード密度および直接対後期比)に対応するFDN係数を調整する段階を含む。これは、音響環境のよりよいマッチングおよびより自然に聞こえる出力を可能にする。
第二のクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号に応答してバイノーラル信号を生成する方法である。これは、入力信号のチャネルのある集合の各チャネル(たとえば、入力信号のチャネルのそれぞれまたは入力信号のそれぞれの全周波数範囲チャネル)にバイノーラル室内インパルス応答(BRIR)を適用する(たとえば各チャネルを対応するBRIRと畳み込みすることによって)ことによる。これは、前記集合の各チャネルを、該チャネルについての単一チャネルBRIRの直接応答および早期反射(たとえば、図2のサブシステム12、14または15によって適用されるEBRIR)をモデル化して該各チャネルに適用するよう構成された第一の処理経路(たとえば、図3のサブシステム100または図2のサブシステム12、…、14によって実装される)において処理し、前記集合のチャネルのダウンミックス(たとえばモノフォニック・ダウンミックス)を、前記第一の処理経路と並列な第二の処理経路(たとえば、図3のサブシステム200または図2のサブシステム15によって実装される)において処理することによることを含む。第二の処理経路は、共通の後期残響(たとえば、図2のサブシステム15によって適用されるLBRIR)をモデル化して該ダウンミックスに適用するよう構成されている。典型的には、前記共通の後期残響は、前記単一チャネルBRIRのうち少なくともいくつか(たとえば全部)の後期残響部分の集団的なマクロ属性をエミュレートする。典型的には、第二の処理経路は少なくとも一つのFDN(たとえば複数の周波数帯域のそれぞれについて一つのFDN)を含む。典型的には、第二の処理経路によって実装される各FDNのすべての残響タンクへの入力として、モノ・ダウンミックスが使われる。典型的には、音響環境をよりよくシミュレートし、より自然に聞こえるバイノーラル仮想化を生じるために、各FDNのマクロ属性の系統的な制御のための機構が提供される(たとえば図3の制御サブシステム209)。たいていのそのようなマクロ属性は周波数依存なので、各FDNは典型的にはハイブリッド複素直交ミラー・フィルタ(HCQMF)領域、周波数領域、領域または別のフィルタバンク領域において実装され、各周波数帯域について異なるFDNが使われる。FDNをフィルタバンク領域において実装することの主要な恩恵は、周波数依存の残響属性をもつ残響の適用を許容するということである。さまざまな実施形態において、FDNは、多様なフィルタバンクの任意のものを使って、幅広い多様なフィルタバンク領域の任意のものにおいて実装される。それは、直交ミラー・フィルタ(QMF)、有限インパルス応答フィルタ(FIRフィルタ)、無限インパルス応答フィルタ(IIRフィルタ)またはクロスオーバー・フィルタを含むがそれに限られない。
第一のクラス(および第二のクラス)のいくつかの実施形態は、以下の特徴の一つまたは複数を実装する。
1.フィルタバンク領域(たとえばハイブリッド複素直交ミラー・フィルタ領域)のFDN実装(たとえば図4のFDN実装)またはハイブリッド・フィルタバンク領域のFDN実装および時間領域の後期残響フィルタ実装(たとえば図8を参照して記述した構造)。これは典型的には、各周波数帯域についてのFDNのパラメータおよび/または設定の独立な調整を許容する(これは、周波数依存の音響属性の単純で柔軟な制御を可能にする)。これはたとえば、モード密度を周波数の関数として変化させるよう種々の帯域における残響タンク遅延に変化をつける能力を提供することによる。
2.(マルチチャネル入力オーディオ信号から)第二の処理経路において処理されたダウンミックスされた(たとえばモノフォニック・ダウンミックスされた)信号を生成するために用いられる特定のダウンミックス・プロセスは、各チャネルの源距離ならびに直接応答と後期応答の間の適正なレベルおよびタイミング関係を維持するための直接応答の扱いに依存する。
3.結果として生じる残響のスペクトルおよび/または音色を変えることなく位相多様性(diversity)および増大したエコー密度を導入するために、第二の処理経路において(たとえばFDNのバンクの入力または出力において)全域通過フィルタ(たとえば図4のAPF 301)が適用される。
4.ダウンサンプル因子格子(downsample-factor grid)に量子化された遅延に関係した問題を克服するために、複素数値のマルチレート構造における各FDNのフィードバック経路において、端数遅延(fractional delay)が実装される。
5.FDNにおいて、残響タンク出力は、各周波数帯域における所望される両耳間コヒーレンスに基づいて設定される出力混合係数を使って、(たとえば図4のマトリクス312によって)バイノーラル・チャネル中に直接、線形に混合される。任意的に、残響タンクの、バイノーラル出力チャネルへのマッピングは、バイノーラル・チャネル間で均衡した遅延を達成するために、諸周波数帯域を横断して交互する。また任意的に、残響タンク出力には、端数遅延および全体的なパワーを保存しつつそのレベルを等化するために、規格化因子が適用される。
6.周波数依存の残響減衰時間が、実際の部屋をシミュレートするよう各周波数帯域における残響タンク遅延および利得の適正な組み合わせを設定することによって制御される。
7.周波数帯域毎に(たとえば関連する処理経路の入力または出力のいずれかにおいて)一つのスケーリング因子が(たとえば図4の要素306および309によって)適用される。これにより:
実際の部屋のDLRにマッチする周波数依存の直接対後期比(DLR: direct-to-late ratio)を制御する(目標DLRおよび残響減衰時間、たとえばT60に基づいて、必要とされるスケーリング因子を計算するために、単純なモデルが使用されてもよい);
過剰なコーミング(combing)アーチファクトを緩和するための低周波数減衰を提供する;および/または
FDN応答に拡散場スペクトル整形(diffuse field spectral shaping)を適用する。
8.残響減衰時間、両耳間コヒーレンスおよび/または直接対後期比といった後期残響の本質的な周波数依存の属性を制御するために(たとえば図3の制御サブシステム209によって)単純なパラメトリック・モデルが実装される。
いくつかの実施形態では(たとえば、システム・レイテンシーが決定的であり、分解および合成フィルタバンクによって引き起こされる遅延が禁止的である用途については)、本発明のシステムの典型的な実施形態のフィルタバンク領域FDN構造(たとえば各周波数帯域における図4のFDN)は時間領域で実装されるFDN構造(たとえば、図9に示されるように実装されうる図10のFDN 220)によって置き換えられる。本発明のシステムの時間領域実施形態では、入力利得因子(Gin)、残響タンク利得(gi)および規格化利得(1/|gi|)を適用するフィルタバンク領域実施形態のサブシステムは、周波数依存の制御を許容するために時間領域フィルタ(および/または利得要素)によって置き換えられる。典型的なフィルタバンク領域実装の出力混合マトリクス(たとえば、図4の出力混合マトリクス312)は(典型的な時間領域実施形態では)時間領域フィルタの出力集合(たとえば、図9の要素424の図11の実装の要素500~503)によって置き換えられる。典型的な時間領域実施形態の他のフィルタと異なり、フィルタのこの出力集合の位相応答は典型的には枢要である(該位相応答によってパワー保存および両耳間コヒーレンスが影響されうるから)。いくつかの時間領域実施形態では、残響タンク遅延は、(たとえば、共通因子としてフィルタバンク・ストライドを共有することを避けるために)対応するフィルタバンク領域実装における値から変えられる(たとえばわずかに変えられる)。
図10は、図3と同様の本発明のヘッドフォン仮想化システムの実施形態のブロック図であるが、図3の要素202~207が図10のシステムでは、時間領域で実装される単一のFDN 220によって置き換えられている(たとえば、図10のFDN 220は図9のFDNと同様に実装されてもよい)。図10では、二つの(左および右チャネルの)時間領域信号が、直接応答および早期反射処理サブシステム100から出力され、二つの(左および右チャネルの)時間領域信号が、後期残響処理サブシステム221から出力される。サブシステム100および200の出力に加算要素210が結合されている。要素210は、サブシステム100および221の左チャネル出力を組み合わせて(混合して)図10の仮想化器から出力されるバイノーラル・オーディオ信号の左チャネルLを生成し、サブシステム100および221の右チャネル出力を組み合わせて(混合して)図10の仮想化器から出力されるバイノーラル・オーディオ信号の右チャネルRを生成するよう構成される。適切なレベル調整および時間整列がサブシステム100および221において実装されていると想定して、要素210は、サブシステム100および221から出力される対応する左チャネル・サンプルを単純に合計してバイノーラル出力信号の左チャネルを生成し、サブシステム100および221から出力される対応する右チャネル・サンプルを単純に合計してバイノーラル出力信号の右チャネルを生成するよう実装されることができる。
図10のシステムでは、(チャネルXiをもつ)マルチチャネル・オーディオ入力信号は、二つの並列な処理経路に向けられ、そこで処理を受ける。一方は直接応答および早期反射処理サブシステム100を通り、他方は後期残響処理サブシステム221を通る。図10のシステムは、各チャネルXiにBRIRiを適用するよう構成されている。各BRIRiは、直接応答および早期反射部分(サブシステム100によって適用される)と後期残響部分(サブシステム221によって適用される)という二つの部分に分解できる。動作では、直接応答および早期反射処理サブシステム100はこうして仮想化器から出力されるバイノーラル・オーディオ信号の直接応答および早期反射部分を生成し、後期残響処理サブシステム(「後期残響生成器」)221はこうして仮想化器から出力されるバイノーラル・オーディオ信号の後期残響部分を生成する。サブシステム100および221の出力は(サブシステム210によって)混合され、バイノーラル・オーディオ信号を生成し、該バイノーラル・オーディオ信号は典型的にはサブシステム210からレンダリング・システム(図示せず)に呈され、レンダリング・システムにおいてヘッドフォンによる再生のためのバイノーラル・レンダリングを受ける。
(後期残響処理サブシステム221の)ダウンミックス・サブシステム201は、マルチチャネル入力信号のチャネルをモノ・ダウンミックス(これは時間領域信号)にダウンミックスするよう構成されており、FDN 220は後期残響部分をモノ・ダウンミックスに適用するよう構成されている。
図9を参照して、次に、図10の仮想化器のFDN 220として用いることのできる時間領域FDNの例を記述する。図9のFDNは、マルチチャネル・オーディオ入力信号のすべてのチャネルのモノ・ダウンミックス(たとえば図10のシステムのサブシステム201によって生成される)を受領するよう結合された入力フィルタ400を含む。図9のFDNは、フィルタ400の出力に結合された(図4のAPF 301に対応する)全域通過フィルタ(APF)401と、フィルタ401の出力に結合された入力利得要素401Aと、要素401Aの出力に結合された加算要素402、403、404および405(これらは図4の加算要素302、303、304および305に対応する)と、四つの残響タンクとを含む。各残響タンクは、要素402、403、404および405の異なるものの出力に結合され、残響フィルタ406および406A、407および407A、408および408Aならびに409および409Aのうちの一つと、それに結合された遅延線410、411、412および413のうちの一つ(図4の遅延線307に対応)と、これらの遅延線の一つの出力に結合された利得要素417、418、419および420のうちの一つとを有する。
ユニタリー・マトリクス415(図4のユニタリー・マトリクス308に対応し、典型的にはマトリクス308と同一であるよう実装される)が遅延線410、411、412および413の出力に結合される。マトリクス415は、要素402、403、404および405のそれぞれの第二の入力に対してフィードバック出力を呈するよう構成されている。
線410によって加えられる遅延(n1)が線411によって加えられる遅延(n2)より短く、線411によって加えられる遅延が線412によって加えられる遅延(n3)より短く、線412によって加えられる遅延が線413によって加えられる遅延(n4)より短いとき、(第一および第三の残響タンクの)利得要素417および419の出力が、加算要素422の入力に呈され、(第二および第四の残響タンクの)利得要素418および420の出力が、加算要素423の入力に呈される。要素422の出力はIACCおよび混合フィルタ424の一方の入力に呈され、要素423の出力はIACCフィルタリングおよび混合段424の他方の入力に呈される。
図9の利得要素417~420および要素422、423および424の実装の例を、図4の要素310および311ならびに出力混合マトリクス312の典型的な実装を参照しつつ述べる。図4の出力混合マトリクス312(行列Moutとしても特定される)は、初期パニングからの未混合バイノーラル・チャネル(それぞれ要素310および311の出力)を混合して、所望される両耳間コヒーレンスをもつ左および右のバイノーラル出力チャネル(マトリクス312の出力において呈される左耳「L」および右耳「R」信号)を生成するよう構成された2×2のマトリクスである。この初期パニングは要素310および311によって実装される。そのそれぞれは二つの残響タンク出力を組み合わせて未混合バイノーラル・チャネルの一つを生成し、最も短い遅延をもつ残響タンク出力は要素310の入力に呈され、二番目に短い遅延をもつ残響タンク出力は要素311の入力に呈される。図9の実施形態の要素422および423は、(それらの入力に対して呈された時間領域信号に対して、)図4の実施形態の(各周波数帯域における)要素310および311がそれらの入力に呈された(関連する周波数帯域における)フィルタバンク領域成分のストリームに対して実行するのと同じ型の初期パニングを実行する。
共通の残響タンク出力を全く含まないので、ほとんど無相関である前記未混合バイノーラル・チャネル(図4の要素310および311からまたは図9の要素422および423から出力されるもの)は、左右のバイノーラル出力チャネルについての所望される両耳間コヒーレンスを達成するパニング・パターンを実装するよう(図4のマトリクス312または図9の段424によって)混合されてもよい。しかしながら、残響タンク遅延が各FDN(すなわち、図9のFDNまたは図4におけるそれぞれの異なる周波数帯域について実装されるFDN)において異なるので、一方の未混合バイノーラル・チャネル(要素310および311または422および423の一方の出力)が常時他方の未混合バイノーラル・チャネル(要素310および311または422および423の他方の出力)より進んでいる。
このように、図4の実施形態では、残響タンク遅延およびパニング・パターンの組み合わせがすべての周波数帯域を横断して同一であれば、音像バイアスが帰結するであろう。このバイアスは、混合済みバイノーラル出力チャネルが交互の周波数帯域において互いに進んだり遅れたりするよう、パニング・パターンが周波数帯域を横断して交互にされるならば、緩和できる。たとえば、所望される両耳間コヒーレンスがCohであり、|Coh|≦1とすると、奇数番目の周波数帯域における出力混合マトリクス312はそれに呈される二つの入力を次の形
Figure 0007183467000011

をもつ行列によって乗算するよう実装されてもよく、偶数番目の周波数帯域における出力混合マトリクス312はそれに呈される二つの入力を次の形
Figure 0007183467000012

をもつ行列によって乗算するよう実装されてもよい。ここで、β=arcsin(Coh)/2である。
あるいはまた、バイノーラル出力チャネルにおける上記の音像バイアスは、交互の周波数帯域についてその入力のチャネル順が切り換えられるならば(たとえば、奇数周波数帯域では要素310の出力がマトリクス312の第一の入力に呈されてもよく、要素311の出力がマトリクス312の第二の入力に呈されてもよく、偶数周波数帯域では要素311の出力がマトリクス312の第一の入力に呈されてもよく、要素310の出力がマトリクス312の第二の入力に呈されてもよい)、すべての周波数帯域についてのFDNにおいて同一であるようマトリクス312を実装することによって緩和できる。
図9の実施形態(および本発明のシステムのFDNの他の時間領域実施形態)では、要素422から出力される未混合バイノーラル・チャネル出力が常に要素423から出力される未混合バイノーラル・チャネル出力より進んでいる(遅れている)ときに普通なら帰結するであろう音像バイアスに対処するために周波数に基づいてパニングを交互させることはトリビアルではない。この音像バイアスは、本発明のシステムのFDNの典型的な時間領域実施形態では、本発明のシステムのFDNのフィルタバンク領域実施形態において典型的に対処されるのとは異なる仕方で対処される。特に、図9の実施形態(および本発明のシステムのFDNの他の時間領域実施形態)において、未混合バイノーラル・チャネル(たとえば図9の要素422および423からの出力)の相対利得は、利得要素(たとえば図9の要素417、418、419および420)によって、上記の均衡しないタイミングのために普通なら帰結するであろう音像バイアスを補償するよう決定される。ある利得要素(たとえば要素417)を最も早期に到達する信号(これはたとえば要素422によって一方の側にパンされている)を減衰させるよう実装し、ある利得要素(たとえば要素418)をその次に早期の信号(これはたとえば要素423によって他方の側にパンされている)をブーストするよう実装することにより、ステレオ像がセンタリングし直される。こうして、利得要素417を含む残響タンクは要素417の出力に第一の利得を適用し、利得要素418を含む残響タンクは要素418の出力に(第一の利得とは異なる)第二の利得を適用する。それにより、第一の利得および第二の利得は(要素422から出力される)第一の未混合バイノーラル・チャネルを、(要素423から出力される)第二の未混合バイノーラル・チャネルに対して減衰させる。
より具体的には、図9のFDNの典型的な実装では、四つの遅延線410、411、412および413は順次大きくなる長さをもち、それぞれ順次大きくなる遅延値n1、n2、n3およびn4をもつ。この実装では、フィルタ417はg1の利得を適用する。こうして、フィルタ417の出力は、g1の利得が適用された、遅延線410への入力の遅延されたバージョンである。同様に、フィルタ418はg2の利得を適用し、フィルタ419はg3の利得を適用し、フィルタ420はg4の利得を適用する。こうして、フィルタ418の出力は、g2の利得が適用された、遅延線411への入力の遅延されたバージョンであり、フィルタ419の出力は、g3の利得が適用された、遅延線412への入力の遅延されたバージョンであり、フィルタ420の出力は、g4の利得が適用された、遅延線413への入力の遅延されたバージョンである。
この実装では、次の利得値の選択:g1=0.5、g2=0.5、g3=0.5、g4=0.5は、(要素424から出力されるバイノーラル・チャネルによって示される)出力音像の一方の側への(すなわち、左または右チャネルへの)望ましくないバイアスにつながることがありうる。本発明のある実施形態によれば、(それぞれ要素417、418、419および420によって適用される)値g1、g2、g3、g4は、音像をセンタリングするために次のように選ばれる:g1=0.38、g2=0.6、g3=0.5、g4=0.5。こうして、出力ステレオ像は、本発明のある実施形態によれば、最も早期に到達する信号(これは今の例では要素422によって一方の側にパンされている)を二番目に遅く到達する信号に対して減衰させ(すなわち、g1<g3のように選ぶ)、二番目に早期の信号(これは今の例では要素423によって他方の側にパンされている)を最も遅く到達する信号に対してブーストする(すなわち、g4<g2のように選ぶ)ことにより、センタリングし直される。
図9の時間領域FDNの典型的な実装は、図4のフィルタバンク領域(CQMF領域)FDNに対して、以下の相違点および類似点をもつ。
同じユニタリー・フィードバック・マトリクスA(図4のマトリクス308および図9のマトリクス415)。
類似の残響タンク遅延ni(すなわち、図4のCQMF実装における遅延は、1/Tsがサンプリング・レートであるとして(1/Tsは典型的には48KHzに等しい)、n1=17*64Ts=1088*Ts、n2=21*64Ts=1344*Ts、n3=26*64Ts=1664*Ts、n4=29*64Ts=1856*Tsであってもよく、一方、時間領域実装における遅延はn1=1089*Ts、n2=1345*Ts、n3=1663*Ts、n4 = 185*Tsであってもよい。典型的なCQMF実装では、各遅延が64サンプルのブロックの継続時間の何らかの整数倍であるという実際上の制約条件があるが、時間領域では、各遅延の選択に関してより柔軟性があり、よって各残響タンクの遅延の選択に対してより柔軟性があることを注意しておく)。
類似の全域通過フィルタ実装(すなわち、図4のフィルタ301および図9のフィルタ401の同様の実装)。たとえば、全域通過フィルタは、いくつかの(たとえば三つの)全域通過フィルタの縦続〔カスケード〕によって実装されることができる。たとえば、それぞれの縦続された全域通過フィルタは、g=0.6であるとして、
Figure 0007183467000013

の形であってもよい。図4の全域通過フィルタ301は、サンプル・ブロックの好適な遅延(たとえば、n1=64*Ts、n2=128*Tsおよびn3=196*Ts)をもつ三つの縦続された全域通過フィルタによって実装されてもよく、一方、図9の全域通過フィルタ401(時間領域の全域通過フィルタ)は、同様な遅延(たとえば、n1=61*Ts、n2=127*Tsおよびn3=191*Ts)をもつ三つの縦続された全域通過フィルタによって実装されてもよい。
図9の時間領域FDNのいくつかの実装では、入力フィルタ400は、図9のシステムによって適用されるBRIRの直接対後期比(DLR)を目標DLRに(少なくとも実質的に)マッチさせるとともに、図9のシステムを含む仮想化器(たとえば図10の仮想化器)によって適用されるBRIRのDLRがフィルタ400を置換する(またはフィルタ400の構成設定を制御する)ことによって変更できるよう、実装される。たとえば、いくつかの実施形態では、フィルタ400は、目標DLRを実装し、任意的には所望されるDLR制御を実装するフィルタの縦続(たとえば、図9Aに示されるように結合された、第一のフィルタ400Aおよび第二のフィルタ400B)として実装される。たとえば、該縦続のフィルタはIIRフィルタである(たとえば、フィルタ400Aは、目標低周波数特性にマッチするよう構成された一次バターワース高域通過フィルタ(IIRフィルタ)であり、フィルタ400Bは、目標高周波数特性にマッチするよう構成された二次の低シェルフIIRフィルタ)。もう一つの例として、この縦続のフィルタは、IIRおよびFIRフィルタである(たとえば、フィルタ400Aは、目標低周波数特性にマッチするよう構成された二次バターワース高域通過フィルタ(IIRフィルタ)であり、フィルタ400Bは、目標高周波数特性にマッチするよう構成された14次のFIRフィルタ)。典型的には、直接信号は固定されており、フィルタ400は後期信号を目標DLRを達成するよう修正する。全域通過フィルタ(APF)401は好ましくは、図4のAPF 301と同じ機能を実行するよう、つまり位相多様性および増大したエコー密度を導入してより自然に聞こえるFDN出力を生成するよう実装される。入力フィルタ400は振幅応答を制御する一方、APF 401は典型的には位相応答を制御する。
図9では、フィルタ406および利得要素406Aは一緒になって残響フィルタを実装し、フィルタ407および利得要素407Aは一緒になって別の残響フィルタを実装し、フィルタ408および利得要素408Aは一緒になって別の残響フィルタを実装し、フィルタ409および利得要素409Aは一緒になって別の残響フィルタを実装する。図9のフィルタ406、407、408および409のそれぞれは、好ましくは、1に近い最大利得値(単位利得)をもつフィルタとして実装され、利得要素406A、407A、408Aおよび409Aのそれぞれは、(関連する残響タンク遅延ni後に)所望される減衰にマッチする、フィルタ406、407、408および409の対応するものの出力への減衰利得を適用するよう構成される。具体的には、利得要素406Aは、要素406Aの出力に、(残響タンク遅延ni後の)遅延線410の出力が第一の目標の減衰した利得をもつような利得をもたせるよう、フィルタ406の出力に減衰利得(decaygain1)を適用するよう構成され、利得要素407Aは、要素407Aの出力に、(残響タンク遅延n2後の)遅延線411の出力が第二の目標の減衰した利得をもつような利得をもたせるよう、フィルタ407の出力に減衰利得(decaygain2)を適用するよう構成され、利得要素408Aは、要素408Aの出力に、(残響タンク遅延n3後の)遅延線412の出力が第三の目標の減衰した利得をもつような利得をもたせるよう、フィルタ408の出力に減衰利得(decaygain3)を適用するよう構成され、利得要素409Aは、要素409Aの出力に、(残響タンク遅延n4後の)遅延線413の出力が第四の目標の減衰した利得をもつような利得をもたせるよう、フィルタ409の出力に減衰利得(decaygain4)を適用するよう構成される。
図9のシステムのフィルタ406、407、408および409のそれぞれおよび要素406A、407A、408Aおよび409Aのそれぞれは、好ましくは、図9のシステムを含む仮想化器(たとえば図10の仮想化器)によって適用されるBRIRの目標T60特性を達成するよう実装される(フィルタ406、407、408および409のそれぞれは好ましくはIIRフィルタ、たとえばシェルフ・フィルタまたはシェルフ・フィルタの縦続として実装される)。ここで、T60は、残響減衰時間(T60)を表わす。たとえば、いくつかの実施形態では、フィルタ406、407、408および409のそれぞれは、シェルフ・フィルタ(たとえば、図13に示されるT60特性を達成するようQ=0.3およびシェルフ周波数500Hzをもつシェルフ・フィルタ;図13でT60は秒の単位をもつ)として、あるいは二つのIIRシェルフ・フィルタ(たとえば、図14に示されるT60特性を達成するようシェルフ周波数100Hzおよび1000Hzをもつもの;図14でT60は秒の単位をもつ)の縦続として、実装される。各シェルフ・フィルタの形状は、低周波数から高周波数への所望される変化曲線にマッチするよう決定される。フィルタ406がシェルフ・フィルタ(または複数のシェルフ・フィルタの縦続)として実装されるとき、フィルタ406および利得要素406Aを有する残響フィルタも、シェルフ・フィルタ(またはシェルフ・フィルタの縦続)である。同様に、フィルタ407、408および409のそれぞれがシェルフ・フィルタ(またはシェルフ・フィルタの縦続)として実装されるとき、フィルタ407(または408または409)および対応する利得要素(407A、408Aまたは409A)を有する各残響フィルタも、シェルフ・フィルタ(またはシェルフ・フィルタの縦続)である。
図9Bは、図9Bに示されるように結合された第一のシェルフ・フィルタ406Bおよび第二のシェルフ・フィルタ406Cの縦続として実装されたフィルタ406の例である。フィルタ407、408、409のそれぞれは、フィルタ406の図9Bの実装と同様に実装されてもよい。
いくつかの実施形態では、要素406A、407A、408A、409Aによって適用される減衰利得(decaygaini)は次のように決定される。
Figure 0007183467000014

ここで、iは残響タンク・インデックスであり(すなわち、要素406Aはdecaygain1を適用し、要素407Aはdecaygain2を適用し、などとなる)、niはi番目の残響タンクの遅延である(たとえば、n1は遅延線410によって適用される遅延)。Fsはサンプリング・レートであり、Tは、あるあらかじめ決められた低い周波数における所望される残響遅延時間(T60)である。
図11は、図9の以下の要素:要素422および423ならびにIACC(両耳間相互相関係数)フィルタリングおよび混合段424、の実施形態である。要素422は、(図9の)フィルタ417および419の出力を合計し、合計された信号を低シェルフ・フィルタ500の入力に呈するよう結合され、構成されており、要素422は、(図9の)フィルタ418および420の出力を合計し、合計された信号を高域通過フィルタ501の入力に呈するよう結合され、構成されている。フィルタ500および501の出力は要素502において加算(混合)され、バイノーラル左耳出力信号を生成し、フィルタ500および501の出力は要素502において混合され(フィルタ500の出力がフィルタ501の出力から要素502において減算される)、バイノーラル右耳出力信号を生成する。要素502および503は、フィルタ500および501のフィルタリングされた出力を混合(加算および減算)して、(受け入れ可能な精度の範囲内で)目標IACC特性を達成するバイノーラル出力信号を生成する。図11の実施形態では、低シェルフ・フィルタ500および高域通過フィルタ501のそれぞれは、典型的には一次IIRフィルタとして実装される。フィルタ500および501がそのような実装をもつ一例では、図11の実施形態は、図12において曲線「I」としてプロットされている例示的なIACC特性を達成しうる。これは、図12において「IT」としてプロットされている目標IACC特性に対する良好なマッチである。
図11のAは、図11のフィルタ500の典型的な実装の周波数応答(R1)、図11のフィルタ501の典型的な実装の周波数応答(R2)および並列に接続したフィルタ500および501の応答のグラフである。図11のAから、組み合わされた応答が100Hz~10,000Hzの範囲を横断して望ましいように平坦であることが明白である。
このように、あるクラスの実施形態では、本発明は、マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号(たとえば、図10の要素210の出力)を生成するシステム(たとえば図10のシステム)および方法である。これは、前記集合の各チャネルにバイノーラル室内インパルス応答(BRIR)を適用し、それによりフィルタリングされた信号を生成する段階であって、前記集合のチャネルのダウンミックスに共通の後期残響を加えるよう単一のフィードバック遅延ネットワーク(FDN)を使うことによることを含む、段階と;フィルタリングされた信号を組み合わせて前記バイノーラル信号を生成する段階とを実行することによることを含む。FDNは時間領域で実装される。そのようないくつかの実施形態では、時間領域FDN(たとえば、図9のように構成された、図10のFDN 220)は:
前記ダウンミックスを受領するよう結合された入力をもつ入力フィルタ(たとえば図9のフィルタ400)であって、該入力フィルタは前記ダウンミックスに応答して第一のフィルタリングされたダウンミックスを生成するよう構成されている、入力フィルタと;
前記第一のフィルタリングされたダウンミックスに応答して第二のフィルタリングされたダウンミックスをするよう結合され、構成された全域通過フィルタ(たとえば図9の全域通過フィルタ401)と;
第一の出力(たとえば要素422の出力)および第二の出力(たとえば要素423の出力)をもつ残響適用サブシステム(たとえば図9の、要素400、401および424以外のすべての要素)であって、前記残響適用サブシステムは残響タンクの集合を含み、各残響タンクは異なる遅延をもち、該残響適用サブシステムは、前記第二のフィルタリングされたダウンミックスに応答して第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルを生成し、前記第一の未混合バイノーラル・チャネルを前記第一の出力において呈し、前記第二の未混合バイノーラル・チャネルを前記第二の出力において呈するよう結合され、構成されている、残響適用サブシステムと;
前記残響適用サブシステムに結合され、前記第一の未混合バイノーラル・チャネルおよび第二の未混合バイノーラル・チャネルに応答して第一の混合済みバイノーラル・チャネルおよび第二の混合済みバイノーラル・チャネルを生成するよう構成されている、両耳間相互相関係数(IACC: interaural cross-correlation coefficient)フィルタリングおよび混合段(たとえば、図11の要素500、501、502、503として実装されてもよい図9の段424)とを含む。
入力フィルタは、各BRIRが少なくとも実質的に目標DLRにマッチする直接対後期比(DLR)をもつよう前記第一のフィルタリングされたダウンミックスを生成するよう(好ましくは、それを生成するよう構成された二つのフィルタのカスケード〔縦続〕として)実装されてもよい。
各残響タンクは、遅延された信号を生成するよう構成されていてもよく、前記各残響タンクにおいて伝搬する信号に利得を加えて、遅延された信号が少なくとも実質的に前記遅延された信号についての目標の遅延された利得にマッチする利得をもつようにするよう結合され、構成された残響フィルタ(たとえば、シェルフ・フィルタまたはシェルフ・フィルタのカスケードとして実装される)を含んでいてもよい。各BRIRの目標残響減衰時間特性(たとえばT60特性)を達成するためである。
いくつかの実施形態では、前記第一の未混合バイノーラル・チャネルは前記第二の未混合バイノーラル・チャネルより進んでおり、前記残響タンクは、最も短い遅延をもつ第一の遅延された信号を生成するよう構成された第一の残響タンク(たとえば、遅延線410を含む図9の残響タンク)と、二番目に短い遅延をもつ第二の遅延された信号を生成するよう構成された第二の残響タンク(たとえば、遅延線411を含む図9の残響タンク)とを含む。前記第一の残響タンクは前記第一の遅延された信号に第一の利得を適用するよう構成され、前記第二の残響タンクは前記第二の遅延された信号に第二の利得を適用するよう構成され、前記第二の利得は前記第一の利得とは異なり、前記第二の利得は前記第一の利得とは異なり、前記第一の利得および前記第二の利得の適用により、前記第二の未混合バイノーラル・チャネルに対する前記第一の未混合バイノーラル・チャネルの減衰が帰結する。典型的には、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルは、再センタリングされた(re-centered)ステレオ像を示す。いくつかの実施形態では、前記IACCフィルタリングおよび混合段は、前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルが少なくとも実質的に目標IACC特性に一致するIACC特性をもつよう前記第一の混合済みバイノーラル・チャネルおよび前記第二の混合済みバイノーラル・チャネルを生成するよう構成されている。
本発明の諸側面は、オーディオ信号(たとえば、オーディオ・コンテンツがスピーカー・チャネルからなるオーディオ信号および/またはオブジェクト・ベースのオーディオ信号)のバイノーラル仮想化を実行する(または実行するよう構成されているまたはその実行をサポートする)方法およびシステム(たとえば、図2のシステム20または図3または図10のシステム)を含む。
いくつかの実施形態では、本発明の仮想化器は、マルチチャネル・オーディオ入力信号を示す入力データを受領するまたは生成するよう結合され、該入力データに対して、本発明の方法の実施形態を含む多様な処理の任意のものを実行するようソフトウェア(またはファームウェア)をもってプログラムされたまたは(たとえば制御データに応答して)他の仕方で構成された汎用プロセッサであるまたはそれを含む。そのような汎用プロセッサは典型的には入力装置(たとえばマウスおよび/またはキーボード)、メモリおよび表示装置に結合される。たとえば、図3のシステム(または図2のシステム20またはシステム20の要素12、…、14、15を有する仮想化器システム)は、汎用プロセッサにおいて実装されることができ、入力は前記オーディオ入力信号のN個のチャネルを示すオーディオ・データであり、出力はバイノーラル・オーディオ信号の二つのチャネルを示すオーディオ・データである。通常のデジタル‐アナログ変換器(DAC: digital-to-analog converter)が前記出力データに対して作用して、スピーカー(たとえばヘッドフォン対)による再生のための、バイノーラル信号チャネルのアナログ・バージョンを生成することができる。
本発明の個別的な実施形態および本発明の応用が本稿に記載されているが、本願において記載され特許請求される発明の範囲から外れることなく、本稿に記載されるこれらの実施形態および応用に対する多くの変形が可能であることは、当業者には明白であろう。本発明のある種の形が示され、記述されているが、本発明は記載され、示されている特定の実施形態や記載される特定の方法に限定されないことは理解されるべきである。

Claims (17)

  1. マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成する方法であって、当該方法は:
    前記集合の各チャネルにバイノーラル室内インパルス応答(BRIR)を適用し、それによりフィルタリングされた信号を生成する段階と;
    フィルタリングされた信号を組み合わせて前記バイノーラル信号を生成する段階とを含み、
    前記集合の各チャネルにBRIRを適用することは、後期残響生成器を使って、該後期残響生成器に呈された制御値に応答して、共通の後期残響を前記集合のチャネルのダウンミックスに適用することを含み、前記共通の後期残響は前記集合の少なくともいくつかのチャネルにわたって共有される単一チャネルBRIRの後期残響部分の集団的なマクロ属性をエミュレートし、
    コンテンツに依存するエネルギー等化因子が前記ダウンミックスに適用される、
    方法。
  2. 前記集合の各チャネルにBRIRを適用することは、前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの直接応答および早期反射部分を適用することを含む、請求項1記載の方法。
  3. 前記後期残響生成器は、前記ダウンミックスに前記共通の後期残響を加えるためのフィードバック遅延ネットワークのバンクを含み、該バンクの各フィードバック遅延ネットワークは前記ダウンミックスの異なる周波数帯域に後期残響を加える、請求項1記載の方法。
  4. 前記フィードバック遅延ネットワークのそれぞれはフィルタバンク領域で実装される、請求項3記載の方法。
  5. 前記後期残響生成器は、前記集合の前記チャネルの前記ダウンミックスに前記共通の後期残響を加えるための単一のフィードバック遅延ネットワークを含み、前記フィードバック遅延ネットワークは時間領域で実装される、請求項1記載の方法。
  6. 前記集団的なマクロ属性が、平均パワー・スペクトル、エネルギー減衰構造、モード密度、およびピーク密度のうちの一つまたは複数を含む、請求項1ないし4のうちいずれか一項に記載の方法。
  7. 前記制御値の一つまたは複数は周波数依存である、および/または前記制御値の一つは残響時間である、請求項1ないし4のうちいずれか一項に記載の方法。
  8. マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成するシステムであって、当該システムは:
    前記集合の各チャネルにバイノーラル室内インパルス応答(BRIR)を適用し、それによりフィルタリングされた信号を生成し;
    フィルタリングされた信号を組み合わせて前記バイノーラル信号を生成する、
    一つまたは複数のプロセッサを有しており、
    前記集合の各チャネルにBRIRを適用することは、後期残響生成器を使って、該後期残響生成器に呈された制御値に応答して、共通の後期残響を前記集合のチャネルのダウンミックスに適用することを含み、前記共通の後期残響は前記集合の少なくともいくつかのチャネルにわたって共有される単一チャネルBRIRの後期残響部分の集団的なマクロ属性をエミュレートし、
    コンテンツに依存するエネルギー等化因子が前記ダウンミックスに適用される、
    システム。
  9. 前記集合の各チャネルにBRIRを適用することは、前記集合の各チャネルに、該チャネルについての単一チャネルBRIRの直接応答および早期反射部分を適用することを含む、請求項8記載のシステム。
  10. 前記後期残響生成器は、前記ダウンミックスに前記共通の後期残響を加えるよう構成されたフィードバック遅延ネットワークのバンクを含み、該バンクの各フィードバック遅延ネットワークは前記ダウンミックスの異なる周波数帯域に後期残響を加える、請求項8記載のシステム。
  11. 前記フィードバック遅延ネットワークのそれぞれはフィルタバンク領域で実装される、請求項10記載のシステム。
  12. 前記後期残響生成器は、時間領域で実装されたフィードバック遅延ネットワークを含み、前記後期残響生成器は、前記共通の後期残響を前記ダウンミックスに加えるために、前記フィードバック遅延ネットワークにおいて時間領域で前記ダウンミックスを処理するよう構成されている、請求項8記載のシステム。
  13. 前記集団的なマクロ属性が、平均パワー・スペクトル、エネルギー減衰構造、モード密度、およびピーク密度のうちの一つまたは複数を含む、請求項8ないし11のうちいずれか一項に記載のシステム。
  14. 前記制御値の一つまたは複数は周波数依存である、および/または前記制御値の一つは残響時間である、請求項8ないし11のうちいずれか一項に記載のシステム。
  15. マルチチャネル・オーディオ入力信号のチャネルのある集合に応答してバイノーラル信号を生成する装置であって:
    一つまたは複数のプロセッサと;
    前記一つまたは複数のプロセッサによって実行されたときに請求項1ないし7のうちいずれか一項に記載の方法の実行を引き起こす命令を記憶している一つまたは複数の記憶媒体とを有する、
    装置。
  16. 一つまたは複数のプロセッサによって実行されたときに請求項1ないし7のうちいずれか一項に記載の方法の実行を引き起こす命令を有するコンピュータ読み取り可能な記憶媒体。
  17. 請求項1ないし7のうちいずれか一項に記載の方法を実行するための手段を有する装置。
JP2022141956A 2014-01-03 2022-09-07 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成 Active JP7183467B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022186535A JP2023018067A (ja) 2014-01-03 2022-11-22 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201461923579P 2014-01-03 2014-01-03
US61/923,579 2014-01-03
CN201410178258.0 2014-04-29
CN201410178258.0A CN104768121A (zh) 2014-01-03 2014-04-29 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US201461988617P 2014-05-05 2014-05-05
US61/988,617 2014-05-05
JP2020218137A JP7139409B2 (ja) 2014-01-03 2020-12-28 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020218137A Division JP7139409B2 (ja) 2014-01-03 2020-12-28 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022186535A Division JP2023018067A (ja) 2014-01-03 2022-11-22 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Publications (2)

Publication Number Publication Date
JP2022172314A JP2022172314A (ja) 2022-11-15
JP7183467B2 true JP7183467B2 (ja) 2022-12-05

Family

ID=53649659

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016543161A Active JP6215478B2 (ja) 2014-01-03 2014-12-18 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP2022141956A Active JP7183467B2 (ja) 2014-01-03 2022-09-07 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP2022186535A Pending JP2023018067A (ja) 2014-01-03 2022-11-22 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016543161A Active JP6215478B2 (ja) 2014-01-03 2014-12-18 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022186535A Pending JP2023018067A (ja) 2014-01-03 2022-11-22 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成

Country Status (11)

Country Link
US (3) US11212638B2 (ja)
EP (3) EP3402222B1 (ja)
JP (3) JP6215478B2 (ja)
KR (5) KR20220141925A (ja)
CN (3) CN104768121A (ja)
AU (5) AU2014374182B2 (ja)
BR (3) BR122020013590B1 (ja)
CA (5) CA3170723C (ja)
ES (1) ES2961396T3 (ja)
MX (3) MX352134B (ja)
RU (1) RU2637990C1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6658026B2 (ja) * 2016-02-04 2020-03-04 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及び音像定位処理方法
ES2713685T3 (es) * 2016-04-26 2019-05-23 Nokia Technologies Oy Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada
CN105792090B (zh) * 2016-04-27 2018-06-26 华为技术有限公司 一种增加混响的方法与装置
CN107231599A (zh) * 2017-06-08 2017-10-03 北京奇艺世纪科技有限公司 一种3d声场构建方法和vr装置
CN108011853B (zh) * 2017-11-27 2020-06-12 电子科技大学 混合滤波器组dac延迟和相位偏移的估计和补偿方法
CN110719564B (zh) * 2018-07-13 2021-06-08 海信视像科技股份有限公司 音效处理方法和装置
US11128976B2 (en) * 2018-10-02 2021-09-21 Qualcomm Incorporated Representing occlusion when rendering for computer-mediated reality systems
JP7179079B2 (ja) * 2018-10-09 2022-11-28 ローランド株式会社 効果音発生方法、及び情報処理装置
CA3122168C (en) 2018-12-07 2023-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using direct component compensation
US10755721B1 (en) * 2019-04-30 2020-08-25 Synaptics Incorporated Multichannel, multirate, lattice wave filter systems and methods
JP2021131434A (ja) * 2020-02-19 2021-09-09 ヤマハ株式会社 音信号処理方法および音信号処理装置
EP3930349A1 (en) 2020-06-22 2021-12-29 Koninklijke Philips N.V. Apparatus and method for generating a diffuse reverberation signal
EP4007310A1 (en) * 2020-11-30 2022-06-01 ASK Industries GmbH Method of processing an input audio signal for generating a stereo output audio signal having specific reverberation characteristics
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
WO2023275218A2 (en) * 2021-06-30 2023-01-05 Telefonaktiebolaget Lm Ericsson (Publ) Adjustment of reverberation level
GB2618983A (en) * 2022-02-24 2023-11-29 Nokia Technologies Oy Reverberation level compensation
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336080A (ja) 2006-06-13 2007-12-27 Clarion Co Ltd 音響補正装置
JP2011529650A (ja) 2008-07-31 2011-12-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ バイノーラル信号のための信号生成
JP2013508760A (ja) 2009-10-21 2013-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 反響装置およびオーディオ信号を反響させる方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JP4627880B2 (ja) * 1997-09-16 2011-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション リスナーの周囲にある音源の空間的ひろがり感を増強するためのステレオヘッドホンデバイス内でのフィルタ効果の利用
WO1999049574A1 (en) 1998-03-25 1999-09-30 Lake Technology Limited Audio signal processing method and apparatus
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US8054980B2 (en) 2003-09-05 2011-11-08 Stmicroelectronics Asia Pacific Pte, Ltd. Apparatus and method for rendering audio information to virtualize speakers in an audio system
US20050063551A1 (en) * 2003-09-18 2005-03-24 Yiou-Wen Cheng Multi-channel surround sound expansion method
CA2572805C (en) * 2004-07-02 2013-08-13 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
GB0419346D0 (en) 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
WO2006033058A1 (en) 2004-09-23 2006-03-30 Koninklijke Philips Electronics N.V. A system and a method of processing audio data, a program element and a computer-readable medium
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US7876903B2 (en) * 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP5285626B2 (ja) * 2007-03-01 2013-09-11 ジェリー・マハバブ 音声空間化及び環境シミュレーション
AU2008309951B8 (en) * 2007-10-09 2011-12-22 Dolby International Ab Method and apparatus for generating a binaural audio signal
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
WO2009111798A2 (en) * 2008-03-07 2009-09-11 Sennheiser Electronic Gmbh & Co. Kg Methods and devices for reproducing surround audio signals
CN101661746B (zh) 2008-08-29 2013-08-21 三星电子株式会社 数字音频混响器和数字音频混响方法
TWI475896B (zh) 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
WO2010043223A1 (en) 2008-10-14 2010-04-22 Widex A/S Method of rendering binaural stereo in a hearing aid system and a hearing aid system
US20100119075A1 (en) 2008-11-10 2010-05-13 Rensselaer Polytechnic Institute Spatially enveloping reverberation in sound fixing, processing, and room-acoustic simulations using coded sequences
KR101342425B1 (ko) * 2008-12-19 2013-12-17 돌비 인터네셔널 에이비 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하기 위한 방법 및 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하도록 구성된 리버브레이터
US20110317522A1 (en) 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
US9154896B2 (en) 2010-12-22 2015-10-06 Genaudio, Inc. Audio spatialization and environment simulation
US9462387B2 (en) * 2011-01-05 2016-10-04 Koninklijke Philips N.V. Audio system and method of operation therefor
WO2013111038A1 (en) 2012-01-24 2013-08-01 Koninklijke Philips N.V. Generation of a binaural signal
US8908875B2 (en) 2012-02-02 2014-12-09 King's College London Electronic device with digital reverberator and method
KR101174111B1 (ko) 2012-02-16 2012-09-03 래드손(주) 오디오 신호의 디지털 노이즈를 저감시키는 장치 및 방법
JP6433918B2 (ja) * 2013-01-17 2018-12-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. バイノーラルのオーディオ処理
US9060052B2 (en) * 2013-03-13 2015-06-16 Accusonus S.A. Single channel, binaural and multi-channel dereverberation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336080A (ja) 2006-06-13 2007-12-27 Clarion Co Ltd 音響補正装置
JP2011529650A (ja) 2008-07-31 2011-12-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ バイノーラル信号のための信号生成
JP2013508760A (ja) 2009-10-21 2013-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 反響装置およびオーディオ信号を反響させる方法

Also Published As

Publication number Publication date
AU2014374182A1 (en) 2016-06-30
KR101870058B1 (ko) 2018-06-22
EP4270386A3 (en) 2024-01-10
US20230199427A1 (en) 2023-06-22
KR20220043242A (ko) 2022-04-05
CA3148563A1 (en) 2015-07-09
US11582574B2 (en) 2023-02-14
EP3806499A1 (en) 2021-04-14
ES2961396T3 (es) 2024-03-11
KR102454964B1 (ko) 2022-10-17
CA3226617A1 (en) 2015-07-09
CA2935339C (en) 2019-07-09
KR102380092B1 (ko) 2022-03-30
JP6215478B2 (ja) 2017-10-18
BR112016014949A2 (ja) 2017-08-08
AU2020203222A1 (en) 2020-06-04
MX2019006022A (es) 2022-08-19
JP2017507525A (ja) 2017-03-16
US20220182779A1 (en) 2022-06-09
KR20220141925A (ko) 2022-10-20
BR112016014949B1 (pt) 2022-03-22
CN111065041B (zh) 2022-02-18
BR122020013603B1 (pt) 2022-09-06
AU2018203746B2 (en) 2020-02-20
AU2022202513A1 (en) 2022-05-12
AU2022202513B2 (en) 2023-03-02
CA3043057A1 (en) 2015-07-09
EP3806499B1 (en) 2023-09-06
CA3148563C (en) 2022-10-18
RU2637990C1 (ru) 2017-12-08
CN114401481A (zh) 2022-04-26
MX2016008696A (es) 2016-11-25
KR20160095042A (ko) 2016-08-10
CN111065041A (zh) 2020-04-24
MX352134B (es) 2017-11-10
KR20180071395A (ko) 2018-06-27
AU2023203442A1 (en) 2023-06-29
CA3170723A1 (en) 2015-07-09
CA3170723C (en) 2024-03-12
EP4270386A2 (en) 2023-11-01
AU2014374182B2 (en) 2018-03-15
AU2020203222B2 (en) 2022-01-20
CA2935339A1 (en) 2015-07-09
MX2022010155A (es) 2022-09-12
US20210051435A1 (en) 2021-02-18
CN104768121A (zh) 2015-07-08
KR102124939B1 (ko) 2020-06-22
EP3402222B1 (en) 2020-11-18
EP3402222A1 (en) 2018-11-14
BR122020013590B1 (pt) 2022-09-06
JP2022172314A (ja) 2022-11-15
US11212638B2 (en) 2021-12-28
AU2018203746A1 (en) 2018-06-21
JP2023018067A (ja) 2023-02-07
CA3043057C (en) 2022-04-12
KR20210037748A (ko) 2021-04-06

Similar Documents

Publication Publication Date Title
JP7139409B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP7183467B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
EP3090573B1 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220907

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221122

R150 Certificate of patent or registration of utility model

Ref document number: 7183467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150