JP5391203B2 - バイノーラル音声信号を生成するための方法と装置 - Google Patents

バイノーラル音声信号を生成するための方法と装置 Download PDF

Info

Publication number
JP5391203B2
JP5391203B2 JP2010528293A JP2010528293A JP5391203B2 JP 5391203 B2 JP5391203 B2 JP 5391203B2 JP 2010528293 A JP2010528293 A JP 2010528293A JP 2010528293 A JP2010528293 A JP 2010528293A JP 5391203 B2 JP5391203 B2 JP 5391203B2
Authority
JP
Japan
Prior art keywords
signal
binaural
audio
channel
stereo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010528293A
Other languages
English (en)
Other versions
JP2010541510A (ja
Inventor
ラルス ファルク ヴィレモエス
ダーク イェルーン ブレーバールト
Original Assignee
コーニンクレッカ フィリップス エヌ ヴェ
ドルビー インターナショナル アクチボラゲットDolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP07118107 priority Critical
Priority to EP07118107.7 priority
Application filed by コーニンクレッカ フィリップス エヌ ヴェ, ドルビー インターナショナル アクチボラゲットDolby International AB filed Critical コーニンクレッカ フィリップス エヌ ヴェ
Priority to PCT/EP2008/008300 priority patent/WO2009046909A1/en
Publication of JP2010541510A publication Critical patent/JP2010541510A/ja
Application granted granted Critical
Publication of JP5391203B2 publication Critical patent/JP5391203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Description

本発明は、モノラル・ダウンミックス信号からバイノーラル音声信号の生成するために限らず、特に、バイノーラル音声信号を生成するための方法と装置に関する。

過去10年において、マルチチャンネル音声への傾向、特に、従来のステレオ信号を逸脱する空間的音声への傾向がある。例えば、普及している5.1のサラウンド・サウンド・システムのような最新の高度な音声システムは、5または6チャンネルを使用するのに対して、従来のステレオ録音は、2チャンネルのみで構成される。これは、ユーザが音源によって囲まれるような聴取体験をより関与させるために提供する。

様々な技術および標準は、そのようなマルチチャンネル信号のコミュニケーションのために開発されている。例えば、5.1のサラウンドを表現している6つの個別のチャンネルは、先進的音響符号化(Advanced Audio Coding:AAC)またはドルビーデジタル標準のような標準規格に従って送信されうる。

しかしながら、後方互換性を提供するために、より高いチャンネル数をより低いチャンネル数にダウンミックスすることは公知であり、そして、特に、従来(ステレオ)の復号器およびサラウンド・サウンド復号器による5.1信号によって再生されるステレオ信号を可能にする5.1サラウンド・サウンド信号をステレオ信号にダウンミックスするためによく使用される。

1つの実施例は、MPEG2の後方互換性の符号化方法である。マルチチャンネル信号は、ステレオ信号にダウンミックスされる。付加信号は、マルチチャンネル信号の表現を生成するために、MPEG2マルチチャンネル復号器を可能にしているデータ部分に符号化される。MPEG1復号器は、補助的データを無視して、このようにステレオ・ダウンミックスを復号化するだけである。

音声信号の空間特性を記述するために使用されるいくつかのパラメータがある。そのようなパラメータは、ステレオ信号の左チャンネルおよび右チャンネルの間の相互相関のような、チャンネル間の相互相関である。

他のパラメータは、チャンネルのパワー比である。いわゆる(パラメトリック)空間音声符号器(エンコーダ)において、これらまたは他のパラメータは、元の音声信号の空間特性を記述している一組のパラメータに加えて、減少したチャンネル数(例えば、単一チャンネルのみ)を有する音声信号を取り出すために元の音声信号から抽出される。いわゆる(パラメトリック)空間音声復号器において、送信された空間パラメータにより記述される空間特性は元に戻る。

特に携帯分野において、3D音源ポジショニングは、現在、関心を得ている。携帯ゲームにおける音楽再生および音響効果は、頭部を除く3D効果を効果的に生成するように3Dに位置する価値あるものを消費者の体験に加えることができる。特に、それは、人間の耳は感度が高い特定の方向情報を含むバイノーラル音声信号を録音して、再生することは公知である。バイノーラル録音は、ダミーの人間のヘッドに載置される2つのマイクロフォンを使用して一般的に作れられる。その結果、録音された音響は、人間の耳によって捕らえられる音響に対応し、頭部および耳の形状のためのいくつかの影響を含む。バイノーラル録音の再生が、通常、ヘッドセットまたはヘッドホンを目的とするステレオ(すなわち、立体音響)と異なり、ステレオ録音は、一般に、スピーカによる再生のためになされる。バイノーラル録音は、2つのチャンネルのみを使用して全ての空間的な情報の再生を可能にする一方、ステレオ録音は、同じ空間知覚を提供しない。

通常のデュアル・チャンネル(立体音響)またはマルチチャンネル(例えば5.1)録音は、一組の知覚的な伝達関数を有する各通常の信号を畳み込むことによって、バイノーラル録音に変換することができる。知覚伝達関数は、信号における人間の頭部、そして場合により他のオブジェクトの影響をモデル化する。周知のタイプの空間知覚的な伝達関数は、いわゆる頭部伝達関数(HRTF:Head−Related Transfer Function)である。部屋の壁、天井および床によって生じる反射も考慮に入れる空間知覚的な伝達関数の代替の形式は、バイノーラル室内インパルス応答(BRIR:Binaural Room Impulse Response)である。

一般的に、3Dポジショニングアルゴリズムは、HRTF(またはBRIR)を使用する。そして、それは、インパルス応答の手段によって、ある音源位置から鼓膜への伝達を記述する。3D音源ポジショニングは、例えば、一対のヘッドホン空間的な音響情報をユーザに提供するためにバイノーラル信号を可能にするその結果、HRTFの手段によってマルチチャンネル信号に適用されうる。

従来のバイノーラル合成アルゴリズムは、図1で概説される。一組の入力チャンネルは、一組のHRTFsによってフィルタされる。各入力信号は、2つの信号(左の“L”および右の“R”コンポーネント)に分割される;これらの信号の各々は、その後、所望の音源位置に対応するHRTFによってフィルタされる。すべての左耳信号は、左のバイノーラル出力信号を生成するためにその後合計され、そして、右のバイノーラル出力信号を生成するために合計される。

サラウンド・サウンド符号化信号を受信することができ、そしてバイノーラル信号からサラウンド・サウンドの体験を生成することができる復号化システムは公知である。例えば、サラウンド・サウンドの体験をヘッドホンのユーザに提供するために、サラウンド・サウンド・バイノーラル信号に変換するサラウンド音響信号を可能にするヘッドホンは公知である。

図2は、空間的パラメータのデータを有するステレオ信号を受信するMPEGサラウンド復号器のシステムを例示する。入力ビットストリームは、空間パラメータおよびダウンミックスストリームを結果として得るようにデマルチプレクサ(201)によって非多重化される。後のビットストリームは、従来のモノラルまたはステレオ復号器(203)を使用して復号化される。復号化されたダウンミックスは、送信された空間パラメータに基づくマルチチャンネルの出力を生成する空間的復号器(205)によって復号化される。最後に、マルチチャンネル出力は、サラウンド・サウンドの体験をユーザに提供しているバイノーラル出力信号を結果として得るように(図1のそれと同様)バイノーラル合成ステージ(207)によって処理される。

しかしながら、このようなアプローチは、複雑で、相当な計算の資源を必要として、音声品質を更に減らすことができて、聞き取り可能なアーティファクトを導く。

これらの不利な点を克服するために、マルチチャンネル信号が、HRTFフィルタを使用しているマルチチャンネル信号のダウンミックスによって追随される送信されたダウンミックス信号から最初に生成される必要なく、ヘッドホンにおいてマルチチャンネル信号が再生されることができるように、パラメトリック・マルチチャンネル音声復号器は、バイノーラル合成アルゴリズムを結合されうることが提案されている。

このような復号器において、マルチチャンネル信号を再現するためのアップミックス空間パラメータは、バイノーラル信号を生成するためにダウンミックス信号に直接適用されることができる結合されたパラメータを生成するために、HRTFフィルタと結合される。そうするために、HRTFフィルタは、パラメータ化される。

このような復号器の実施例は、図3において例示され、ブレーバールト,J.(Breebaart,J.)著「MPEG Surroundにおける効果的な3D音声レンダリングのためのバイノーラル・パラメータの解析および合成(Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround)」,ICME会報,中国,北京,2007年、およびブレーバールト,J.(Breebaart,J.),ファーラー,C.(Faller,C.)ら著「空間音声処理:MPEG Surroundおよび他の応用(Spatial audio processing:MPEG Surround and other application)」,ワイリー社,ニューヨーク,2007年に記載される。

空間パラメータおよびダウンミックス信号を含んでいる入力ビットストリームは、デマルチプレクサ301によって受信される。ダウンミックス信号は、モノラルおよびステレオ・ダウンミックスに結果として得る従来の復号器303によって復号化される。

加えて、HRTFデータは、HRTFパラメータ抽出装置305によって、パラメータ領域に変換される。結果として得られるHRTFパラメータは、バイノーラル・パラメータとして参照される結合されたパラメータを生成するために、変換ユニット307に組み込まれる。これらのパラメータは、空間パラメータおよびHRTF処理の結合された効果を記載する。

空間復号器は、バイノーラル・パラメータに依存する復号化されたダウンミックス信号を修正することによって、バイノーラル出力信号を合成する。具体的には、ダウンミックス信号は、変換ユニット309によってトランスフォーム、またはフィルタバンク領域に転移される(または、従来の復号器303は、変換信号として、復号化されたダウンミックス信号を直接的に提供してもよい)。変換ユニット309は、QMFフィルタバンドを生成するために、QMFフィルタバンクを特に含むことができる。サブバンド・ダウンミックス信号は、各サブバンドにおける2×2行列演算を実行するマトリックスユニット311に供給される。

送信されたダウンミックスがステレオ信号である場合、マトリックスユニット311に対する2つの入力信号は、2つのステレオ信号である。送信されたダウンミックス信号がモノラル信号である場合、マトリックスユニット311に対する入力信号のうちの1つはモノラル信号であり、そして、他の信号は、(ステレオ信号に対するモノラル信号の従来のアップミックスと同様である)非相関信号である。

マトリックスユニット311は、バイノーラル出力信号サンプルを逆変換ユニット313に供給する。逆変換ユニット313は、時間領域へ信号を変換する。結果として得られる時間領域のバイノーラル信号は、サラウンド・サウンドの体験を提供するために、ヘッドホンに供給されうる。

記載されている方法は、多くの利点を有する:

HRTF処理は、同じ変換領域が、多くの場合、ダウンミックス信号を復号化するために使用されうるように、必要である変換の数を減らすことができる変換領域において実行されうる。

処理の複雑さは、非常に低く(それは、2×2マトリックスによって乗算のみを使用する)、そして、同時音声チャンネルの数において実質的に独立している。

それは、モノラルのおよびステレオ・ダウンミックスのいずれにも適用されうる;

HRTFsは、非常に簡潔な方法で表され、それ故、送信され、そして、非常に効率的に格納される。

しかしながら、アプローチにも、若干の不利な点を有する。具体的には、アプローチは、より長いインパルス応答が、パラメータ化されたサブバンドHRTF値によって表すことのできないような比較的短いインパルス応答(一般に変換間隔に満たない)を有するHRTFにのみ適している。このように、アプローチは、ロングエコーまたは残響を有する音声環境に対して使用可能ではない。具体的には、アプローチは、一般的に、長く、パラメトリックアプローチを伴って正確にモデル化するのが困難でありうる反響のあるHRTFsまたはバイノーラル室内インパルス応答(BRIRs)と連動しない。

従って、バイノーラル音声信号を生成するための改良されたシステムは、有利であり、そして、特に、異なる音声環境に増加した柔軟性、改良されたパフォーマンス、促進された実装、低減された資源活用および/または改良された適用性を可能にしているシステムが、有利である。

ブレーバールト,J.(Breebaart,J.)著「MPEG Surroundにおける効果的な3D音声レンダリングのためのバイノーラル・パラメータの解析および合成(Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround)」,ICME会報,中国,北京,2007年 ブレーバールト,J.(Breebaart,J.),ファーラー,C.(Faller,C.)ら著「空間音声処理:MPEG Surroundおよび他の応用(Spatial audio processing:MPEG Surround and other application)」,ワイリー社,ニューヨーク,2007年

従って、本発明は、好ましくは単独で上述した不利な点一つ以上を、または任意の組合せを緩和するか、軽減するかまたは除去することを試みるものである。

本発明の第1の態様によれば、バイノーラル音声信号を生成する装置が提供される;上記の装置は以下を含む:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するための手段;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するためのパラメータデータ手段;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するためのコンバージョン手段;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するためのステレオ・フィルタ;および、バイノーラル知覚伝達関数に応じてステレオ・フィルタのためのフィルタ係数を決定するための係数手段。

本発明は、生成される改良されたバイノーラル音声信号を可能にする。特に、本発明の実施例は、反響のある音声環境を反映するバイノーラル信号および/または長いインパルス応答を伴うHRTFsまたはBRIRsを生成するための周波数および時間処理の組合せを使用することができる。低い複雑さの実装が達成される。処理は、低い演算およびまたはメモリ資源要求によって実装されうる。

M個のチャンネル音声ダウンミックス信号は、具体的には、5.1または7.1のサラウンド信号のダウンミックスのような、より高い数の空間チャンネルのダウンミックスを含むモノラルまたはステレオ信号である。空間パラメータデータは、具体的には、N個のチャンネル音声信号のためのチャンネル間特性差および/または相互相関差を含む。バイノーラル知覚伝達関数は、HRTFまたはBRIR伝達関数でもよい。

任意の本発明の特徴によれば、装置は、さらに、時間領域からサブバンド領域にM個のチャンネル音声信号を変換するための変換手段を含み、ここで、コンバージョン手段およびステレオ・フィルタは、サブバンド領域の各サブバンドを個別に処理するために配置される。

特徴は、従来の復号化アルゴリズムのような多くの音声処理アプリケーションを有する促進された実装、低減された資源要求および/または互換性を提供することができる。

任意の本発明の特徴によれば、バイノーラル知覚伝達関数のインパルス応答の期間は、変換更新間隔を上回る。

本発明は、生成される改良されたバイノーラル音声信号を可能し、および/または複雑さを低減することができる。特に、本発明は、ロングエコーまたは残響特性を有する音響環境に対応するバイノーラル信号を生成することができる。

任意の本発明の特徴によれば、コンバージョン手段は、以下のように実質的にステレオ出力サンプルを生成するように配置される:
ここで、LIおよびRIのうちの少なくとも1つはサブバンドにおけるM個のチャンネル音声信号の音声チャンネルのサンプルであり、そして、コンバージョン手段は、空間パラメータデータおよび少なくとも1つのバイノーラル知覚伝達関数に応じてマトリックス係数hxyを決定するために配置される。

特徴は、改良されたバイノーラルが生成するような信号にし、および/または複雑さを低減することができる。

任意の本発明の特徴によれば、係数手段は、以下を含む:N個のチャンネル信号における異なる音源に対応する複数のバイノーラル知覚伝達関数のインパルス応答の表現を提供するための手段;サブバンド表現の係数に対応する荷重結合によってフィルタ係数を決定するための手段;空間パラメータデータに応じて荷重結合のためのサブバンド表現に対する重みを決定するための手段。

特徴は、改良されたバイノーラルが生成するような信号にし、および/または複雑さを低減することができる。特に、低い複雑さであるが高品質フィルタ係数が決定されうる。

任意の本発明の特徴によれば、第1のバイノーラル・パラメータは、バイノーラル音声信号のチャンネル間の相関を表すコヒーレンス・パラメータを含む。

特徴は、改良されたバイノーラルが生成するような信号にし、および/または複雑さを低減することができる。特に、所望の相関は、フィルタリングの前に低い複雑さ処理によって効率的に提供されうる。特に、低い複雑さのサブバンド・マトリックス乗算は、所望の相関またはコヒーレンス特性をバイノーラル信号に導入するために実行されうる。このような特性は、フィルタリングの前に、およびフィルタが修正されることの必要なしに導入されうる。このように、特徴は、効率的におよび低い複雑さを制御するために、相関またはコヒーレンス特性を可能にする。

任意の本発明の特徴によれば、第1のバイノーラル・パラメータは、バイノーラル音声信号のいかなる音声要素の残響を表すバイノーラル音声信号および残響パラメータのいかなる音源の位置を表す少なくとも1つのローカライゼーション・パラメータを含まない。

特徴は、改良されたバイノーラルが生成するような信号にし、および/または複雑さを低減することができる。特に、特徴は、処理を促進し、および/または改良された品質を提供しているフィルタによって制御されうるローカライゼーション情報および/または残響パラメータを可能にする。バイノーラル・ステレオ・チャンネルのコヒーレンス又は相関は、このことにより相関/コヒーレンスおよびローカライゼーションおよび/または残響がそれぞれに制御されうるコンバージョン手段、およびそれが最も実際的であるか効率的であるところによって制御されうる。

任意の本発明の特徴によれば、係数手段は、バイノーラル音声信号のためのローカライゼーション・キューおよび残響キューのうちの少なくとも1つを反映するためのフィルタ係数を決定するために配置される。

特徴は、改良されたバイノーラルが生成するような信号にし、および/または複雑さを低減することができる。特に、所望のローカライゼーションまたは残響特性が、改良された品質を、それによって与えることで、例えば、反響のある音声環境が効率的にシミュレーションされると認めている、特にサブバンド・フィルタリングによって効率的に提供されうる。

任意の本発明の特徴によれば、音声M個のチャンネル音声信号は、モノラル音声信号であり、そして、コンバージョン手段は、モノラル音声信号から非相関信号を生成し、そして非相関信号およびモノラル音声信号を含むステレオ信号のサンプルに適用されるマトリックス乗算によって第1のステレオ信号を生成するために配置される。

特徴は、改良されたバイノーラルが生成するような信号にし、および/または複雑さを低減することができる。特に、本発明は、一般に利用可能な空間パラメータから生成するために高品質のバイノーラル音声信号を生成するために全ての必要なパラメータを可能にする。

本発明の別の態様によれば、バイノーラル音声信号を生成する方法が提供される;上記の方法は以下を含む:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するステップ;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するステップ;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するステップ;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するステップ;および、バイノーラル知覚伝達関数のうちの少なくとも1つに応じてステレオ・フィルタのためのフィルタ係数を決定するステップ。

本発明の別の態様によれば、バイノーラル音声信号を送信するための送信器が提供される、上記送信器は以下を含む:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するための手段;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するためのパラメータデータ手段;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するためのコンバージョン手段;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するためのステレオ・フィルタ;バイノーラル知覚伝達関数に応じてステレオ・フィルタのためのフィルタ係数を決定するための係数手段;および、バイノーラル音声信号を送信するための手段。

本発明の別の態様によれば、音声信号を送信するための送信システムが提供される,送信器を含む上記送信システムは以下を含む:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するための手段;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するためのパラメータデータ手段;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するためのコンバージョン手段;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するためのステレオ・フィルタ;バイノーラル知覚伝達関数に応じてステレオ・フィルタのためのフィルタ係数を決定するための係数手段;バイノーラル音声信号を送信するための手段;および、バイノーラル音声信号を受信するための受信器。

本発明の別の態様によれば、バイノーラル音声信号を録音するための音声録音装置が提供される,音声録音装置は以下を含む:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するための手段;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するためのパラメータデータ手段;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するためのコンバージョン手段;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するためのステレオ・フィルタ;バイノーラル知覚伝達関数に応じてステレオ・フィルタのためのフィルタ係数を決定するための係数手段(419);および、バイノーラル音声信号を録音するための手段。

本発明の別の態様によれば、バイノーラル音声信号を送信する方法が提供される,方法は以下を含む:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するステップ;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するステップ;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するステップ;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するステップ;ステレオ・フィルタにおいてバイノーラル知覚伝達関数に応じてステレオ・フィルタのためのフィルタ係数を決定するステップ;および、バイノーラル音声信号を送信するステップ。

本発明の別の態様によれば、バイノーラル音声信号を送信し、受信する方法が提供される;方法は以下を含む:送信器が以下のステップを実行する:N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、およびM個のチャンネルの音声信号をN個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するステップ;バイノーラル知覚伝達関数に応じて空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するステップ;第1のバイノーラル・パラメータに応じてM個のチャンネルの音声信号を第1のステレオ信号に変換するステップ;第1のステレオ信号をフィルタすることによってバイノーラル音声信号を生成するステップ;ステレオ・フィルタにおいてバイノーラル知覚伝達関数に応じてステレオ・フィルタのためのフィルタ係数を決定するステップ;バイノーラル音声信号を送信するステップ;バイノーラル音声信号を送信するステップ;および、バイノーラル音声信号を受信するステップ。

本発明の別の態様によれば、上記の記載されている方法のいずれかの方法を実行するためのコンピュータ・プログラムが提供される。

これらの、および本発明の他の態様、特徴および効果は、明らかであり、以下に記載されている実施例に関して明らかにする。

本発明の実施例は、図面に関して一例として記載される。

図1は、既知の発明に従ってバイノーラル信号の生成のためのアプローチの説明図である。 図2は、既知の発明に従ってバイノーラル信号の生成のためのアプローチの説明図である。 図3は、既知の発明に従ってバイノーラル信号の生成のためのアプローチの説明図である。 図4は、本発明のいくつかの実施例に従ってバイノーラル音声信号を生成するための装置の例示である。 図5は、本発明のいくつかの実施例に従ってバイノーラル音声信号を生成する方法の実施例のフローチャートの例示である。 図6は、本発明のいくつかの実施例に従って音声信号のコミュニケーションのための送信システムの実施例を例示する。

以下の説明は、複数の空間チャンネルのモノラルのダウンミックスから、バイノーラル・ステレオ信号の合成に適用できる本発明の実施例に重点を置く。特に、説明は、いわゆる“5151”構造を使用するMPEGサラウンド・サウンドの符号化されたビットストリームからヘッドホン再生のためのバイノーラル信号の生成のために適用される。“5151”構造は、入力として5チャンネル(最初の“5”により示される)、モノラル・ダウンミックス(最初の“1”)、5チャンネルの復元(2番目の“5”)、およびツリー構造“1”による空間パラメータ化を有する。異なるツリー構造における詳細な情報は、ヘレ,J(Herre,J.),クジュルリング,K.(Kjoerling,K.),ブレーバールト,J.(Breebaart,J.),ファーラー,C.(Faller,C.),ディスヒ,S.(Disch,S.),プルンハーゲン,H.(Purnhagen,H.),コッペン,J.(Koppens,J.),ヒルペアト,J.(Hilpert,J.),レーデン,J.(Roeden,J.),オーメン,W.(Oomen,W.),リンツマイアー,K.(Linzmeier,K.),チョン,K.S.(Chong,K.S.)ら著「MPEGサラウンド−効率的かつ互換性のあるマルチチャンネル音声符号化のためのISO/MPEG標準規格(MPEG Surround−The ISO/MPEG standard for efficient and compatible multi−channel audio coding)」,第122回AECコンベンション会報,オーストリア,ヴィエンナ,2007年、およびブレーバールト,J.(Breebaart,J.),ホトー,G.(Hotho,G.),コッペン,J.(Koppens,J.),ヒルペアト,J.(Hilpert,J.),シュイヤーズ,E.(Schuijers,E.),オーメン,W.(Oomen,W.),ヴァン デ パール,S.(van de Par,S.)ら著「マルチチャンネル音声圧縮における最近のMPEGサラウンド標準の背景、概念および構造(Background,concept,and architecture of the recent MPEG Surround standard on multi−channel audio compression)」,オーディオ・エンジニアリング学会(Audio Engineering Society),2007年,第55巻,p.331−351において見られる。しかしながら、本発明は、この用途に限られていなくて、例えば、ステレオ信号にダウンミックスされるサラウンド・サウンド信号を含んでいる多くの他の音声信号に例えば適用されることができることはいうまでもない。

図3のそれのような既知の装置において、ロングHRTFsまたはBRIRsは、パラメータ化されたデータおよびマトリックスユニット311によって実行されるマトリックス処理によって効率的に表現されない。実質的に、サブバンド・マトリックス乗算は、サブバンド時間領域への変換のために使用される変換時間間隔に対応する期間を有する時間領域インパルス応答を表すために制限される。例えば、変換が、高速フーリエ変換(FFT)である場合、N個のサンプルの各FFTの間隔は、マトリックスユニットに供給されるN個のサブバンド・サンプルに転移される。しかしながら、N個のサンプルより長いインパルス応答は、適切に表現されない。

この問題の1つの解決法は、サブバンド領域のフィルタリング・アプローチを使用することである。ここで、マトリックス処理は、マトリックス・フィルタリング・アプローチによって交換され、個々のサブバンドがフィルタされる。このように、このような実施例において、サブバンド処理は、シンプルなマトリックス乗算の代わりに下記の式が与えられる。
ここで、Nqは、HRTF/BRIR関数を表すために使用されるタップの数である。

このようなアプローチは、効率的に4つのフィルタを各サブバンド(マトリックスユニット311の入力チャンネルおよび出力チャンネルの各置換の数)に適用することに対応する。

このようなアプローチは、いくつかの実施例において有利であるが、いくつかの関連する不利な点も有する。例えば、システムは、複雑さおよび資源要求を非常に増加させるサブバンド毎に、4つのフィルタを必要とする。さらにまた、多くの場合、所望のHRTF/BRIRインパルス応答に正確に対応するパラメータを生成することは、複雑でも良いか、困難でもよいか、不可能であってさえもよい。

特に、図3のシンプルなマトリックス乗算のために、HRTFパラメータおよび送信された空間パラメータと共にバイノーラル信号のコヒーレンスが推定されうる。なぜなら、両パラメータのタイプは、同じ(パラメータ)領域において存在するからである。バイノーラル信号のコヒーレンスは、個々の音源信号(空間パラメータによって記載されるように)の間のコヒーレンス、および(HRTFsによって記載される)個々の位置から鼓膜までの音響経路に依存する。相対的な信号レベル、ペアワイズ・コヒーレンス値、およびHRTF伝達関数の全てが、統計的(パラメトリック)な方法で記載される場合、空間レンダリングおよびHRTF処理の結合された効果から結果として得られるネットコヒーレンスは、パラメータ領域において直接的に推定されうる。この過程は、ブレーバールト,J.(Breebaart,J.)著「MPEG Surroundにおける効果的な3D音声レンダリングのためのバイノーラル・パラメータの解析および合成(Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround)」,ICME会報,中国,北京,2007年、およびブレーバールト,J.(Breebaart,J.),ファーラー,C.(Faller,C.)ら著「空間音声処理:MPEG Surroundおよび他の応用(Spatial audio processing:MPEG Surround and other application)」,ワイリー社,ニューヨーク,2007年に記載される。所望のコヒーレンスが公知である場合、指定された値に従うコヒーレンスを有する出力信号は、行列演算の手段によって非相関器の信号およびモノラル信号の結合によって結果として得られうる。この過程は、ブレーバールト,J.(Breebaart,J.),ヴァン デ パール,S.(van de Par,S.),コールラウシュ,A.(Kohlraush,A.),シュイヤーズ,E.(Schuijers,E.)ら著「ステレオ音声のパラメトリック符号化(Parametric coding of stereo audio)」,EURASIP,J.Applied Signal Proc.2005年、第9巻、p1305−1322、およびエングデガルド,J.(Engdegard,J.),プルンハーゲン,H.(Purnhagen,H.),レーデン,J.(Roeden,J.),リエルド,L.(Liljeryd,L.)ら著「パラメトリックステレオ符号化における合成環境(Synthetic ambience in parametric stereo coding)」,第116回AECコンベンション会報,ドイツ,ベルリン,2004年に記載される。

その結果、非相関器の信号マトリックス・エントリ(h12およびh22)は、空間およびHRTFパラメータの比較的シンプルな関係から理解する。しかしながら、上記のそれらのようなフィルタ応答のために、空間復号化およびバイノーラル合成から結果として得られるネットコヒーレンスを算出することはかなり困難である、なぜなら、所望のコヒーレンス値は、残存する部分(遅れた残響)よりもBRIRの第1の部分(直接的な音)のために異なるからである。

特に、BRIRsのために、必要とされる特性は、時間と共に大きく変化する。例えば、BRIRの第1の部分は、直接的な音(部屋の効果なしで)を記載することができる。従って、この部分は、(レベル差および到着時間の差並びに高いコヒーレンスにより反射される異なるローカライゼーション特性を有して)非常に指向的である。一方、早期反射および遅れた残響は、たいてい比較的指向的ではない。このように、耳の間のレベル差はあまりはっきりせず、到着時間差は、これらの確率的性質のために性格に決定することは困難であり、そして、コヒーレンスは、多くの場合、非常に低い。ローカライゼーション特性のこの変化は、正確に保存することは非常に重要である。しかし、これは困難でもよい、なぜなら、同時に完全なフィルタ応答が、空間パラメータおよびHRTF係数に依存すべき一方、フィルタ応答のコヒーレンスが、実際のフィルタ応答の範囲内における位置に依存するように変化する必要があるからである。

要約すると、バイノーラル出力信号の間の正確なコヒーレンスを決定し、その正確な時間的挙動を確実にすることは、モノラルのダウンミックスにとって非常に困難であり、一般的に、既知の発明のマトリックス乗算のアプローチで知られるアプローチを用いることは不可能である。

図4は、本発明のいくつかの実施例に従ってバイノーラル音声信号を生成するための装置を例示する。記載されているアプローチにおいて、パラメトリック・マトリックス乗算は、ロングエコーまたは残響を有する音声環境がエミュレートされうるため、低い複雑さのフィルタリングと結合される。特に、低い複雑さおよび実用的な実装を維持する一方、システムは、使用するため、ロングHRTFs/BRIRsを可能にする。

装置は、N個のチャンネル音声信号のダウンミックスである音声M個のチャンネルの音声信号を含む音声データビットストリームを受信するデマルチプレクサ401を含む。加えて、データは、M個の音声信号をN個のチャンネル音声信号にアップミキシングするための空間パラメータデータを含む。具体例において、ダウンミックス信号は、モノラル信号、すなわちM=1であり、そして、N個のチャンネル音声信号は、5.1サラウンド信号、すなわちN=6である。音声データは、具体的にはサラウンド信号のMPEGサラウンド符号化であり、そして、空間データは、両耳間レベル差(ILDs:Inter Level Differences)および両耳間相互相関(ICC:Inter−channel Cross−Correlation)パラメータを含む。

モノラル信号の音声データは、デマルチプレクサ401に連結する復号器403に供給される。復号器403は、当業者にとって周知であるような復号器403が、適切な従来の復号化アルゴリズムを使用しているモノラル信号を復号化する。このように、実施例において、復号器403の出力は、復号化されたモノラル音声信号である。

復号器403は、復号化されたノラル信号を時間領域から周波数サブバンド領域に変換するために操作可能である変換プロセッサ405に連結する。いくつかの実施形態において、変換プロセッサ405は、信号を変換間隔(適切な数のサンプルを含むサンプルブロックに対応する)に分割し、各変換時間間隔における高速フーリエ変換(FFT)を実行するために配置される。例えば、FFTは、FFTが64個の複素サブバンド・サンプルを生成するために適用される64個のサンプルブロックに分けられるモノラル音声サンプルを有する64ポイントのFFTでもよい。

具体例において、変換プロセッサ405は、64個のサンプルの変換間隔で動作するQMFフィルタバンクを有する。このように、64個の時間領域の各ブロックに対して、64個のサブバンド・サンプルは、周波数領域において生成される。

この例において、受信信号は、バイノーラル・ステレオ信号にアップミックスされることになるモノラル信号である。従って、周波数サブバンド・モノラル信号は、モノラル信号の非相関されたバージョンを生成する非相関器407に供給される。当然のことながら、非相関された信号を生成するいかなる適切な方法も、本発明を損なわずに用いうることができる。

変換プロセッサ405および非相関器407は、マトリックス・プロセッサ409に供給される。このように、マトリックス・プロセッサ409は、生成された非相関信号のサブバンド表現と同様にモノラル信号のサブバンド表現を供給される。マトリックス・プロセッサ409は、モノラル信号を第1のステレオ信号に変換するために実行する。具体的には、マトリックス・プロセッサ409は、以下の式によって与えられる各サブバンドのマトリックス乗算を実行する:
ここで、LIおよびRIは、マトリックス・プロセッサ409に対する入力信号のサンプルであり、すなわち、具体例において、LIおよびRIは、モノラル信号および非相関信号のサブバンド・サンプルである。

マトリックス・プロセッサ409によって実行される変換は、HRTFs/BRIRsに応じて生成するバイノーラル・パラメータに依存する。実施例において、変換は、受信されたモノラル信号および(付加的な)空間チャンネルに関連する空間パラメータにも依存する。

特に、マトリックス・プロセッサ409は、デマルチプレクサ401、および所望のHRTFs(または、同等な所望のBRIRs)を表現しているデータを含むHRTFストア413にさらに連結されるコンバージョン・プロセッサ411に連結される。下記の事項は、完結にはHRTFsを参照するが、しかし、BRIRsは、(または同様に)HRTFsの代わりに使用されうる。コンバージョン・プロセッサ411は、デマルチプレクサから空間データを受信し、そしてHRTFストア413からHRTFを表現しているデータを受信する。それから、コンバージョン・プロセッサ411は、空間パラメータをHRTFデータに応じて第1のバイノーラル・パラメータに変換することによるマトリックス・プロセッサ409により使用されるバイノーラル・パラメータを生成するために実行する。

しかしながら、実施例において、出力バイノーラル信号を生成することが必要であるHRTFの完全なパラメータ化および空間パラメータは、算出されない。より正確には、マトリックス乗算において使用されるバイノーラル・パラメータは、所望のHRTF応答の一部を反映するのみである。特に、バイノーラル・パラメータは、HRTF/BRIRの直接の部分(早期反射および遅れた残響を除く)に対して推定される。これは、従来のパラメータ推定プロセスを使用し、HRTFのパラメータ化プロセスの間、HRTF時間領域インパルス応答の第1のピークを使用して達成される。直接の部分(レベルおよび/または時間差のようなローカライゼーション・キューを除く)のためにコヒーレンスを結果として得ることは、2×2のマトリックスにおいてその後使用される。実際には、具体例において、マトリックスの係数は、バイノーラル信号の所望のコヒーレンスまたは相関を反映するためだけに生成され、ローカライゼーションまたは残響特性の考慮を含まない。

このように、マトリックス乗算は、所望の処理の一部を実行するのみであり、そして、マトリックス・プロセッサ409の出力は、最終的なバイノーラル信号ではなくて、正確にはチャンネル間の直接的な音の所望のコヒーレンスを反映する中間の(バイノーラル)信号である。

マトリックス係数hxyの形式におけるバイノーラル・パラメータは、実施例において、空間データに基づき、そして具体的には、そこにおいて含まれるレベル差パラメータに基づいてN個のチャンネル信号の異なる音声チャンネルにおいて相対信号パワーをまず算出するために生成される。それから、バイノーラル・チャンネルの各々の相対パワーは、N個のチャンネルの各々に関連したHRTFsに基づいて算出される。また、バイノーラル信号間の相互相関のための期待値は、N個のチャンネルおよびHRTFsの各々における信号パワーに基づいて算出される。相互相関、およびバイノーラル信号の結合されたパワーに基づいて、チャンネルのためのコヒーレンス基準は、その後算出され、そして、マトリックス・パラメータは、この相関を提供するために決定される。バイノーラル・パラメータがどのように発生しうるかの具体的な詳細は後述する。

マトリックス・プロセッサ409は、マトリックス・プロセッサ409によって生成されたステレオ信号をフィルタすることによって出力バイノーラル音声信号を生成するために操作可能である2つのフィルタ415,417に連結される。特に、2つの信号の各々は、モノラル信号として個別にフィルタされ、そして、1つのチャンネルから他へいかなる信号のクロスカップリング(cross coupling)も導入されない。従って、2つのモノラル・フィルタは、例えば、4つのフィルタを必要としている方法と比較して、複雑さを低減するように用いられる。

フィルタ415、417はサブバンド・フィルタであり、各サブバンドは、個々にフィルタされる。具体的には、各フィルタは、有限インパルス応答(FIR:Finite Impulse Response)でもよく、各サブバンドにおいて、フィルタリングを実行することは、以下の式によって与えられる:
ここで、yはマトリックス・プロセッサ409から受信されたサブバンド・サンプルを表し、cはフィルタ係数であり、nは(変換間隔数に対応する)サンプル番号であり、kはサブバンドであり、およびNはフィルタのインパルス応答の長さである。このように、個々のサブバンドにおいて、「時間領域」フィルタリングは、複数の変換間隔からサブバンド・サンプルを考慮するために、単一の変換間隔におけるところから処理を延長することにより実行される。

フィルタ特性は、所望のHRTFsの態様と同様に空間パラメータの両方の態様を反映するために生成された実施例である。具体的には、生成されたバイノーラル信号の残響およびローカライゼーション特性がフィルタによって導出され、制御されるように、フィルタ係数は、HRTFインパルス応答および空間ロケーション・キューに応じて決定される。バイノーラル信号の直接的な一部の相関またはコヒーレンスは、フィルタの直接的な部分が(ほとんど)コヒーレンスであり、そして従ってバイノーラル出力の直接的な音のコヒーレンスが先に実行される行列演算によって完全に定義されると仮定するフィルタリングによっては影響を受けない。一方、フィルタの遅れた残響部分は、左および右耳のフィルタとの間に無相関であると仮定され、従って、その特定の部分の出力は常に無相関である。信号のコヒーレンスの独立がこれらのフィルタに供給される。従って、修正は、所望のコヒーレンスに応じてフィルタに対して必要ではない。このように、フィルタを実行する行列演算は、直接的な部分の所望のコヒーレンスを決定するが、その一方で、残りの残響部分が、実際のマトリックス値から独立している正確な(低い)相関を自動的に有している。このように、フィルタリングは、マトリックス・プロセッサ409によって導出される所望のコヒーレンスを維持する。

このように、図4の装置において、マトリックス・プロセッサ409により使用される(マトリックス係数の形式における)バイノーラル・パラメータは、バイノーラル音声信号のチャンネル間の相関を表すコヒーレンス・パラメータである。しかしながら、これらのパラメータは、バイノーラル音声信号のいくつかの音源の位置を表すローカライゼーション・パラメータ、またはバイノーラル音声信号のいくつかの音声要素の残響を表す残響パラメータを含まない。むしろ、これらのパラメータ/特性は、フィルタ係数を決定することによる次のサブバンド・フィルタリングによって導出される。結果として、それらは、バイノーラル音声信号に対して、ローカライゼーション・キューおよび残響キューを反映する。

特に、フィルタは、デマルチプレクサ401およびHRTFストア413にさらに連結される係数プロセッサ419に連結される。係数プロセッサ419は、バイノーラル知覚伝達関数に応じてステレオ・フィルタ415,417のためのフィルタ係数を決定する。さらにまた、係数プロセッサ419は、デマルチプレクサ401から空間データを受信し、そして、フィルタ係数を決定するためにこれを使用する。

特に、HRTFインパルス応答は、サブバンド領域に変換され、そして、インパルス応答が上回るとき、この単一の変換間隔は、単一のサブバンド係数よりむしろ各サブバンドにおける各チャンネルに対するインパルス応答を結果として得る。そのとき、N個のチャンネルの各々に対応する各HRTFフィルタのインパルス応答は、加重和において合計される。N個のHRTFフィルタのインパルス応答の各々に適用される重みは、空間データに応じて決定され、そして、特に、異なるチャンネル間の適切なパワー分布を結果として得るために決定される。フィルタ係数がどのように生成することができるかという具体的な詳細は後述される。

このように、フィルタ415、417の出力は、ヘッドホンにおいて示されるときに、効果的に完全にサラウンド信号をエミュレートするバイノーラル・オーディオ信号のステレオ・サブバンドを表す。フィルタ415、417は、サブバンド信号を時間領域に変換するために逆変換を実行する逆変換プロセッサ421に連結される。特に、逆変換プロセッサ421は、逆QMF変換を実行することができる。

このように、逆変換プロセッサ421の出力は、一組のヘッドホンからサラウンド・サウンドの体験を提供することができるバイノーラル信号である。信号は、従来のステレオ・エンコーダを使用して例えば符号化されることができ、および/または直接ヘッドホンに供給されることができる信号を提供するために、アナログ・ディジタル・コンバータのアナログ領域に変換されうる。

このように、図4の装置は、バイノーラル信号を提供するために、パラメトリックHRTFマトリックス処理およびサブバンド・フィルタリングを結合する。相関/コヒーレンス行列乗算、ならびにローカライゼーションおよび残響フィルタリングに基づくフィルタの分離はシステムに提供され、ここで、必要パラメータは、例えば、モノラル信号に対して直ちに計算されうる。特に、コヒーレンス・パラメータが決定し、そして実装することが困難、または不可能である純粋なフィルタリング・アプローチとは対照的に、処理の異なるタイプの組合せは、モノラル・ダウンミックス信号に基づくアプリケーションのためにさえ効率的に制御されうる。

このように、記載されているアプローチは、(マトリックス乗算の手段による)正確なコヒーレンスの合成ならびに(フィルタの手段による)ローカライゼーション・キューおよび残響の生成が完全に分離され、そして独立に制御されるという利点を有している。さらにまた、フィルタの数は、クロス・チャンネル・フィルタリングが必要でない場合、フィルタの数は2に限られている。フィルタが一般的にシンプルな間、トリック乗算に対してより複雑である場合、複雑さは低減される。

いかに、必要なマトリックス・バイノーラル・パラメータおよびフィルタ係数がどの様に算出されるかの具体例が後述される。実施例において、受信される信号は、“5151”のツリー構造を使用している符号化されたMPEGサラウンド・ビットストリームである。

説明において、以下の頭字語が、使われる:
lまたはL:左チャンネル(Left channel)
rまたはR:右チャンネル(Right channel)
f: 正面チャンネル(Front channel(s))
s: サラウンド・チャンネル(Surround channel(s))
c: センター・チャンネル(Center channel)
ls: 左サラウンド(Left Surround)
rs: 右サラウンド(Right Surround)
lf: 左正面(Left Front)
lr: 左右(Left Right)

まず、マトリックス・プロセッサ409によるマトリックス乗算のために使用するバイノーラル・パラメータの生成が後述される。

コンバージョン・プロセッサ411は、最初に、バイノーラル出力信号のチャンネル間の所望のコヒーレンスを反映するパラメータであるバイノーラル・コヒーレンスの推定を算出する。推定は、HRTF関数のために定義されるHRTFパラメータと同様の空間パラメータを使用する。

具体的には、以下のHRTFパラメータが、使用される:

左耳に対応するHRTFの特定の周波数バンドの範囲内における二乗平均平方根のパワーであるPl

右耳に対応するHRTFの特定の周波数バンドの範囲内における二乗平均平方根のパワーであるPr

特定の仮想音源位置のための左および右耳の間のHRTFの特定の周波数バンドの範囲内におけるコヒーレンスであるρ

特定の仮想音源のための左および右耳の間のHRTFの特定の周波数バンドの範囲内における平均位相差であるφ

左および右耳それぞれに対する周波数領域のHRTF表現Hl(f),Hr(f)、および周波数インデックスfと仮定すると、これらのパラメータは、以下の式に従って算出される:

ここで、全体の合計fは、各パラメータ・バンドbのための1つのセットのパラメータを結果として得るために各パラメータ・バンドに対して実行される。このHRTFのパラメータ化過程の詳細な情報は、ブレーバールト,J.(Breebaart,J.)著「MPEG Surroundにおける効果的な3D音声レンダリングのためのバイノーラル・パラメータの解析および合成(Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround)」,ICME会報,中国,北京,2007年、およびブレーバールト,J.(Breebaart,J.),ファーラー,C.(Faller,C.)ら著「空間音声処理:MPEG Surroundおよび他の応用(Spatial audio processing:MPEG Surround and other application)」,ワイリー社,ニューヨーク,2007年から得ることが可能である。

上述のパラメータ化過程は、パラメータ・バンドおよび各仮想スピーカ位置にそれぞれに実行される。以下において、スピーカ位置がPl(X)によって示され、Xは、スピーカ識別子(lf,rf,c,ls,またはls)を示す。

第一段階として、5.1−チャンネル信号の相対的なパワー(モノラル入力信号のパワーに関して)は、送信されたCLDパラメータを使用して計算される。左−フロントチャンネルの相対的なパワーは、以下によって与えられる:

各仮想スピーカのパワーσ、特定のスピーカ対の間のコヒーレンスを表すICCパラメータ、各仮想スピーカのためのHRTFパラメータであるPl,Pr,ρおよびφを与えられ、バイノーラル信号を結果として得る統計的属性が推定されうる。これは、各仮想スピーカのためのパワーσに関しての貢献を追加し、HRTFにより導入されるパワーにおける変化を反映するために個別に各耳に対するHRTF(Pl,Pr)のパワーによって乗算されることによって達成される。更なる条件は、仮想スピーカ信号(ICC)の間の相互の相関の効果および(パラメータφによって表現される)HRTFの経路長の差を組み込むことを必要とする(ブレーバールト,J.(Breebaart,J.),ファーラー,C.(Faller,C.)ら著「空間音声処理:MPEG Surroundおよび他の応用(Spatial audio processing:MPEG Surround and other application)」,ワイリー社,ニューヨーク,2007年を参照)。

(モノフォニックの入力チャンネルに関して)左のバイノーラル出力チャンネルσL 2の相対的なパワーの期待値は、以下によって与えられる:

同様に、右チャンネルのための(相関的な)パワーは、以下によって与えられる:

同様の過程および同様の技術の使用に基づいて、バイノーラル信号対の外積LBB *のための期待値が以下の式から算出されうる。

バイノーラル出力(ICCB)のコヒーレンスは、それから以下によって与えられる:

バイノーラル出力信号ICCBの決定されたコヒーレンス(およびローカライゼーション・キューおよび残響特性を無視すること)に基づいて、ICCBパラメータを回復させるために必要とするマトリックス係数は、ブレーバールト,J.(Breebaart,J.),(van de Par,S.),コールラウシュ,A.(Kohlraush,A.),(Schuijers,E)ら著「ステレオ音声のパラメトリック符号化(Parametric coding of stereo audio)」,EURASIP,J.Applied Signal Proc.2005年、第9巻、p1305−1322において特定されるような従来の方法を使用して算出される。

以下において、係数プロセッサ419によるフィルタ係数の生成は後述される。

第1に、バイノーラル音声信号の異なる音源に対応するバイノーラル知覚伝達関数のインパルス応答のサブバンド表現が生成される。

係数プロセッサ419は、以下において説明されるように、重みtkおよびskを算出する。

まず、線形結合重みの絶対値は、以下により選択される:

このように、所定の空間チャンネルに対応する所定のHRTFのための重みは、そのチャンネルのパワーレベルに対応するように選択される。

ここにあるように、これが、各パラメータ・バンドにおいて一定であるスケーリング・ゲインを有するおよそ達成されうる場合、スケーリングがフィルタ・モーフィングから省略され、そして、以前のセクションのマトリックス要素を修正することによって実行されうる点に注意する。

これに当てはめるために、スケーリングされない荷重結合が要件であり、
が、パラメータ・バンド内部でそれほど変化しないパワーゲインを有する。一般に、そのような様々な種類の貢献は、HRTFの応答の間での主な遅延差に起因する。本発明のいくつかの実施例において、時間領域における事前調整は、HRTFフィルタを決定づけるために実行され、単一の現実の組合せの値が適用されうる。


位相接続法の目的は、サブバンド・インデックスkの関数として、可能な限りゆっくり変化するような位相曲線を得るために、2πの複数の位相角の選択を自由に使用するようにする。

上記の組合せ公式の位相角パラメータの役割は2つの要素からなる。第1に、それは、正面および後方のスピーカとの間にソース位置に対応する主な遅延時間をモデル化する結合されたレスポンスに至る重ね合わせの前に、正面/後方フィルタの遅延補償を実現する。第2に、スケーリングされていないフィルタのパワーゲインの可変性を低減する。

本発明のいくつかの実施例に従うこの問題の解決法は、マトリックス要素定義のために修正されたICCB値を使用することであり、以下によって定義される。

図5は、本発明のいくつかの実施例に従ってバイノーラル音声信号を生成する方法の実施例のフローチャートを例示する。

方法はステップ501で開始し、ここで、音声データは、N個のチャンネル音声信号のダウンミックスである音声M個のチャンネルの音声信号と、M個のチャンネル音声信号をN個のチャンネル音声信号にアップミックスするための空間パラメータデータを含む。

ステップ501は、ステップ503によって追随され、ここで、空間パラメータデータの空間パラメータは、バイノーラル知覚伝達関数に応じて第1のバイノーラル・パラメータに変換される。

ステップ503は、ステップ505によって追随され、ここで、M個のチャンネル音声信号は、第1のバイノーラル・パラメータに応じて第1のステレオ信号に変換される。

ステップ505は、ステップ507によって追随され、ここで、フィルタ係数は、バイノーラル知覚伝達関数に応じてステレオ・フィルタのために決定される。

ステップ507は、ステップ509によって追随され、ここで、バイノーラル音声信号は、ステレオ・フィルタにおいて第1のステレオ信号をフィルタリングすることによって生成される。

例えば、図4の装置が、送信システムで使用されうる。図6は、本発明のいくつかの実施例に従って音声信号のコミュニケーションのための通信システムの例を示す。通信システムは、特にインターネットでもよいネットワーク605を介した受信器603を含む。

具体例において、送信器601は信号録音装置であり、受信器603は、信号再生装置である。しかし、他の実施例において、送信器および受信器が他のアプリケーションおよび他の目的に使用することはいうまでもない。例えば、送信器601および/または受信器603は、トランスコーディング機能性の一部でもよく、そして、例えば、他の信号源または目的に結合することを提供しうる。具体的には、受信器603は、符号化されたサラウンド・サウンド信号を受信し、サラウンド・サウンド信号をエミュレートしている符号化されたバイノーラル信号を生成する。そのとき、符号化されたバイノーラル信号は、他の音源に配信される。

信号録音機能がサポートされる具体例において、送信器601は、ディジタイザ607を含む。ディジタイザ607は、サンプリングおよびアナログ・ディジタル・コンバージョンによってデジタルPCM(Pulse Code Modulated)に変換されたアナログ・マルチチャンネル(サラウンド)信号を受信する。

ディジタイザ607は、符号化アルゴリズムに従ってPCMマルチチャンネル信号を符号化する図1の符号器609に連結される。具体例において、符号器609は、MPEG符号化サラウンド・サウンド信号として信号を符号化する。符号器609は、符号化された信号を受信し、インターネット601に接続するネットワーク送信器611に連結される。ネットワーク送信器611は、インターネット605を介して受信器603へ符号化された信号を送信することができる。

受信器603は、インターネット605に接続され、送信器601からの符号化された信号を受信するために配置されたネットワーク受信器613を含む。

ネットワーク受信器613は、図4の装置のいずれかの装置であるバイノーラル復号器615に連結される。

信号再生機能がサポートされる具体例において、受信器603は、さらに、バイノーラル復号器615からのバイノーラル音声信号を受信し、ユーザにこれを示す信号プレーヤ617を含む。具体的には、信号プレーヤ117は、バイノーラル音声信号を1セットのヘッドホンに出力するために必要とするデジタル・アナログ・コンバータ、アンプおよびスピーカを含む。

明確にするための上記の説明は、異なる機能ユニットおよびプロセッサに関して本発明の実施例を記載したことはいうまでもない。しかしながら、異なる機能ユニットまたはプロセッサ間の機能性のいかなる適切な配布も本発明を損なわずに使用しうることは、明らかである。例えば、別々のプロセッサまたはコントローラによって実行されることが示される機能性は、同じプロセッサまたはコントローラによって実行されうる。それ故、厳しい論理和物理構造または組織を表すよりはむしろ、特定の機能ユニットの参照は記載されている機能性を提供するための適当手段の参照とみなされるだけある。

本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらのいかなる組合せを含むもいかなる適切な形でも行うことができる。本発明は、一つ以上のデータプロセッサおよび/またはデジタルシグナルプロセッサ上のコンピュータソフトウェア実行として、部分的に少なくとも任意に行うことができる。本発明の実施例の要素およびコンポーネントは、いかなる適切な方法でも、物理的に、機能的に、そして、論理的に行うことができる。実際、機能性は、単一ユニットにおいて、複数の装置において、または、他の機能単位の一部として行うことができる。このように、本発明は、単一ユニットにおいて行うことができるかまたは異なる装置およびプロセッサの間に物理的に、そして、機能的に配信されうる。

本発明がいくつかの実施例と関連して記載されていたにもかかわらず、それは本願明細書において記載される特定の形に限られていることを目的としない。むしろ、本発明の範囲は、添付の請求の範囲だけによって制限される。加えて、特徴が特定の実施例と関連して記載されているように見えるが、当業者は記載されている実施例のさまざまな特徴が本発明に従って結合されることができると認識する。請求項において、成り立っている用語は、他の要素またはステップの存在を除外しない。

さらに、個々にリストされるが、複数の手段、要素または方法のステップは、例えば単一の装置またはプロセッサによって行うことができる。加えて、個々の特徴が異なる請求項に含まれることができるが、これらは出来る限り有利に結合されることができ、そして、異なる請求項への包含は、特徴の組合せが可能でなくておよび/または有利なことを意味しない。また、請求項の1つのカテゴリの特徴の包含は、このカテゴリへの制限を意味せず、適当な様に、むしろ、特徴が他の請求項カテゴリに等しく適用できることを示す。さらに、順に請求項の特徴のうち、特徴が動かされなければならないいかなる特定の命令も意味しない、そして、特に、方法のクレームにおける個々のステップの順序はステップがこの命令において実行されなければならないことを意味しない。むしろ、ステップは、いかなる適切な命令においても実行されうる。加えて、単一の参照は、複数を除外しない。従って、「a」,「an」,「第1」,「第2」等の参照は、複数を排除しない。単に明快な実施例がいかなる形であれ請求項の範囲を制限するものとして解釈されない場合に、請求項の引用符号は設けられている。

Claims (15)

  1. バイノーラル音声信号を生成する装置であって、前記装置は、
    N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、および前記M個のチャンネルの音声信号を前記N個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するための手段(401,403)と、
    少なくとも1つのバイノーラル知覚伝達関数に応じて、前記空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するためのパラメータデータ手段(411)と、
    前記第1のバイノーラル・パラメータに応じて、前記M個のチャンネルの音声信号を第1のステレオ信号に変換するためのコンバージョン手段(407,409)であって、前記第1のバイノーラル・パラメータは、前記バイノーラル音声信号のチャンネル間の相関を表すコヒーレンス・パラメータであり、前記第1のステレオ信号は、第1のチャンネル信号および第2のチャンネル信号を含む、コンバージョン手段と、
    前記第1のステレオ信号をフィルタリングすることによって前記バイノーラル音声信号を生成するためのステレオ・フィルタ(415,417)と、
    前記バイノーラル知覚伝達関数および前記空間パラメータに応じて、前記ステレオ・フィルタに対してフィルタ係数を決定するための係数手段(419)であって、前記フィルタ係数が、前記バイノーラル音声信号に対して、ローカライゼーション・キューおよび残響キューを反映するように、前記フィルタ係数は決定される、係数手段(419)
    を含
    ここで、前記音声M個のチャンネル音声信号は、モノラル音声信号であり、前記コンバージョン手段(407,409)は、前記モノラル音声信号から非相関された信号を生成するため、並びに前記非相関された信号および前記モノラル信号を含むステレオ信号のサンプルを適用するマトリックス乗算によって前記第1のステレオ信号を生成するために配置され、そして、
    前記ステレオ・フィルタ(415,417)は、前記第1のチャンネルのための第1のフィルタ(415)および前記第2のチャンネルのための第2のフィルタ(417)のみを含むため、いくつかのクロス・チャンネル・フィルタリングが実行されない、装置。
  2. 時間領域からサブバンド領域にM個のチャンネルの音声信号を変換するための変換手段(405)を含み、ここで、前記コンバージョン手段および前記ステレオ・フィルタは前記サブバンド領域の各サブバンドを個々に処理するために配置される、請求項1に記載の装置。
  3. 前記バイノーラル知覚伝達関数のインパルス応答の持続時間が、変換アップデート間隔を上回る、請求項2に記載の装置。
  4. 前記コンバージョン手段(409)が、各サブバンドに対してステレオ出力サンプルを、以下の式として実質的に生成するために配置され、
    ここで、LIおよびRIのうちの少なくとも1つは、前記サブバンドにおける前記M個のチャンネルの音声信号の音声チャンネルのサンプルであり、前記コンバージョン手段は、前記空間パラメータデータおよび前記すくなくとも1つのバイノーラル知覚伝達関数の両方に応じてマトリックス係数hxyを決定するために配置される、請求項2に記載の装置。
  5. 前記係数手段(419)は、
    N個のチャンネル信号における異なる音源に対応する複数のバイノーラル知覚伝達関数のインパルス応答のサブバンド表現を提供する手段と、
    前記サブバンド表現の係数に対応する荷重結合によって前記フィルタ係数を決定する手段と、
    前記空間パラメータデータに応じて前記荷重結合のための前記サブバンド表現のための重みを決定する手段を含む、請求項2に記載の装置。
  6. 前記第1のバイノーラル・パラメータは、前記バイノーラル音声信号のチャンネル間の相関を表すコヒーレンス・パラメータを含む、請求項1に記載の装置。
  7. 前記第1のバイノーラル・パラメータは、前記N個のチャンネル信号のいくつかの音源の位置を表す少なくとも1つのローカライゼーション・パラメータ、および前記バイノーラル音声信号のいくつかのサウンド・コンポーネントの残響を表す残響パラメータを含まない、請求項1に記載の装置。
  8. 前記係数手段(419)は、少なくとも1つのローカライゼーション・キューおよび前記バイノーラル音声信号のための残響キューを反映する前記フィルタ係数を決定するために配置される、請求項1に記載の装置。
  9. バイノーラル音声信号を生成する方法であって、前記方法は、
    N個のチャンネルの音声信号のダウンミックスであるM個のチャンネルの音声信号、および前記M個のチャンネルの音声信号を前記N個のチャンネルの音声信号にアップミックスするための空間パラメータデータを含む音声データを受信するステップ(501)と、
    少なくとも1つのバイノーラル知覚伝達関数に応じて、前記空間パラメータデータの空間パラメータを第1のバイノーラル・パラメータに変換するためのステップ(503)であって、前記第1のバイノーラル・パラメータは、前記バイノーラル音声信号のチャンネル間の相関を表すコヒーレンス・パラメータであり、前記第1のステレオ信号は、第1のチャンネル信号および第2のチャンネル信号を含む、ステップと、
    前記第1のバイノーラル・パラメータに応じて、前記M個のチャンネルの音声信号を第1のステレオ信号に変換するステップ(505)と、
    ステレオフィルタ(415,417)を用いて前記第1のステレオ信号をフィルタリングすることによって前記バイノーラル音声信号を生成するステップ(509)と、
    前記少なくとも1つのバイノーラル知覚伝達関数および前記空間パラメータに応じて、前記ステレオ・フィルタのためのフィルタ係数を決定するステップ(507)であって、前記フィルタ係数が、前記バイノーラル音声信号に対して、ローカライゼーション・キューおよび残響キューを反映するように、前記フィルタ係数は決定される、ステップ
    を含
    ここで、前記音声M個のチャンネル音声信号は、モノラル音声信号であり、前記変換するステップ(505)は、前記モノラル音声信号音声信号から非相関された信号を生成し、並びに前記非相関された信号および前記モノラル信号を含むステレオ信号のサンプルを適用するマトリックス乗算によって前記第1のステレオ信号を生成し、そして、
    前記ステレオ・フィルタ(415,417)は、前記第1のチャンネルのための第1のフィルタ(415)および前記第2のチャンネルのための第2のフィルタ(417)のみを含むため、いくつかのクロス・チャンネル・フィルタリングが実行されない、方法。
  10. バイノーラル音声信号を送信する送信器であって、前記送信器は、請求項1に記載の装置を含む、送信器。
  11. 音声信号を送信するための送信システムであって、前記送信システムは、請求項10に記載の送信器を含む、送信システム。
  12. バイノーラル音声信号を録音するための音声録音装置であって、前記音声録音装置は、請求項1に記載の装置を含む、音声録音装置。
  13. バイノーラル音声信号を送信するための方法であって、前記方法は、請求項9に記載の方法を含む、方法。
  14. 前記バイノーラル音声信号を、送信し、受信する方法であって、前記方法は、請求項13に記載の方法の前記ステップを含む、方法。
  15. コンピュータに、請求項9、3または請求項14のいずれかに記載の方法を実行させるためのプログラム。
JP2010528293A 2007-10-09 2008-09-30 バイノーラル音声信号を生成するための方法と装置 Active JP5391203B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP07118107 2007-10-09
EP07118107.7 2007-10-09
PCT/EP2008/008300 WO2009046909A1 (en) 2007-10-09 2008-09-30 Method and apparatus for generating a binaural audio signal

Publications (2)

Publication Number Publication Date
JP2010541510A JP2010541510A (ja) 2010-12-24
JP5391203B2 true JP5391203B2 (ja) 2014-01-15

Family

ID=40114385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010528293A Active JP5391203B2 (ja) 2007-10-09 2008-09-30 バイノーラル音声信号を生成するための方法と装置

Country Status (15)

Country Link
US (1) US8265284B2 (ja)
EP (1) EP2198632B1 (ja)
JP (1) JP5391203B2 (ja)
KR (1) KR101146841B1 (ja)
CN (1) CN101933344B (ja)
AU (1) AU2008309951B8 (ja)
BR (1) BRPI0816618B1 (ja)
CA (1) CA2701360C (ja)
ES (1) ES2461601T3 (ja)
MX (1) MX2010003807A (ja)
MY (1) MY150381A (ja)
PL (1) PL2198632T3 (ja)
RU (1) RU2443075C2 (ja)
TW (1) TWI374675B (ja)
WO (1) WO2009046909A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
RU2576476C2 (ru) 2009-09-29 2016-03-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2661912B1 (en) 2011-01-05 2018-08-22 Koninklijke Philips N.V. An audio system and method of operation therefor
CN102802112B (zh) * 2011-05-24 2014-08-13 鸿富锦精密工业(深圳)有限公司 具有音频文件格式转换功能的电子装置
ES2606642T3 (es) 2012-03-23 2017-03-24 Dolby Laboratories Licensing Corporation Method and system for generating transfer function related to the head by linear mixing of transfer functions related to the head
AR092540A1 (es) 2012-09-12 2015-04-22 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E V APPARATUS AND METHOD TO PROVIDE IMPROVED GUIDED MIX FUNCTIONS FOR 3D AUDIO
US9491299B2 (en) 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
MX347551B (es) * 2013-01-15 2017-05-02 Koninklijke Philips Nv BINAURAL AUDIO PROCESSING.
US9973871B2 (en) * 2013-01-17 2018-05-15 Koninklijke Philips N.V. Binaural audio processing with an early part, reverberation, and synchronization
US9344826B2 (en) * 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
US10506067B2 (en) * 2013-03-15 2019-12-10 Sonitum Inc. Dynamic personalization of a communication session in heterogeneous environments
US9933990B1 (en) 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
ES2653975T3 (es) 2013-07-22 2018-02-09 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Multichannel audio decoder, multichannel audio encoder, procedures, computer program and encoded audio representation by using a decorrelation of rendered audio signals
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US10170125B2 (en) 2013-09-12 2019-01-01 Dolby International Ab Audio decoding system and audio encoding system
US10469969B2 (en) 2013-09-17 2019-11-05 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
WO2015048551A2 (en) * 2013-09-27 2015-04-02 Sony Computer Entertainment Inc. Method of improving externalization of virtual surround sound
WO2015059152A1 (en) * 2013-10-21 2015-04-30 Dolby International Ab Decorrelator structure for parametric reconstruction of audio signals
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105900455B (zh) * 2013-10-22 2018-04-06 延世大学工业学术合作社 用于处理音频信号的方法和设备
CN108922552A (zh) 2013-12-23 2018-11-30 韦勒斯标准与技术协会公司 生成用于音频信号的滤波器的方法及其参数化装置
RU2017138558A (ru) 2014-01-03 2019-02-11 Долби Лабораторис Лайсэнзин Корпорейшн Генерирование бинаурального звукового сигнала в ответ на многоканальный звуковой сигнал с использованием по меньшей мере одной схемы задержки с обратной связью
EP3090576B1 (en) 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
US9986338B2 (en) 2014-01-10 2018-05-29 Dolby Laboratories Licensing Corporation Reflected sound rendering using downward firing drivers
KR20210006465A (ko) 2014-03-19 2021-01-18 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
EP3122073A4 (en) 2014-03-19 2017-10-18 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
CN106165454B (zh) * 2014-04-02 2018-04-24 韦勒斯标准与技术协会公司 音频信号处理方法和设备
US9462406B2 (en) 2014-07-17 2016-10-04 Nokia Technologies Oy Method and apparatus for facilitating spatial audio capture with multiple devices
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10181328B2 (en) 2014-10-21 2019-01-15 Oticon A/S Hearing system
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频系统和方法
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
US10149082B2 (en) 2015-02-12 2018-12-04 Dolby Laboratories Licensing Corporation Reverberation generation for headphone virtualization
JP6539742B2 (ja) * 2015-02-18 2019-07-03 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ信号をフィルタリングするためのオーディオ信号処理装置および方法
GB2544458B (en) 2015-10-08 2019-10-02 Facebook Inc Binaural synthesis
EA202090186A3 (ru) * 2015-10-09 2020-12-30 Долби Интернешнл Аб Кодирование и декодирование звука с использованием параметров преобразования представления
WO2017126895A1 (ko) 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
CN106331977B (zh) * 2016-08-22 2018-06-12 北京时代拓灵科技有限公司 一种网络k歌的虚拟现实全景声处理方法
CA3042580A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
DE102017106022A1 (de) * 2017-03-21 2018-09-27 Ask Industries Gmbh Verfahren zur Ausgabe eines Audiosignals in einen Innenraum über eine einen linken und einen rechten Ausgabekanal umfassende Ausgabeeinrichtung
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
WO2020023482A1 (en) 2018-07-23 2020-01-30 Dolby Laboratories Licensing Corporation Rendering binaural audio over multiple near field transducers
US20200053503A1 (en) * 2018-08-02 2020-02-13 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000308199A (ja) * 1999-04-16 2000-11-02 Matsushita Electric Ind Co Ltd 信号処理装置および信号処理装置の製造方法
KR100981699B1 (ko) 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
BR0305555A (pt) 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
CN101263739B (zh) * 2005-09-13 2012-06-20 Srs实验室有限公司 用于音频处理的系统和方法
KR101562379B1 (ko) * 2005-09-13 2015-10-22 코닌클리케 필립스 엔.브이. 공간 디코더 유닛 및 한 쌍의 바이노럴 출력 채널들을 생성하기 위한 방법
CN1937854A (zh) * 2005-09-22 2007-03-28 三星电子株式会社 用于再现双声道虚拟声音的装置和方法
JP2007187749A (ja) * 2006-01-11 2007-07-26 Matsushita Electric Ind Co Ltd マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
AT456261T (de) * 2006-02-21 2010-02-15 Koninkl Philips Electronics Nv AUDIO CODING AND AUDIO CODING
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치

Also Published As

Publication number Publication date
BRPI0816618B1 (pt) 2020-11-10
TWI374675B (en) 2012-10-11
CN101933344B (zh) 2013-01-02
BRPI0816618A2 (pt) 2015-03-10
CN101933344A (zh) 2010-12-29
AU2008309951B8 (en) 2011-12-22
US20100246832A1 (en) 2010-09-30
RU2010112887A (ru) 2011-11-20
US8265284B2 (en) 2012-09-11
CA2701360A1 (en) 2009-04-16
EP2198632A1 (en) 2010-06-23
KR101146841B1 (ko) 2012-05-17
AU2008309951B2 (en) 2011-09-08
TW200926876A (en) 2009-06-16
WO2009046909A1 (en) 2009-04-16
EP2198632B1 (en) 2014-03-19
MX2010003807A (es) 2010-07-28
CA2701360C (en) 2014-04-22
PL2198632T3 (pl) 2014-08-29
KR20100063113A (ko) 2010-06-10
ES2461601T3 (es) 2014-05-20
RU2443075C2 (ru) 2012-02-20
MY150381A (en) 2013-12-31
AU2008309951A1 (en) 2009-04-16
JP2010541510A (ja) 2010-12-24

Similar Documents

Publication Publication Date Title
KR102010914B1 (ko) 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치
US10623860B2 (en) Audio decoder for audio channel reconstruction
US10820134B2 (en) Near-field binaural rendering
US10504527B2 (en) Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
US9584943B2 (en) Method and apparatus for processing audio signals
US20190149936A1 (en) Binaural decoder to output spatial stereo sound and a decoding method thereof
JP5592974B2 (ja) 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
CN108307272B (en) Audio signal processing method and apparatus
US10701507B2 (en) Apparatus and method for mapping first and second input channels to at least one output channel
JP5291227B2 (ja) オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
TWI555412B (zh) 整合幾何空間音源編碼串流之設備及方法
US20160035358A1 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
JP2018182757A (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
RU2656717C2 (ru) Бинауральная аудиообработка
TWI489450B (zh) Apparatus and method for generating an audio output signal or data stream, and associated system, computer readable medium and computer program
Breebaart et al. Spatial audio object coding (SAOC)-The upcoming MPEG standard on parametric object based audio coding
US8891797B2 (en) Audio format transcoder
EP2384029B1 (en) Signal generation for binaural signals
KR101184568B1 (ko) 청각 장면들의 후부 잔향-기반의 합성
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
EP1971978B1 (en) Controlling the decoding of binaural audio signals
JP5222279B2 (ja) マルチチャネルオーディオ再構成における信号整形のための改善された方法
RU2431940C2 (ru) Аппаратура и метод многоканального параметрического преобразования
KR100924576B1 (ko) 바이노럴 큐 코딩 방법 등을 위한 개별 채널 시간 엔벌로프정형

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120523

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120828

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130620

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131011

R150 Certificate of patent or registration of utility model

Ref document number: 5391203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250