JP2017514422A - 音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体 - Google Patents

音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体 Download PDF

Info

Publication number
JP2017514422A
JP2017514422A JP2017505030A JP2017505030A JP2017514422A JP 2017514422 A JP2017514422 A JP 2017514422A JP 2017505030 A JP2017505030 A JP 2017505030A JP 2017505030 A JP2017505030 A JP 2017505030A JP 2017514422 A JP2017514422 A JP 2017514422A
Authority
JP
Japan
Prior art keywords
rendering
channel
signal
type
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017505030A
Other languages
English (en)
Other versions
JP6383089B2 (ja
Inventor
ジョン,サン−ベ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017514422A publication Critical patent/JP2017514422A/ja
Application granted granted Critical
Publication of JP6383089B2 publication Critical patent/JP6383089B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

高度音響信号を含む多チャネルオーディオ信号を、水平面レイアウト環境で再生するための方法に係り、レンダリングタイプによってレンダリングパラメータを獲得し、ダウンミックスマトリックスを構成することにより、仮想レンダリング適用に不適な音響信号についても、効果的なレンダリング性能を得ることができる。該音響信号をレンダリングする方法は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階、及び少なくとも1つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングする段階を含み、パラメータは、マルチチャネル信号のビットストリームに含まれる。

Description

本発明は、音響信号をレンダリングする方法及びその装置に係り、さらに詳細には、マルチチャネル信号を、レンダリングタイプによってダウンミキシングするレンダリング方法及びその装置に関する。
映像処理技術及び音響処理技術の発達により、高画質・高音質のコンテンツが量産されている。高画質・高音質のコンテンツを要求したユーザは、臨場感ある映像及び音響を望み、それにより、立体映像及び立体音響に対する研究が活発に進められている。
立体音響とは、音の高低、音色だけではなく、水平及び垂直を含んだ三次元方向や距離感まで再生して臨場感を有するようにし、音源が発生させた空間に位置していない聴取者に、方向感、距離感及び空間感を知覚させる空間情報を付加した音響を意味する。
仮想レンダリング技術を利用すれば、22.2チャネルのようなチャネル信号を、5.1チャネルにレンダリングする場合、二次元出力チャネルを介して三次元立体音響を再生することができる。
仮想レンダリング技術を利用すれば、22.2チャネルのようなチャネル信号を、5.1チャネルにレンダリングする場合、二次元出力チャネルを介して三次元立体音響を再生することができるが、信号の特性によって、仮想レンダリング適用に不適な場合が発生する。
本発明が解決しようとする課題は、立体音響再生方法及びその装置に係り、高度音響信号を含む多チャネルオーディオ信号を、水平面レイアウト環境で再生するための方法に係り、レンダリングタイプによってレンダリングパラメータを獲得し、ダウンミックスマトリックスを構成することである。
前記目的を達成するための本発明の代表的な構成は、次の通りである。
前記技術的課題を解決するための本発明の一実施形態による音響信号をレンダリングする方法は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階と、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階と、少なくとも1つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングする段階と、を含み、該パラメータは、マルチチャネル信号のビットストリームに含まれる。
仮想レンダリング技術を利用すれば、22.2チャネルのようなチャネル信号を、5.1チャネルにレンダリングする場合、二次元出力チャネルを介して、三次元立体音響を再生することができるが、信号の特性によって、仮想レンダリング適用に不適な場合が発生する。
本発明は、高度音響信号を含む多チャネルオーディオ信号を、水平面レイアウト環境で再生するための方法に係り、レンダリングタイプによってレンダリングパラメータを獲得し、ダウンミックスマトリックスを構成することにより、仮想レンダリング適用に不適な音響信号についても、効果的なレンダリング性能を得ることができる。
一実施形態による立体音響再生装置の内部構造を示すブロック図である。 一実施形態による立体音響再生装置の構成のうち、デコーダ及び立体音響レンダラの構成を示すブロック図である。 一実施形態による、複数個の入力チャネルが複数個の出力チャネルにダウンミックスされる場合の各チャネルのレイアウトに係わる図面である。 一実施形態によるレンダラフォーマット変換器の主要構成部を示したブロック図である。 一実施形態による、レンダリングタイプ決定パラメータに基づいて、レンダリングタイプ及びダウンミックスマトリックスを選択する選択部の構成を示した図面である。 一実施形態によるレンダリングタイプ決定パラメータに基づいて、レンダリングタイプ構成を決定するシンタックス(syntax)を示す図面である。 一実施形態による、音響信号をレンダリングする方法のフローチャートである。 一実施形態によるレンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。 他の一実施形態による、レンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。
前記目的を達成するための本発明の代表的な構成は、次の通りである。
前記技術的課題を解決するための本発明の一実施形態による音響信号をレンダリングする方法は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階と、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階と、少なくとも1つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングする段階と、を含み、該パラメータは、マルチチャネル信号のビットストリームに含まれる。
本発明の他の実施形態によれば、マルチチャネル信号は、コアデコーダによって復号される信号である。
本発明のさらに他の実施形態によれば、レンダリングタイプを決定する段階は、マルチチャネル信号のフレームごとにレンダリングタイプを決定する。
本発明のさらに他の実施形態によれば、レンダリングする段階は、高さ入力チャネルに、決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックス(downmix matrix)を適用する。
本発明のさらに他の実施形態によれば、出力信号を仮想レンダリング出力するか否かということを判断する段階をさらに含み、判断結果出力信号が仮想レンダリング出力ではない場合、レンダリングタイプを決定する段階は、高度レンダリングを行わないようにレンダリングタイプを決定する。
本発明のさらに他の実施形態によれば、レンダリングする段階は、空間音色フィルタリングを行う段階を含み、決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングを行い、決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングを行う段階を含む。
本発明のさらに他の実施形態によれば、空間音色フィルタリングを行う段階は、頭部伝達関数(HRTF:head related transfer function)に基づいて音色を補正する。
本発明のさらに他の実施形態によれば、空間位置パンニングを行う段階は、マルチチャネル信号をパンニングしてオーバーヘッド音像を生成する。
本発明のさらに他の実施形態によれば、一般パンニングを行う段階は、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成する。
本発明のさらに他の実施形態によれば、該パラメータは、オーディオシーン(audio scene)の属性に基づいて決定される。
本発明のさらに他の実施形態によれば、オーディオシーンの属性は、入力音響信号のチャネル相関度(correlation)、及び音響信号の帯域幅のうち少なくとも一つを含む。
本発明のさらに他の実施形態によれば、該パラメータは、エンコーダで生成される。
前記技術的課題を解決するための本発明の一実施形態による音響信号をレンダリングする装置は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する受信部と、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する決定部と、少なくとも1つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングするレンダリング部と、を含み、該パラメータは、マルチチャネル信号のビットストリームに含まれる。
本発明の他の実施形態によれば、該装置は、コアデコーダをさらに含み、該マルチチャネル信号は、コアデコーダによって復号される。
本発明のさらに他の実施形態によれば、該決定部は、マルチチャネル信号のフレームごとにレンダリングタイプを決定する。
本発明のさらに他の実施形態によれば、該レンダリング部は、高さ入力チャネルに、決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックスを適用する。
本発明のさらに他の実施形態によれば、出力信号を仮想レンダリング出力するか否かということを判断する判断部をさらに含み、判断結果、出力信号を仮想レンダリング出力しない場合、該決定部は、高度レンダリングを行わないようにレンダリングタイプを決定する。
本発明のさらに他の実施形態によれば、レンダラは、空間音色フィルタリングを行い、決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングをさらに行い、決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングをさらに行う。
本発明のさらに他の実施形態によれば、空間音色フィルタリングは、HRTFに基づいて音色を補正する。
本発明のさらに他の実施形態によれば、空間位置パンニングは、マルチチャネル信号をパンニングしてオーバーヘッド音像を生成する。
本発明のさらに他の実施形態によれば、一般パンニングは、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成する。
本発明のさらに他の実施形態によれば、該パラメータは、オーディオシーンの属性に基づいて決定される。
本発明のさらに他の実施形態によれば、オーディオシーンの属性は、入力音響信号のチャネル相関度、及び音響信号の帯域幅のうち少なくとも一つを含む。
本発明のさらに他の実施形態によれば、該パラメータは、エンコーダで生成される。
一方、本発明の一実施形態によれば、前述の方法を実行するためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供する。
それ以外にも、本発明を具現するための他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムを記録するコンピュータ可読記録媒体がさらに提供される。
以下で説明する本発明に係わる詳細な説明は、本発明が実施される特定実施形態を例示として図示する添付図面を参照する。かような実施形態は、当業者が本発明の実施に十分なほど詳細に説明される。本発明の多様な実施形態は、互いに異なるが、相互排他的である必要はないということが理解されなければならない。
例えば、本明細書に記載されている特定の形状、構造及び特性は、本発明の精神及び範囲を外れずに、一実施形態から他の実施形態に変更されても具現される。また、それぞれの実施形態内の個別構成要素の位置または配置も、本発明の精神及び範囲を外れずに変更されるということが理解されなければならない。従って、後述する詳細な説明は、限定的な意味として行われるのではなく、本発明の範囲は、特許請求の範囲の請求項が請求する範囲、及びそれと均等な全ての範囲を包括するものであると受容されなければならない。
図面において、類似の参照符号は、多くの側面にわたって、同一であるか、あるいは類似した構成要素を示す。そして、図面において、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて、類似した部分については、類似した図面符号を付した。
以下では、本発明が属する技術分野で当業者において、本発明の実施が容易になるように、本発明の多くの実施形態について、添付された図面を参照し、詳細に説明することにする。しかし、本発明は、さまざまに異なる形態に具現され、ここで説明する実施形態に限定されるものではない。
明細書全体で、ある部分が他の部分と「連結」されているとするとき、それは、「直接連結」されている場合だけではなく、その中間に他の素子を挟み、「電気的に連結」されている場合も含む。また、ある部分がある構成要素を「含み」とするとき、それは、特別に反対になる記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含んでもよいということを意味する。
以下、添付された図面を参照し、本発明について詳細に説明する。
図1は、一実施による立体音響再生装置の内部構造を示すブロック図である。
一実施形態による立体音響再生装置100は、複数個の入力チャネルが再生される複数個の出力チャネルにミキシングされたマルチチャネル音響信号を出力することができる。このとき、出力チャネルの個数が入力チャネルの個数よりさらに少なければ、入力チャネルは、出力チャネル個数に合わせてダウンミキシングされる。
立体音響とは、音の高低、音色だけではなく、方向や距離感まで再生して臨場感を有するようにし、音源が発生させた空間に位置していない聴取者に、方向感、距離感及び空間感を知覚させる空間情報を付加した音響を意味する。
以下の説明において、音響信号の出力チャネルは、音響が出力されるスピーカの個数を意味する。出力チャネル数が多いほど、音響が出力されるスピーカの個数が多くなる。一実施形態による立体音響再生装置100は、入力チャネル数が多いマルチチャネル音響信号が、出力チャネル数が少ない環境で出力されて再生されるように、マルチチャネル音響入力信号を、再生される出力チャネルにレンダリングしてミキシングすることができる。このとき、マルチチャネル音響信号は、高度音響(elevated sound)を出力することができるチャネルを含んでもよい。
高度音響を出力することができるチャネルは、高度感を感じることができるように、聴取者の頭上に位置したスピーカを介して、音響信号を出力することができるチャネルを意味する。水平面チャネルは、聴取者と水平面に位置したスピーカを介して、音響信号を出力することができるチャネルを意味する。
前述の出力チャネル数が少ない環境は、高度音響を出力することができる出力チャネルを含まず、水平面上に配置されたスピーカを介して音響を出力することができる環境を意味する。
また、以下の説明において、水平面チャネル(horizontal channel)は、水平面上に配置されたスピーカを介して出力される音響信号を含むチャネルを意味する。オーバーヘッドチャネルは、水平面ではない高度上に配置され、高度音を出力することができるスピーカを介して出力される音響信号を含むチャネルを意味する。
図1を参照すれば、一実施形態による立体音響再生装置100は、オーディオコア110、レンダラ120、ミキサ130及び後処理部140を含んでもよい。
一実施形態による立体音響再生装置100は、マルチチャネル入力音響信号をレンダリングしてミキシングし、再生される出力チャネルに出力することができる。例えば、マルチチャネル入力音響信号は、22.2チャネル信号であり、再生される出力チャネルは、5.1チャネルまたは7.1チャネルでもある。立体音響再生装置100は、マルチチャネル入力音響信号の各チャネルを対応させる出力チャネルを決定することによってレンダリングを行い、再生されるチャネルと対応した各チャネルの信号を合わせて最終信号として出力することにより、レンダリングされた音響信号をミキシングすることができる。
エンコーディングされた音響信号は、オーディオコア110に、ビットストリーム形態で入力され、オーディオコア110は、音響信号がエンコーディングされた方式に適するデコーダツールを選択し、入力された音響信号をデコーディングする。オーディオコア110は、コアデコーダのような意味にも混用される。
レンダラ120は、マルチチャネル入力音響信号を、チャネル及び周波数によって、マルチチャネル出力チャネルにレンダリングすることができる。レンダラ120は、マルチチャネル音響信号に対して、オーバーヘッドチャネルと水平面チャネルとによる信号を、それぞれ3D(dimensional)レンダリング及び2D(dimensional)レンダリングすることができる。レンダラの構成、及び具体的レンダリング方法については、以下図2でさらに詳細に説明する。
ミキサ130は、レンダラ120によって水平チャネルと対応した各チャネルの信号を合わせ、最終信号として出力することができる。ミキサ130は、所定区間別に、各チャネルの信号をミキシングすることができる。例えば、ミキサ130は、1フレーム別に各チャネルの信号をミキシングすることができる。
一実施形態によるミキサ130は、再生される各チャネルにレンダリングされた信号のパワー値に基づいて、ミキシングすることができる。言い換えれば、ミキサ130は、再生される各チャネルにレンダリングされた信号のパワー値に基づいて、最終信号の振幅、または最終信号に適用されるゲイン(gain)を決定することができる。
後処理部140は、ミキサ130の出力信号を、各再生装置(スピーカまたはヘッドフォンなど)に合わせ、マルチバンド信号に対する動的範囲制御及びbinauralizingなどを行う。後処理部140で出力された出力音響信号は、スピーカなどの装置を介して出力され、出力音響信号は、各構成部の処理によって、2Dまたは3Dで再生される。
図1に図示された一実施形態の一立体音響再生装置100は、オーディオデコーダの構成を中心に図示されており、付随的な構成は省略されている。
図2は、一実施形態による立体音響再生装置の構成のうち、デコーダ及び立体音響レンダラの構成を示すブロック図である。図2を参照すれば、一実施形態による立体音響再生装置100は、デコーダ110及び立体音響レンダラ120の構成を中心に図示されており、それ以外の構成は省略されている。
立体音響再生装置に入力された音響信号は、エンコーディングされた信号であり、ビットストリームの形態で入力される。デコーダ110は、入力音響信号を、音響信号がエンコーディングされた方式に適するデコーダツールを選択し、入力された音響信号をデコーディングし、デコーディングされた音響信号を立体音響レンダラ120に伝達する。
高度レンダリングを行えば、水平面チャネルだけで構成された5.1チャネルレイアウトによっても、仮想の立体(3D)高度音像を得ることができる。かような高度レンダリングアルゴリズムは、空間音色フィルタリング過程と空間位置パンニング過程とを含む。
立体音響レンダラ120は、フィルタ係数とパンニング係数とを獲得して更新する初期化部121、及びフィルタリングとパンニングとを行うレンダリング部123から構成される。
レンダリング部123は、デコーダから伝達された音響信号に対して、フィルタリング及びパンニングを行う。空間音色フィルタリング1231は、音の位置に係わる情報を処理し、レンダリングされた音響信号が所望位置で再生されるようにし、空間位置パンニング1232は、音の音色に係わる情報を処理し、レンダリングされた音響信号が、所望位置に適する音色を有するようにする。
空間音色フィルタリング1231は、HRTF(head related transfer function、頭伝達関数)モデリングに基づいた音色を補正するように設計され、入力チャネルが出力チャネルに伝播される経路差を反映させる。例えば、1〜10kHzの周波数帯域信号については、エネルギーを増幅し、それ以外の周波数帯域については、エネルギーを低下させるように補正することにより、さらに自然な音色を有するようにすることができる。
空間位置パンニング1232は、マルチチャネルパンニングを介して、オーバーヘッド音像を提供するように設計される。それぞれの入力チャネルには、互いに異なるパンニング係数(ゲイン)が適用される。空間位置パンニングを行えば、オーバーヘッド音像を得ることができるが、チャネル間類似度が高くなり、全体オーディオシーン(scene)の相関度を上昇させる。相関度がない(highly uncorrelated)オーディオシーンに対して仮想レンダリングを行う場合、レンダリング品質が劣化される現象を防止するために、オーディオシーンの特性に基づいて、レンダリングタイプを決定するようにする。
または、音響信号の制作時、音響信号制作者(創作者)の意図によって、レンダリングタイプを決定することができる。かような場合、制作者が、音響信号に対して、手動(manual)で当該音響信号のレンダリングタイプに係わる情報を決定することができ、音響信号にレンダリングタイプを決定するパラメータを含めることができる。
例えば、エンコーダでエンコーディングされたデータフレームに、レンダリングタイプを決定するパラメータであるrendering3DTypeのような付加情報を生成し、デコーダに伝送する。デコーダにおいては、rendering3DType情報を確認し、rendering3DTypeが3Dレンダリングタイプを示るものであるならば、空間音色フィルタリング及び空間位置パンニングを行うようにし、2Dレンダリングタイプを示すものであるならば、空間音色フィルタリング及び一般パンニングを行うようにする。
このとき、一般パンニングは、入力音響信号の高度角情報は考慮せず、水平角情報に基づいて、マルチチャネル信号をパンニングする。かような一般パンニングを経た音響信号は、高度感を有する音像を提供しないので、水平面上の二次元音像がユーザに伝達される。
3Dレンダリングに適用される空間位置パンニングは、周波数別に互いに異なるパンニング係数を有することができる。
このとき、フィルタリングを行うためのフィルタ係数、及びパンニングを行うためのパンニング係数は、初期化部121から伝達される。初期化部121は、高度レンダリングパラメータ獲得部1211及び高度レンダリングパラメータ更新部1212から構成される。
高度レンダリングパラメータ獲得部1211は、出力チャネル、すなわち、ラウドスピーカの構成及び配置を利用して、高度レンダリングパラメータの初期値を獲得する。このとき、高度レンダリングパラメータの初期値は、標準レイアウトによる出力チャネルの構成、及び高度レンダリング設定による入力チャネルの構成に基づいて、高度レンダリングパラメータの初期値を算出するか、あるいは入力/出力チャネル間のマッピング関係によって、既保存の初期値を読み取る。高度レンダリングパラメータは、空間音色フィルタリング1231で利用するためのフィルタ係数、または空間位置パンニング1232で利用するためのパンニング係数を含んでもよい。
しかし、前述のように、高度レンダリングのための高度設定値が、入力チャネルの設定と偏差が存在することがある。かような場合、固定された高度設定値を利用すれば、本来の入力立体音響信号を、入力チャネルと構成が異なる出力チャネルを介して、さらに類似して立体的に再生する仮想レンダリングの目的を達成し難い。
一例として、高度感が過度に高い場合、音像が狭くて音質が劣化される現象が発生し、高度感が過度に低い場合、仮想レンダリングの効果を感じ難いという問題が発生する。従って、ユーザの設定によるか、あるいは入力チャネルに適する仮想レンダリング程度によって、高度感を調節することが必要である。
高度レンダリングパラメータ更新部1212は、高度レンダリングパラメータ獲得部1211で獲得した高度レンダリングパラメータの初期値を、入力チャネルの高度情報またはユーザ設定高度に基づいて、高度レンダリングパラメータを更新する。このとき、もし出力チャネルのスピーカレイアウトが、標準レイアウトと比較して偏差が存在するのであれば、それによる影響を補正するための過程が追加される。このときの出力チャネル偏差は、高度角差または方位角差による偏差情報を含んでもよい。
初期化部121で獲得及び更新された高度レンダリングパラメータを利用して、レンダリング部123において、フィルタリング及びパンニングを終えた出力音響信号は、各出力チャネルに対応するスピーカを介して再生される。
図3は、一実施形態による、複数個の入力チャネルが複数個の出力チャネルにダウンミックスされる場合の各チャネルのレイアウトに係わる図面である。
図3は、一実施形態による、複数個の入力チャネルが、複数個の出力チャネルにダウンミックスされる場合の各チャネルのレイアウトに係わる図面である。
三次元映像のように、実際と同一であるか、あるいはさらに誇張された現場感及び没入感を提供するために、三次元立体映像と共に、三次元立体音響を提供するための技術が開発されている。立体音響は、音響信号自体が音の高低及び空間感を有する音響を意味するものであり、かような立体音響を再生するためには、最小2個以上のラウドスピーカ、すなわち、出力チャネルが必要である。また、HRTFを利用するバイノーラル(binaural)立体音響を除いては、音の高低感、距離感及び空間感をさらに正確に再現するために、多数の出力チャネルを必要とする。
従って、2チャネル出力を有するステレオシステムに続き、5.1チャネルシステム、Auro 3Dシステム、Holman 10.2チャネルシステム、ETRI/Samsung 10.2チャネルシステム、NHK 22.2チャネルシステムなど多様なマルチチャネルシステムが提案されて開発されている。
図3は、22.2チャネルの立体音響信号を、5.1チャネルの出力システムで再生する場合について説明するための図面である。
5.1チャネルシステムは、5チャネルサラウンドマルチチャネルサウンドシステムの一般的な名称であり、家庭のホームシアター及び劇場用サウンドシステムで最も普遍的に普及されて使用されているシステムである。全ての5.1チャネルは、FL(front left)チャネル、C(center)チャネル、FR(front right)チャネル、SL(surround left)チャネル及びSR(surround right)チャネルを含む。図3から分かるように、5.1チャネルの出力は、いずれも同じ平面上に存在するために、物理的には、二次元システムに該当し、5.1チャネルシステムで三次元立体音響信号を再生するためには、再生される信号に立体感を付与するためのレンダリング過程を経ければならない。
5.1チャネルシステムは、映画だけではなく、DVD(digital versatile disc)映像、DVD音響、SACD(super audio compact disc)またはデジタル放送に至るまで多様な分野で広く使用されている。しかし、5.1チャネルシステムが、たとえステレオシステムに比べ、向上した空間感を提供するとしても、22.2チャネルのような多チャネルオーディオ表現方式より広い聴取空間の形成において、さまざまな制約がある。特に、仮想レンダリングを行う場合、スイートスポットが狭く形成され、一般レンダリングを行う場合、高度角(elevation angle)を有する垂直音像の提供が不可能であるために、劇場のように広い聴取空間には不適である。
NHKで提案した22.2チャネルシステムは、図3のように、3層の出力チャネルからなる。アッパレイヤ(upper layer)310は、VOG(voice of god)チャネル、T0チャネル、T180チャネル、TL45チャネル、TL90チャネル、TL135チャネル、TR45チャネル、TR90チャネル及びTR45チャネルを含む。このとき、各チャネル名称の最前のTというインデックスは、アッパレイヤを意味し、LまたはRというインデックスは、それぞれ左側または右側を意味し、後ろの数字は、中心チャネル(center channel)からの方位角(azimuth angle)を意味する。アッパレイヤは、またトップレイヤとも呼ばれる。
VOGチャネルは、聴取者の頭上に存在するチャネルであり、90°の高度角を有し、方位角はない。ただし、VOGチャネルは、位置が少しだけずれても、方位角を有し、高度角が90°ではない値を有することになるので、それ以上VOGチャネルではなくなる。
ミドルレイヤ(middle laye)320は、既存5.1チャネルのような平面であり、5.1チャネルの出力チャネル以外に、ML60チャネル、ML90チャネル、ML135チャネル、MR60チャネル、MR90チャネル及びMR135チャネルを含む。このとき、各チャネル名称の最前のMというインデックスは、ミドルレイヤを意味し、後ろの数字は、中心チャネルからの方位角を意味する。
ローレイヤ(low layer)330は、L0チャネル、LL45チャネル、LR45チャネルを含む。このとき、各チャネル名称の最前のLというインデックスは、ローレイヤを意味し、後ろの数字は中心チャネルからの方位角を意味する。
22.2チャネルにおいてミドルレイヤは、水平チャネル(horizontal channel)と呼び、方位角0°または方位角180°に該当するVOGチャネル、T0チャネル、T180チャネル、T180チャネル、M180チャネル、Lチャネル及びCチャネルは、垂直チャネル(vertical channel)と呼ぶ。
22.2チャネル入力信号を5.1チャネルシステムで再生する場合、最も一般的な方法は、ダウンミックス数式を利用して、チャネル間信号を分配することである。または、仮想の高度感を提供するレンダリングを行い、5.1チャネルシステムで高度感を有する音響信号を再生する。
図4は、一実施形態によるレンダラフォーマット変換器の主要構成部を示したブロック図である。
レンダラは、Nin個のチャネルを有するマルチチャネル入力信号を、Nout個のチャネルを有する再生フォーマットに変換するダウンミキサであり、フォーマット変換器とも呼ぶ。このとき、Nout<Ninである。図4は、レンダラの構成を、ダウンミックス観点で構成したフォーマット変換器の主要構成部を図示したブロック図である。
エンコーディングされた音響信号は、ビットストリームの形態で、コアデコーダ110に入力される。コアデコーダ110に入力された信号は、エンコーディング方式に適するデコーダツールによってデコーディングされて、フォーマット変換器125に入力される。
フォーマット変換器125は、2つのメインブロックから構成される。第1のものは、入力フォーマット及び出力フォーマットのような静的パラメータを担当する初期化アルゴリズムを遂行するダウンミックス構成部1251である。第2のものは、初期化アルゴリズムによって獲得されたダウンミックスパラメータに基づいて、ミキサ出力信号をダウンミックスするダウンミックス部1252である。
ダウンミックス構成部1251は、入力チャネル信号のレイアウトに該当するミキサ出力レイアウトと、出力チャネルのレイアウトに該当する再生レイアウトとに基づいて、最適化されたダウンミックスパラメータを生成する。ダウンミックスパラメータは、ダウンミックスマトリックスでもあり、与えられた入力フォーマットと出力チャネルとの可能な組み合わせによって決定される。
このとき、それぞれの入力チャネルに対して、心理音響を考慮し、マッピング規則リストのうち最も適するマッピング規則によって、出力ラウドスピーカ(出力チャネル)を選択するアルゴリズムが適用される。マッピング規則は、1つの入力チャネルを、1またはいくつもの出力ラウドスピーカチャネルにマッピングするようになっている。
入力チャネルは、1つの出力チャネルにマッピングされるか、あるいは2つの出力チャネルにパンニングされ、VOGチャネルのような場合には、いくつもの出力チャネルに分配される。または、周波数によって、互いに異なるパンニング係数を有する複数個の出力チャネルにパンニングされ、臨場感を有するようにレンダリング(immersive rendering)されもする。5.1チャネルのように、水平チャネルのみを有する出力チャネルである場合、出力信号が臨場感を有するためには、仮想の高度(高さ)チャネルを有さなければならないので、高度レンダリングが適用される。
それぞれの入力チャネルに対する最適のマッピングは、所望出力フォーマットにおいて、レンダリング可能な出力ラウドスピーカのリストによって選択されて生成されるマッピングパラメータは、入力チャネルに対するダウンミックスゲインだけではなく、イコライザ(音色フィルタ)係数を含んでもよい。
ダウンミックスパラメータを生成する過程では、出力チャネルが標準レイアウトから外れた場合、例えば、高度(elevation)偏差または方位(azimuth)偏差がある場合だけではなく、距離偏差がある場合、それを考慮し、ダウンミックスパラメータを更新したり修正したりする過程が追加される。
ダウンミックス部1252は、コアデコーダの出力信号に含まれたレンダリングタイプを決定するパラメータによってレンダリングモードを決定し、決定されたレンダリングモードによって、コアデコーダのミキサ出力信号を周波数領域でダウンミックスする。このとき、レンダリングタイプを決定するパラメータは、マルチチャネル信号を符号化するエンコーダで決定され、コアデコーダによって復号されるマルチチャネル信号に含まれる。
レンダリングタイプを決定するパラメータは、音響信号の各フレームごとに決定され、フレーム内の付加情報を表示するフィールドに保存されもする。レンダラでレンダリングすることができるレンダリングタイプの個数が制限的であるならば、レンダリングタイプを決定するパラメータは、少ないビット数でも可能であり、例えば、2つのレンダリングタイプを表示する場合であるならば、1ビットを有するフラグによっても構成される。
ダウンミックス部1252においては、周波数領域、ハイブリッドQMF(hybrid quadrature mirror filter)サブバンド領域で遂行され、コムフィルタ(comb filtering)、音色化(coloration)または信号変調(modulation)の欠陥によって発生する信号劣化を防止するために位相整列(phase alignment)及びエネルギー正規化を行う。
位相整列は、相関度があるが、位相が異なる入力信号を、ダウンミキシング前に位相を合わせる。位相整列過程は、関連チャネルのみを、関連時間・周波数タイルに対して整列し、入力信号の他の部分が変更されないように留意しなければならない。また、位相整列は、整列のために、位相を修正する間隔が早く変化するために、欠陥が発生しないように留意しなければならない。
位相整列過程を経れば、制限された周波数解像度のために発生するエネルギー正規化によっても補償することができない、狭いスペクトルノッチを避けることができ、出力信号の品質が向上する。また、エネルギー保存正規化において、信号を増幅させる必要がないために、変調欠陥を減らすことができる。
高度レンダリングの場合、高周波帯域の入力信号については、レンダリングされたマルチチャネル信号の正確な同期化(synchronization)のために位相整列を行わない。
ダウンミックス過程においてエネルギー正規化は、入力エネルギーを保存するために行われ、ダウンミックスマトリックス自体で、エネルギースケーリングを行う場合は該当しない。
図5は、一実施形態による、レンダリングタイプ決定パラメータに基づいて、レンダリングタイプ及びダウンミックスマトリックスを選択する選択部の構成を示したものである。
本発明の一実施形態によれば、レンダリングタイプを決定するパラメータに基づいて、レンダリングタイプを決定し、決定されたレンダリングタイプによってレンダリングを行う。レンダリングタイプを決定するパラメータが1ビットの大きさを有するrendering3DTypeというフラグであると仮定すれば、選択部は、rendering3DTypeが1(TRUE)であれば、3Dレンダリングを行い、rendering3DTypeが0(FALSE)であれば、2Dレンダリングを行うように動作し、rendering3DTypeの値によってスイッチングされる。
このとき、3Dレンダリングのためのダウンミックスマトリックスは、M_DMXが選択され、2Dレンダリングのためのダウンミックスマトリックスは、M_DMX2に選択される。それぞれのダウンミックスマトリックスM_DMX及びM_DMX2は、図2の初期化部121、または図4のダウンミックス構成部1251で決定される。M_DMXは、負ではない実数であるダウンミックス係数(ゲイン)を含む、空間高度レンダリングのための基本ダウンミックスマトリックスであり、M_DMXの大きさは、(NoutxNin)であり、このとき、Noutは、出力チャネルの個数であり、Ninは、入力チャネルの個数である。M_DMX2は、負ではない実数であるダウンミックス係数(ゲイン)を含む、音色(timbral)高度レンダリングのためのダウンミックスマトリックスであり、M_DMX2の大きさは、M_DMXと同様に(NoutxNin)である。
入力信号は、選択されたレンダリングタイプによって、各レンダリングタイプに適するダウンミックスマトリックスを利用して、ハイブリッドQMF周波数サブバンド別にダウンミックスされる。
図6は、一実施形態によるレンダリングタイプ決定パラメータに基づいて、レンダリングタイプ構成を決定するシンタックスを示している。
図5と同様に、レンダリングタイプを決定するパラメータは、1ビットの大きさを有するrendering3DTypeフラグであり、RenderingTypeConfig()は、フォーマット変換のための適切なレンダリングタイプを定義する。
rendering3DTypeは、エンコーダで生成される。このとき、rendering3DTypeは、音響信号のオーディオシーンに基づいて決定され、オーディオシーンが広帯域(wideband)や、雨の音や拍手音などのように、相関度が低い(highly decorrelated)信号であるならば、rendering3DTypeは、FALSEになり、2DレンダリングのためのダウンミックスマトリックスM_DMX2を利用してダウンミックスする。その以外の場合、一般的なオーディオシーンに対して、rendering3DTypeは、TRUEになり、3DレンダリングのためのダウンミックスマトリックスM_DMXを利用して、ダウンミックスする。
または、rendering3DTypeは、音響信号制作者(創作者)の意図によっても決定され、創作者が2Dレンダリングを行うように設定された音響信号(フレーム)については、2DレンダリングのためのダウンミックスマトリックスM_DMX2を利用してダウンミックスし、それ以外の場合、一般的なオーディオシーンに対して、rendering3DTypeは、TRUEになり、3DレンダリングのためのダウンミックスマトリックスM_DMXを利用してダウンミックスする。
このとき、3Dレンダリングを行う場合は、空間音色フィルタリングと空間位置パンニングとをいずれも行うが、2Dレンダリングを行う場合は、空間音色フィルタリングのみを行う。
図7は、一実施形態による音響信号をレンダリングする方法のフローチャートである。
コアデコーダ110で復号されたマルチチャネル信号が、フォーマット変換器125またはレンダラ120に入力されれば、入力チャネルと出力チャネルとの標準レイアウトに基づいて、レンダリングパラメータの初期値を獲得する(710)。このとき、獲得されるレンダリングパラメータの初期値は、レンダラ120でレンダリング可能なレンダリングタイプによってそれぞれ異なるように決定され、音響信号再生システムのROM(read only memory)のような不揮発性メモリに保存されている。
高度レンダリングパラメータの初期値は、標準レイアウトによる出力チャネルの構成及び高度レンダリング設定による入力チャネルの構成に基づいて、高度レンダリングパラメータの初期値を算出するか、あるいは入力/出力チャネル間のマッピング関係によって既保存の初期値を読み取る。高度レンダリングパラメータは、図2のフィルタリング部1251で利用するためのフィルタ係数、またはパンニング部1252で利用するためのパンニング係数を含んでもよい。
このとき、入出力チャネルのレイアウトがいずれも標準レイアウトと一致するのであるならば、710で獲得したレンダリングパラメータの初期値を利用して、レンダリングを行うことができる。しかし、レンダリングのための高度設定値が、入力チャネルの設定と偏差が存在するか、あるいはラウドスピーカが実際に設置されたレイアウトが、出力チャネルの標準レイアウトと偏差が存在する場合、710で獲得した初期値をそのままレンダリングに利用する場合、音像の歪曲、またはレンダリングされた信号が本来の位置ではないところに出力される現象が発生する。
従って、入出力チャネルの標準レイアウトと実際レイアウトとの偏差に基づいて、レンダリングパラメータを更新する(720)。このとき、更新されるレンダリングパラメータは、レンダラ120でレンダリング可能なレンダリングタイプによってそれぞれ異なるように決定される。
更新されたレンダリングパラメータは、それぞれのレンダリングタイプによって、ハイブリッドQMFサブバンド別に、NinxNoutの大きさを有するマトリックスの形態で示され、Ninは、入力チャネルの個数を意味し、Noutは、出力チャネルの個数を意味する。このとき、レンダリングパラメータを示すマトリックスをダウンミックスマトリックスと呼び、各レンダリングタイプによって、3Dレンダリングのためのダウンミックスマトリックスは、M_DMXであり、2Dレンダリングのためのダウンミックスマトリックスは、M_DMX2とする。
ダウンミックスマトリックスM_DMX及びM_DMX2が決定されれば、レンダリングタイプを決定するパラメータに基づいて、現在フレームに適するレンダリングタイプを決定する(730)。
レンダリングタイプを決定するパラメータは、コアデコーダに入力されるビットストリームに含まれ、エンコーダで音響信号をエンコーディングするときに生成し、ビットストリームに含めることができる。レンダリングタイプを決定するパラメータは、現在フレームのオーディオシーン特性によって決定されるが、音響信号に、拍手音や雨の音のようにトランジェント(transient)信号が多い場合は、瞬間的であって一時的な信号が多く、チャネル相関度が低く示される特性を有する。
チャネル間相関度が低い信号、または多数の入力チャネルに、トーナル(tonal)ではない広帯域(wideband)信号が存在するか、あるいは信号のレベルがチャネル別に類似した場合、または短区間のインパルス状が反復される場合は、1チャネルにいくつものチャネルの信号がダウンミックスされる場合であり、周波数相互干渉による相殺効果が発生し、音色が異なるphaseyness現象、及び1チャネルにトランジェントの個数が増加して白色化(whitening)される音色歪曲現象が発生する。
かような場合であるならば、、三次元レンダリングにおいて、空間高度レンダリング(spatial elevation rendering)を行うより、二次元レンダリングにおいて、音色高度レンダリング(timbral elevation rendering)を行うことが望ましい。
従って、オーディオシーンの特性を分析した結果、一般的な場合であるならば、レンダリングタイプを三次元レンダリングに決定し、オーディオシーンの特性が、広帯域信号が存在するか、あるいはチャネル間相関度が低い場合であるならば、レンダリングタイプを二次元レンダリングに決定することができる。
現在フレームに適するレンダリングタイプが決定されれば、決定されたレンダリングタイプによるレンダリングパラメータを獲得し(740)、獲得されたレンダリングパラメータに基づいて、現在フレームをレンダリングする(750)。
決定されたレンダリングタイプが3Dレンダリングであるならば、ダウンミックスマトリックスが保存された保存部から、3DレンダリングのためのダウンミックスマトリックスM_DMXを獲得することができ、ダウンミックスマトリックスM_DMXは、ハイブリッドQMFサブバンド別に、NinxNoutの大きさを有するマトリックスで、1つのハイブリッドQMFサブバンドに対するNin個入力チャネルの信号を、Nout個の出力チャネルにダウンミックスする。
決定されたレンダリングタイプが2Dレンダリングであるならば、ダウンミックスマトリックスが保存された保存部から、2DレンダリングのためのダウンミックスマトリックスM_DMX2を獲得することができ、ダウンミックスマトリックスM_DMX2は、ハイブリッドQMFサブバンド別に、NinxNoutの大きさを有するマトリックスで、1つのハイブリッドQMFサブバンドに対するNin個入力チャネルの信号を、Nout個出力チャネルにダウンミックスする。
現在フレームに適するレンダリングタイプを決定し(730)、レンダリングタイプによるレンダリングパラメータを獲得し(740)、獲得されたレンダリングパラメータに基づいて、現在フレームをレンダリングする(750)過程は、各フレームごとに遂行され、コアデコーダでデコーディングされたマルチチャネル信号の入力が終わるまで反復される。
図8は、一実施形態による、レンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。図8の実施形態では、入出力チャネルの関係から、高度レンダリング可能いかんを判断する(810)過程が追加されている。かような高度レンダリング可能いかんに係わる判断は、入力チャネル及び再生レイアウトによるダウンミックス規則の優先順位によって行われる。
入力チャネル及び出力チャネルのレイアウトによるダウンミックス規則によって、高度レンダリングを行うことができなければ、一般レンダリングを行うために、一般レンダリングのためのレンダリングパラメータを獲得する(850)。
段階810の判断結果、高度レンダリングが可能であるならば、高度レンダリングタイプパラメータからレンダリングタイプを決定する(820)。高度レンダリングタイプパラメータが2Dレンダリングを示しものであるならば、レンダリングタイプは、2Dレンダリングに決定され、2Dレンダリングを行うための2Dレンダリングパラメータを獲得する(830)。一方、高度レンダリングタイプパラメータが、3Dレンダリングを示るものであるならば、レンダリングタイプは、3Dレンダリングに決定され、3Dレンダリングを行うための3Dレンダリングパラメータを獲得する(840)。
かような過程によって獲得されたレンダリングパラメータは、1つの入力チャネルに対するレンダリングパラメータであり、各入力チャネルに対して同一過程を反復し、チャネル別レンダリングパラメータを獲得し、それを利用して、全体入力チャネルに対する全体ダウンミックスマトリックスを獲得する(860)。ダウンミックスマトリックスは、入力チャネル信号を出力チャネル信号にダウンミックスしてレンダリングするためのマトリックスであり、ハイブリッドQMFサブバンド別に、NinxNoutのサイズを有する。
ダウンミックスマトリックスが獲得されれば、獲得されたダウンミックスマトリックスを利用して、入力チャネル信号をダウンミキシングし(870)、レンダリングされた出力信号を生成する。
高度レンダリングタイプパラメータが、デコーディングされた信号のフレームごとに存在するものであるならば、図8に図示された810から870の過程は、各フレームごとに反復され、最後のフレームに対する処理が完了すれば、全体レンダリング過程が終わる。
このとき、一般レンダリングを行う場合は、全ての周波数帯域に対してアクティブダウンミックスを行うことがができ、高度レンダリングを行う場合は、低周波帯域に対してのみ位相整列を行い、高周波帯域については、位相整列を行わない。高周波帯域に対して位相整列を行わない理由は、先に言及したように、レンダリングされたマルチチャネル信号の正確な同期化のためである。
図9は、他の一実施形態による、レンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。図9の実施形態では、出力チャネルが仮想チャネルであるか否かということを判断する(910)過程が追加されている。出力チャネルが仮想チャネルではないならば、高度レンダリングまたは仮想レンダリングを行う必要がないので、有効なダウンミックス規則の優先順位によって、一般レンダリング(non-elevation rendering)を行うようになる。従って、一般レンダリングを行うために、一般レンダリングのためのレンダリングパラメータを獲得する(960)。
出力チャネルが仮想チャネルであるならば、入出力チャネルの関係から、高度レンダリング可能いかんを判断する(920)。かような高度レンダリング可能いかんに対する判断は、入力チャネル及び再生レイアウトによるダウンミックス規則の優先順位によって行われる。
入力チャネル及び出力チャネルのレイアウトによるダウンミックス規則によって、高度レンダリングを行うことができなければ、一般レンダリングを行うために、一般レンダリングのためのレンダリングパラメータを獲得する(960)。
段階920の判断結果、高度レンダリングが可能であるならば、高度レンダリングタイプパラメータから、レンダリングタイプを決定する(930)。高度レンダリングタイプパラメータが2Dレンダリングを示すものであるならば、レンダリングタイプは、2Dレンダリングに決定され、2Dレンダリングを行うための2Dレンダリングパラメータを獲得する(940)。一方、高度レンダリングタイプパラメータが、3Dレンダリングを示すものであるならば、レンダリングタイプは3Dレンダリングに決定され、3Dレンダリングを行うための3Dレンダリングパラメータを獲得する(950)。
2Dレンダリングは、音色高度レンダリング(timbral elevation rendering)という用語と混用され、3Dレンダリングは、空間高度レンダリング(spatial elevation rendering)という用語と混用される。
かような過程によって獲得されたレンダリングパラメータは、1つの入力チャネルに対するレンダリングパラメータであり、各入力チャネルに対して、同一過程を反復し、チャネル別レンダリングパラメータを獲得し、それを利用して、全体入力チャネルに対する全体ダウンミックスマトリックスを獲得する(970)。ダウンミックスマトリックスは、入力チャネル信号を出力チャネル信号にダウンミックスしてレンダリングするためのマトリックスであり、ハイブリッドQMFサブバンド別に、NinxNoutのサイズを有する。
ダウンミックスマトリックスが獲得されれば、獲得されたダウンミックスマトリックスを利用して、入力チャネル信号をダウンミキシングし(980)、レンダリングされた出力信号を生成する。
高度レンダリングタイプパラメータが、デコーディングされた信号のフレームごとに存在するものであるならば、図9に図示された910から980の過程は、各フレームごとに反復され、最後のフレームに対する処理が完了すれば、全体レンダリング過程が終わる。
以上で説明した本発明による実施形態は、多様なコンピュータ構成要素を介して実行されるプログラム命令語の形態で具現され、コンピュータ可読記録媒体に記録される。前記コンピュータ可読記録媒体は、プログラム命令語、データファイル、データ構造などを、単独でまたは組み合わせて含んでもよい。前記コンピュータ可読記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、あるいはコンピュータソフトウェア分野の当業者に公知されて使用可能なものでもある。コンピュータ可読記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体;CD(compact disc)−ROM及びDVDのような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM、RAM(random access memory)、フラッシュメモリのような、プログラム命令語を保存して実行するように特別に構成されたハードウェア装置;が含まれる。プログラム命令語の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードも含まれる。ハードウェア装置は、本発明による処理を行うために、1以上のソフトウェアモジュールに変更され、その逆も同じである。
以上、本発明について、具体的な構成要素のような特定事項、限定された実施形態、及び図面によって説明したが、それらは、本発明のさらに全般的な理解の一助とするために提供されたものであるのみ、本発明が、前記実施形態に限定されるものではなく、本発明が属する技術分野で当業者であるならば、かような記載から、多様な修正と変更よを図ることができるであろう。
従って、本発明の思想は、前述の実施形態に限って決められるものではなく、特許請求の範囲だけではなく、該特許請求の範囲と均等であるか、あるいはそれらから等価的に変更された全ての範囲は、本発明の思想の範疇に属するとするのである。

Claims (25)

  1. 音響信号をレンダリングする方法において、
    複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階と、
    前記マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階と、
    少なくとも1つの高さ入力チャネルを、前記決定されたレンダリングタイプによってレンダリングする段階と、を含み、
    前記パラメータは、前記マルチチャネル信号のビットストリームに含まれる音響信号をレンダリングする方法。
  2. 前記マルチチャネル信号は、コアデコーダによって復号される信号であることを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  3. 前記レンダリングタイプを決定する段階は、
    前記マルチチャネル信号のフレームごとにレンダリングタイプを決定することを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  4. 前記レンダリングする段階は、
    高さ入力チャネルに、前記決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックスを適用することを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  5. 出力信号を仮想レンダリング出力するか否かということを判断する段階をさらに含み、
    前記判断結果、出力信号が仮想レンダリング出力ではない場合、前記レンダリングタイプを決定する段階は、高度レンダリングを行わないようにレンダリングタイプを決定することを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  6. 前記レンダリングする段階は、
    空間音色フィルタリングを行う段階を含み、
    前記決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングを行い、
    前記決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングを行う段階をさらに含むことを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  7. 前記空間音色フィルタリングを行う段階は、
    HRTF(head related transfer function)に基づいて音色を補正することを特徴とする請求項6に記載の音響信号をレンダリングする方法。
  8. 前記空間位置パンニングを行う段階は、
    前記マルチチャネル信号をパンニングしてオーバーヘッド音像を生成することを特徴とする請求項6に記載の音響信号をレンダリングする方法。
  9. 前記一般パンニングを行う段階は、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成することを特徴とする請求項6に記載の音響信号をレンダリングする方法。
  10. 前記パラメータは、オーディオシーンの属性に基づいて決定されることを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  11. 前記オーディオシーンの属性は、入力音響信号のチャネル相関度、及び音響信号の帯域幅のうち少なくとも一つを含むことを特徴とする請求項10に記載の音響信号をレンダリングする方法。
  12. 前記パラメータは、エンコーダで生成されることを特徴とする請求項1に記載の音響信号をレンダリングする方法。
  13. 音響信号をレンダリングする装置において、
    複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する受信部と、
    前記マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する決定部と、
    少なくとも1つの高さ入力チャネルを、前記決定されたレンダリングタイプによってレンダリングするレンダリング部と、を含み、
    前記パラメータは、前記マルチチャネル信号のビットストリームに含まれる音響信号をレンダリングする装置。
  14. 前記装置は、コアデコーダをさらに含み、
    前記マルチチャネル信号は、前記コアデコーダによって復号される信号であることを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  15. 前記決定部は、
    前記マルチチャネル信号のフレームごとにレンダリングタイプを決定することを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  16. 前記レンダリング部は、
    高さ入力チャネルに、前記決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックスを適用することを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  17. 出力信号を仮想レンダリング出力するか否かということを判断する判断部をさらに含み、
    前記判断結果、出力信号を仮想レンダリング出力しない場合、前記決定部は、高度レンダリングを行わないようにレンダリングタイプを決定することを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  18. 前記レンダラは、
    空間音色フィルタリングを行い、
    前記決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングをさらに行い、
    前記決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングをさらに行うことを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  19. 前記空間音色フィルタリングは、
    HRTF(head related transfer function)に基づいて音色を補正することを特徴とする請求項18に記載の音響信号をレンダリングする方法。
  20. 前記空間位置パンニングは、
    前記マルチチャネル信号をパンニングしてオーバーヘッド音像を生成することを特徴とする請求項18に記載の音響信号をレンダリングする装置。
  21. 前記一般パンニングは、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成することを特徴とする請求項18に記載の音響信号をレンダリングする装置。
  22. 前記パラメータは、オーディオシーンの属性に基づいて決定されることを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  23. 前記オーディオシーンの属性は、入力音響信号のチャネル相関度、及び音響信号の帯域幅のうち少なくとも一つを含むことを特徴とする請求項22に記載の音響信号をレンダリングする装置。
  24. 前記パラメータは、エンコーダで生成されることを特徴とする請求項13に記載の音響信号をレンダリングする装置。
  25. 請求項1ないし12のうちいずれか1項に記載の方法を実行するためのコンピュータプログラムを記録するコンピュータ可読記録媒体。
JP2017505030A 2014-04-11 2015-04-13 音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体 Active JP6383089B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461978279P 2014-04-11 2014-04-11
US61/978,279 2014-04-11
PCT/KR2015/003680 WO2015156654A1 (ko) 2014-04-11 2015-04-13 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018146255A Division JP6674981B2 (ja) 2014-04-11 2018-08-02 音響信号のレンダリング方法、装置及び記録媒体

Publications (2)

Publication Number Publication Date
JP2017514422A true JP2017514422A (ja) 2017-06-01
JP6383089B2 JP6383089B2 (ja) 2018-08-29

Family

ID=54288140

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017505030A Active JP6383089B2 (ja) 2014-04-11 2015-04-13 音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体
JP2018146255A Active JP6674981B2 (ja) 2014-04-11 2018-08-02 音響信号のレンダリング方法、装置及び記録媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018146255A Active JP6674981B2 (ja) 2014-04-11 2018-08-02 音響信号のレンダリング方法、装置及び記録媒体

Country Status (11)

Country Link
US (4) US10674299B2 (ja)
EP (1) EP3131313A4 (ja)
JP (2) JP6383089B2 (ja)
KR (4) KR102258784B1 (ja)
CN (2) CN110610712B (ja)
AU (2) AU2015244473B2 (ja)
BR (1) BR112016023716B1 (ja)
CA (2) CA2945280C (ja)
MX (1) MX357942B (ja)
RU (3) RU2646320C1 (ja)
WO (1) WO2015156654A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI673707B (zh) * 2013-07-19 2019-10-01 瑞典商杜比國際公司 將以L<sub>1</sub>個頻道為基礎之輸入聲音訊號產生至L<sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於L<sub>1</sub>個聲音頻道至L<sub>2</sub>個揚聲器頻道
CN107925814B (zh) * 2015-10-14 2020-11-06 华为技术有限公司 生成提升声音印象的方法和设备
EP3424403B1 (en) * 2016-03-03 2024-04-24 Sony Group Corporation Medical image processing device, system, method, and program
US10327091B2 (en) * 2016-11-12 2019-06-18 Ryan Ingebritsen Systems, devices, and methods for reconfiguring and routing a multichannel audio file
US10979844B2 (en) * 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US10939222B2 (en) 2017-08-10 2021-03-02 Lg Electronics Inc. Three-dimensional audio playing method and playing apparatus
EP3499917A1 (en) * 2017-12-18 2019-06-19 Nokia Technologies Oy Enabling rendering, for consumption by a user, of spatial audio content
WO2020257331A1 (en) * 2019-06-20 2020-12-24 Dolby Laboratories Licensing Corporation Rendering of an m-channel input on s speakers (s<m)
GB201909133D0 (en) * 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
KR20210072388A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
MX2022011151A (es) * 2020-03-13 2022-11-14 Fraunhofer Ges Forschung Aparato y metodo para renderizar una escena de sonido usando rutas de difraccion intermedias validas.
US11576005B1 (en) * 2021-07-30 2023-02-07 Meta Platforms Technologies, Llc Time-varying always-on compensation for tonally balanced 3D-audio rendering

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007533213A (ja) * 2004-04-16 2007-11-15 スマート・インターネット・テクノロジー・シーアールシー・ピーティーワイ・リミテッド オーディオ・シーンを生成する際に使用する装置及び方法
US20120033816A1 (en) * 2010-08-06 2012-02-09 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
JP2012513138A (ja) * 2008-12-19 2012-06-07 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
JP2014520491A (ja) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239209B2 (en) 2006-01-19 2012-08-07 Lg Electronics Inc. Method and apparatus for decoding an audio signal using a rendering parameter
DE102006053919A1 (de) * 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
RU2406166C2 (ru) 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
US20080234244A1 (en) 2007-03-19 2008-09-25 Wei Dong Xie Cucurbitacin b and uses thereof
US8639498B2 (en) 2007-03-30 2014-01-28 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
AU2008243406B2 (en) 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
JP2011066868A (ja) 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
KR20120004909A (ko) 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
EP2609759B1 (en) * 2010-08-27 2022-05-18 Sennheiser Electronic GmbH & Co. KG Method and device for enhanced sound field reproduction of spatially encoded audio input signals
WO2012088336A2 (en) * 2010-12-22 2012-06-28 Genaudio, Inc. Audio spatialization and environment simulation
KR102374897B1 (ko) 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
US9754595B2 (en) * 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
WO2013103256A1 (ko) * 2012-01-05 2013-07-11 삼성전자 주식회사 다채널 음향 신호의 정위 방법 및 장치
EP2645749B1 (en) 2012-03-30 2020-02-19 Samsung Electronics Co., Ltd. Audio apparatus and method of converting audio signal thereof
AU2013284705B2 (en) 2012-07-02 2018-11-29 Sony Corporation Decoding device and method, encoding device and method, and program
CN103748629B (zh) 2012-07-02 2017-04-05 索尼公司 解码装置和方法、编码装置和方法以及程序
EP2875511B1 (en) * 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
US9826328B2 (en) 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
EP2981101B1 (en) 2013-03-29 2019-08-14 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
KR102443054B1 (ko) 2014-03-24 2022-09-14 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007533213A (ja) * 2004-04-16 2007-11-15 スマート・インターネット・テクノロジー・シーアールシー・ピーティーワイ・リミテッド オーディオ・シーンを生成する際に使用する装置及び方法
JP2012513138A (ja) * 2008-12-19 2012-06-07 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
US20120033816A1 (en) * 2010-08-06 2012-02-09 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
JP2014520491A (ja) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
KR20160145646A (ko) 2016-12-20
KR20220062131A (ko) 2022-05-13
RU2698775C1 (ru) 2019-08-29
US20200252736A1 (en) 2020-08-06
AU2018208751B2 (en) 2019-11-28
WO2015156654A1 (ko) 2015-10-15
MX357942B (es) 2018-07-31
US11245998B2 (en) 2022-02-08
CN110610712B (zh) 2023-08-01
RU2676415C1 (ru) 2018-12-28
US20220132259A1 (en) 2022-04-28
AU2018208751A1 (en) 2018-08-16
US11785407B2 (en) 2023-10-10
KR20210114558A (ko) 2021-09-23
KR102392773B1 (ko) 2022-04-29
JP6383089B2 (ja) 2018-08-29
AU2015244473A1 (en) 2016-11-10
BR112016023716B1 (pt) 2023-04-18
EP3131313A4 (en) 2017-12-13
US20170034639A1 (en) 2017-02-02
KR102302672B1 (ko) 2021-09-15
US10674299B2 (en) 2020-06-02
KR20210064421A (ko) 2021-06-02
KR102258784B1 (ko) 2021-05-31
CA3183535A1 (en) 2015-10-15
MX2016013352A (es) 2017-01-26
CN106664500A (zh) 2017-05-10
JP6674981B2 (ja) 2020-04-01
RU2646320C1 (ru) 2018-03-02
CN110610712A (zh) 2019-12-24
JP2018201225A (ja) 2018-12-20
KR102574478B1 (ko) 2023-09-04
US20210120354A1 (en) 2021-04-22
CA2945280C (en) 2023-03-07
CN106664500B (zh) 2019-11-01
CA2945280A1 (en) 2015-10-15
US10873822B2 (en) 2020-12-22
AU2015244473B2 (en) 2018-05-10
BR112016023716A2 (pt) 2017-08-15
EP3131313A1 (en) 2017-02-15

Similar Documents

Publication Publication Date Title
JP6383089B2 (ja) 音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体
KR102529122B1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
AU2018204427C1 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
JP2019033506A (ja) 音響信号のレンダリング方法、該装置、及びコンピュータ可読記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180802

R150 Certificate of patent or registration of utility model

Ref document number: 6383089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250