JP7383685B2 - バイノーラル・ダイアログ向上 - Google Patents

バイノーラル・ダイアログ向上 Download PDF

Info

Publication number
JP7383685B2
JP7383685B2 JP2021205176A JP2021205176A JP7383685B2 JP 7383685 B2 JP7383685 B2 JP 7383685B2 JP 2021205176 A JP2021205176 A JP 2021205176A JP 2021205176 A JP2021205176 A JP 2021205176A JP 7383685 B2 JP7383685 B2 JP 7383685B2
Authority
JP
Japan
Prior art keywords
presentation
dialog
audio signal
audio
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021205176A
Other languages
English (en)
Other versions
JP2022031955A (ja
Inventor
ジョナス サミュエルソン,レイフ
ジェローン ブリーバート,ディルク
マシュー クーパー,デイヴィッド
コッペンス,イェルーン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022031955A publication Critical patent/JP2022031955A/ja
Priority to JP2023148875A priority Critical patent/JP2023166560A/ja
Application granted granted Critical
Publication of JP7383685B2 publication Critical patent/JP7383685B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Description

関連出願への相互参照
本願は2016年1月29日に出願された米国仮特許出願第62/288,590号および2016年1月29日に出願された欧州特許出願第16153468.0号の優先権を主張するものである。両出願の内容はここに参照によってその全体において組み込まれる。
発明の分野
本発明は、オーディオ信号処理の分野に関し、特に時に没入的オーディオ・コンテンツと称される立体音響化コンポーネントをもつオーディオ信号について、ダイアログ・コンポーネントの効率的な推定のための方法およびシステムを開示する。
本明細書を通じて背景技術のいかなる議論も、いかなる仕方でも、そのような技術が当分野において広く知られているまたは技術常識の一部をなすことの自認と考えられるべきではない。
オーディオのコンテンツ生成、符号化、頒布および再生は、伝統的にはチャネル・ベースのフォーマットで実行される。すなわち、コンテンツ・エコシステムを通じて一つの特定の目標再生システムが構想されている。そのような目標再生システム・オーディオ・フォーマットの例はモノ、ステレオ、5.1、7.1などであり、これらのフォーマットのことを、もとのコンテンツの異なる呈示(presentation)と称する。上記の呈示は典型的にはラウドスピーカーを通じて再生されるが、注目すべき例外はステレオ呈示であり、これはヘッドフォンを通じて直接再生されることも多い。
一つの具体的な呈示は、典型的にはヘッドフォンでの再生を目標にする、バイノーラル呈示である。バイノーラル呈示の特徴は、二チャネル信号であって、各信号がそれぞれ左および右の鼓膜でまたは鼓膜近くで知覚されるコンテンツを表わすという点である。バイノーラル呈示は、ラウドスピーカーを通じて直接再生されることができるが、好ましくは、バイノーラル呈示は、クロストーク打ち消し技法を使ってラウドスピーカーを通じた再生に好適な呈示に変換される。
種々の構成、たとえばステレオ、5.1、7.1におけるラウドスピーカーおよびヘッドフォンのような種々のオーディオ再生システムを上記で紹介した。上記の例から、もとのコンテンツの呈示は自然な、意図される、関連するオーディオ再生システムをもつが、もちろん、異なるオーディオ再生システムで再生されることもできることが理解される。
コンテンツが意図されたものとは異なる再生システムで再生される場合、ダウンミックス〔下方混合〕またはアップミックス〔上方混合〕・プロセスが適用されることができる。たとえば、5.1コンテンツは、特定のダウンミックスの式を用いることによって、ステレオ再生システムで再生できる。もう一つの例は7.1スピーカー・セットアップでのステレオ・エンコードされたコンテンツの再生であり、これはいわゆるアップミックス・プロセスを含むことがあり、アップミックス・プロセスはステレオ信号に存在している情報によって案内されるまたはされないことができる。アップミックスできる一つのシステムは、ドルビー・ラボラトリーズ社からのDolby Pro Logicである(Roger Dressler、"Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com)。
代替的なオーディオ・フォーマット・システムは、Dolby Atmosシステムによって提供されるようなオーディオ・オブジェクト・フォーマットである。この型のフォーマットでは、オブジェクトまたはコンポーネントが聴取者のまわりの特定の位置をもつものとして定義される。該位置は時間変化してもよい。このフォーマットのオーディオ・コンテンツは時に、没入的オーディオ・コンテンツ(immersive audio content)と称される。本願のコンテキストの範囲内では、オーディオ・オブジェクト・フォーマットは上記のような呈示とは考えられず、むしろ、エンコーダにおいて一つまたは複数の呈示にレンダリングされるもとのコンテンツのフォーマットと考えられることを注意しておく。レンダリング後に、該呈示はエンコードされ、デコーダに伝送される。
マルチチャネルおよびオブジェクト・ベースのコンテンツが上述したようなバイノーラル呈示に変換されるとき、特定の諸位置におけるラウドスピーカーおよびオブジェクトからなる音響シーンは、頭部インパルス応答(HRIR: head-related impulse response)または両耳室内インパルス応答(BRIR: binaural room impulse response)によってシミュレートされる。これらは、それぞれ無響のまたは残響のある(シミュレートされた)環境における各ラウドスピーカー/オブジェクトから鼓膜までの音響経路をシミュレートする。特に、オーディオ信号はHRIRまたはBRIRと畳み込みされて、両耳間レベル差(ILD)、両耳間時間差(ITD)およびスペクトル手がかりを復元することができ、これらが聴取者が個々の各ラウドスピーカー/オブジェクトの位置を判別することを許容する。音響環境(残響)のシミュレーションは、知覚される距離を達成する助けにもなる。図1は、コンテンツ記憶部12から読まれる二つのオブジェクトまたはチャネル信号xi 10、11を、四つのHRIR、たとえば14による処理のためにレンダリングするための処理フローの概略的な全体像を示している。HRIR出力はその後、それぞれのチャネル信号について加算15、16され、ヘッドフォン18を介した聴取者への再生のためのヘッドフォン・スピーカー出力を生成する。HRIRの基本原理はたとえば、非特許文献1で説明されている。
Wightman, Frederic L., and Doris J. Kistler. "Sound localization." Human psychophysics. Springer New York, 1993. 155-192 HRIR/BRIR畳み込み手法にはいくつかの欠点が伴う。その一つは、ヘッドフォン再生のために必要とされるかなりの量の畳み込み処理である。HRIRまたはBRIR畳み込みは、すべての入力オブジェクトまたはチャネルについて別個に適用される必要があり、よって計算量は典型的にはチャネルまたはオブジェクトの数とともに線形に増大する。ヘッドフォンはしばしばバッテリー駆動のポータブル装置との関連で使われるので、高い計算量は、バッテリー寿命をかなり短くしうるので、望ましくない。さらに、たとえば同時にアクティブな100を超えるオブジェクトを含みうるオブジェクト・ベースのオーディオ・コンテンツの導入で、HRIR畳み込みの計算量は、伝統的なチャネル・ベースのコンテンツよりも実質的に高くなることがある。
この目的のため、2015年8月25日に出願された、同時係属中の未公開の米国仮特許出願第62/209,735号は、ヘッドフォンのための没入的オーディオを効率的に伝送およびデコードするために使用できる呈示変換のためのデュアルエンドの手法を記載している。すべてのオブジェクトのレンダリングをデコーダのみに頼るのではなく、レンダリング・プロセスをエンコーダとデコーダの間で分割することによって、符号化効率およびデコード計算量削減が達成される。
生成の際に特定の空間位置に関連付けられるコンテンツの一部は、オーディオ・コンポーネントと称される。空間位置は、空間内の点または分散された位置であることができる。オーディオ・コンポーネントは、サウンド・アーチストがサウンドトラック中にミキシングする、すなわち空間的に位置決めする個々のオーディオ源すべてと考えることができる。典型的には、内容的な意味(たとえばダイアログ)が関心対象のコンポーネントに割り当てられ、よって、処理(たとえばダイアログ向上)の目標が定義される。コンテンツ生成の間に生成されるオーディオ・コンポーネントは典型的には、もとのコンテンツから種々の呈示まで、処理チェーンを通じて存在していることを注意しておく。たとえば、オブジェクト・フォーマットでは、関連付けられた空間位置をもつダイアログ・オブジェクトがあることがある。ステレオ呈示では、水平面内に空間的に位置されたダイアログ・コンポーネントがあることがある。
いくつかの応用では、オーディオ信号中のダイアログ・コンポーネントを抽出することが望ましい。たとえばそのようなコンポーネントを強調または増幅するためである。ダイアログ向上(DE: dialogue enhancement)の目標は、コンテンツのうち、発話と背景オーディオの混合を含む発話部分を修正して、発話がエンドユーザーにとって、より聞き取りやすくなるおよび/またはより疲れにくくなるようにすることであってもよい。DEのもう一つの用途は、たとえばエンドユーザーによってわずらわしいと知覚されるダイアログを減衰させることである。DE方法には、エンコーダ側およびデコーダ側という二つの基本的なクラスがある。デコーダ側DE(シングルエンドと呼ばれる)は、向上されていないオーディオを再構成するデコードされたパラメータおよび信号のみに対して作用する。すなわち、ビットストリームにはDEのための専用のサイド情報は存在しない。エンコーダ側DE(デュアルエンドと呼ばれる)では、デコーダにおいてDEを行なうために使用できる専用のサイド情報がエンコーダにおいて計算されて、ビットストリームに挿入される。
図2は、通常のステレオ例におけるデュアルエンド・ダイアログ向上の例を示している。ここで、デコーダ24においてデコードされた非向上ステレオ信号23からダイアログ22を抽出できるようにする専用パラメータ21が、エンコーダ20において計算される。抽出されたダイアログは(部分的にはエンドユーザーによって制御される量だけ)レベル修正、たとえばブースト25され、非向上出力23に加えられて、最終的な出力26を形成する。専用パラメータ21は、非向上オーディオ27から盲目的に抽出されることができ、あるいはパラメータ計算において、別個に提供されるダイアログ信号28を活用することができる。
もう一つの手法は特許文献1に記載されている。ここで、デコーダへのビットストリームは、オブジェクト・ダウンミックス信号(たとえばステレオ呈示)、オーディオ・オブジェクトの再構成を可能にするオブジェクト・パラメータおよび再構成されたオーディオ・オブジェクトの操作を許容するオブジェクト・ベースのメタデータを含んでいる。特許文献1の図10に示されるように、操作は、発話に関係したオブジェクトの増幅を含んでいてもよい。このように、この手法は、デコーダ側におけるもとのオーディオ・オブジェクトの再構成を必要とするが、これは典型的には計算的に強い要求である。
米国特許第8,315,396号 バイノーラル・コンテキストでも効率的にダイアログ推定を提供することが一般に望まれている。
バイノーラル・コンテキストにおいて、すなわち、ダイアログ・コンポーネント(単数または複数)が抽出されるもとになるオーディオ呈示または抽出されたダイアログが加えられるオーディオ呈示の少なくとも一方が(残響のあるまたは無響の)バイノーラル表現であるときに、効率的なダイアログ向上を提供することが本発明の目的である。
本発明の第一の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法が提供される。各コンポーネントは空間位置に関連付けられており、本方法は、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を提供し、第二のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第二のオーディオ信号呈示を提供し、第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用し、ダイアログ・コンポーネントのダイアログ呈示を形成し、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、第一および第二のオーディオ信号呈示の少なくとも一方はバイノーラル・オーディオ信号呈示である。
本発明の第二の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法が提供される。各コンポーネントは空間位置に関連付けられており、本方法は、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合を受領し、第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成し、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、第一のオーディオ信号呈示および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。
本発明の第三の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法が提供される。各コンポーネントは空間位置に関連付けられており、本方法は、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合を受領し、第二のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し、ダイアログ推定パラメータの集合を第二のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成し、ダイアログ呈示を第二のオーディオ信号呈示と加算して、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、第一のオーディオ信号呈示および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。
本発明の第四の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダが提供される。各コンポーネントは空間位置に関連付けられており、本デコーダは、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領してデコードするコア・デコーダと、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し、第一および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。
本発明の第五の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダが提供される。各コンポーネントは空間位置に関連付けられており、本デコーダは、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと、ダイアログ推定パラメータの集合を第一のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と、ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し、第一のオーディオ信号呈示および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である。
本発明の第六の側面によれば、一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダが提供される。各コンポーネントは空間位置に関連付けられており、本デコーダは、第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと、呈示変換パラメータの集合を第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと、ダイアログ推定パラメータの集合を第二のオーディオ信号呈示に適用してダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と、ダイアログ呈示を第二のオーディオ信号呈示と加算して、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する加算ブロックとを有し、第一のオーディオ信号呈示および第二のオーディオ信号呈示のうちの一つがバイノーラル・オーディオ信号呈示である。
本発明は、専用のパラメータ集合が、一つのオーディオ信号呈示からダイアログ呈示を抽出する効率的な仕方を提供しうるという洞察に基づいている。抽出されたダイアログ呈示はその後、別のオーディオ信号呈示と組み合わされてもよい。ここで、それらの呈示の少なくとも一方はバイノーラル呈示である。本発明によれば、ダイアログを向上させるためにもとのオーディオ・オブジェクトを再構成する必要がない。その代わりに、オーディオ・オブジェクトの呈示、たとえばバイノーラル呈示、ステレオ呈示などに対して直接、専用のパラメータが適用される。本発明概念は、それぞれ個別的な利点をもつ多様な個別的実施形態を可能にする。
ここでの「ダイアログ向上」という表現は、ダイアログ・コンポーネントを増幅またはブーストすることに制約されず、むしろ、選択されたダイアログ・コンポーネントの減衰にも関係しうることを注意しておく。よって、一般に、「ダイアログ向上」という表現は、オーディオ・コンテンツの一つまたは複数のダイアログに関係したコンポーネントのレベル修正を指す。レベル修正の利得因子Gは、ダイアログを減衰させるために0より小さくても、あるいはダイアログを強調するために0より大きくてもよい。
いくつかの実施形態では、第一および第二の呈示はいずれも(残響のあるまたは無響の)バイノーラル呈示である。一方のみがバイノーラルである場合、他方の呈示はステレオまたはサラウンド・オーディオ信号呈示であってもよい。
異なる呈示の場合、ダイアログ呈示が第二のオーディオ信号呈示に対応するよう、ダイアログ推定パラメータは呈示変換をも実行するよう構成されてもよい。
本発明は、有利には、いわゆるサイマルキャスト・システムの特定の型で実装されてもよく、エンコードされたビットストリームは、第一のオーディオ信号呈示を第二のオーディオ信号呈示に変換するのに好適な変換パラメータの集合をも含む。
本発明の実施形態について、これから単に例として、付属の図面を参照して記述する。
二つの音源またはオブジェクトについてのHRIR畳み込みプロセスの概略的な全体像を示す図である。各チャネルまたはオブジェクトは一対のHRIR/BRIRによって処理される。 ステレオ・コンテキストにおけるダイアログ向上を概略的に示す図である。 本発明に基づくダイアログ向上の原理を示す概略的なブロック図である。 本発明のある実施形態に基づく、単一呈示ダイアログ向上の概略的なブロック図である。 本発明のさらなる実施形態に基づく、二呈示ダイアログ向上の概略的なブロック図である。 本発明のさらなる実施形態に基づく、図5におけるバイノーラル・ダイアログ推定器の概略的なブロック図である。 本発明のある実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。 本発明のもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。 a、bは、本発明のさらにもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。 本発明のさらにもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。 本発明のさらにもう一つの実施形態に基づく、ダイアログ向上を実装するサイマルキャスト・デコーダの概略的なブロック図である。 本発明のさらにもう一つの実施形態を示す概略的なブロック図である。
下記で開示されるシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、下記の記述において「段」と称されるタスクの分割は必ずしも物理的なユニットへの分割に対応するものではない。逆に、一つの物理的コンポーネントが複数の機能を有してもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサもしくはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとして実装されてもよく、あるいは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータといった情報の記憶のための任意の方法または技術で実装された、揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは他の任意の媒体であって所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができるものを含む。さらに、当業者には、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことはよく知られている。
本発明の実施形態を実装するさまざまな仕方が、図3~図6を参照して論じられる。これらすべての実施形態は概括的には、一つまたは複数のオーディオ・コンポーネントをもつ入力オーディオ信号にダイアログ向上を適用するためのシステムおよび方法に関する。各コンポーネントは空間位置に関連付けられている。示される諸ブロックは典型的にはデコーダにおいて実装される。
呈示される実施形態では、入力信号は好ましくは、たとえばフィルタバンク、たとえば直交ミラー・フィルタ(QMF)、離散フーリエ変換(DFT)、離散コサイン変換(DCT)または入力信号を多様な周波数帯域に分割する他の任意の手段によって、時間/周波数タイルに分解される。そのような変換の結果は、インデックスiおよび離散時間インデックスnをもつ入力についての入力信号xi[n]が時間スロット(またはフレーム)kおよびサブバンドbについてのサブバンド信号xi[b,k]によって表わされる、ということである。たとえば、ステレオ呈示からのバイノーラル・ダイアログ呈示の推定を考える。xj[b,k]、j=1,2が左および右のステレオ・チャネルのサブバンド信号を表わし、^付きのdi[b,k]、i=1,2が推定された左および右のバイノーラル・ダイアログ信号のサブバンド信号を表わすとする。ダイアログ推定は次のように計算されてもよい。
Figure 0007383685000001
ここで、Bp、Kは所望される時間/周波数タイルに対応する周波数(b)および時間(k)インデックスの集合であり、pはパラメータ帯域インデックスであり、mは畳み込みタップ・インデックスであり、wijm Bp,Kは入力インデックスj、パラメータ帯域Bp、サンプル範囲もしくは時間スロットK、出力インデックスiおよび畳み込みタップ・インデックスmに属する行列係数である。上記の定式化を使うと、ダイアログは(ステレオ信号に関し;このステレオ信号の場合はJ=2)パラメータwによってパラメータ表現される(parameterized)。集合Kにおける時間スロットの数は周波数とは独立であり、周波数に対しては定数であり、典型的には時間区間5~40msに対応するよう選ばれる。周波数インデックスの集合の数Pは典型的には1~25の間であり、各集合における周波数インデックスの数は典型的には、聴覚の特性を反映して、周波数が増すとともに増大する(低周波数のほうがパラメータ表現における周波数分解能が高い)。
ダイアログ・パラメータwは、エンコーダにおいて計算され、ここに参照によって組み込まれる2015年8月25日に出願された米国仮特許出願第62/209,735号に開示される技法を使ってエンコードされてもよい。これらのパラメータwは次いでビットストリームにおいて伝送され、デコーダによってデコードされ、その後、上記の式を使って適用される。推定の線形性のため、目標信号(きれいなダイアログまたはきれいなダイアログの推定)が利用可能である場合には、エンコーダ計算は、最小平均平方誤差(MMSE)方法を使って実装されることができる。
Pの選択およびKにおける時間スロット数の選択は品質とビットレートとの間のトレードオフになる。さらに、パラメータwは、(より低い品質を代償として)ビットレートを下げるために、たとえばi≠jのときにはwijm Bp,K=0と想定し、これらのパラメータは単に伝送しないことによって、制約されることができる。Mの選択も品質/ビットレートのトレードオフである。ここに参照によって組み込まれる2015年8月25日に出願された米国特許出願第62/209,742号参照。信号のバイノーラル化はITD(位相差)を導入するので、パラメータwは一般に複素数値である。しかしながら、パラメータは、ビットレートを下げるために、実数値であると制約されることができる。さらに、人間が、1.5~2kHzのあたりの位相/絶対値カットオフ周波数というある周波数より上では左右の信号の間の位相差および時間差に敏感でないことはよく知られている。よって、その周波数より上では、バイノーラル処理は典型的には、左右のバイノーラル信号の間に位相差が導入されないようになされ、よってパラメータは品質の損失なしに実数値であることができる(非特許文献2参照)。上記の品質/ビットレート・トレードオフは、各時間/周波数タイルにおいて独立に行なうことができる。
Breebaart, J., Nater, F., Kohlrausch, A. (2010). Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. J. Audio Eng. Soc., 58 No 3, p.126-140 一般に、次の形の推定器を使うことが提案される。
Figure 0007383685000002
ここで、^yおよびxの少なくとも一方がバイノーラル信号である。すなわち、I=2またはJ=2またはI=J=2である。記法の便宜のため、以下では、ダイアログを推定するために使われる種々のパラメータ集合に言及するときに、しばしば時間/周波数タイルのインデックスBp、Kおよびi,j,mインデックスを省略する。
上記の推定器は、行列記法で便利に次のように表現できる(記法の簡単のため時間/周波数タイル・インデックスは省略)。
Figure 0007383685000003
ここで、
Figure 0007383685000004
はそれぞれxj[b,k-m]および^yi[b,k]のベクトル化されたバージョンを列に含んでおり、WmはJ行I列のパラメータ行列である。推定器の上記の形は、ダイアログ抽出だけを実行するときまたは呈示変換だけを実行するときならびに抽出および呈示変換の両方がパラメータの単一の集合を使ってなされるときに使用されうる。これについては下記の実施形態で詳述される。
図3を参照するに、第一のオーディオ信号呈示31は、複数の空間化されたオーディオ・コンポーネントを含む没入型オーディオ信号からレンダリングされている。この第一のオーディオ信号呈示は、一つまたは複数の抽出されたダイアログ・コンポーネントの呈示33を提供するために、ダイアログ推定器32に提供される。ダイアログ推定器32は、ダイアログ推定パラメータ34の専用の集合を提供される。ダイアログ呈示は、利得ブロック35によってレベル修正(たとえばブースト)され、次いで、オーディオ信号の第二の呈示36と組み合わされて、ダイアログ向上出力37を形成する。のちに論じるように、組み合わせは単純な加算でもよいが、ダイアログ呈示と第一の呈示の加算後に和に変換を適用して、それによりダイアログ向上された第二の呈示を形成することをも含んでいてもよい。
本発明によれば、呈示の少なくとも一つがバイノーラル呈示(残響ありまたは無響)である。下記でさらに論じるように、第一および第二の呈示は異なっていてもよく、ダイアログ呈示は第二の呈示に対応してもしなくてもよい。たとえば、第一のオーディオ信号呈示は第一のオーディオ再生システム、たとえば一組のラウドスピーカーでの再生のために意図されていてもよく、一方、第二のオーディオ信号呈示は第二のオーディオ再生システム、たとえばヘッドフォンでの再生のために意図されていてもよい。
単一の呈示
図4でのデコーダ実施形態では、第一および第二の呈示41、46ならびにダイアログ呈示43はみな(残響のあるまたは無響の)バイノーラル呈示である。よって、(バイノーラル)ダイアログ推定器42――および専用のパラメータ44――はバイノーラル・ダイアログ・コンポーネントを推定し、それが、ブロック45でレベル修正されて第二のオーディオ呈示46に加えられて出力47を形成する。
図4の実施形態では、パラメータ44はいかなる呈示変換を実行するようにも構成されない。それでも、最良品質のためには、バイノーラル・ダイアログ推定器42は、位相/絶対値カットオフ周波数までの周波数帯域では複素数値であるべきである。呈示変換がされないときでもなぜ複素数値の推定器が必要とされうるかを説明するために、バイノーラル・ダイアログと他のバイノーラル背景コンテンツとの混合であるバイノーラル信号からバイノーラル・ダイアログを推定することを考える。ダイアログの最適な抽出はしばしば、たとえば右のバイノーラル信号の諸部分を左のバイノーラル信号から減算して、背景コンテンツを打ち消すことを含む。バイノーラル処理は、その性質上、左右の信号の間の時間(位相)差を導入するので、何らかの減算ができる前に、それらの位相差が補償される必要があり、そのような補償は複素数値のパラメータを必要とするのである。実際、パラメータのMMSE計算の結果を調べるとき、パラメータは一般に、実数値であるよう制約されなければ、複素数値として現われる。実際上は、複素数値のパラメータか実数値のパラメータかの選択は、品質とビットレートとの間のトレードオフである。上述したように、パラメータは、高周波数での微細構造波形位相差に敏感でないことを利用して、全く品質損失なしに、周波数位相/絶対値カットオフ周波数より上では実数値であることができる。
二つの呈示
図5のデコーダ実施形態では、第一および第二の呈示が異なっている。図示した例では、第一の呈示51は非バイノーラル呈示であり(たとえばステレオ2.0またはサラウンド5.1)、一方、第二の呈示56はバイノーラル呈示である。この場合、ダイアログ推定パラメータ54の集合は、バイノーラル・ダイアログ推定器52が、非バイノーラル呈示51からバイノーラル・ダイアログ呈示53を推定することを許容するように構成される。呈示は逆にしてもよいことを注意しておく。その場合、バイノーラル・ダイアログ推定器はたとえばバイノーラル・オーディオ呈示からステレオ・ダイアログ呈示を推定することになる。いずれの場合にも、ダイアログ推定器は、ダイアログ・コンポーネントを抽出し、呈示変換を実行する必要がある。バイノーラル・ダイアログ呈示53はブロック55によってレベル修正され、第二の呈示56に加えられる。
図5に示されるように、バイノーラル・ダイアログ推定器52は、ダイアログ抽出および呈示変換という二つの動作を実行するために構成された、パラメータ54の単一の集合を受領する。しかしながら、図6に示されるように、(残響のあるまたは無響の)バイノーラル・ダイアログ推定器62がパラメータの二つの集合D1、D2を受領して、一つの集合(D1)がダイアログを抽出するよう構成され(ダイアログ抽出パラメータ)、一つの集合(D2)がダイアログ呈示変換を実行するよう構成される(ダイアログ変換パラメータ)ことも可能である。これは、これらの部分集合D1、D2の一方または両方がすでにデコーダにおいて利用可能である実装において有利でありうる。たとえば、ダイアログ抽出パラメータD1は、図2に示される通常のダイアログ抽出のために利用可能であることがある。さらに、パラメータ変換パラメータD2は、のちに論じるように、サイマルキャスト実装において利用可能であることがある。
図6では、ダイアログ抽出(ブロック62a)が、呈示変換(ブロック62b)より前に行なわれるものとして示されているが、この順序はむろん、逆にされてもよい。計算効率の理由で、たとえパラメータが二つの別個の集合D1、D2として提供されるとしても、まずパラメータの二つの集合を一つの組み合わされた行列変換に組み合わせて、その後、この組み合わされた変換を入力信号61に適用することが有利であることがある。
さらに、ダイアログ抽出は一次元的であり、抽出されたダイアログがモノ表現となることができることを注意しておく。すると、変換パラメータD2は位置メタデータであり、呈示変換はモノ・ダイアログを、その位置に対応するHRTF、HRIRまたはBRIRを使ってレンダリングすることを含む。あるいはまた、所望されるレンダリングされたダイアログ呈示がラウドスピーカー再生のために意図されている場合、モノ・ダイアログは、振幅パンまたはベクトル基底振幅パン(VBAP: vector-based amplitude panning)のようなラウドスピーカー・レンダリング技法を使ってレンダリングされることができる。
サイマルキャスト実装
図7~図11は、サイマルキャスト・システム、すなわち一つのオーディオ呈示が一組の変換パラメータと一緒にエンコードされ、デコーダに伝送されるシステムのコンテキストで本発明の実施形態を示している。それらの変換パラメータはデコーダが前記オーディオ呈示を、意図された再生システムに適応した異なる呈示(たとえば、ヘッドフォンのためのバイノーラル呈示として示される)に変換できるようにする。そのようなシステムのさまざまな側面は、ここに参照によって組み込まれる、2015年8月25日に出願された、同時係属中の未公開の米国仮特許出願第62/209,735号において詳細に記述されている。簡単のため、図7~図11はデコーダ側のみを示している。
図7に示されるように、コア・デコーダ71は、オーディオ・コンポーネントの初期のオーディオ信号呈示を含むエンコードされたビットストリーム72を受領する。図示されている場合、この初期呈示はステレオ呈示zであるが、他の任意の呈示であってもよい。ビットストリーム72は、呈示変換パラメータw(y)の集合をも含んでいる。これらのパラメータは、ステレオ信号zの行列変換73を実行して、再構成された無響バイノーラル信号^yを生成するために、行列係数として使われる。変換パラメータw(y)は、米国仮特許出願第62/209,735号で論じられているように、エンコーダで決定されたものである。図示されている場合、ビットストリーム72は、ステレオ信号zの行列変換74を実行して、無響環境シミュレーション、ここではフィードバック遅延ネットワーク(FDN)75のための再構成された入力信号^fを生成するための行列係数として使われるパラメータw(f)の集合をも含んでいる。これらのパラメータw(f)は、呈示変換パラメータw(y)と同様の仕方で決定されたものである。FDN 75は入力信号^fを受領し、音響環境シミュレーション出力FDNoutを提供し、該出力は無響バイノーラル信号^yと組み合わされて、残響のあるバイノーラル信号を提供してもよい。
図7の実施形態において、ビットストリームはさらに、ステレオ信号zの行列変換を実行して無響のバイノーラル・ダイアログ呈示Dを生成するためにダイアログ推定器76において行列係数として使われるダイアログ推定パラメータw(D)の集合を含んでいる。ダイアログ呈示Dはブロック77においてレベル修正(たとえばブースト)され、再構成された無響信号^yおよび無響環境シミュレーション出力FDNoutと、加算ブロック78において組み合わされる。
図7は、本質的には、図5の実施形態のサイマルキャスト・コンテキストにおける実装である。
図8の実施形態では、ステレオ信号z、変換パラメータw(y)の集合およびパラメータw(f)のさらなる集合が受領され、図7と同じようにデコードされ、要素71、73、74、75、78は図7に関して論じたものと等価である。さらに、ここでのビットストリーム82は、信号zに対してダイアログ推定器86によって適用されるダイアログ推定パラメータw(D1)の集合をも含んでいる。しかしながら、この実施形態では、ダイアログ推定パラメータw(D1)は、いかなる呈示変換をも提供するよう構成されていない。したがって、ダイアログ推定器86からのダイアログ呈示出力Dstereoは、初期オーディオ信号呈示、ここではステレオ呈示に対応する。ダイアログ呈示Dstereoはブロック87においてレベル修正され、次いで加算88において信号zに加えられる。ダイアログ向上された信号(z+Dstereo)は次いで、変換パラメータw(y)の集合によって変換される。
図8は、図6の実施形態のサイマルキャスト・コンテキストでの実装として見ることができる。ここで、w(D1)がD1として使われ、w(y)がD2として使われる。しかしながら、図6ではパラメータの両方の集合がダイアログ推定器62において適用される一方、図8では、抽出されたダイアログDstereoは信号zに加えられ、変換w(y)は組み合わされた信号(z+D)に適用される。
パラメータw(D1)の集合が、サイマルキャスト実装においてステレオ信号のダイアログ向上を提供するために使われるダイアログ向上パラメータと同一であってもよいことを注意しておく。この代替が図9のaに示されている。ここでは、ダイアログ抽出96aがコア・デコーダ91の一部をなすものとして示されている。さらに、図9のaでは、パラメータ集合w(y)を使う呈示変換96bが利得の前に、信号zの変換とは別個に実行される。このように、この実施形態は、ダイアログ推定器62が両方の変換96a、96bを含んでいて、図6に示される場合とさらによく似ている。
図9のbは、図9のaの実施形態の修正版を示している。この場合、呈示変換はパラメータ集合w(y)を使ってではなく、バイノーラル・ダイアログ推定専用のビットストリーム部分において提供されているパラメータw(D2)の追加的な集合を用いて実行される。
ある実施形態では、図9のbにおける上述した専用の呈示変換w(D2)は実数値であり、単一タップ(M=1)であり、フルバンド(P=1)の行列である。
図10は、図9のa~bの実施形態の修正版を示している。この場合、ダイアログ抽出器96aはやはりステレオ・ダイアログ呈示Dstereoを提供し、やはりコア・デコーダ91の一部をなすものとして示されている。しかしながら、ここでは、ステレオ・ダイアログ呈示Dstereoは、ブロック97でのレベル修正後に、(FDNからの無響の環境シミュレーションとともに)無響バイノーラル信号^yに直接加えられる。
異なる呈示をもつ信号を組み合わせること、たとえばステレオ・ダイアログ信号を(向上されていないバイノーラル・ダイアログ・コンポーネントを含む)バイノーラル信号に加算することは、当然ながら、空間定位のアーチファクトにつながることを注意しておく。向上されていないバイノーラル・ダイアログ・コンポーネントは、同じコンポーネントのステレオ呈示に比べて空間的に異なっていると知覚されるからである。
さらに、異なる呈示をもつ信号を組み合わせることは、ある周波数帯域ではダイアログ・コンポーネントの強め合う加算に、他の周波数帯域では弱め合う加算につながることがあることを注意しておく。その理由は、バイノーラル処理がITD(位相差)を導入し、ある周波数帯域では同相であり、他の帯域では逆相である信号を加算し、それがダイアログ・コンポーネントにおける音色付け(coloring)アーチファクトにつながるからである(さらに、音色付けは左耳と右耳とで異なることがある)。ある実施形態では、この型のアーチファクトを低減するよう、バイノーラル処理において、位相/絶対値カットオフ周波数より上での位相差は回避される。
異なる呈示をもつ信号を組み合わせる場合についての最後の注釈として、一般に、バイノーラル処理はダイアログの了解性を低下させることがあることが認められる。ダイアログ向上の目標が了解性を最大にすることである場合、非バイノーラルであるダイアログ信号を抽出し、レベル修正(たとえばブースト)することが有利であることがある。より具体的には、たとえ再生のために意図される最終的な呈示がバイノーラルであっても、そのような場合にステレオ・ダイアログ信号を抽出してレベル修正(たとえばブースト)して、それをバイノーラル呈示と組み合わせることが有利であることがある(了解性向上のために、上記のように、音色付けアーチファクトと空間定位アーチファクトとをトレードオフ)。
図11の実施形態では、ステレオ信号z、変換パラメータw(y)の集合およびパラメータw(f)のさらなる集合が図7と同じようにして受領され、デコードされる。さらに、図8と同様に、ビットストリームは、いかなる呈示変換も提供するよう構成されていないダイアログ推定パラメータw(D1)の集合をも含んでいる。しかしながら、この実施形態では、ダイアログ推定パラメータw(D1)はダイアログ推定器16によって、再構成された無響バイノーラル信号^yに対して適用されて、無響バイノーラル・ダイアログ呈示Dを提供する。このダイアログ呈示Dはブロック117によってレベル修正され、加算118においてFDNoutとともに信号^yに加えられる。
図11は、本質的には、図5の単一呈示の実施形態の、サイマルキャスト・コンテキストでの実装である。しかしながら、それは、図6の実装のD1とD2の順序を逆にしたものと見ることもできる。ここで、D1としてはやはりw(D1)は使われ、D2としてw(y)が使われる。しかしながら、図6ではパラメータの両方の集合がダイアログ推定器において適用されたのに対して、図9では、変換パラメータD2は、^yを得るためにすでに適用されており、ダイアログ推定器16は、残響のあるバイノーラル・ダイアログ呈示Dを得るために、パラメータw(D1)を信号^yに適用する必要があるだけである。
いくつかの応用では、ダイアログ・レベル修正因子Gの所望される値に依存して、異なる処理を適用することが望ましいことがある。ある実施形態では、例示的な適切な処理が、因子Gが所与の閾値より大きいか小さいかの判定に基づいて選択される。もちろん、二つ以上の閾値および二つ以上の代替的な処理があってもよい。たとえば、th1およびth2が二つの所与の閾値であるとして、G<th1のときの第一の処理、th1≦G<th2のときの第二の処理およびG≧th2のときの第三の処理である。
図12に示される個別的な例では、閾値は0であり、G<0(ダイアログの減衰)のときには第一の処理が適用され、G>0(ダイアログの強調)のときには第二の処理が適用される。この目的のために、図12の回路は、二つのポジションAおよびBをもつスイッチ121の形の選択論理を含む。スイッチは、ブロック122から利得因子Gの値を提供され、G<0のときはポジションAを、G>0のときはポジションBを取るよう構成される。
スイッチがポジションAにあるとき、回路はここでは、行列変換86からの推定されたステレオ・ダイアログをステレオ信号zと組み合わせ、次いで、組み合わされた信号に対して行列変換73を実行して、再構成された無響バイノーラル信号を生成するよう構成される。フィードバック遅延ネットワーク75からの出力が次いで、この信号と78において組み合わされる。この処理は本質的には、上記で論じた図8に対応することを注意しておく。
スイッチがポジションBにあるとき、回路はここでは、バイノーラル・ダイアログ推定を提供するために、行列変換86からのステレオ・ダイアログに変換パラメータw(D2)を適用するよう構成される。次いで、この推定が変換73からの無響のバイノーラル信号およびフィードバック遅延ネットワーク75からの出力に加えられる。この処理は本質的には、上記で論じた図9のbに対応することを注意しておく。
当業者は、ポジションAおよびBにおけるそれぞれの処理について他の多くの代替を認識するであろう。たとえば、スイッチがポジションBにあるときの処理は上記の代わりに図10のものに対応してもよい。しかしながら、図12の実施形態の主要な貢献は、スイッチ121の導入である。これが利得因子Gの値に依存した代替的な処理を可能にする。
解釈
本明細書を通じて「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記載されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、「一つの実施形態において」「いくつかの実施形態において」または「ある実施形態において」という句が本明細書を通じた随所に現われることは、必ずしもみなが同じ実施形態を指しているのではないが、指していてもよい。さらに、特定の特徴、構造または特性は、いかなる好適な仕方で組み合わされてもよい。このことは、一つまたは複数の実施形態において、本開示から当業者には明白であろう。
本稿での用法では、特に断わりのない限り、共通のオブジェクトを記述する順序形容語「第一」「第二」「第三」などの使用は、単に同様のオブジェクトの異なるインスタンスが言及されていることを示すものであって、そのように記述されるオブジェクトが時間的、空間的、ランキングにおいてまたは他のいかなる仕方においても、所与の序列でなければならないことを含意することは意図されていない。
付属の請求項および本稿の記述において、有する、から構成されるまたは含むという用語の任意のものは、少なくともその後続の要素/特徴を含むが他のものを排除しないことを意味するオープンな用語である。よって、請求項において使われるときの有するの用語は、その後に挙げられる手段または要素または段階に制限するものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われる含む、含んでいるという用語の任意のものも、少なくともその用語に続く要素/特徴を含むが他のものを排除しないことを意味するオープンな用語である。よって、含むは、有すると同義であり、有するを意味する。
本稿での用法では、用語「例示的」は、性質を示すのではなく、例を挙げる意味で使われる。すなわち、「例示的実施形態」は、必ず例示的な性質の実施形態であるのではなく、例として与えられている実施形態である。
本発明の例示的実施形態の上記の記述において、開示の流れをよくし、さまざまな発明側面の一つまたは複数のものの理解を助けるため、本発明のさまざまな特徴が時に単一の実施形態、図面またはその記述にまとめられていることを理解しておくべきである。しかしながら、この開示法は、請求される発明が、各請求項に明示的に記載されているよりも多くの事項を必要とするという意図を反映したものと解釈されるものではない。むしろ、付属の請求項が反映するように、発明の諸側面は、単一の上記の開示される実施形態の全事項よりも少ないものに存する。このように、付属の請求項は、ここに明示的に詳細な説明に組み込まれ、各請求項がそれ自身として本発明の別個の実施形態をなす。
さらに、本稿に記載されるいくつかの実施形態が他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まなくても、異なる実施形態の特徴の組み合わせは本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこれを理解するであろう。たとえば、付属の請求項では、請求される実施形態の任意のものが任意の組み合わせにおいて使用できる。
さらに、実施形態のいくつかは、本稿では方法または方法の要素の組み合わせであって、コンピュータ・システムのプロセッサによってまたは該機能を実行する他の手段によって実装されることができるものとして記述されている。よって、そのような方法または方法の要素を実行するための必要な命令をもつプロセッサは、前記方法または方法の要素を実行する手段をなす。さらに、装置実施形態の本稿に記載される要素は、本発明を実行するための該要素によって実行される機能を実行する手段の一例である。
本稿で与えられる記述では、数多くの個別的詳細が記載される。しかしながら、本発明の実施形態がそうした個別的詳細なしでも実施できることは理解される。他方、本記述の理解をかすませないために、よく知られた方法、構造および技法は詳細に示していない。
同様に、請求項において使われるときの用語、結合されたは、直接接続のみに限定されるものと解釈されるべきではない。用語「結合された」および「接続された」ならびにその派生形が使われることがある。これらの用語は互いの同義語として意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現の範囲は、装置Aの出力が装置Bの入力に直接接続される装置またはシステムに限定されるべきではない。それは、Aの出力とBの入力との間の経路が存在することを意味し、該経路は他の装置または手段を含む経路であってもよい。「結合された」は二つ以上の要素が直接物理的または電気的に接していること、あるいは二つ以上の要素が互いに直接接触してはいないが、それでも互いと協働または相互作用することを意味しうる。
このように、本発明の個別的実施形態を記述してきたが、当業者は本発明の精神から外れることなく、それに他のおよびさらなる修正がなされてもよいことを認識するであろう。それらすべての変更および修正を本発明の範囲内にはいるものとして請求することが意図されている。たとえば、上記で与えた公式はいずれも単に使用されうる手順の代表である。ブロック図から機能が追加または削除されてもよく、機能ブロックの間で動作が交換されてもよい。本発明の範囲内で記述される方法に段階が追加または削除されてもよい。
いくつかの態様を記載しておく。
〔態様1〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は:
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を提供し;
第二のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第二のオーディオ信号呈示を提供し;
前記第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し;
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用し、前記ダイアログ・コンポーネントのダイアログ呈示を形成し;
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、
前記第一および第二のオーディオ信号呈示の少なくとも一方はバイノーラル・オーディオ信号呈示である、
方法。
〔態様2〕
前記第一および第二のオーディオ信号呈示がバイノーラル・オーディオ信号呈示である、態様1記載の方法。
〔態様3〕
前記第一および第二のオーディオ信号呈示のうち一方のみがバイノーラル・オーディオ信号呈示である、態様1記載の方法。
〔態様4〕
前記第一および第二のオーディオ信号呈示のうち他方がステレオまたはサラウンド・オーディオ信号呈示である、態様3記載の方法。
〔態様5〕
ダイアログ変換パラメータの集合を受領し、ダイアログ推定パラメータの前記集合の適用の前または後にダイアログ変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、態様3または4記載の方法。
〔態様6〕
前記ダイアログ推定パラメータは、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう呈示変換をも実行するよう構成されている、態様3または4記載の方法。
〔態様7〕
前記第一のオーディオ信号呈示を提供することが、初期のオーディオ信号呈示および呈示変換パラメータの集合を受領し、呈示変換パラメータの前記集合を前記初期のオーディオ信号呈示に適用することを含む、態様2記載の方法。
〔態様8〕
前記第一のオーディオ信号呈示の前記第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し、前記第一のオーディオ信号呈示に呈示変換パラメータの前記集合を適用して前記第二のオーディオ信号呈示を形成することをさらに含む、態様1ないし7のうちいずれか一項記載の方法。
〔態様9〕
ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、態様8記載の方法。
〔態様10〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせることが、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの前記集合を適用することを含む、態様8記載の方法。
〔態様11〕
前記第一のオーディオ信号呈示がエンコーダから受領される、態様1ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記ダイアログ呈示に因子Gによるレベル修正を適用することをさらに含む、態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
Gが所与の閾値より小さいときは第一の処理が適用され、Gが前記閾値より大きいときは第二の処理が適用される、態様12記載の方法。
〔態様14〕
前記閾値が0に等しく、G<0はダイアログの減衰を表わし、G>0はダイアログの強調を表わす、態様13記載の方法。
〔態様15〕
前記第一の処理が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの集合を適用することを含む、態様13または14記載の方法。
〔態様16〕
前記第二の処理が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することを含む、態様13ないし15のうちいずれか一項記載の方法。
〔態様17〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は:
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し;
前記第一のオーディオ信号呈示の、第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し;
前記第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し;
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し;
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成し;
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み;
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である、
方法。
〔態様18〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせることが、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの前記集合を適用することを含む、態様17記載の方法。
〔態様19〕
前記ダイアログ推定パラメータは、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう呈示変換をも実行するよう構成されている、態様17記載の方法。
〔態様20〕
ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、態様17記載の方法。
〔態様21〕
前記ダイアログ呈示がモノ呈示であり、当該方法がさらに:
前記ダイアログ・コンポーネントに関係する位置データを受領し;
前記第二のオーディオ信号呈示と組み合わせる前に、前記位置データを使って、前記モノ・ダイアログ呈示をレンダリングすることをさらに含む、
態様17記載の方法。
〔態様22〕
前記レンダリングすることが:
前記位置データに基づいてライブラリから頭部伝達関数(HRTF)を選択し;
選択されたHRTFを前記モノ・ダイアログ呈示に適用することを含む、
態様21記載の方法。
〔態様23〕
前記レンダリングすることが、振幅パンを含む、態様21記載の方法。
〔態様24〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は:
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を受領し;
前記第一のオーディオ信号呈示の、第二のオーディオ再生システムでの再生のために意図されている前記第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し;
前記第二のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し;
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ信号呈示を形成し;
ダイアログ推定パラメータの前記集合を前記第二のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成し;
前記ダイアログ呈示を前記第二のオーディオ信号呈示と加算して、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である、
方法。
〔態様25〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダであって、各コンポーネントは空間位置に関連付けられており、当該デコーダは:
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、前記第一のオーディオ信号呈示からダイアログ・コンポーネントを推定することを可能にするよう構成されたダイアログ推定パラメータの集合とを受領してデコードするコア・デコーダと;
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と;
前記ダイアログ呈示を第二のオーディオ信号呈示と組み合わせて、第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し;
前記第一および第二のオーディオ信号呈示の一方のみがバイノーラル・オーディオ信号呈示である、
デコーダ。
〔態様26〕
前記第一および第二のオーディオ信号呈示のうち一方がステレオまたはサラウンド・オーディオ信号呈示である、態様25記載のデコーダ。
〔態様27〕
前記コア・デコーダが、ダイアログ変換パラメータの集合を受領するようさらに構成され、前記ダイアログ推定器が、ダイアログ推定パラメータの前記集合の適用の前または後にダイアログ変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成するようさらに構成されている、態様25または26記載のデコーダ。
〔態様28〕
前記ダイアログ推定器は、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう、ダイアログ推定パラメータの前記集合を使って呈示変換をも実行するよう構成されている、態様25または26記載のデコーダ。
〔態様29〕
前記コア・デコーダが、呈示変換パラメータの集合を受領するようさらに構成されており、当該デコーダがさらに:
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記第二のオーディオ信号呈示を形成するよう構成されている変換ユニットを有する、
態様25ないし28のうちいずれか一項記載のデコーダ。
〔態様30〕
前記ダイアログ推定器が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成するようさらに構成されている、態様29記載のデコーダ。
〔態様31〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせる手段が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成する加算ブロックを含み、前記変換ユニットが、該和に、呈示変換パラメータの前記集合を適用するよう構成されている、態様29記載のデコーダ。
〔態様32〕
前記ダイアログ呈示に因子Gによるレベル修正を適用するよう構成されたレベル修正ブロックをさらに有する、態様25ないし31のうちいずれか一項記載のデコーダ。
〔態様33〕
Gが所与の閾値より小さいときは前記ダイアログ推定パラメータの第一の適用を選択するよう構成された選択論理をさらに有しており、Gが前記閾値より大きいときは第二の処理が適用される、態様32記載のデコーダ。
〔態様34〕
前記閾値が0に等しく、G<0はダイアログの減衰を表わし、G>0はダイアログの強調を表わす、態様33記載のデコーダ。
〔態様35〕
前記第一の適用が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの集合を適用することを含む、態様33または34記載のデコーダ。
〔態様36〕
前記第二の適用が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することを含む、態様33ないし35のうちいずれか一項記載のデコーダ。
〔態様37〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダであって、各コンポーネントは空間位置に関連付けられており、当該デコーダは:
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、前記第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、前記第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと;
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと;
ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と;
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する手段とを有し;
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示のうち一方のみがバイノーラル・オーディオ信号呈示である、
デコーダ。
〔態様38〕
前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせる手段が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成する加算ブロックを含み、前記変換ユニットが、該和に、呈示変換パラメータの前記集合を適用するよう構成されている、態様37記載のデコーダ。
〔態様39〕
前記ダイアログ推定器は、前記ダイアログ呈示が前記第二のオーディオ信号呈示に対応するよう、ダイアログ推定パラメータの前記集合を使って呈示変換をも実行するよう構成されている、態様37記載のデコーダ。
〔態様40〕
前記ダイアログ推定器は、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成するよう構成されている、態様37記載のデコーダ。
〔態様41〕
前記ダイアログ呈示がモノ呈示であり、前記コア・デコーダが、前記ダイアログ・コンポーネントに関係する位置データを受領するようさらに構成されており、当該デコーダがさらに:
前記第二のオーディオ信号呈示と組み合わせる前に、前記位置データを使って、前記モノ・ダイアログ呈示をレンダリングする構成されたレンダラーをさらに有する、
態様37記載のデコーダ。
〔態様42〕
前記レンダラーが:
前記位置データに基づいてライブラリから頭部伝達関数(HRTF)を選択し;
選択されたHRTFを前記モノ・ダイアログ呈示に適用するよう構成されている、
態様41記載のデコーダ。
〔態様43〕
前記レンダラーが振幅パンを適用するよう構成されている、態様41記載のデコーダ。
〔態様44〕
一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するためのデコーダであって、各コンポーネントは空間位置に関連付けられており、当該デコーダは:
第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示と、第一のオーディオ信号呈示を第二のオーディオ再生システムでの再生のために意図されている第二のオーディオ信号呈示に変換できるようにするよう構成された呈示変換パラメータの集合と、前記第一のオーディオ信号呈示からダイアログ・コンポーネントを推定できるようにするよう構成されたダイアログ推定パラメータの集合とを受領するコア・デコーダと;
呈示変換パラメータの前記集合を前記第一のオーディオ信号呈示に適用して、第二のオーディオ再生システムでの再生のために意図された第二のオーディオ信号呈示を形成するよう構成された変換ユニットと;
ダイアログ推定パラメータの前記集合を前記第二のオーディオ信号呈示に適用して前記ダイアログ・コンポーネントのダイアログ呈示を形成するダイアログ推定器と;
前記ダイアログ呈示を前記第二のオーディオ信号呈示と加算して、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成する加算ブロックとを有し;
前記第一のオーディオ信号呈示および前記第二のオーディオ信号呈示のうちの一方のみがバイノーラル・オーディオ信号呈示である、
デコーダ。

Claims (13)

  1. 一つまたは複数のオーディオ・コンポーネントをもつオーディオ・コンテンツをダイアログ向上するための方法であって、各コンポーネントは空間位置に関連付けられており、当該方法は:
    第一のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第一のオーディオ信号呈示を提供し;
    第二のオーディオ再生システムでの再生のために意図されている前記オーディオ・コンポーネントの第二のオーディオ信号呈示を提供し;
    前記第一のオーディオ信号呈示からのダイアログ・コンポーネントの推定を可能にするよう構成されたダイアログ推定パラメータの集合を受領し;
    ダイアログ推定パラメータの前記集合を前記第一のオーディオ信号呈示に適用し、前記ダイアログ・コンポーネントのダイアログ呈示を形成し;
    前記ダイアログ呈示に因子Gによるレベル修正を適用する段階であって、Gが所与の閾値より小さいときは第一の処理が適用され、Gが前記閾値より大きいときは第二の処理が適用され、前記第一の処理が、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの集合を適用することを含む、段階を実行し;
    前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせて、前記第二のオーディオ再生システムでの再生のためのダイアログ向上されたオーディオ信号呈示を形成することを含み、
    前記第一および第二のオーディオ信号呈示の少なくとも一方はバイノーラル・オーディオ信号呈示である、
    方法。
  2. 前記第一および第二のオーディオ信号呈示がバイノーラル・オーディオ信号呈示である、請求項1記載の方法。
  3. 前記第一および第二のオーディオ信号呈示のうち一方のみがバイノーラル・オーディオ信号呈示である、請求項1記載の方法。
  4. 前記第一および第二のオーディオ信号呈示のうち他方がステレオまたはサラウンド・オーディオ信号呈示である、請求項3記載の方法。
  5. ダイアログ変換パラメータの集合を受領し、ダイアログ推定パラメータの前記集合の適用の前または後にダイアログ変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、請求項3または4記載の方法。
  6. 前記第一のオーディオ信号呈示を提供することが、初期のオーディオ信号呈示および呈示変換パラメータの集合を受領し、呈示変換パラメータの前記集合を前記初期のオーディオ信号呈示に適用することを含む、請求項2記載の方法。
  7. 前記第一のオーディオ信号呈示の前記第二のオーディオ信号呈示への変換を可能にするよう構成された呈示変換パラメータの集合を受領し、前記第一のオーディオ信号呈示に呈示変換パラメータの前記集合を適用して前記第二のオーディオ信号呈示を形成することをさらに含む、請求項1ないし6のうちいずれか一項記載の方法。
  8. ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの前記集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することをさらに含む、請求項7記載の方法。
  9. 前記ダイアログ呈示を前記第二のオーディオ信号呈示と組み合わせることが、前記ダイアログ呈示と前記第一のオーディオ信号呈示の和を形成して、該和に、呈示変換パラメータの前記集合を適用することを含む、請求項7記載の方法。
  10. 前記閾値が0に等しく、G<0はダイアログの減衰を表わし、G>0はダイアログの強調を表わす、請求項記載の方法。
  11. 前記第二の処理が、ダイアログ推定パラメータの前記集合の適用の前または後に呈示変換パラメータの集合を適用して、前記第二のオーディオ信号呈示に対応する変換されたダイアログ呈示を形成することを含む、請求項10記載の方法。
  12. 前記ダイアログ呈示がモノ呈示であり、当該方法がさらに:
    前記ダイアログ・コンポーネントに関係する位置データを受領し;
    前記第二のオーディオ信号呈示と組み合わせる前に、前記位置データを使って、前記モノ・ダイアログ呈示をレンダリングすることをさらに含む、
    請求項1記載の方法。
  13. 前記レンダリングすることが:
    前記位置データに基づいてライブラリから頭部伝達関数(HRTF)を選択し;
    選択されたHRTFを前記モノ・ダイアログ呈示に適用すること;または
    振幅パンのいずれかを含む、
    請求項12記載の方法。
JP2021205176A 2016-01-29 2021-12-17 バイノーラル・ダイアログ向上 Active JP7383685B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023148875A JP2023166560A (ja) 2016-01-29 2023-09-14 バイノーラル・ダイアログ向上

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201662288590P 2016-01-29 2016-01-29
US62/288,590 2016-01-29
EP16153468 2016-01-29
EP16153468.0 2016-01-29
PCT/US2017/015165 WO2017132396A1 (en) 2016-01-29 2017-01-26 Binaural dialogue enhancement
JP2018539144A JP7023848B2 (ja) 2016-01-29 2017-01-26 バイノーラル・ダイアログ向上

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018539144A Division JP7023848B2 (ja) 2016-01-29 2017-01-26 バイノーラル・ダイアログ向上

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023148875A Division JP2023166560A (ja) 2016-01-29 2023-09-14 バイノーラル・ダイアログ向上

Publications (2)

Publication Number Publication Date
JP2022031955A JP2022031955A (ja) 2022-02-22
JP7383685B2 true JP7383685B2 (ja) 2023-11-20

Family

ID=55272356

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2018539144A Active JP7023848B2 (ja) 2016-01-29 2017-01-26 バイノーラル・ダイアログ向上
JP2021205176A Active JP7383685B2 (ja) 2016-01-29 2021-12-17 バイノーラル・ダイアログ向上
JP2023148875A Pending JP2023166560A (ja) 2016-01-29 2023-09-14 バイノーラル・ダイアログ向上

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018539144A Active JP7023848B2 (ja) 2016-01-29 2017-01-26 バイノーラル・ダイアログ向上

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023148875A Pending JP2023166560A (ja) 2016-01-29 2023-09-14 バイノーラル・ダイアログ向上

Country Status (5)

Country Link
US (5) US10375496B2 (ja)
EP (1) EP3409029A1 (ja)
JP (3) JP7023848B2 (ja)
CN (2) CN108702582B (ja)
WO (1) WO2017132396A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004457B2 (en) * 2017-10-18 2021-05-11 Htc Corporation Sound reproducing method, apparatus and non-transitory computer readable storage medium thereof
GB2575511A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio Augmentation
GB2575509A (en) 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio capture, transmission and reproduction
CN109688513A (zh) * 2018-11-19 2019-04-26 恒玄科技(上海)有限公司 无线主动降噪耳机及双主动降噪耳机通话数据处理方法
MX2021012309A (es) 2019-04-15 2021-11-12 Dolby Int Ab Mejora de dialogo en codec de audio.

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522472A (ja) 2000-02-04 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 消費者アプリケーションにおける音声対残余オーディオ(vra)の使用
JP2010515290A (ja) 2006-09-14 2010-05-06 エルジー エレクトロニクス インコーポレイティド ダイアログエンハンスメント技術のコントローラ及びユーザインタフェース
WO2015031505A1 (en) 2013-08-28 2015-03-05 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
JP2015530825A (ja) 2012-08-31 2015-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080056517A1 (en) * 2002-10-18 2008-03-06 The Regents Of The University Of California Dynamic binaural sound capture and reproduction in focued or frontal applications
WO2007080212A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Controlling the decoding of binaural audio signals
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
CN101518100B (zh) * 2006-09-14 2011-12-07 Lg电子株式会社 对话增强技术
US20080201369A1 (en) * 2007-02-16 2008-08-21 At&T Knowledge Ventures, Lp System and method of modifying media content
WO2009046909A1 (en) * 2007-10-09 2009-04-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
TWI429302B (zh) * 2008-07-29 2014-03-01 Lg Electronics Inc 音頻訊號之處理方法及其裝置
US8537980B2 (en) * 2009-03-27 2013-09-17 Verizon Patent And Licensing Inc. Conversation support
KR101387195B1 (ko) * 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
EP3893521B1 (en) * 2011-07-01 2024-06-19 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
JP2013153307A (ja) * 2012-01-25 2013-08-08 Sony Corp 音声処理装置および方法、並びにプログラム
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
ES2643789T3 (es) * 2013-05-24 2017-11-24 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
CN111970629B (zh) 2015-08-25 2022-05-17 杜比实验室特许公司 音频解码器和解码方法
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522472A (ja) 2000-02-04 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 消費者アプリケーションにおける音声対残余オーディオ(vra)の使用
JP2010515290A (ja) 2006-09-14 2010-05-06 エルジー エレクトロニクス インコーポレイティド ダイアログエンハンスメント技術のコントローラ及びユーザインタフェース
JP2015530825A (ja) 2012-08-31 2015-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
WO2015031505A1 (en) 2013-08-28 2015-03-05 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement

Also Published As

Publication number Publication date
JP2023166560A (ja) 2023-11-21
CN112218229A (zh) 2021-01-12
CN112218229B (zh) 2022-04-01
US20220060838A1 (en) 2022-02-24
JP2019508947A (ja) 2019-03-28
US11641560B2 (en) 2023-05-02
US20190037331A1 (en) 2019-01-31
EP3409029A1 (en) 2018-12-05
US10375496B2 (en) 2019-08-06
US20200329326A1 (en) 2020-10-15
WO2017132396A1 (en) 2017-08-03
JP2022031955A (ja) 2022-02-22
US10701502B2 (en) 2020-06-30
JP7023848B2 (ja) 2022-02-22
US20190356997A1 (en) 2019-11-21
CN108702582A (zh) 2018-10-23
US11950078B2 (en) 2024-04-02
CN108702582B (zh) 2020-11-06
US20230345192A1 (en) 2023-10-26
US11115768B2 (en) 2021-09-07

Similar Documents

Publication Publication Date Title
JP7383685B2 (ja) バイノーラル・ダイアログ向上
EP2524370B1 (en) Extraction of a direct/ambience signal from a downmix signal and spatial parametric information
CN108600935B (zh) 音频信号处理方法和设备
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
KR102517867B1 (ko) 오디오 디코더 및 디코딩 방법
EP2495722A1 (en) Method, medium, and system synthesizing a stereo signal
KR102201308B1 (ko) 상관해제 필터들의 적응적 제어를 위한 방법 및 장치
KR102482162B1 (ko) 오디오 인코더 및 디코더
CN108028988B (zh) 处理低复杂度格式转换的内部声道的设备和方法
EA042232B1 (ru) Кодирование и декодирование звука с использованием параметров преобразования представления

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230914

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231108

R150 Certificate of patent or registration of utility model

Ref document number: 7383685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150