JP5603499B2 - デジタルレベル正規化を備えるオーディオストリームミキシング - Google Patents

デジタルレベル正規化を備えるオーディオストリームミキシング Download PDF

Info

Publication number
JP5603499B2
JP5603499B2 JP2013530164A JP2013530164A JP5603499B2 JP 5603499 B2 JP5603499 B2 JP 5603499B2 JP 2013530164 A JP2013530164 A JP 2013530164A JP 2013530164 A JP2013530164 A JP 2013530164A JP 5603499 B2 JP5603499 B2 JP 5603499B2
Authority
JP
Japan
Prior art keywords
signal
audio signal
input audio
mixing
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013530164A
Other languages
English (en)
Other versions
JP2013543599A (ja
Inventor
グローチェル,アレクサンダー
エイ ウィリアムズ,フィリップ
エイ クーパー,ジャレット
アー シュイルドバッハ,ウォルフガング
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2013543599A publication Critical patent/JP2013543599A/ja
Application granted granted Critical
Publication of JP5603499B2 publication Critical patent/JP5603499B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

(関連出願の参照)
この出願は、2010年9月22日に出願した米国特許仮出願第61/385,428号の優先権を主張し、それらの全文をここに参照として援用する。
この出願は音声信号(オーディオ信号)の分野に関する。具体的には、この出願は音声信号のミキシングに関する。
音声信号と共にメタデータを含めることは、使用者(ユーザ)のリスニング体験の有意な向上を可能にする。快適な使用者体験のためには、異なるプログラムの音響レベル又は音量(ラウドネス)が一定であることが望ましい。しかしながら、異なるプログラムの音声信号は、異なる音源に由来するのが普通であり、異なる制作者(プロデューサ)によってマスターが作成され、話会話(speech dialog)から音楽まで並びに低周波効果を備える映画サウンドトラックまで及ぶ多様なコンテンツを含み得る。この音響レベルの変動の可能性は、再生(playback)中に、そのような多様なプログラムに亘って同じ一般的な音響レベルを維持することを難しくする。実際的な言い方をすれば、異なるプログラムの知覚音響レベルの相違の故に、1つのプログラムが他のプログラムに対してより高音量又は低音量になるよう調節するために、1つのプログラムから他のプログラムに切り換えるときに、聴取者(リスナ)が再生音量を調節する必要を感じることは望ましくない。プログラム間で一定の音響レベルを維持するために音声信号を変更する技法は、信号レベリング(signal leveling)として概ね知られている。会話オーディオトラックの脈絡において、知覚音響レベルに関する尺度は会話レベルとして知られ、それは音声信号の平均加重レベルに基づく。会話レベルはダイアルノームパラメータを使用して特定されることが多く、それはデジタルフルスケールに対するデシベル(dB)レベルを示す。
過去、音声信号に取り組む放送業者は、その音声レベルが他のプログラムの音声レベルよりも上又は下になるサウンドトラックのような音声信号に特に問題を有し、特に会話のような時間の経過と共に実質的に変化し得る音声に問題を有した。デジタルオーディオ、多重チャンネルオーディオ、特に音声信号と共にメタデータを含ませる能力の発展に伴い、制作者及びオーディオ技術者は、様々な再生システムのための再生レベルを精密に特定するためにメタデータとして信号中に埋め込み得る設定を特定する、広範な選択肢を今や有する。これらの設定を製作後の段階にさえも設け得るので、放送業者は極めて一貫した音声信号を送信することができ、最も重要な音声成分が最終使用者に伝わることを保証することができる。
同様に、音声信号をミキシングするとき、快適な聴取者体験のためには、音声入力信号を単一信号にミキシングするときに同じ知覚音響レベルを維持することも望ましい。この目標を実現する1つの技法は、入力信号がミキシングされるときに、入力信号がどのようにスケーリング(増減)されるべきかを特定するメタデータを含めることである。
多くの現在の音声基準は、コンテンツ制作者が、関連音声信号と共に時間変化メタデータを含む主音声信号と結合される関連音声信号を含めることを可能にする。例えば、コンテンツ制作者は、監督(ディレクタ)の注釈を備えるトラックに、そのような関連音声信号をもたらし得る。関連信号を伴うメタデータは、コンテンツ制作者が、結合再生のためのミキシング中に、主トラックの音声信号が一体どのように調節されることを欲しているかを特定する。例えば、E-AC-3(ドルビーデジタルプラス)及び高効率アドバンスト・オーディオ・コーディング(HE-AAC)が、そのようなミキシングメタデータをもたらす基準の2つの例である。より詳しくは、E-AC-3(Dolby Digital Plus)を記載する”ETSI TS 102 366 v1.2.1 (2008-08): Digital Audio Compression (AC-3, Enhanced-AC-3) Standard”、或いは、高効率アドバンスト・オーディオ・コーディング(HE-AAC)を記載する”ETSI TS 101 154 V1.9.1 (2009-09): Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 Transport Stream”を参照のこと。それらの両者の全文をここに参照として援用する。
しかしながら、使用者は、関連信号と共に送信されるメタデータによって規定される制作者提供設定から逸脱することを欲するかもしれない。例えば、映画を観ている間に監督の注釈を活性化する使用者は、再生中のある時点で、監督の注釈に優先しないようミキシング中に減衰させられることを制作者がメタデータ中に記したかもしれない当初の会話を聞くかもしれない。
よって、使用者が入力音声信号のミキシングを調節することを可能にしながら、混合信号の知覚音響レベルも維持することによって快適な使用者体験ももたらす調節を提供する必要がある。更に、混合信号に対する追加的なレベリングを行う必要がないように、メタデータからのスケーリング情報及び外部使用者入力が時間と共に変化するとしても、混合信号の一定の知覚音響レベルを維持しながら入力音声信号のミキシングの調節を提供する必要もある。
ミキシングメタデータの使用は、コンテンツ制作者が、再生中に信号がどのように組み合わせられなければならないかを精密に制御し且つ特定することを可能にする。それによって、一定の知覚音響レベルを達成するために、ミキサへの各信号入力が適切にスケーリングされるよう、メタデータによってもたらされるスケーリング情報によるミキシングに先立ち、入力音声信号の音響レベル又はダイアルノームレベルを正規化し得る。このようにして、信号を備えるメタデータ中に含まれるスケーリング情報によって、混合信号に寄与する各入力信号の相対的なレベルがミキシング中に制御される。実際には、この技法は、混合されるべき1つの主信号と1つ又はそれよりも多くの関連信号の特定を含むのが普通である。名称が示唆するように、主信号は、標準的な信号であり、関連信号は、その夫々の主信号に幾分関連する信号である。結果的に、主信号及び関連信号が混合されるとき、メタデータは、関連信号に対する主信号のスケーリングのためのスケーリング情報をもたらす。
例えば、多くの場合には特殊機能として、制作者は、追加的な「監督注釈」音声トラックを、関連信号として映画と共に含めることができる。その場合、使用者は映画の上に実時間で重ね合わせられる監督注釈を聞き得る。よって、使用者は、その原作(オリジナル)の音声及び監督注解を同時に備える映画を観ることができる。再生中、そのような関連信号は、例えば、セットトップボックスのような最終使用者(エンドユーザ)装置の上で、原作の映画の主音声信号と混合されることが意図される。しかしながら、映画の主音声信号の他の会話、効果、及び音楽は極めて高音量であり、よって、関連音声を覆い得る。よって、主音声の上で監督注釈を適切に理解し得るよう、映画の主音声信号はある時点で減少させられ或いは減衰させられるのが概ね望ましい。主信号のこの減衰を、例えば、追加的な関連音声信号を伴うメタデータを提供することによって達成し得る。その場合、メタデータは、主信号がどのように並びにどれだけ減衰させられるべきか正確に特定する。
更に、この減衰は時間と共に変化することが必要であり得る。例えば、アクション映画では、タイヤがキーキーする音を伴う高速走行する車や飛行機及びミサイルの爆発のような特徴を含み得る極めて高音量のシーン中に、主音声信号を甚だしく減衰させることが、信号のミキシングにおいて必要であり、その主音声信号の上では、最終使用者が関連信号からの監督注釈を十分に聞くことが困難であるかもしれない。例えば、監督は、アクションシーン中の大きな爆発が、誘導線及び特別な遠隔カメラを含めてどのように達成されたか、並びに、シーンが背景で流れる間にその特徴がどのような同期されたかを説明することを欲する。この場合、コンテンツ制作者は、会話の通常の音響レベルを依然として維持しながら、低周波効果を甚だしく減衰させることさえも欲するかもしれない。換言すれば、主音声の特定の種類の高い音響レベルは、時折、監督注釈を遮り得る。映画中の静かな親密シーンのような他のときには、例えば、最終使用者が映画の中心シーンにおける重要メッセージの囁きを正確に聞き得るよう、監督は映画の完全な音響レベルを維持することを欲し得る。
しかしながら、使用者はコンテンツ制作者によって提供される設定を調節する能力を欲し得る。例えば、監督注釈を活性化させた状態で映画を観る使用者は、再生中のある時点に、監督注釈よりもむしろ、原作の会話、音楽、音響、及び、効果を聞くことにより重要性を置くことを決定し得る。しかしながら、制作者のメタデータ設定は、監督注釈を無効にしないために、主信号がミキシング中に甚だしく減衰させられるべきことを示し得るので、使用者は、コンテンツ制作者によって提供されるミキシング設定を変更する直接的な方法を有さない(もちろん、使用者は、減衰される音響をより良好に聞くために音量を増大し得るが、他の非減衰音声も同様により高音量になるという望ましくない効果を伴う)。よって、入力音声信号のミキシングをカスタマイズする方法を提供する必要がある。
この機能を達成するために、使用者は、主信号と関連信号との間のバランスを規制する入力制御を備え得る。しかしながら、ミキシングは明らかに音響レベルに影響を及ぼすので、更なる手段を伴わないならば、音響レベルはプロセス中に再調節させられ、使用者入力によって規制される混合信号を備えるプログラムから非混合音声信号を備えるプログラムに切り換わるときに、音量(ラウドネス)の跳躍(ジャンプ)を招き得る。更に、メタデータ及び使用者入力は両方とも時間と共に変化し得るので、注意深く聞かなければ、混合信号の知覚音響レベルも時間と共に変化し得る。よって、プログラムの混合信号の知覚音響レベルが一定なままであるように、ミキシング中に主信号及び関連信号をスケーリングすることが更に必要である。
ある特徴によれば、支配的信号中の音響レベルを混合定数(mix constant)に維持し且つ支配的信号に対する非支配的信号の音響レベルを調節することによって、混合信号のために一定の知覚音響レベルを維持することを可能にする方法が開示される。その方法は、主信号と関連信号との間の調節可能なバランスを示すミキシングバランス入力を受け取ることを更に含む。その方法は、ミキシングバランス入力及びミキシングメタデータに基づき支配的信号を特定することを更に含む。その方法は、混合されるべき音声信号の如何なる分析又は測定をも必要とせずに、非支配的信号のための適切な換算係数(scaling factor)をスケーリング情報から直接的に決定することも更に含む。これらの技法は、音声信号の如何なる分析も測定も要求しないので、その技法を実施するために必要とされるハードウェアは、信号をサンプリングし或いはコンピュータによる集中的な計算を遂行しなければならないハードウェアシステムと比べて、より一層簡単であり得る。同様に、大量のデータをサンプリングし或いは分析することを必要とせずに、全てのデータをすぐさま利用可能であるので、実時間ミキシングを比較的容易に達成し得る。
第1の特徴によれば、2つの入力音声信号をミキシングして一貫した知覚音響レベルを備える単一の混合音声信号にする方法が提供される。このミキシング方法の第1のステップは、主音声信号を受け取ること、関連入力音声信号を受け取ること、スケーリング情報を備えるミキシングメタデータを受け取ること、及び、主信号と関連信号との間の調節可能なバランスを示すミキシングバランス入力を受け取ることを含む。これらの入力から、ミキシングメタデータ及びミキシングバランス入力によって提供されるスケーリング情報に基づき支配的信号を特定する。次に、支配的信号に対して非支配的信号をスケーリングする。最終的に、スケーリング後の非支配的信号を支配的信号と組み合わせて混合信号にする。よって、ミキシングバランス入力の使用を通じて、本方法は、使用者が支配的信号並びに支配的信号に対する非支配的信号のスケーリングレベルを選択することを可能にすることによって、使用者が混合物に影響を及ぼすことを可能にするが、支配的信号に対する非支配的信号のスケーリングによって、混合信号の知覚音響レベルは一定に保持される。
他の特徴によれば、信号の平均加重レベルによって音響レベルを表し得る。更に、音響レベルを信号の会話レベルとしても表現し得る。よって、本方法は、2つの入力音声信号をミキシングして一貫した知覚会話レベルを備えた単一の混合信号にすることに関し得る。更に、各信号と関連するダイアルノーム値によって会話レベルを測定し得る。ダイアルノーム(dialnorm)は、しばしば、復号器利得を制御するためのメタデータパラメータとして提供される。規格文書ETSI TS 102 366 v1.2.1によれば、「ダイアルノーム」メタデータパラメータは、1〜31(値0は留保される)に亘る5ビットコードである。そのコードは、フルスケールに対して−1dB〜−31dBに亘るレベルとして解釈されなければならない。ダイアルノームメタデータパラメータから、換算係数を決定し得る。換算係数は、(31−ダイアルノーム)dBと等しい。よって、31のダイアルノーム値は、0dBの換算係数を示すのに対し、1のダイアルノーム値は、−30dBの換算係数を示す。手短に言えば、ダイアルノームは、31〜1までの整数値であり、31の値は、復号器利得が単位利得(unity)に留まり、1の値は、復号器利得が30dBだけ減少されるべきことを示す。
支配的信号の音響レベルが一貫したままであるならば、非支配的信号のレベルにおける如何なる変動も余り目立たず、混合信号の知覚音響レベル及び知覚会話レベルは一貫したままでなければならない。好ましくは、入力信号は適切に正規化されなければならない。更に、一貫した知覚会話レベルを維持するために、ミキシングするときの入力信号の一貫したダイアルノームに注目が与えられなければならない。最良の結果のために、入力信号のためのコンテンツダイアルノームは、単位利得(unity gain)を示す普通は31のダイアルノームレベルで、適切に設定されなければならない。しかしながら、ダイアルノームは必ずしも31に設定される必要はなく、好ましくは、会話正規化が両方の入力信号に対して既に適用されていなければならない。ミキシング中、支配的信号は、一般的にはスケーリングされないのに対し、非支配的入力信号は、決定される換算係数によってスケーリングされる。従って、既述の方法に従った会話音声のミキシング後、支配的信号の会話レベルは一貫したままであるのに対し、ミキシングメタデータ及びミキシングバランス入力からのスケーリング情報を所与として、支配的信号に対する非支配的信号の会話レベルは適切である。
他の特徴によれば、ミキシングバランス入力は、極めて大きな負の値から極めて大きな正の値までの値をもたらす外部使用者入力を更に含み、それによって、ミキシング中に、ミキシングが所望の量だけ関連信号又は主信号のいずれかを優遇することを可能にする。一般的には、ミキシングバランス入力は、正又は負の実数である。このミキシングバランス入力は、2つの入力信号をミキシングするときに、使用者が焦点の所望の信号を所望に調節することを可能にする。更に、ミキシングバランス入力は、ミキシングプロセスにおいて使用者が支配的信号に対する非支配的信号の減衰を精密に特定することを可能にし、典型的には、使用者が無減衰から完全減衰までの完全な範囲から選択することを可能にする。ここに記載する方法の適用は、使用者が主信号の完全減衰から関連信号の完全減衰に混合物を円滑に切り換えることを可能にする。
ある特徴によれば、本方法は、非支配的信号をスケーリングする換算係数を決定するステップを更に含み得る。その場合、換算係数は、ミキシングメタデータ及びミキシングバランス入力に含まれるスケーリング情報から直接的に決定される。次に、本方法は、決定される換算係数を使用した非支配的信号のスケーリングを更に含み得る。更に、ミキシングメタデータは、関連信号に対して主信号をスケーリングするための換算係数を示す、主信号のためのメタデータ換算係数を含み得る。ミキシングメタデータは、主信号に対して関連信号をスケーリングするための換算係数を示す、関連信号のためのメタデータ換算係数を任意的に含み得る。換算係数は、dB値を更に含み得る。信号のための基準音響レベルは、典型的には、31のダイアルノーム設定として特定されるので、最良の結果のために、入力信号も、31のダイアルノーム設定を有するべきである。
本方法は、関連信号のためのメタデータ換算係数がないならば、以下の比較を行うことによって、支配的信号を特定するステップを更に含み得る。即ち、ミキシングバランス入力の値がミキシングメタデータからの主信号のためのメタデータ換算係数よりも大きい場合には、関連信号が支配的信号であると決定される。さもなければ、主信号が支配的信号であると決定される。関連信号が支配的信号であると特定されるならば、本方法は、主信号のための換算係数を決定することを更に含み、それはミキシングメタデータからの主信号のためのメタデータ換算係数とミキシングバランス入力との間の差として計算される。代替的に、主信号が支配的信号であると特定されるならば、本方法は、関連信号のための換算係数を決定することを更に含み、それはミキシングバランス入力と主信号のためのミキシングメタデータからのメタデータ換算係数との間の差として計算される。
関連信号のためのメタデータ換算係数もある場合には、本方法は、以下の比較を行うことによって、支配的信号を特定するステップを更に含み得る。即ち、主信号のためのメタデータ換算係数から関連信号のためのメタデータ換算係数を減算することによって、ミキシングメタデータからの主信号のためのメタデータ換算係数をミキシングメタデータからの関連信号のためのメタデータ換算係数によって調節し得る。ミキシングバランス入力の値が調整後の換算係数よりも大きい場合には、関連信号が支配的信号であると決定される。さもなければ、主信号が支配的信号であると決定される。関連信号が支配的信号であると特定されるならば、本方法は、調節後の換算係数とミキシングバランス入力との間の差として計算される主信号のための換算係数を決定することを更に含み得る。代替的に、主信号が支配的信号であると特定されるならば、本方法は、ミキシングバランス入力と調節後の換算係数との間の差として計算される関連信号のための換算係数を決定することを更に含み得る。
非支配的信号のための換算係数を決定し、どの信号が支配的信号であると決定されたかに基づき入力信号をミキシングすることによって、混合信号の知覚音響レベルを一定に保持しながら、焦点の信号の調節及び非支配的信号の対応するスケーリングの両方を依然として可能にする。換言すれば、それらの信号の少なくとも1つは常に支配的信号であり、それは焦点の信号である。支配的信号は概してスケーリングされないので、メタデータによって提供されるミキシング換算係数とミキシングバランス入力との組み合わせに基づき非支配的信号が支配的信号に対してどれだけ減衰させられるかに拘わらず、混合信号の音響レベルは他のプログラムに対して維持される。
一部の場合には、入力信号を音声データの多重チャンネルで構成し得る。ある代替的な実施態様では、主入力信号の各チャンネルのために、別個の換算係数を決定し得る。ミキシング中、非支配的信号の各チャンネルを、対応して決定されるその換算係数によってスケーリングし得る。そして、前の実施態様におけるように、支配的信号はスケーリングされないままである。よって信号は多重チャンネルも含み得る。その場合、ミキシングメタデータは、関連信号に対する主信号のための一次メタデータ換算係数と、関連信号に対する主信号の各チャンネルのためのメタデータ換算係数とを更に含み得る。
信号の多重チャンネルは、左、右、中央、左サラウンド、右サラウンド、及び低周波効果(LFE)チャンネルを備えるサラウンドチャンネルを含み得る。多重チャンネルは、例えば、5.1多重チャンネル信号、3.1多重チャンネル信号、13.1多重チャンネル信号、又は他の多重チャンネル信号を含み得る。
低周波効果(LFE)チャンネルを含む多重チャンネル信号のために、本方法は、LFEメタデータ換算係数の最小及び主信号の他のチャンネルの最大メタデータ換算係数としてLFEチャンネルのための換算係数を計算することを更に含み得る。この機能は、LFEチャンネルが過剰に強く混合信号を支配することを防止するよう意図される。
多重チャンネルを含む入力信号のために特に有用なものとして、本方法は、ミキシングバランス入力及び主信号のためのメタデータ換算係数及び関連信号のためのメタデータ換算係数から、支配的信号を以下の通り特定することを更に含み得る。即ち、本方法は、最大二次メタデータ換算係数を、低周波効果(LFE)チャンネルを除く主信号の全てのチャンネルのための全てのメタデータ換算係数の最大として決定することを含む。よって、LFEチャンネルは、もし存在するならば、最大二次メタデータ換算係数を決定することに使用されない。本方法は、この最大二次メタデータ換算係数と主信号のための一次メタデータ換算係数との合計を計算することを更に含む。次に、ミキシングバランス入力値がこの合計よりも大きいならば、関連信号が支配的信号であると決定される。さもなければ、主信号が支配的信号であると決定される。代替的に、関連信号のためのメタデータ換算係数もある場合、支配的信号の上記決定は、ミキシングバランス入力が、関連信号のためのメタデータ換算係数を減じたこの合計よりも大きいか否かを比較することによって決定される。
更に、関連信号が支配的信号であると決定される場合、本方法は、主信号のための一次メタデータ換算係数に対応する主チャンネルのためのメタデータ換算係数を加算し且つミキシングバランス入力を減算した値として計算される、主信号の各チャンネルのための換算係数を計算することを更に含み得る。
主信号が支配的信号であると決定され、関連信号のためのメタデータ換算係数がない場合、本方法は、ミキシングバランス入力の値から主信号のための一次メタデータ換算係数と(低周波効果チャンネルが存在するならば、低周波効果チャンネルを除いた、主信号の全てのチャンネルのための全てのメタデータ換算係数の最大である)最大二次メタデータ換算係数との合計を減算した値として計算される、関連信号のための換算係数を決定することを更に含み得る。
主信号が支配的信号であると決定され、関連信号のためのメタデータ換算係数がある場合、本方法は、ミキシングバランス入力に、関連信号のためのメタデータ換算係数を加算し、主信号のための一次メタデータ換算係数と(低周波効果チャンネルが存在するならば、低周波効果チャンネルを除いた、主信号の全てのチャンネルのための全てのメタデータ換算係数の最大である)最大二次メタデータ換算係数との合計を減算した値として計算される、関連信号のための換算係数を決定することを更に含み得る。
この方法は、主チャンネルのための主換算係数に、主チャンネルのための換算係数を加算し、一次主換算係数と(低周波効果チャンネルが存在するならば、低周波効果チャンネルを除いた、主信号の全てのチャンネルのための全てのメタデータ換算係数の最大である)最大二次メタデータ換算係数との合計を減算した値として計算される、主信号の各チャンネルのための換算係数を計算することを更に含み得る。
ある更なる特徴によれば、信号は、Dolby Digital Plus (DD+)又はDolby Pulse信号を含み得る。同様に、信号をE-AC-3、MPEG-4、HE-ACC、aacPlus、AC-3、Layer 2、MPEG-4 AAC、MPEG-4音声信号の任意の派生物、又は、他の類似の符号化フォーマットとして符号化し得る。よって、メタデータは、DD+信号をミキシングするための、例えば、ETSI TS 102 366 V1.2.2に従ってメタデータをミシンシングするための、ES-Level(Elementary Stream-Level)ミキシングメタデータを含み得る。このES-Level(ES-レベル)メタデータは、多重チャンネル信号のチャンネルのための換算係数、即ち、一次換算係数、並びに、左チャンネル、右チャンネル、中央チャンネル、左サラウンドチャンネル、右サラウンドチャンネル、及び、低周波効果(LFE)チャンネルのための換算係数に対応する、extpgmscl、extpgmlscl、extpgmrscl、extpgmcscl、extpgmlsscl、extpgmrsscl、extpgmlfesclを含む。ES-Levelメタデータは、panmean値を更に任意的に含み得る。ES-Levelメタデータは、関連信号のための換算係数に対応するpgmscl値を更に任意的に含み得る。DD+信号に関連する多くの場合には、ミキシングメタデータを関連信号で符号化し或いは関連信号中に埋設し得るが、様々なメタデータ規格及び実施は異なる。例えば、MPEG-4 HE-AACを用いるならば、ミキシングメタデータは、音声データと並んで流れるが、厳格に内側ではない。結果的に、上記技法の適用は、ミキシングメタデータが関連信号中に含まれる場合だけに限定されるべきではない。
他の特徴によれば、メタデータは、Pulse/HE ACC信号、並びに、E-AC-3、MPEG-4 HE-ACC、aacPlus、AC-3、MPEG-1 Layer 2、MPEG-4 AAC、又はMPEG-4音声信号の任意の派生物、例えば、ETSI TS 101 154 V1.9.1 Annex E2に従ったミキシングメタデータをミキシングするための、PES (Packetized Elementary Streams)-Levelミキシングメタデータを含み得る。このPES-Level(PES-レベル)メタデータは、多重チャンネル信号のチャンネルのための換算係数、即ち、一次換算係数、並びに、中央、正面、サラウンド、及びパン(pan)のための換算係数に対応する、AD_fade_byte、AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_surround、又はAD_pan_byteを更に含み得る。Pulse信号を含む多くの場合では、ミキシングメタデータを関連信号に直接的に関連付け得る。例えば、ミキシングメタデータ及び関連信号を同じ又は関連するストリーム中で共に伝送し得る。しかしながら、ここに記載する技法の適用は、そのような場合に如何様にも限定されるべきではなく、既述の技法は、関連信号に対する主信号のスケーリング情報をもたらすミキシングメタデータの受信を要求するだけである。
他の特徴によれば、本方法は、関連信号がモノラルでない限り、関連信号が主信号中に存在しないチャンネルを含まないという制約を更に含み得る。モノラル信号を、例えば、信号が中央チャンネルのみを有することを示す「音声コーディングモード」又は1のacmod値によって示し得る。それにも拘わらず、関連信号は、モノラル及びLEFチャンネルを更に含み得る。その場合、関連信号のLFEチャンネルは、主信号のLFEチャンネルと混合され、関連信号のモノラルチャンネルは、主信号の主チャンネルの上にパニング(pan)され、パニング(panning)は、信号がどのように分配されるべきかを特定する値、例えば、「panmean」値に従って、信号を多重チャンネルの上に分割又は分配することを含む。
他の特徴によれば、主チャンネルがモノラルではなく、よって、左チャンネル及び右チャンネルを有するが、関連信号はモノラルである(即ち、ステレオ、サラウンド、又は左右構成部品を有さない)とき、関連信号のためのメタデータは、パンメタデータ情報を更に含み得る。例えば、そのようなパンメタデータ情報をミキシングメタデータ中のメタデータキー「panmean」によって提供し得る。次に、その方法は、モノラル関連信号を混合信号の対応する左チャンネル及び右チャンネルの上にパニング(pan)するようパン値(pan value)を使用することを含み、panmean値は、各チャンネルのための換算係数を計算し得る方向を特定する。ETSI TS 102 366 v1.2.1規格の「E.4.3.5 Panning」セクションは、panmean値を適用するための更なる詳細を提供している。この仕様によれば、panmeanは、モノラル関連信号が、復号化される主信号の「空間」内に現れるべき有効角を決定し、0度は、中心であり、+/−90度は、フルパニング(full pan)左又は右を示す。パンを3.1、5.1、及び13.1のような様々な多重チャンネル信号に適用し得る。panmeanのための正確な範囲は、0〜239であり、それは1.5度の段階における0〜358.5度を表し、0度は、中央スピーカの方向である。例えば、121のpanmean値は、次の換算係、即ち、0.078左、0.997中央、0右、0.734左サラウンド、及び0.679右サラウンドで、5.1多重チャンネル信号の5つの非LFEチャンネルに適用される。
更に、他の実施態様では、追加的な換算係数を支配的信号に適用し得る。この換算係数を、メタデータから、追加的な入力制御から、或いは、ミキシング装置内の固定値から決定し得る。しかしながら、一定の知覚音響レベルの維持を一層更に向上させるために、この換算係数を、入力信号の実時間分析からも決定し得る。他の代替は、例えば、追加的な換算係数を、ダイアルノームを使用して、ビットストリームメタデータから派生させ得る。一部の場合において、換算係数は、単位元(unity)であり、この実施態様からの混合信号出力を前の実施態様の出力と同一にさせる。しかしながら、他の場合において、換算係数は、非単位元(non-unity)であり、この実施態様からの混合信号出力は、前の実施態様の出力と異なる。しかしながら、どの実施態様が使用されるかに拘わらず、支配的ストリームの会話レベルは依然として一定であり、混合信号の知覚会話レベルが一定のままであることを保証する。よって、他の特徴によれば、支配的信号に対して換算係数を適用することによっても、支配的信号をスケーリングし得る。支配的信号のこの追加的なスケーリングは、例えば、入力信号がミキシング前に正規化されない事態において、ミキシング装置内の入力音声信号の正規化を統合することを可能にするよう働き得る。
他の特徴によれば、本方法は、入力信号のためのコンテンツダイアルノームが適切に設定されたことを検証し、可能であれば、この条件が満足されなかったときに、ある表示をもたらすステップを更に含み得る。
他の特徴によれば、上述の信号をミキシングする方法を適用する、信号をミキシングする装置も提供される。同様に、上述の信号をミキシングする方法を適用する復号器も提供される。
他の特徴によれば、上述の方法のいずれかのステップを実行するコンピュータ読取り可能な命令を記憶する、プロセッサ読取り可能な記憶装置も提供される。同様に、プロセッサ上で実行されるときに上述の方法のいずれかを遂行するための実行可能な命令を含む、プロセッサ読取り可能なプログラム製品も提供される。
他の特徴によれば、入力音声信号を一貫した知覚音響レベルを備える単一の混合音声信号にミキシングするための装置も提供される。その装置は、主入力音声信号、関連入力音声信号、及びスケーリング情報を備えるミキシングメタデータを受け取るための受信器を含む。その装置は、主信号と関連信号との間の調節可能なバランスを示すミキシングバランス入力を更に含む。その装置は、支配的信号を特定し、入力信号をスケーリングし、且つ、それらの信号を混合信号に組み合わせるよう構成されるミキサを更に含む。支配的信号は、ミキシングメタデータ及びミキシングバランス入力によって提供されるスケーリング情報を分析することによって特定され、非支配的信号は、支配的信号に対してスケーリングされる。更に、入力音声信号を一貫した知覚音響レベルを備える単一の混合音声信号にミキシングするための装置も提供され、非支配的信号のための換算係数は、ミキシングメタデータ及びミキシングバランス入力からのスケーリング情報から直接的に決定される。非支配的信号は、その決定される換算係数を使用してスケーリングされ、そのスケーリングされる非支配的信号は、支配的信号と組み合わせられて、混合信号にされる。
他の特徴によれば、入力音声信号を一貫した知覚音響レベルを粗なる単一の混合音声信号にミキシングするための装置も提供され、それは関連入力音声信号と統合されるミキシングメタデータを受け取るよう構成される。その装置のミキシングバランス入力は、極めて大きな負の値から極めて大きな正の値までの値をもたらす外部使用者入力を更に含み得る。その装置の受信器は、多重チャンネル信号を受け取るよう更に構成されてもよく、ミキシングユニットは、多重チャンネル信号を混合するよう構成される。
上述の技法は、混合信号の一貫した知覚音響レベルを維持するよう設計される。そのような技法を信号レベリングとしても記載し得るので、信号をスケーリングする上述の技法を、信号レベルのレベリング及び調節の関係から見ることもできる。結果的に、その方法の主題が達成する結果に基づき信号をミキシングするための方法の主題を一般化するために、入力信号は、主信号のスケーリングと関連信号のスケーリングとの間の結果的としてスケーリングレベルの差が、本質的に、主信号のためのミキシングメタデータ換算係数と、ミキシングバランス入力値との合計であるようにスケーリングされなければならない。同様に、関連信号のためのミキシングメタデータ換算係数があるならば、主信号のスケーリングと関連信号のスケーリングとの間の結果としてのスケーリングレベルの差は、本質的に、主信号のためのミキシングメタデータ換算係数と関連信号のためのミキシングメタデータ換算係数との間の差と、ミキシングバランス入力値との合計である。
上述の方法を用いるならば、コンテンツ著作者は、主信号と関連信号との間のレベルの差に常に影響を及ぼし得る。結果的に、最終使用者も、主信号と関連信号との間のレベルの差に常に影響を及ぼし得る。更に、ミキシングバランス入力が、0の中性設定にあるとき、信号は正にコンテンツ著作者によって特定されるようにミキシングされる。ここに記載する技法は、唯一の信号としての主信号(その場合、関連信号は完全に減衰させられる)から、関連信号が再生中に存在する唯一の信号である他の極端(その場合、主信号は完全に減衰させられる)まで、ミキシングバランス入力の範囲を通じて、円滑な制御をもたらす。それにも拘わらず、支配的信号はレベリングされ、それが意味するのは、ミキシングメタデータ又はミキシングバランス入力のための値に拘わらず、他のプログラムに切り換えるときに或いは他のプログラムから切り換わるときに、聴取者が音響レベルの有意な変化を知覚してはならないことである。よって、会話音声のために、使用者は焦点の会話を選択し得るし、支配的会話は常にレベリングされる。何故ならば、支配的会話は、支配的信号と関連付けられるからである。
本特許出願中に概説するような実施例及び実施態様を含む方法及び装置を単独(スタンドアローン)で或いは本文書中に開示する他の方法及び装置との組み合わせにおいて使用し得る。更に、本特許出願中に概説する方法及び装置の全ての特徴を任意に組み合わせ得る。具体的には、請求項の機能を当業者に明らかな任意の方法において互いに組み合わせ得る。
添付の図面を参照して、以下の図面によって例示される実施例の使用を通じて、本発明を以下に説明する。
異なる音声プログラムの音響レベルを示すグラフである。 レベリング後の異なる音声プログラムの音響レベルを示すグラフである。 ミキサを備えるセットトップボックスを示すブロック図である。 支配的信号及びミキシング入力信号を特定するためのプロセスを示すプロセス図である。 支配的信号及びミキシングを特定するための流れを示すフロー図である。 主信号及び関連信号のための換算係数のプロットを示すプロット図であり、そこでは、その場合のために、ミキシングメタデータ換算係数は−10dBである。 主信号及び関連信号の図5Aの換算係数の読取りのための実施例を示すプロット図であり、そこでは、ミキシングバランス入力が+5dBである場合のために、ミキシングメタデータ換算係数は−10dBである。 主信号及び関連信号の図5Aの換算係数の読取りのための実施例を示すプロット図であり、そこでは、ミキシングバランス入力が−15dBである場合のために、ミキシングメタデータ換算係数は−10dBである。 5.1多重チャンネル信号のミキシングを示す信号ブロック図である。 5.1多重チャンネル信号をミキシングするためのある実施例を示すフロー図である。 図7のステップ703のためのLFEチャンネルのための換算係数を決定するための流れを示すフロー図である。 5.1多重チャンネル主信号と1.1関連信号(モノラル+LFE)とのミキシングを示す信号ブロック図である。
例えば、デジタル放送環境において、デジタル音声ストリーム内に音声メタデータを埋め込むことは一般的な着想である。そのようなメタデータは、「データについてのデータ」、即ち、ストリーム内のデジタル音声についてのデータである。メタデータは、どのように音声を再生(reproduce)するかについての情報を音声復号器にもたらし得る。そのようなメタデータは、デジタル音声ビットストリームと共に送信されるのが典型的である。このメタデータは、コンテンツ制作者が、ある範囲のリスニング環境内の消費者に最高品質のオーディオを供給するために、前例のない能力をもたらす。それは消費者がそれらの設定を彼らのリスニング環境に最適であるよう調節する選択肢も提供する。
ここに記載する技法を広範囲の音声信号フォーマット及びでコーディング方式に適用し得る。それらの方法を適用するために、それらの信号は、ミキシング情報を提供する音声信号を伴うメタデータを必要とするだけである。入力信号は単一チャンネルであり得るが、多くの場合には多重チャンネルを有し、例えば、周知の5.1マルチチャンネル信号は、6個のチャンネル、即ち、左、右、中央、左サラウンド、右サラウンド、及びLFE(低周波効果)を備える。そのようなミキシングメタデータのためのそのような音声信号フォーマットの2つの例は、Dolby Digital Plus (DD+又はE-AC-3 (Enhanced AC-3))及びHigh-Efficiency Advanced Audio Coding(HE-AAC)である。
Dolby Digital Plus(DD+又はE-AC-3 (Enhanced AC-3))は、AC-3コーデックに基づく強化された符号化システムであるデジタルオーディオ圧縮方式である。E-AC-3は、6.144Mbit/sピークの符号化ビットレートで、13全域オーディオチャンネルまでをサポートする。例えば、文献ETSI TS 102 366 v1.2.1は、DD+メタデータを、例えば、「E1.3.1.17 extpgmscl: External Programme Scale Factor – 6 bits: 一部の用途において、2つのビットストリームを符号化し且つ一体に混合し得る。このフィールドはミキシング中に外部プログラム(即ち、別個のビットストリーム又は独立したサブストリームにおいて遂行されるプログラム)に適用されるべき換算係数(scale factor)を特定する。このフィールドは、pgmsclと同じスケールを使用する。」と、詳細に記載している。最も関連するミキシングメタデータは、以下のメタデータキー、即ち、extpgmscl、extpgmlscl、extpgmrscl、extpgmcscl、extpgmlsscl、extpgmrsscl、extpglfescl、pgmsclを含む。一部の場合には、例えば、関連音声信号がモノであるときには、メタデータキーpanmeanも使用し得る。
High-Efficiency Advanced Audio Coding(HE-AAC)は、ISO/IEC14496-3においてMPEG-4オーディオプロファイルとして定められるデジタルオーディオのための損失性データ圧縮方式である。それはストリーミングオーディオのような低ビットレート用途のために最適化された低複雑度AAC(AAC LC)の拡張である。HE-AACバージョン1プロファイル(HE-AAC v1)は、周波数領域内の圧縮効率を強化するためにスペクトル帯域複製(SBR)を使用する。HE-AACバージョン2プロファイル(HE-AAC v2)は、ステレオ信号の圧縮効率を強化するために、SBRをパラメトリックステレオ(PS)と結合させる。それはAACプラスコーデックの標準化及び改良版である。最も関連するミキシングメタデータは、以下のメタデータキー、即ち、AD_fade_byte、AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_surround、及びAD_pan_byteを含む。HE-AACは、DAB+又はDigital Radio Mondialeのようなデジタルラジオ基準において使用される。
その能力を十分に活用するために、コンテンツ著作者又はプロデューサは、制作中又は製作後に追加されるのが典型的な音声メタデータをしっかりと把握すべきである。
背景技術の部分に記載したように、異なるプログラムの一定の音響レベルを維持するために、最も現代的な音声信号は、音声信号をスケーリング(scaling)するために使用される会話レベルのようなメタデータを含む。そのようなスケーリングは、各信号が、同じ音響レベルも維持しながら高品質及び良好な圧縮を許容する形態において適切に表されることを可能にする。図1aは、そのようなレベリング又は会話レベル正規化を備えない異なるプログラムの一例を示している。図面から分かるように、プログラムの音響レベルは異なるので、聴取者は1つのプログラムから他のプログラムに切り換わるときに、異なる音響レベルを知覚し得る。図1aは、例えば、使用者がチャンネルを切り換える或いは新しいプログラムが時間t0、t1、t2、及びt3で送信される場合における、4つの異なるプログラムS1、S2、S3、及びS4の音響レベルを例示している。時間の進行を水平軸に示し、音響レベルを垂直軸に示している。水平線A1はプログラムS1の音響レベルを示しており、それは時間t0〜t1に進んでいる。同様に、水平線A2、A3、及びA4はプログラムS2、S3、及びS4の音響レベルをそれぞれ示しており、それらは時間t1〜t2、t2〜t3、及びt3〜t4に進んでいる。それらから分かるように、音響レベルA1は音響レベルA2、A3、及びA4よりも高い。
音響レベルの差を矯正するために、プログラム信号はレベリングされるか或いは共通の基準レベルにスケーリングされる。よって、図1bは、共通の基準音響レベルにレベリングされた後のプログラム信号を示している。信号のための基準音響レベルは、平均加重レベルとして表されるのが典型的であり、それは31のダイアルノーム設定としてメタデータ中に特定されることが多い。図1bに見ることができるように、音響レベルA1’、A2’、A3’、及びA4’は全て同じである。よって、プログラム間で切り換わるとき、使用者は音響レベルの有意な変化を知覚しない。
多くの新しい音声信号フォーマットが、1つ又はそれよりも多くの関連信号が主信号とグループ化されることも可能にする。装置設定又は使用者選択のいずれかに基づき、例えば、再生中に、これらの音声信号を活性化し得る。そのような活性化は、関連信号をその対応する主信号と組み合わせることを含むのが典型的である。それらの信号を組み合わせて1つの信号にすることは、ミキシングと呼ばれる。例えば、プロデューサは監督の注解トラックを、例えばDVDビデオの上の、サウンドトラックの上に提供し得る。次に、聴取者はセットトップボックス又はDVDプレーヤを使用してこの関連トラックを活性化し、次に、それは主信号の上に重ね合わせられ、主信号と混合させられる。他のプログラムと同じ知覚音響レベルを維持するために、そのような関連信号は、それらの信号がどのように混合させられるべきかを特定するメタデータを含むのが普通である。このミキシングメタデータは、信号をどのように混合させるかに関する具体的な詳細を提供することによって、プロデューサが信号の混合を精密に制御することを可能にし、多重チャンネル信号を混合させるための詳細を特定する選択肢も含むことが多い。
ミキシングメタデータは、制作者によって構想される混合レベルを記載するが、聴取者は、ある時点で、それらの信号がどのように混合させられるべきかに関する異なる要望を有し得る。よって、聴取者は、他の信号が「焦点の会話」であることを欲することを決定し得る。よって、「焦点の会話」は、混合信号中で優勢でなければならない信号である。しかしながら、この「焦点の会話」は幾分主観的である。コンテンツ著作者は、その信号が焦点にあるべきかの着想を有するが、使用者がそれに対する支配を有することも望ましい。この出願の教示によれば、主信号及び関連信号のミキシングを調節するためのミキシングバランス制御入力の提供によって、「使用者焦点」の表示を達成し得る。
よって、1つの信号を他の信号よりも優遇するよう混合信号を調節することによって、使用者がメタデータによって特定される信号加重から逸脱することを欲する場合のために、ある実施態様は、ミキシングバランス入力の入力を可能にするために、ミキシングバランス制御を提供することを含む。このミキシングバランス制御は、使用者が、それらの信号のうちの1つが混合信号中により多く存在しなければならないこと並びにその信号がどの程度までより優勢でなければならないかを示すことを可能にする。加えて、このミキシングバランス入力は、使用者に焦点の信号に対する即座の制御をもたらす。標準位置において、ミキシングバランス制御は中立であり、それはミキシングがメタデータ中に特定されるように起こることを示す。ミキシングバランス制御が1つの方向(この実施態様では、負の方向)において回転されるとき、主信号は関連信号に対してより高音量にさせられる。バランス制御が他の方向(この実施態様では、正の方向)において回転させられるとき、関連信号は主信号に対してより高音量にさせられる。
しかしながら、そのようなミキシングバランス制御又はミキシングバランス入力が、次に、主信号及び関連信号のレベルを増大又は減少させるために使用されるとき、混合信号の音響レベル又は知覚会話レベルは、それによって変更させられる恐れがある。よって、活性化される関連信号を伴う或いは伴わないグログラム間の切換えは、図1aに記載するような望ましくない状況を再び招き得る。よって、混合信号の知覚音響レベルも一定に維持されるよう、ミキシングバランス入力の下での関連信号及び主信号のミキシングを提供する必要がある。
ここに記載する技法を、セットトップボックス、非可搬式オーディオプレーヤ、ミキシング装置、DVDプレーヤ、テレビ、スマートフォン、又はコンピュータシステム用のTV受信装置のような多くの実施態様において実施し得る。更に、個別の特徴をハードウェアシステム及びソフトウェアシステムの組み合わせにおいて実施し得る。ここに記載する技法に従ったミキサを含むセットトップボックスに基づき1つの具体的な実施態様の構成部品をより詳細に記載する。この実施態様のセットトップボックスを図2に例示する。セットトップボックス200は、受信器209と、ミキサ204と、プロセッサ205とを含む。この実施例はこれらの構成部品を具備して示されているが、ここに記載する技法の適用は、この厳密な構成に限定されるべきではない。例えば、受信器209をミキサ204に統合し得る。更に、セットトップボックス200は、プロセッサを有する必要はない。何故ならば、その機能性を従来的な電子回路によって遂行し得るからである。この実施例において、セットトップボックス200の受信器209は、主入力信号201と、対応するメタデータを含む関連入力音声信号202とを受信するよう構成される。一部の場合、受信器は、別個に送信又は符号化し得るミキシングメタデータを受信するよう更に構成される必要があり得る。必要であれば、信号の復号化に従って入力信号201,202及び対応するミキシングメタデータ202aを複合するよう受信器209を更に構成し得る。加えて、セットトップボックス200及びミキサ204は、ミキシングバランス制御入力203を受信するようにも構成される。任意的に、ミキシングバランス制御入力203の特別な復号化を遂行するよう受信器209を構成し得る。ミキシングバランス制御入力203の更なる特徴及び厳密な実施のための様々な選択肢がある。例えば、セットトップボックス200は、使用者が遠隔制御装置によってアクセスされるメニューを介してこのミキシングバランスレベルを設定することを可能にするよう、この入力を遠隔制御装置とリンク(連結)し得る。もちろん、セットトップボックス200又はその遠隔制御装置は、ミキシングバランス制御入力を、入力ダイアル、プラス及びマイナスのキー、又は類似の入力装置のような、専用素子で実現し得る。もちろん、ミキシングバランス制御入力203を他のシステム又は装置からの信号として受信するようセットトップボックス200及びミキサ204を構成してもよい。いずれにしても、支配的信号206は、主入力信号201、関連入力音声信号202、ミキシングメタデータ202a、及びミキシングバランス制御入力203に基づき、ミキサ205のプロセッサ204によって特定される、入力信号である。よって、非支配的信号207は、支配的信号206であると決定されない他の入力信号である。次に、非支配的信号がスケーリングされた後、スケーリングされた非支配的信号207sは、非支配的信号207である。最終的に、支配的信号206及びスケーリングされた非支配的信号207sは、混合信号208として混合される。
図2の構成に基づく音声信号のミキシングのためのこの目標を達成する1つの例示的な解決策を図3に例示する。このように、入力は、主入力信号201と、関連入力信号202と、ミキシングバランス制御入力203とで構成される。先ず、ステップ301において、ミキサ204、セットトップボックス200、及び/又は受信器209によって、主入力信号201を受信する。ステップ302において、ミキシングメタデータ202aを含む関連入力信号202を受信する。関連入力信号202内へのミキシングメタデータ202aの包含は、この実施例のためだけであり、その技法の適用を限定するものと解釈されてはならない。何故ならば、他の規格及び信号復号化フォーマットは異なり得るからである。ステップ303において、ミキシングバランス制御入力203を受信する。これらのステップは、信号のフォーマットを要求し得る如何なる特別な復号化をも含む。次に、ステップ304において、混合されるべき入力信号201,202から支配的信号206を特定するために、ミキシングメタデータ202a及びミキシングバランス制御入力203からのスケーリング情報を使用する。このステップを一般的な電子装置又は回路によって遂行し得る。何故ならば、このステップは、入力信号の如何なる高出力計算、測定、徹底分析、又はサンプリングをも必要としないからである。次に、任意的ステップ305において、非支配的信号207のための換算係数をミキシングメタデータ202a及びミキシングバランス制御入力203から直接的に決定し得る。ステップ306において、非支配的信号207をスケーリングする。非支配的信号207のための換算係数が、ミキシングメタデータ202a及びミキシングバランス制御入力203に基づきステップ305において決定される場合、ステップ306は、ステップ305において決定する換算係数に従った非支配的信号207のスケーリングを含む。最終的に、ステップ307において、最終ステップ308の混合信号208として、スケーリングした非支配的信号を支配的信号206と組み合わせる。
ある更なる実施態様は、直接的にミキシングメタデータ202a及びミキシングバランス制御入力203に基づく非支配的信号207のための換算係数の決定のために、任意的ステップ305を含む。図4は、この更なる実施態様のための決定のためのフローチャートを示している。支配的信号206の特定は、ミキシングバランス制御入力203及びミキシングメタデータ202aに基づく。一部の場合、ミキシングメタデータ202aは、関連信号のための換算係数も含む。このメタデータ値が存在するならば、信号を混合するためにメタデータ換算係数を調節するよう、これを使用し得る。よって、任意的ステップ401において、関連信号のための換算係数を主信号のための換算係数から減算することによって、主信号のための換算係数を調節し得る。ステップ402において、ミキシングバランス制御入力203の値を調節後のメタデータ換算係数と比較する。換算係数がステップ401において調節されない場合には、ミキシングバランス制御入力203の値をミキシングメタデータ202aからの主信号のための換算係数と比較する。ミキシングバランス制御入力203の値がミキシングメタデータ換算係数202aよりも大きい「はい」の場合のために、ステップ403yにおいて、関連信号202は支配的信号206であり、主信号201は非支配的信号207であると決定する。さもなければ、ミキシングバランス制御入力203の値がミキシングメタデータ換算係数202a以下である「いいえ」の場合のために、ステップ402nにおいて、主信号201は支配的信号206であり、関連信号202は非支配的信号207であると決定する。両方のステップ403y及び403nの後にステップ404が続き、そこでは、非支配的信号207をスケーリングする。ステップ405において、支配的信号206をスケーリング後の信号207sと組み合わせて、ステップ406の混合信号208を形成する。
図5は、関連信号202を主信号201とミキシングするときに主信号及び関連信号201,202に適用されるべき換算係数の具体的な実施例を例示するプロット図を示している。この実施例において、関連信号202のミキシングメタデータ202aの換算係数は、主信号201が−10dBだけスケーリングされるべきことを特定する。関連信号202と混合させられるときの主信号201のスケーリングのためのこの−10dBの換算係数は、マスター製作時にコンテンツ制作者によって設定される所望のミキシング関係を示す。図5の水平軸は、ミキシングバランス制御入力203が負の無限大から正の無限大に変化するときの、ミキシングバランス制御入力203を示している。垂直軸は、換算係数を、下から上に、−∞dBから0dBまで、dBにおいて示している。図5の2つのプロットは、−∞から+∞まで、ミキシングバランス制御入力の全ての値のために座標で示した、2つの入力信号のための換算係数を示している(ミキシングバランス制御入力の値は、水平軸の上にある)。2つの線プロット(一方は破線であり、他方は点線である)は、夫々、主信号201及び関連信号202のための換算係数を表している。よって、破線501a,501bのプロットは主信号を示し、点線502a,502bのプロットは関連信号を示している。図面から分かるように、ミキシングバランス制御入力203が中立設定、即ち、ゼロdBにあるとき、ミキシングバランス制御入力203は何らの影響も及ぼさず、換算係数は、メタデータ202a中に特定されるようである。即ち、この実施例において、(関連信号に対する主信号の減衰量を示す)特定されるメタデータ換算係数が−10dBである場合、関連信号202は主信号206であり、スケーリングされず、主信号201は−10dBのメタデータ換算係数に従ってスケーリングされる。しかしながら、図面から分かるように、ミキシングバランス制御入力203が、ミキシングメタデータ換算係数よりも負に、即ち、−10dBにされるならば、主信号201は支配的信号206になる。更に、それらの入力信号のうちの何れが支配的信号であるかを、図5中に印501a,501b及び502a,502bによって示す。図5において、水平線501aは、主入力信号201が支配的信号206であるときの主入力信号201を表し、対角線501bは、主入力信号201が非支配的信号207であるときの主入力信号201を表し、水平線502bは、関連信号202が支配的信号206であるときの関連信号202を表し、対角線502aは、関連信号202が非支配的信号207であるときの関連信号202を表している。
図5における場合の換算係数を判読するための具体的な実施例のために、図5aは、ミキシングバランス制御入力203が+5dBの値を有する場合のための換算係数を示しており、図5におけるように、主信号のためのミキシングメタデータ換算係数は−10dBである。図面から、主信号202のための換算係数501aは−15dB(−10dB−5dB=−15dB)あるのが分かる。関連信号202のための換算係数502aは、0dBである。関連信号202は支配的信号206であるので、関連信号202のための換算係数は1(unity)でなければならないことが予想される。よって、ミキシングバランス制御入力203が関連信号202を利させるように増大されるならば、関連信号202は支配的信号206のままであり、関連信号202はスケーリングされず、主信号201のみがスケーリングされる。
他方、図5bは、ミキシングバランス制御入力203が−15dBの値を有する図5の場合のための換算係数を示しており、図5におけるように、主信号のためのミキシングメタデータ換算係数は−10dBである。図面から、主信号501bのための換算係数は0dBであり、よって、主信号は支配的信号206であるので、主信号201はスケーリングされないこと、並びに、関連信号202は、−5dB(−15dB−(−10dB)=−5dB)の関連換算係数によってスケーリングされることが分かる。
更に、図5A、5B、及び5Cから、ミキシングバランス制御入力203が正の無限大に設定されるとき、主信号201は完全に減衰させられ、関連信号202はスケーリングされないことが分かる。逆に、ミキシングバランス制御入力203が負の無限大に設定されるとき、主信号はスケーリングされず、関連信号202は完全に減衰させられるのが分かる。
多重チャンネル信号をミキシングするためにもここに記載する方法を適用し得る。一般的な多重チャンネル信号に2〜14の異なるチャンネル(例えば、ステレオのために2チャンネル、モノラル+LFEのために2チャンネル、3.1のために4チャンネル、5.1のために6チャンネル、及び13.1のために14チャンネル)があるように、多重チャンネル信号のためのミキシングメタデータは多くの異なる形態を有し得るので、ここでは、汎用的なメタデータキーの使用を通じて方法を記載する。実際には、当業者は、以下に列挙する汎用メタデータを、それらの信号によって使用される特定の復号化と置換する必要がある。よって、「sclmain」、「scl[ch]」、及び「pan」の総称を以下に使用し、そこでは、「sclmain」は、主換算係数であり、「scl[ch]」は、各個別のチャンネルの換算係数であって、[ch]は、チャンネルのための指数であり、「pan」は、それらのチャンネルが異なる多数のチャンネルとの混合物にどのように適用されるべきか(例えば、左側チャンネルにモノラル信号の50%を、右側チャンネルに50%、他のチャンネルに0%、或いは、左側チャンネルに60%、中央チャンネルに40%、右側のLFE及びサラウンドチャンネルに0%のように、例えば、モノラル信号をどのように5.1信号に適用するべきか)を示す任意的な値である。
表1は、(ES及びPESのために一般的な)ミキシングメタデータを一般化した表示であり、列1は、汎用メタデータキーを示し、列2は、ESのための(例えば、Dolby Digital Plus又はDD+のための)対応するメタデータを示し、列3は、PESのための(例えば、Dolby Pulse又はDVBのための)対応するメタデータを示している。
Figure 0005603499
後続の部分及び以下の擬似コードのために、「Pref」の表現は、主信号201と関連信号202との間のバランスを調節するためのミキシングバランス制御入力値203を示す。ミキシングバランス制御入力203の値は、[−∞〜+∞]の範囲を有し、−∞は、関連信号の完全な減衰に至り、0は、ミキシングメタデータ202aに従ったミキシングに至る中性値であり、無限大は、主信号201の完全な減衰に至る。
5.1多重チャンネル主信号201と5.1多重チャンネル関連信号202とを含むこの実施例において、多重チャンネル信号のための技法の適用は、以下の擬似コードをもたらし、gainA及びgainM[ch]は、関連信号202及び主信号201のチャンネルに対してそれぞれ適用される換算係数又は有効利得である。
以下の擬似コードは、dB領域(ドメイン)で作動する。
Figure 0005603499
この擬似コードは、入力信号のための各チャンネルのために実行される。
よって、ミキシングバランスがその最大値である+∞dBにあるとき、関連信号202は支配的信号206であり、よって、主信号201は完全に減衰させられ、混合信号208は本質的にスケーリングされない関連信号202である。対照的に、ミキシングバランス203がその最小値である−∞dBにあるとき、主信号201は支配的信号206であり、よって、関連信号202は完全に減衰させられ、混合信号208は本質的にスケーリングされない主信号201である。
この具体的な実施例において、主信号が支配的信号である場合には(その他の項におけるgainM[ch] = sclmain + mainschltotalの線)、支配的信号を僅かにスケーリングしてもよい。これはアルゴリズムが主信号に対する正の利得の適用を防止するのを可能にし、それはDD+メタデータで可能である。最終結果は、幹線(main)の最も高音量のチャンネルが0dBに限定されることであるべきであり、それは支配的信号が1つの利得を有するべきであるという一般原理と概ね整合する。
この擬似コードを特定のメタデータに適用するために、適切なメタデータ用語は、scl[ch]のような汎用的な変形と置換されなければならない。よって、多数のチャンネル、復号化の種類、及び信号中で利用可能なメタデータを含む、特定の形態の信号に基づき、当業者は、ある特定の場合のために、適切な汎用化されたメタデータキーをマッピングし得なければならない。一部の特定の場合のために、上記に列挙するメタデータの全ては関連しなくてもよい。例えば、5.1多重チャンネル信号をミキシングするために、当業者は、関連信号が主信号と全く同じチャンネルを既に含むので、panメタデータが存在しないか或いは無視されるべきであるかを決定し得なければならない。
関連信号202がモノラルであり主信号201がモノラルでない場合のために、パニング利得(panning gain)を関連信号201に適用可能でなければならない。この場合、関連信号がLFEチャンネルを有するならば、scl[lft]のような上記の擬似コード中に記載するように、LFEチャンネルを混合し得る。
ESレベルミキシングメタデータを使用してDD+をミキシングするために、以下のESレベルミキシングメタデータキー、即ち、extpgmscl、panmean、extpgmlscl、extpgmrscl、extpgmcscl、extpgmlsscl、extpgmrsscl、extpgmlfescl、pgmsclを使用する。
一般的には、ミキシングにおいて、全ての他のミキシングメタデータは必要とされない。ダウンミキシングのためにメタデータキーdmxsclを追加的に使用し得る。ダウンミキシングは、異なる数のチャンネルを備えるフォーマットへの信号のマッピングである。ミキシング中に主チャンネルのためのメタデータ換算係数を調節するために、関連信号のための換算係数を表すメタデータキーpgmsclを追加的に使用し得る。上記の擬似コードのために、変数sclassoは、pgmsclを表す。擬似コードの線、if (pref > mainscltotal - sclasso)から、DD+においてメタデータキーpgmsclを表すsclassoは、支配的信号を決定するif比較に影響を及ぼすことが分かる。何故ならば、sclassoは、prefを用いた比較の前に、mainscltotalから減算されるからである。しかしながら、sclassoの使用は任意であり、sclassoが存在しないならば或いはその値を使用することが望ましくないならば、prefは、mainsscltotalと単に比較される。
例えば、DVBにおいて、PESレベルミキシングメタデータを使用してDolby Pulse/HE-AACをミキシングするために、以下のESレベルミキシングメタデータ、即ち、AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_suroundを使用する。
最良の結果のために、[AD_gain_byte_center + AD_fade_byte]、[AD_gain_byte_front + AD_fade_byte]、[AD_gain_byte_surround + AD_fade_byte]の各々の結果として得られる最大利得は、+12dBより高くてあってはならず、AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_surroundの間の関係は維持されなければならない、即ち、AD_fade_byte = min (12dB、AD_fade_byte + max(AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_surround))でなければならない。
図6は、5.1多重チャンネル信号610を、ミキシングメタデータ640、例えば、Dolby Digital Plus (DD+又はE-AC-3 (Enhanced AC-3))信号を含む5.1多重チャンネル関連信号620とミキシングするための、ある更なる実施態様を示している。入力は、ミキシングバランス制御入力601と、主信号610と、ミキシングメタデータ640を備える関連信号620とを含む。この実施例において、入力主信号610は及び出力混合信号630は、6チャンネル、即ち、左、右、中央、左サラウンド、右サラウンド、及びLFE(low-frequency effects)を含む、5.1多重チャンネル信号である。よって、主入力信号610は、6つのチャンネル、即ち、左611、右612、中央613、左サラウンド614、右サラウンド615、及びLFE(low-frequency effects)616を含む。関連信号620も、6チャンネル、即ち、左621、右622、中央623、左サラウンド624、右サラウンド625、及びLFE(low-frequency effects)626を含む。ミキシングメタデータ640も、主換算係数647と、6チャンネル、即ち、左641、右642、中央643、左サラウンド644、右サラウンド645、及びLFE(low-frequency effects)646のための換算係数とを含む。一部の場合、ミキシングメタデータは、関連信号648のための換算係数を更に含み得る。関連信号のためのこの換算係数が存在しないならば、それは無視されるか或いは単位元(unity)又は0dBとして処理される。ミキサ600は、ミキシングバランス入力601からの入力を受け取るようにも構成される。ミキシングメタデータ640及びミキシングバランス入力601に基づき、各チャンネル651,652,653,654,655,656のための換算係数が、図7Aにも示す上記擬似コード中のロジック(論理)に基づき決定され、図7Aは、各チャンネルのための換算係数がどのように決定されるかを記載するフローチャートである。ミキシング換算係数651,652,653,654,655,656から、入力信号の各チャンネルをスケーリングし、主スケーリングは非支配的信号に起こり、支配的信号は最小にスケーリングされるだけであるか或いは全くスケーリングされない。最終的に、スケーリング後のチャンネル信号660,670の対応するチャンネルが組み合われて混合チャンネルになり、その場合、6個の混合チャンネル631,632,633,634,635,636は、5.1混合出力信号630を含む。よって、出力される混合5.1信号630も、6チャンネル、即ち、左631、右632、中央633、左サラウンド634、右サラウンド635、及びLFE(low-frequency effects)616を含み、それらは、図7Aのロジックに従ってそれぞれ計算される。
図7Aは、5.1多重チャンネル入力主信号610を5.1多重チャンネル入力関連信号620とミキシングするための図6の実施態様を記載するフローチャートを示しており、主信号610が支配的信号206であるならば、支配的信号206を僅かにスケーリングしてもよい。図6に示すように、入力は、ミキシングバランス入力601と、主信号610と、ミキシングメタデータ640を備える関連信号620とを含み、入力信号及び混合出力信号630は、5.1多重チャンネル信号である。よって、信号610,620,630は、6チャンネルを含み、ミキシングメタデータ640は、主換算係数647と、6チャンネル、即ち、左641、右642、中央643、左サラウンド644、右サラウンド645、及びLFE(low-frequency effects)646のための換算係数とを含む。一部の場合、ミキシングメタデータ640は、関連信号sclasso648のための換算係数を更に含む。sclasso648が存在しないか或いはミキシング中に使用されるのが望ましくないならば、sclassoのために0dBの値を使用し、他の換算係数の調節を行わない。ステップ701において、5個の「通常チャンネル」、即ち、左641、右642、中央643、左サラウンド644、及び右サラウンド645の最大換算係数を「maxscl」として決定する。次に、ステップ702において、mainscltotalをsclmain647及びmaxsclの合計として計算し、そこでは、sclmain647は、ミキシングメタデータの主換算係数であり、maxsclは、通常チャンネル641,642,643,644,645の換算係数の最大である。LFE換算係数を決定するステップ703を図7Bにより詳細に記載する。
図7Bは、2つの5.1多重チャンネル信号をミキシングするための図7Aの実施例に関するLFEチャンネルのための換算係数を決定するための、図7Aのステップ703の詳細を提供するフローチャートを示している。ステップ703aにおいて、LFEチャンネル646のためのミキシングメタデータを、図7Aのステップ701において決定する他のチャンネルのための最大換算係数maxsclと比較する。LFE換算係数646がmaxscl以上であるならば、ステップ703yにおいて、LFEチャンネルのための換算係数gain[lfe]656がmaxsclであると決定する。さもなければ、否定的な場合には、ステップ703nにおいて、LFEチャンネルのための換算係数gain[lfe]656がLFEチャンネル646のためのミキシングメタデータからの換算係数であると決定する。次に、ステップ703nにおいて、ステップ703y又は703nにおいて計算する値からgain[lfe]656を決定する。信号をミキシングするためにLFEチャンネルに適用されるべき換算係数であるgain[lfe]656を、後に図7Aのステップ707n及び707yにおいて使用する。
次に、図7Aを続けると、ステップ704において、ミキシングバランス制御入力601の値であるprefをmainscltotalから関連信号のための換算係数であるsclasso648を減算した値と比較する。sclasso648は存在しなくてもよく或いはsclassoを無視してもよく、その場合には、prefをmainscltotalと単に比較することに留意のこと。例えば、DD+信号のために、メタデータキーpgmsclは、sclasso648に対応する。pref602がmainscltotalからsclasso648を減算した値よりも大きいならば、ステップ705yにおいて、関連信号620が支配的信号206であると決定する。次に、706yでは、関連信号は支配的信号であるので、関連信号のための利得はなく、よって、関連信号のための利得は、関連信号がスケーリングされていないことを示す単位元(unity)又は0dBである。次に、707yにおいて、全てのチャンネル(左、右、中央、左サラウンド、右サラウンド、及びLFE)のための主信号の各チャンネルのための利得gainM[ch]651,652,653,654,655を、主換算係数sclmain647と通常チャンネルscl[ch]641,642,643,644,655のための換算係数からpref602を減算しsclassoを減算した値との合計として決定する。707yにおける計算を主信号の全ての6チャンネルのために反復する。
pref602がmainscltotalよりも大きくないので、ステップ704における決定が否定的であるならば、ステップ705nにおいて、主信号が支配的信号であると決定する。次に、706nにおいて、関連信号の利得係数gainAを、pref602からmainscltotalを減算し且つsclasso648を加算した値として決定する。この具体的な実施例のこの具体的な場合では、主信号が支配的信号であると決定し、主信号620の各チャンネルのための換算係数651,652,653,654,655,656をsclmain647に対応するチャンネルscl[ch]641,642,643,644,655のための換算係数を加算し且つmainscltotalを減算した値として計算するとしても、主信号610もスケーリングする。よって、ステップ707nにおいて、全てのチャンネル(左、右、中央、左サラウンド、右サラウンド、及びLFE)のための主信号の各チャンネルのための利得gainM[ch]651,652,653,654,655を、sclmain647とscl[ch]641,642,643,644,645とからmainscltotalを減算した値として決定する。707nにおける計算を全ての6チャンネルのために反復する。ステップ706y,707y,706n,707yからの利得並びに入力信号620,610をステップ708に送り、そこでは、主信号611,612,613,614,615,616及び関連信号621,622,623,624,625,626の各々のチャンネルを、決定された換算係数651,652,653,654,655,656に従ってスケーリングする。典型的な場合には、支配的信号のみをスケーリングするが、この特別な場合には、非支配的信号もスケーリングすることに留意のこと。次に、6チャンネルの各々のために反復するステップ709では、各チャンネルのためのスケーリング後の関連信号670及びスケーリング後の主信号660を混合させて、6個の混合チャンネル631,632,633,634,635,636に至らせる。最終的に、ステップ710において、6個の混合チャンネル631,632,633,634,635,636を組み合わせて、ステップ711の5.1混合出力信号630を含むよう単一信号にする。
図8は、5.1多重チャンネル主信号810を、ミキシングメタデータ840、例えば、Dolby Digital Plus (DD+又はE-AC-3 (Enhanced AC-3))信号を含む2チャンネルモノラル+LFE関連信号820とミキシングするためのミキサ800の、ある更なる実施態様を示している。入力は、ミキシングバランス入力801と、主信号810と、ミキシングメタデータ840を備える関連信号820とを含む。この実施例において、入力主信号810及び出力混合信号830は、6チャンネル、即ち、左、右、中央、左サラウンド、右サラウンド、及びLFE(low-frequency effects)を含む5.1多重チャンネル信号である。よって、主入力信号810は、6チャンネル、即ち、左811、右812、中央813、左サラウンド814、右サラウンド815、及びLFE(low-frequency effects)816を含む。モノラル+LFE関連信号820は、2つのチャンネル、即ち、中央823及びLFE(low-frequency effects)826のみを含む。ミキシングメタデータ840は、主換算係数847と、6チャンネル、即ち、左841、右842、中央843、左サラウンド844、右サラウンド845、及びLFE(low-frequency effects)とのためのスケーリング値を備えるメタデータも含む。ミキサ800は、ミキシングバランス入力801からの入力を受け取るためにも構成される。ミキシングメタデータ840及びミキシングバランス制御入力801に基づき、各チャンネル851,852,853,854,855,856のための換算係数を、図7にも示す上記擬似コード中のロジックに基づき決定する。図7は、各チャンネルのための換算係数をどのように決定するかを記載するフローチャートである。ミキシング換算係数から、非支配的入力信号207の各チャンネルをスケーリングし、そこでは、支配的信号206を概ね全くスケーリングしないか、或いは、特別な場合において最小にのみスケーリングする。関連信号のモノラル+LFEチャンネルのモノラルチャンネルを5.1チャンネルの上にパニング(pan)するために、panmean値を使用する。panmeanは、0.5度段階における0〜358.5度を表す0〜239の値であり、0度は、中央スピーカの方向である。panmeanの適用に関するより詳細は、ETSI TS 102 366 v1.2.1の”E.4.3.5 Panning”のセクションを参照のこと。最終的に、2つのスケーリング済み入力信号のための6チャンネルの対を、各チャンネルのために2つ1組に組み合わせ、6個の混合チャンネル831,832,833,834,835,836にする。その場合、6個の混合チャンネル831,832,833,834,835,836は、5.1混合出力信号830を含む。よって、出力混合5.1信号830も、6チャンネル、即ち、左831、右832、中央833、左サラウンド834、右サラウンド835、及びLFE(low-frequency effects)を含み、それらは図7のロジックに従ってそれぞれ計算される。
一般的には、最良の結果のために、混合信号のチャンネルモードは、復号する主音声信号と同じであるべきであるが、チャンネルモードを後の段階に変更し得る、例えば、ダウンミックスし得る。殆どの場合、ミキシングバランス入力の値は小さい、一般的には、最大でも10dBであることが予想されるが、その技法は任意に大きい(及び小さい)値を支持する。
一部の場合には、主信号及び関連信号のチャンネルの数は異なり得る。そのような場合には、ここに記載する技法を依然として適用可能であり、その場合、入力チャンネルの一部は、入力信号内に存在し得る或いは存在し得ない混合信号のチャンネルにマッピングされなければならない。最良の結果のためには、関連信号がモノラル(acmod 1)であるか或いは関連信号のチャンネルを主信号のチャンネルに他の方法で適切にマッピングし得ない限り、関連信号は、主信号中にも存在するチャンネル場所だけを含まなければならない。同様に、主信号も低周波数効果(LFE)チャンネルを含むならば、LFEチャンネルは関連信号内にのみ存在するのが好ましい。さもなければ、関連信号のLFEチャンネルは、ミキシングプロセス中に無視されなければならない。同様に、関連信号がモノラル+LFEであるならば、LFEは、好ましくは、主音声LFEに混合されるべきであり、モノラルは、好ましくは、主音声信号の主チャンネルの上にパニングされるべきである。
一般的には、ミキシングプロセスのために入力信号が正規化されるのが好ましい。結果は同じなので、支配的信号の決定の前又は後に正規化を適用し得る。実際には、入力信号のコンテンツダイアルノーム値が正しく設定されることを保証し且つ主信号及び関連信号の両方がミキシング前に会話レベル31にあることを保証するのが好ましい。引き続き、「焦点の信号」と考えられる支配的信号のレベルは、ダイアルノーム31でミキサから出るのも理想的である。入力信号が正規化されないならば、一般的には、正規化はミキシング前に行われなければならないが、正規化を伴わずにその技法を適用し、必要であれば、混合信号を次に正規化し得る。
多重チャンネル信号をミキシングするとき、scl[ch]の間の関係は、出て行く信号において維持されるのが好ましい。しかしながら、scl[lfe]が全ての他のscl[ch]よりも高い値を有するならば(初期設定では伝送されるか或いはゼロ)、それは他のscl[ch]の最大値に向かって修正される。
Dolby Pulse信号のために、ミキシングメタデータは、Annex E.のETSI TS 101 154 V1.9.1及びETSI TS 102 366 V1.2.1のセクション”E.2”(DVB blue book A0001 r8も参照)に定められるように、サブ音声ストリーム内に含められるのが典型的である。メタデータがストリーム信号中にどのように伝送され或いは圧縮されるかに拘わらず、ミキシングメタデータが利用可能である限り、ここに記載する技法を依然として適用し得る。よって、そのような場合を取り扱うためには、既述の実施態様及び実施例を適切に適合しなければならないかもしれない。
監督の注釈を含む関連トラックを備える上記実施例は、1つの実施例であるに過ぎない。しかしながら、信号に含められるコンテンツに拘わらず、既述の技法を主信号及び関連信号の如何なる混合にも適用し得る。例えば、第1の信号は、ライブのスポーツプログラムを含み、第2の信号は、ローカルな注釈及び/又は代替的な言語の注釈をもたらす。ここには、信号をどのように配給するかについての多数の可能性がある。例えば、第1の信号は、注釈のない一般的なサウンドトラックであり得るし、第2の信号は、ローカルな注釈であり得る。
ここに記載する技法の更なる使用事例は、聴覚障害者のための別個のトラックに関連してもよく、関連信号は、会話の理解を向上するための特別な強化機能を含む。同様に、視覚障害のある視聴者のための助けとして、関連信号は、シーンコンテンツの口語の説明を含み得る。
しかしながら、ここに記載する技法は会話のみに限定されず、音楽のような全ての種類の音声信号にも適用し得る。何故ならば、その技法は知覚音響レベルに基づくからである。例えば、音楽に関して、関連トラックは、音楽のための追加的なオーバーレイ器楽トラック又は音声を含み得る。換言すれば、主トラックは、例えば、ピアノ及びアコースティックギターを用いた基本的な器楽トラックであり、第1の関連トラックが音声オーバーレイを含み、第2の関連トラックがエレキギター及びベースギターを用いたロック音楽、第3の関連トラックが激しく速い(hard fast)ベースビートを用いたテクノオーバーレイを備え、コンテンツ著作者は、各関連トラックがどのように混合されるべきかを特定する所望のミキシング特性を特定する機会を有し、ここに記載する技法は聴取者が、混合信号のためのバランス入力を調節することによって、これらの設定をカスタマイズすることを可能にする。他の実施例として、その技法を、弦楽器又は打楽器及び声楽のような器楽のような、異なるチャンネルが異なる音楽特徴を含む音楽信号にも適用可能であり、そこでは、異なるチャンネルはメタデータ及びミキシングバランス入力を介して混合される。
ここに記載する技法は、混合信号中の支配的信号の決定に依存する。よって、支配的信号であると決定される信号は、最高の複合利得を受け取る。ミキシングバランス入力制御の使用を通じて混合信号の一定の知覚音響レベルを維持することに加えて、使用者は常にミキシングバランスを制御し得る。更に、利得変化も、全範囲を通じて滑らかである。
ここに記載した技法を、会話トラックを含むミキシング多重チャンネル信号のような特別な実施例を用いて例示したが、これらの技法は、これらの実施例又は実施態様に限定されるべきではない。何故ならば、混合信号のための支配的信号を決定するためにミキシングメタデータ及びミキシングバランス入力を使用し得る限り、主信号及び関連信号が極めて異なる組成(composition)を有する状況にもそれらの技法を等しく適用し得るからである。
本文書では音声信号をミキシングするための様々な方法及び構成を記載した。これらの方法及び/又は信号ミキサのような装置を使用するならば、混合信号のために一定の知覚音響レベルを維持しながら、主信号と関連信号との間のバランスの調節を許容することが可能である。入力信号のサンプリング若しくは分析又はハイパワード処理(high powered processing)を行わずに本方法を遂行し得る。何故ならば、比較的単純で基本的な電子装置によって、入力信号を伴うメタデータを使用して、それらの計算を実時間で容易に遂行し得るからである。
本記載及び図面は提案する方法及びシステムの原理を例示するに過ぎないことに留意すべきである。よって、当業者は、ここに明示的に記載され或いは示されていないとしても、提案する方法及びシステムの原理を具体化し且つこの文書の一部と考えられる、様々な構成を案出し得ることが理解されよう。更に、提案する方法及び装置の原理、特徴、及び実施態様、並びにそれらの具体的な実施例を列記する、ここにおける全ての記載は、それらの均等物を包含することを意図する。
更に、ここに列記する全ての実施例は、原理的には、提案される方法及び装置並びに先行技術を促進するために発明者によって寄与される着想を読者が理解するのを助けるという教育的な目的のためだけにあることが、明示的に意図され、そのような具体的に列挙する実施例及び条件に限定されないものとして解釈されるべきである。
更に、ここにおけるあらゆるブロック図は、本発明の原理を具体化する例示的な装置の着想図を提示することに留意すべきである。同様に、あらゆるフローチャート、フロー図、状態移行図、擬似コード等は、コンピュータ読取り可能な媒体中に実質的に提示し且つコンピュータ又はプロセッサが明示的に示されているか否かに拘わらずそのようなコンピュータ又はプロセッサによって実行し得る、様々なプロセスを提示していることが理解されるべきである。

Claims (39)

  1. 2つの入力音声信号を単一の混合音声信号にミキシングしながら、該混合音声信号のある知覚音響レベルを維持する方法であって、
    主入力音声信号を受信することを含み、
    関連入力音声信号を受信することを含み、該関連入力音声信号は前記主入力音声信号と結合され、
    ミキシングメタデータを受信することを含み、該ミキシングメタデータは、前記主入力音声信号をスケーリングするためのスケーリング情報を含み、前記知覚音響レベルで混合音声信号を生成するために、前記主入力音声信号と前記関連入力音声信号とがどのように混合されるべきかを特定し、前記ミキシングメタデータからの前記スケーリング情報は、前記関連入力音声信号に対して前記主入力音声信号をスケーリングするために、前記主入力音声信号のためのメタデータ換算係数を含み、
    前記主入力音声信号と前記関連入力音声信号との間の調節可能なバランスを示すミキシングバランス入力を受信することを含み、該ミキシングバランス入力は、前記ミキシングメタデータ中に特定されるような前記混合音声信号中の前記主入力音声信号及び前記関連入力音声信号の加重からの逸脱を可能にするスケーリング情報を含み、
    前記ミキシングメタデータによって提供される前記スケーリング情報から並びに前記ミキシングバランス入力から、支配的信号を前記主入力音声信号又は前記関連入力音声信号のいずれかとして特定することを含み、次に、前記それぞれの他の入力音声信号は、非支配的信号として特定され、前記支配的信号は、前記ミキシングバランス入力を前記主入力音声信号のための前記メタデータ換算係数と比較することによって特定され、
    前記支配的信号に対して前記非支配的信号をスケーリングすることを含み、且つ、
    前記混合音声信号をもたらすよう、前記スケーリング後の非支配的信号を前記支配的信号と組み合わせることを含む、
    方法。
  2. 前記ミキシングメタデータからの前記スケーリング情報に基づき並びに前記ミキシングバランス入力に基づき、前記非支配的信号の前記スケーリングのための換算係数を決定することを更に含み、
    該決定される換算係数は、前記非支配的信号の前記スケーリングのために使用される、
    請求項1に記載の方法。
  3. 前記ミキシングバランス入力の値が、前記ミキシングメタデータからの前記主入力音声信号のための前記メタデータ換算係数よりも大きいならば、
    前記関連入力音声信号が前記支配的信号であると決定され、
    さもなければ、前記主入力音声信号が前記支配的信号であると決定される、
    請求項1又は2に記載の方法。
  4. 前記関連入力音声信号が前記支配的信号であると特定されるならば、
    当該方法は、前記主入力音声信号のための前記換算係数を、前記ミキシングバランス入力の値を減算した、前記ミキシングメタデータからの前記主入力音声信号のための前記メタデータ換算係数として計算することを更に含む、
    請求項2又は請求項2に従属するときの請求項3に記載の方法。
  5. 前記主入力音声信号が前記支配的信号であると特定されるならば、
    当該方法は、前記関連入力音声信号のための前記換算係数を、前記ミキシングバランス入力の値から前記主入力音声信号のための前記ミキシングメタデータからの前記メタデータ換算係数を減算したものとして計算することを更に含む、
    請求項2又は請求項2に従属するときの請求項3に記載の方法。
  6. 前記ミキシングメタデータは、前記関連入力音声信号内に含まれる、請求項1乃至5のうちのいずれか1項に記載の方法。
  7. 前記主入力音声信号は、多重音声チャンネルを含む、請求項1乃至6のうちのいずれか1項に記載の方法。
  8. 前記ミキシングメタデータは、
    前記関連入力音声信号に対する前記主入力音声信号のための一次メタデータ換算係数と、
    前記関連入力音声信号に対する前記主入力音声信号の異なるチャンネルのための1つ又はそれよりも多くのチャンネルメタデータ換算係数とを更に含む、
    請求項7に記載の方法。
  9. 前記メタデータ換算係数は、dB値を含む、請求項1乃至8のうちのいずれか1項に記載の方法。
  10. 前記支配的信号は、前記ミキシングバランス入力の前記値を、前記主入力音声信号のための前記一次メタデータ換算係数及びチャンネルメタデータ換算係数と比較することによって特定され、
    前記ミキシングバランス入力の前記値が、前記主入力音声信号のための前記一次メタデータ換算係数に、前記主入力音声信号の全てのチャンネルのための全てのチャンネルメタデータ換算係数の最大を加算した合計よりも大きいならば、
    前記関連入力音声信号が前記支配的信号であると決定され、
    さもなければ、前記主入力音声信号が前記支配的信号であると決定される、
    請求項8又は請求項8に従属するときの請求項9に記載の方法。
  11. 前記関連入力音声信号が前記支配的信号であると特定されるならば、
    当該方法は、前記主入力音声信号の各チャンネルのためのチャンネル換算係数を計算することを更に含み、あるチャンネルのための前記チャンネル換算係数は、前記主入力音声信号のための前記一次メタデータ換算係数に、前記主入力音声信号の前記対応するチャンネルのための前記チャンネルメタデータ換算係数を加算し、前記ミキシングバランス入力の前記値を減算したものである、
    請求項10に記載の方法。
  12. 前記主入力音声信号が前記支配的信号であると特定されるならば、
    当該方法は、前記ミキシングバランス入力の前記値から、前記主入力音声信号のための前記一次メタデータ換算係数と前記主入力音声信号の全てのチャンネルのための全てのチャンネルメタデータ換算係数の最大との合計を減算したものとして計算される、前記関連入力音声信号のための換算係数を決定すること、及び、
    前記主入力音声信号のための前記一次メタデータ換算係数に、前記主入力音声信号の前記対応するチャンネルのための前記チャンネルメタデータ換算係数を加算し、前記一次メタデータ換算係数と前記主入力音声信号の前記チャンネルのための全てのチャンネルメタデータ換算係数の最大との合計を減算したものとして計算される、前記主入力音声信号の各チャンネルのためのチャンネル換算係数を決定することを更に含む、
    請求項10に記載の方法。
  13. 前記支配的信号を決定するための前記メタデータ換算係数は、調節として使用し得る前記関連入力音声信号のための換算係数を更に含み、前記関連入力音声信号のための前記換算係数は、前記支配的信号の前記決定のために、前記主入力音声信号のための前記メタデータ換算係数から減算される、請求項10乃至12のうちのいずれか1項に記載の方法。
  14. 前記知覚音響レベルは、前記主入力音声信号及び前記関連入力音声信号の平均加重レベルに基づく、請求項1乃至13のうちのいずれか1項に記載の方法。
  15. 前記知覚音響レベルは、前記主入力音声信号及び前記関連入力音声信号の会話レベルに基づく、請求項1乃至13のうちのいずれか1項に記載の方法。
  16. 前記会話レベルは、ダイアルノームとして測定される、請求項15に記載の方法。
  17. 前記主入力音声信号及び前記関連入力音声信号は、Dolby Digital Plus (DD+) 又は Dolby Pulse信号として符号化される、請求項1乃至16のうちのいずれか1項に記載の方法。
  18. 前記主入力音声信号及び前記関連入力音声信号は、E-AC-3、MPEG-4 HE-AAC、aacPlus、AC-3、MPEG-1 Layer 2、MPEG-4 AAC、又はPMEG-4音声信号の任意の変形として符号化される、請求項1乃至16のうちのいずれか1項に記載の方法。
  19. 前記ミキシングメタデータは、DD+信号をミキシングするためのETSI TS 102 366 v1.2.1 Ch. E. 1.2.2に従ったミキシングメタデータを含む、請求項17又は18に記載の方法。
  20. 前記ミキシングメタデータは、一次換算係数と、左チャンネル、右チャンネル、中央チャンネル、左サラウンドチャンネル、右サラウンドチャンネル、及び「LFE」と呼ばれる低周波効果チャンネルのためのチャンネル換算係数とに対応する、多重音声チャンネルのための換算係数、即ち、extpgmscl、extpgmlscl、extpgmrscl、extpgmcscl、extpgmlsscl、extpgmrsscl、extpgmlfesclを含む、請求項8に従属するときの請求項19に記載の方法。
  21. 前記主入力音声信号は、「LFE」と呼ばれる低周波効果チャンネルを更に含み、該LFEチャンネルのための前記チャンネル換算係数は、前記LFEチャンネルのための前記チャンネル換算係数の最小、及び前記主入力音声信号の他のチャンネルのための最大のメタデータ換算係数として計算される、請求項20に記載の方法。
  22. 前記ミキシングメタデータは、入力音声信号をミキシングするためのETSI TS 101 154 V1.9.1 Annex E2に従うミキシングメタデータを含む、請求項17又は18に記載の方法。
  23. 前記ミキシングメタデータは、一次換算係数と、中央チャンネル、1つ又はそれよりも多くの正面チャンネル、1つ又はそれよりも多くのサラウンドチャンネル、及びパンのためのチャンネル換算係数とに対応する、多重音声チャンネルのための換算係数、即ち、AD_fade_byte、AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_surround、又はAD_pan_byteを含む、請求項8に従属するときの請求項22に記載の方法。
  24. 前記主入力音声信号は、「LFE」チャンネルと呼ばれる低周波効果チャンネルを含み、前記LFEチャンネルは、前記主入力音声信号の全てのチャンネルのための全てのチャンネルメタデータ換算係数の最大から除外されることで、
    前記ミキシングバランス入力の前記値が、前記主入力音声信号のための前記一次メタデータ換算係数に、前記LFEチャンネルを除く、前記主入力音声信号の全てのチャンネルのための全てのチャンネルメタデータ換算係数の最大を加算した合計よりも大きいならば、
    前記関連入力音声信号が前記支配的信号であると決定され、
    さもなければ、前記主入力音声信号が前記支配的信号であると決定される、
    請求項10に記載の方法。
  25. 前記主入力音声信号は、「LFE」チャンネルと呼ばれる低周波効果チャンネルを含み、前記LFEチャンネルは、前記主入力音声信号の全てのチャンネルのための全てのメタデータ換算係数の最大から除外されることで、
    前記主入力音声信号は、
    前記ミキシングバランス入力の前記値から、前記主入力音声信号のための前記一次メタデータ換算係数と、前記LFEチャンネルを除く、前記主入力音声信号の全てのチャンネルのための全てのチャンネルメタデータ換算係数の最大との合計を減算したものとして計算される、前記関連入力音声信号のための前記換算係数を決定することによって、及び、
    前記主入力音声信号のための前記一次換算係数に、前記主入力音声信号の前記対応するチャンネルのための前記換算係数を加算し、前記一次メタデータ換算係数と、前記LFEチャンネルを除く、前記主入力音声信号の前記チャンネルのための全てのチャンネル換算係数の最大との合計を減算したものとして計算される、前記主入力音声信号の各チャンネルのための前記換算係数を決定することによって、
    前記支配的信号であると決定される、
    請求項12に記載の方法。
  26. 前記関連入力音声信号のための前記ミキシングメタデータは、パンメタデータ情報を更に含み、前記関連入力音声信号は、モノラル信号を含み、前記主入力音声信号は、ステレオ又は多重チャンネル信号を含み、
    前記関連入力音声信号は、前記パンメタデータ情報に従って前記主入力音声信号の前記チャンネルと混合される、
    請求項8乃至25のうちのいずれか1項に記載の方法。
  27. 前記ミキシングバランス入力は、負の値から正の値までのある値をもたらす外部使用者入力を含む、請求項1乃至26のうちのいずれか1項に記載の方法。
  28. 前記主入力音声信号の前記多重チャンネル及び前記関連入力音声信号の前記多重チャンネルは、左チャンネル、右チャンネル、中央チャンネル、左サラウンドチャンネル、右サラウンドチャンネル、及び、「LFE」と呼ばれる低周波効果チャンネルを備えるサラウンド信号を含む、請求項7に記載の方法。
  29. 前記主入力音声信号の前記多重チャンネル及び前記関連入力音声信号の前記多重チャンネルは、5.1、3.1、又は13.1多重チャンネル信号を含む、請求項28に記載の方法。
  30. 前記関連入力音声信号は、モノラルとLFEチャンネルとを含み、前記関連入力音声信号の前記LFEチャンネルは、前記主入力音声信号の前記主LFEチャンネルと混合され、前記関連入力音声信号の前記モノラルチャンネルは、パンメタデータ情報に従って前記主入力音声信号の前記チャンネルの上にパニングされる、請求項21乃至29のうちのいずれか1項に記載の方法。
  31. 請求項1乃至30のうちのいずれか1項に記載の信号をミキシングする方法を実行するよう構成された、信号をミキシングするための装置。
  32. 一貫した知覚音響レベルを維持しながら、2つの入力音声信号を単一の混合音声信号に復号する、請求項1乃至30のうちのいずれか1項に記載の信号をミキシングする方法を実行するよう構成された復号器。
  33. コンピュータに、請求項1乃至30のうちのいずれか1項に記載の方法を実行させるためのコンピュータ読取り可能な命令を記憶する、プロセッサ読取り可能な記憶媒体。
  34. プロセッサに、請求項1乃至30のうちのいずれか1項に記載の方法を実行させるための実行可能な命令を含む、プロセッサ読取り可能なプログラム。
  35. 入力音声信号を単一の混合音声信号にミキシングしながら、前記混合音声信号のある知覚音響レベルを維持する装置であって、
    主入力音声信号と、関連入力音声信号と、ミキシングメタデータとを受信するための受信器を含み、前記関連入力音声信号は、前記主入力音声信号と結合され、前記ミキシングメタデータは、前記主入力音声信号をスケーリングするためのスケーリング情報を含み、該スケーリング情報は、前記知覚音響レベルで混合音声信号を生成するために、前記主入力音声信号と前記関連入力音声信号とがどのように混合されるべきかを特定し、前記ミキシングメタデータからの前記スケーリング情報は、前記関連入力音声信号に対して前記主入力音声信号をスケーリングするために、前記主入力音声信号のためのメタデータ換算係数を含み、
    前記主入力音声信号と前記関連入力音声信号との間の前記調節可能なバランスを示すミキシングバランス入力を含み、該ミキシングバランス入力は、前記ミキシングメタデータ中に特定されるような前記混合音声信号中の前記主入力音声信号及び前記関連入力音声信号の加重からの逸脱を可能にするスケーリング情報を含み、
    前記ミキシングメタデータによってもたらされる前記スケーリング情報から並びに前記ミキシングバランス入力から、支配的信号を前記主入力音声信号又は前記関連入力音声信号のいずれかとして特定するよう構成されるミキシングユニットを含み、次に、前記それぞれの他の入力音声信号を非支配的信号として特定し、前記支配的信号は、前記ミキシングバランス入力を前記主入力音声信号のための前記メタデータ換算係数と比較することによって特定され、
    前記ミキシングユニットは、前記支配的信号に対して前記非支配的信号をスケーリングするよう更に構成され、且つ、前記混合音声信号をもたらすよう、前記スケーリング後の非支配的信号を前記支配的信号と組み合わせるよう更に構成される、
    装置。
  36. 前記非支配的信号のための前記換算係数は、前記ミキシングメタデータ及び前記ミキシングバランス入力からの前記スケーリング情報から直接的に決定され、
    前記非支配的信号は、前記決定される換算係数を使用してスケーリングされ、
    前記スケーリング後の非支配的信号は、前記支配的信号と組み合わされて、前記混合信号になる、
    請求項35に記載の装置。
  37. 前記ミキシングメタデータは、前記関連入力音声信号と統合される、請求項35又は36に記載の装置。
  38. 前記ミキシングバランス入力は、負の値から正の値までのある値をもたらす外部使用者入力を更に含む、請求項35乃至37のうちのいずれか1項に記載の装置。
  39. 前記受信器は、多重チャンネル主入力音声信号及び関連入力音声信号を受信するよう更に構成され、前記ミキシングユニットは、前記多重チャンネル主入力音声信号及び関連入力音声信号を混合するよう構成される、請求項35乃至38のうちのいずれか1項に記載の装置。
JP2013530164A 2010-09-22 2011-09-06 デジタルレベル正規化を備えるオーディオストリームミキシング Active JP5603499B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US38542810P 2010-09-22 2010-09-22
US61/385,428 2010-09-22
PCT/US2011/050482 WO2012039918A1 (en) 2010-09-22 2011-09-06 Audio stream mixing with dialog level normalization

Publications (2)

Publication Number Publication Date
JP2013543599A JP2013543599A (ja) 2013-12-05
JP5603499B2 true JP5603499B2 (ja) 2014-10-08

Family

ID=44652005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013530164A Active JP5603499B2 (ja) 2010-09-22 2011-09-06 デジタルレベル正規化を備えるオーディオストリームミキシング

Country Status (17)

Country Link
US (1) US9136881B2 (ja)
EP (1) EP2619904B1 (ja)
JP (1) JP5603499B2 (ja)
KR (1) KR101538623B1 (ja)
CN (1) CN103119846B (ja)
AU (1) AU2011305913B2 (ja)
BR (1) BR112013005958B1 (ja)
CA (1) CA2809040C (ja)
ES (1) ES2502468T3 (ja)
HK (1) HK1186585A1 (ja)
IL (1) IL224868A (ja)
MX (1) MX2013002878A (ja)
MY (1) MY168735A (ja)
RU (1) RU2526746C1 (ja)
SG (1) SG188470A1 (ja)
UA (1) UA105590C2 (ja)
WO (1) WO2012039918A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102268933B1 (ko) 2013-03-15 2021-06-25 디티에스, 인코포레이티드 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
CN112185401B (zh) 2014-10-10 2024-07-02 杜比实验室特许公司 基于发送无关的表示的节目响度
KR101653236B1 (ko) * 2015-01-13 2016-09-01 인하대학교 산학협력단 진공관 하이브리드 헤드폰 증폭기
KR102686742B1 (ko) * 2015-10-28 2024-07-19 디티에스, 인코포레이티드 객체 기반 오디오 신호 균형화
CN109310525B (zh) 2016-06-14 2021-12-28 杜比实验室特许公司 媒体补偿通过和模式切换
US20180069910A1 (en) * 2016-09-07 2018-03-08 Sonic Ip, Inc. Systems and Methods for Live Voice-Over Solutions
WO2018231185A1 (ru) * 2017-06-16 2018-12-20 Василий Васильевич ДУМА Способ синхронизации звуковых сигналов
WO2019210138A1 (en) * 2018-04-27 2019-10-31 Filmio, Inc. Project creation and distribution system
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
WO2020163722A1 (en) 2019-02-08 2020-08-13 Starkey Laboratories, Inc. Assistive listening device systems, devices and methods for providing audio streams within sound fields
WO2021041522A1 (en) 2019-08-26 2021-03-04 Starkey Laboratories, Inc. Hearing assistance devices with control of other devices
KR102287497B1 (ko) * 2019-12-11 2021-08-09 네이버 주식회사 플랫폼 적응형 오디오 정규화 방법 및 시스템
US20230020019A1 (en) 2019-12-17 2023-01-19 Starkey Laboratories, Inc. Audio system with ear-worn device and remote audio stream management
US11380344B2 (en) 2019-12-23 2022-07-05 Motorola Solutions, Inc. Device and method for controlling a speaker according to priority data
CN112750444B (zh) * 2020-06-30 2023-12-12 腾讯科技(深圳)有限公司 混音方法、装置及电子设备
US11812213B2 (en) 2020-09-30 2023-11-07 Starkey Laboratories, Inc. Ear-wearable devices for control of other devices and related methods

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
US6011851A (en) 1997-06-23 2000-01-04 Cisco Technology, Inc. Spatial audio processing method and apparatus for context switching between telephony applications
WO1999053612A1 (en) * 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
US6230130B1 (en) 1998-05-18 2001-05-08 U.S. Philips Corporation Scalable mixing for speech streaming
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
JP2001268700A (ja) * 2000-03-17 2001-09-28 Fujitsu Ten Ltd 音響装置
JP3800139B2 (ja) * 2002-07-09 2006-07-26 ヤマハ株式会社 レベル調節方法、プログラムおよび音声信号装置
US7180997B2 (en) 2002-09-06 2007-02-20 Cisco Technology, Inc. Method and system for improving the intelligibility of a moderator during a multiparty communication session
US20050058307A1 (en) 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
US20060023900A1 (en) 2004-07-28 2006-02-02 Erhart George W Method and apparatus for priority based audio mixing
US7254243B2 (en) * 2004-08-10 2007-08-07 Anthony Bongiovi Processing of an audio signal for presentation in a high noise environment
GB2430319B (en) * 2005-09-15 2008-09-17 Beaumont Freidman & Co Audio dosage control
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
EP2367343B1 (en) 2006-05-11 2017-03-22 Google, Inc. Audio mixing
US8670537B2 (en) 2006-07-31 2014-03-11 Cisco Technology, Inc. Adjusting audio volume in a conference call environment
US7853649B2 (en) 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
WO2008039041A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8078188B2 (en) 2007-01-16 2011-12-13 Qualcomm Incorporated User selectable audio mixing
US8515106B2 (en) 2007-11-28 2013-08-20 Qualcomm Incorporated Methods and apparatus for providing an interface to a processing engine that utilizes intelligent audio mixing techniques
EP2373067B1 (en) * 2008-04-18 2013-04-17 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
JP5564803B2 (ja) 2009-03-06 2014-08-06 ソニー株式会社 音響機器及び音響処理方法

Also Published As

Publication number Publication date
BR112013005958A2 (pt) 2016-05-17
CN103119846A (zh) 2013-05-22
CA2809040A1 (en) 2012-03-29
JP2013543599A (ja) 2013-12-05
KR20130060334A (ko) 2013-06-07
HK1186585A1 (en) 2014-03-14
IL224868A (en) 2016-05-31
MX2013002878A (es) 2013-04-08
CA2809040C (en) 2016-05-24
WO2012039918A1 (en) 2012-03-29
SG188470A1 (en) 2013-04-30
US9136881B2 (en) 2015-09-15
US20130170672A1 (en) 2013-07-04
UA105590C2 (uk) 2014-05-26
EP2619904A1 (en) 2013-07-31
MY168735A (en) 2018-11-29
AU2011305913B2 (en) 2014-10-30
BR112013005958B1 (pt) 2021-04-20
ES2502468T3 (es) 2014-10-03
KR101538623B1 (ko) 2015-07-22
CN103119846B (zh) 2016-03-30
RU2526746C1 (ru) 2014-08-27
AU2011305913A1 (en) 2013-03-07
EP2619904B1 (en) 2014-07-30

Similar Documents

Publication Publication Date Title
JP5603499B2 (ja) デジタルレベル正規化を備えるオーディオストリームミキシング
US11563411B2 (en) Metadata for loudness and dynamic range control
JP6778781B2 (ja) エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
CN112291699B (zh) 用于处理音频信号的音频处理器和方法及音频编码器
US8315396B2 (en) Apparatus and method for generating audio output signals using object based metadata
Falch et al. Spatial audio object coding with enhanced audio object separation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140821

R150 Certificate of patent or registration of utility model

Ref document number: 5603499

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250