JP5166241B2 - 音声メタデータ確認 - Google Patents
音声メタデータ確認 Download PDFInfo
- Publication number
- JP5166241B2 JP5166241B2 JP2008506487A JP2008506487A JP5166241B2 JP 5166241 B2 JP5166241 B2 JP 5166241B2 JP 2008506487 A JP2008506487 A JP 2008506487A JP 2008506487 A JP2008506487 A JP 2008506487A JP 5166241 B2 JP5166241 B2 JP 5166241B2
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- bitstream
- audio
- dialnorm
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012790 confirmation Methods 0.000 claims description 147
- 238000000034 method Methods 0.000 claims description 102
- 230000008569 process Effects 0.000 claims description 46
- 238000005259 measurement Methods 0.000 claims description 31
- 238000012795 verification Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000013144 data compression Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 56
- 238000007906 compression Methods 0.000 description 51
- 230000006835 compression Effects 0.000 description 51
- 238000010586 diagram Methods 0.000 description 21
- 238000012937 correction Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000000691 measurement method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 101000651958 Crotalus durissus terrificus Snaclec crotocetin-1 Proteins 0.000 description 3
- 101100258328 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) crc-2 gene Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000002542 deteriorative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
「ATSC Standard A52/A: Digital Audio Compression Standard(AC-3), Revision A」, Advanced Television Systems Committee, 20 Aug. 2001(A/52A に関する文献はワールド・ワイド・ウェブ上のhttp://www.atsc.org/standards.htmlから入手できる。)、
Craig C. Todd他著「Flexible Perceptual Coding for Audio Transmission and Storage」、96th Convention of the Audio Engineering Society February
26,1994, Preprint 3796、
Steve Vernon著「Design and Implementation of AC-3 Coders」, IEEE Trans, Consumer Electronics, Vol.41, No.3, August 1995、
Mark Davis著「The AC-3 Multichannel Coder」, Audio Engineering Society Preprint 3774, 95th, AES Convention, October, 1993、
Bosi他著「High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications」, Audio Engineering Society Preprint 3365, 93rd AES Convention, October, 1992、
米国特許第5,583,962号明細書、米国特許第5,632,005号明細書、米国特許第5,633,981号明細書、米国特許第5,727,119号明細書、米国特許第6,021,386号明細書に説明されている。
(1)同期情報(SI):同期ワード(SW)、およびエラー訂正用の2ワード中の最初のワード(CRC1)を含む
(2)ビットストリーム情報(BSI):メタデータの大半を含む
(3)6つの音声ブロック(AB0からAB5):データ圧縮された音声コンテンツを含む
(4)空ビット(W):音声コンテンツが圧縮された後に残された、使用されていない複数のビットの全てを含む
(5)予備(AUX)情報:その他のメタデータを含む
(6)エラー訂正用の2ワードの2番目のワード(CRC2)
である。これらは図9に示し、さらに以下に記述する。知覚的音声データ圧縮及び付属するメタデータを含むAC-3フレームは、前記のAC-3に関する参考文献と以下の図9の説明に詳細が記述されている。
AC-3ビット・アロケーションおよび未使用のデータ・ビット
図9eに、簡略化されたAC-3エンコーダーのブロック・ダイアグラムを示す。PCM音声のサンプリング音は周波数領域変換機能902に入力される。50%のオーバーラップを持つ512点の修正離散コサイン変換(MDCT)が一般的に使用されるのは、入力データに窓かけをしてブロック・プロセス、エッヂ・アーティファクトを避けるためである。過渡信号の場合、時間的性能を改善する(トランジエント・プリノイズを減少する)ためには、512点での変換を行うのではなく、2つの256点変換で計算されるブロック・スイッチング技術を使用する。機能902からの変換係数は、各変換係数を指数部と仮数部の組に分割するブロック浮動小数点処理904に渡される。変換係数の仮数部は、ビット割当機能908によって割り当てられた可変長のビットとともに量子化される。このビット割当機能908はブロック浮動小数点指数部に対応するパラメーターによるビット割当モデルに基づいて動作する。
すでに述べたように、AC-3フレームに含まれているメタデータの中に、圧縮された音声に含まれているスピーチまたは会話の音量を表すパラメーターがある。このパラメーターはDIALNORMと呼ばれ、このパラメーターの目的は、ある音声アイテムがエンコードされ、ないしデータ圧縮される前に、そのアイテムの会話ないしスピーチの主たる音量を測定することである。この測定結果は、圧縮された音声アイテムを含むビットストリームの各フレームのDIALNORMパラメーターとしてセットされる。ビットストリームの再生中、AC-3デコーダーはDIALNORMパラメーターを使用して、再生音量またはそのアイテムの音量を変更し、会話の音量の知覚レベルを一定に保つ。
AC-3フレームにも含まれているメタデータの中に、再生中に音声に適用された場合、音声コンテンツのダイナミック・レンジを減少させる役割を担うパラメーターもある。これは、音声の音量の大きい部分を静かに変え、静かな部分をより大きく変えるものでる。これらのダイナミック・レンジ圧縮パラメーターはCOMPRおよびDYNRNGと呼ばれ、AC-3ビットストリームをエンコードする過程で、自動的に計算される。図9を参照のこと。
大半の環境では、AC-3システムは全てのチャンネルに対して、単独の会話音量と、ダイナミック・レンジ情報パラメーターの単独のセットのみを使用する。しかしながら、AC-3には2のチャンネルに対して独立に操作できるモードが含まれている。すなわち、各チャンネルは独立した会話の音量とダイナミック・レンジの情報を持っているのである。このモードでは、2のチャンネルの2番目はDIALNORM2、COMPR2、およびDYNRNG2パラメーターを使用する(図9参照)。DIALNORM2、COMPR2、およびDYNRNG2はDIALNORM、COMPR、およびDYNRNGと全く同じ方法で解釈され使用されるのであるから、後者の働きについてはこの文書で記述されている。
(1)正しいメタデータおよび前記メタデータの少なくとも一部の正確さを確認するための情報をもつ、コード化された音声ビットストリーム、
(2)正しいメタデータおよび前記メタデータの少なくとも一部の正確さを確認するための情報をもつ、コード化された音声ビットストリームを生成する方法または装置、
(3)正しいメタデータおよび前記メタデータの少なくとも一部分の正確さを確認するための情報を、コード化された音声ビットストリームが有することを保証する方法または装置、
(4)メタデータの全体が正しいか否かにかかわらず、コード化された音声ビットストリームをデコードし、正しいメタデータを生成して置き換え、もし前記メタデータの少なくとも一部の正確さを確認する情報が存在すれば、それを考慮に入れる方法または装置
を含む。
本発明のこの実施態様は、正しいDIALNORMパラメーターの値をもち、かつ、合致するDIALNORM確認データをもつAC-3ビットストリームを生成することに関連する。
会話の音量の測定は、主として会話が含まれている音声コンテンツのセグメントを分離するはじめの処理によって行われる。この方法は、米国特許出願第10/233,073号明細書(Vinton他による「Controlling Loudness of Speech in Signals That Contain Speech and Other Type of Audio Information」、米国特許出願公開第2004/0044525(A1)号として3月4日に公開されたもの)に記述されており、この特許出願はその全てを参照して援用する。しかしながら、他の方法を使用することもできる。主として会話である音声セグメントは、続いて音量測定アルゴリズムに渡される。AC-3では、このアルゴリズムは標準的なA特性周波数重み付け音量測定方式である。標準的なBないしC特性周波数重み付けによる音量測定方式または心理音響的なモデルに基づく音量測定方式であってもよい。音量測定は音響デジタル・フルスケール正弦波(0dBフルスケール)と比較することによって計算される。
入力音声PCMは、算出されたDIALNORMの値を使用する修正されたAC-3エンコードを用いてエンコードされ、ビットストリームにDIALNORM及び関連するダイナミック・レンジ圧縮メタデータ・パラメーターがセットされる。すでに述べたように、付加的な音量測定機能またはデバイス104がDIALNORMパラメーターの値を明確かつ適正に測定し、エンコーダーにその値を渡してビットストリームに挿入させる点をのぞいて、修正されたAC-3エンコードは通常のAC-3エンコードと同じであってもよい。同時に、修正されたエンコーダーはDIALNORM確認データを生成して、AC-3の他の未使用のデータ・ビットに挿入する。なぜなら、この例では、認証されたDIALNORM測定プロセスが客観的な測定を行ったからである。好ましくは、修正されたAC-3エンコード102によって生成されたAC-3ビットストリームは、前述の文書A/52Aに定義されたAC-3ビットストリームの規格に適合し、既存のAC-3デコーダーと後方互換性がある。
DIALNORM確認データを簡単に識別でき、デコードすることなくAC-3ビットストリームから読み取ることができるように、データのフォーマットが予め定義されていることが有用である。図2が示しているのは、DIALNORM確認データを格納するのに適切な形式をバイト単位に並べて表したフォーマットであって、このフォーマットによってデコードされていないAC-3ビットストリームからデータを発見し読み出すことが簡単になる(リアルタイムAC-3ビットストリームであっても、デジタル・ファイルの形式で格納されたAC-3ビットストリームであっても同じである)。このフォーマットが重要な意味を持つわけではなく、他のフォーマットであっても構わない。図2に示すとおり、DIALNORM確認データのフォーマットの例は複数の連続したバイトを含む。はじめのバイトは、予め定義されたDIALNORM確認ヘッダー・バイトである。このヘッダー・バイトは任意の値で構わないが、他のAC-3ビットストリームでは未使用データ・ビットはゼロに初期化されている事があるので、ゼロ以外の値であることが好ましい(全く同じというわけではないが、AC-3 SYNCWORDも同様である)。この例で、DIALNORM確認ヘッダーに続いて、複数のデータ・バイトがDIALNORM確認データおよび付加的かつ任意的なデータ用に使用される。標準的なAC-3 DIALNORMの値は5ビットから構成されるので、1バイトのデータには3ビットの付加的なビットがあり、2バイトのデータには11ビットの付加的なビットがある。図2の例では2バイトのDIALNORM確認データが使用されている様子を示している。これらのバイトは、使用された音量アルゴリズムのタイプやバージョン、ないし他の情報を格納することができる。図2で示される最後のバイトは巡回冗長検査(CRC)用のデータ・バイトであって、DIALNORM確認ヘッダー及びデータ・バイトを用いて計算される。このバイトを使うことによって、AC-3ビットストリーム(適正なDIALNORM確認ヘッダー・バイト、2の中間にあるデータ・バイト、およびCRCバイトからなるバイトの連続体から構成される)中の未使用のデータ・ビットが4バイトごとのCRCチェックをパスする可能性を大幅に減少させることができる。
本発明の他の実施態様は、AC-3ビットストリーム中のDIALNORMの値が適正で、ビットストリームが適合的なDIALNORM確認情報を持つことを保証するものである。本発明のこの実施態様は、図4の典型的なフローチャートの形式で説明されている。以下に説明するように、図4の処理の全体を使用してもよいし、図4の処理の一部を使用してもよい。この処理の手続を使用する処理又は装置は、例えば、コンテンツ・クリエーターによってビットストリームが作成された後、ビットストリームをリスナーに対して最終的にデコードする前の、ビットストリームを転送又は保存する過程で使用される場合に有用である。図4の各処理またはその一部は、一つ又は複数のプロセスの一部をあらわし、又は一つ又は複数の装置の中で実行される機能であると理解されなければならない。
図4で、はじめに実行されるステップ(ステップ401)は、エンコードされたAC-3ビットストリーム中にAC-3 DIALNORM確認データが存在するか否かを決定するステップである。図3が示すのは、このチェックを行う場合を典型的なフローチャートの形式で示したものである。図3に示すとおり、入力はAC-3音響ビットストリームであり、フレームごとに順次処理される。AC-3フレームの中の未使用のデータ・ビットの位置は分かっているので、フレームまたはビットストリーム全体の網羅的な検索を行う必要はなく、未使用のビットの領域の先頭から検索を始めればよい。DIALNORM確認データは連続したデータのバイトから構成されるのであるが、このデータは他のAC-3フレーム・データと適合的であってもよいし、そうでなくてもよい。従って、図3の処理のはじめのステップ(ステップ301)「ビットストリームからデータを読む」は、データをビットずつ読み込み、読み込んだ各ビットから連続したバイトを組み立てる必要がある。
図4のステップ401に示すように、DIALNORM確認データがある場合には(ステップ401のYES側の出力)、次のステップであるステップ402は、確認データがAC-3 DIALNORMの値に合致するか否かを決定する。ずっと後方で述べるが、図9に示すように、DIALNORMデータの位置とフォーマットは分かっていて、AC-3ビットストリームから簡単に読み出すことができる。通常のDIALNORMと確認用のDIALNORMの値が合致するか否かを決定するテストは単純な数値比較である。もしその値が合致すれば、通常のDIALNORMの値は正しく、さらに分析や処理をする必要でない。十分に「合致」したと考えることのできる値は、その二つの値の差の絶対値が閾値未満である場合である。必要であれば、この閾値はゼロとすることもできるが、より好ましい実装では、閾値は、メタデータ・パラメーターの正確性と、本発明を実装するために必要なコンピューターの資源と、DIALNORMの値と確認用の値の差が再生時の音響情報の品質を悪化させる可能性との間の得失評価によって決定される。多くの応用プログラムでは、閾値は3(3dB)が適切である。AC-3ビットストリームの出力は、格納され、又は送信され、またはデコードされうる。
DIALNORM確認データがAC-3ビットストリームから取り出され、通常のAC-3 DIALNORMメタデータに合致しなかった場合(ステップ402のNO側の出力)、DIALNORMメタデータは確認用のDIALNORMの値によって更新される(いいかえれば、確認用のDIALNORMの値にセットされ、あるいは変えられる)(403)。通常のDIALNORMの値が正しくなく更新されなければならないとわかったのであるから、関連するAC-3ダイナミック・レンジ圧縮メタデータもまた正しくない可能性がある。従って、ダイナミック・レンジ圧縮情報を分析しなければならず、もしそれが正しければ、DIALNORMメタデータ・パラメーターのみが更新される。もし、ダイナミック・レンジ圧縮情報が正しくなければ、それもまた更新しなければならない。これらの分析および更新の詳細は、図4のステップ409ないし413、及び図6a、6b、9cで説明する。
DIALNORMメタデータが正しい場合(ステップ404ないし407)
図4の例に示すとおり、DIALNORM確認データがAC-3ビットストリームに含まれていない場合(ステップ401のNO側の出力)、AC-3ビットストリームはDIALNORMパラメーター及び関連するダインミック・レンジ・コントロール・パラメーターを適用することなくPCMにデコードされ(これらのメタデータは正しくない可能性があるから)、デコードされた音響コンテンツの音量は、ビットストリームを生成したエンコーダーに入力されたものと同じとなる(ステップ404)。その後に会話の音量が測定され、正しいDIALNORMレベルを決定する(ステップ405)。この測定は、すでに述べた会話音量測定104の装置又は機能を用いてもよい。ステップ405の会話音量測定に続いて、ステップ406で測定された値がAC-3 DIALNORMメタデータと比較される(この比較の詳細は後に述べる)。DIALNORMメタデータが正しい場合、ステップ406のYES側に出力された後に必要な処理は、DIALNORM確認データのフォーマットを整えてAC-3ビットストリームに格納するだけである(ステップ407)。
DIALNORMメタデータが適正ではなく、音量がDIALNORMパラメーターの範囲にある場合(ステップ408-410)
図4の例に示すとおり、もし、確認データが存在しておらず(ステップ401のNO側の出力)、かつ既存のAC-3 DIALNORMの値が適正ではない場合(ステップ406のNO側の出力)は、測定された音量レベルがDIALNORMパラメーターの有効な範囲内にあるのか否かを決定する(ステップ408)。会話の計測されたレベル(505)がAC-3ビットストリームとして許されたDIALNORMパラメーターの適正な範囲をはずれる場合、DIALNORMは音量を伝達するのに十分なレンジを持っていない。これは、計測されたレベルが-31dB未満である場合、または-1dBを越える場合である。DIALNORMパラメーターが音量を伝えるのに十分なレンジを持っている場合(ステップ408のYES側の出力)、ステップ409と410が次のとおりに実行される。詳細については図6aと図7に関連して示す。
DIALNORMパラメーターの値は、図5および6aに示されたように、AC-3 ビットストリームから抽出される。すなわち、デコードされていないビットストリーム501は、DIALNORM抽出装置または機能602(「DIALNORM抽出」602)に適用される。
図6aに示すように、ダイナミック・レンジ圧縮プロフィール決定装置または機能(「ダイナミック・レンジ圧縮プロフィール決定」604)は、デコードされていないビットストリームから抽出されたDIALNORMパラメーターの値とAC-3デコード(図5の502)の出力を受け取り、ダイナミック・レンジ圧縮プロフィールを決定する。AC-3フレームの中のダイナミック・レンジ圧縮メタデータは、音声コンテンツをデコードする際に適用されうる利得の変化を表す。そのメタデータは二つの異なった部分に存在する。ビットストリーム情報(BSI)にあるCOMPRパラメーターは、-48.14dBから+47.88dBの範囲の値であって、音響の全てのフレームに適用される拡大縮小比である。個々の音声ブロック(AB)にあるDYNRNGパラメーターは-24.06dBから+23.94dBの範囲の値であって、個々のブロックの拡大縮小を独立して行う手段を提供する。デコードのモードによっては、これらのうち一つがデコーダーで使われるか、あるいは使われないが、両者が同時に使われる事はない。
(「新たなダイナミック・レンジ情報の計算」の)機能または装置607は、新たなダイナミック・レンジ情報を計算する。会話の真の音量の測定結果505(図5)は、丸められて新たなDIALNORMの値となる。1dB単位に丸めることは有用であるが、重要な意味を持つわけではない。プロフィール・インデックス606を用いて、デコードされた音声503(古いDIALNORM及びダイナミック・レンジは適用されていない)、および新たなDIALNORMの値(丸められたもの505)、COMR及びDYNRNGの値の新たな組608が計算される。
ビットストリームのリパッカー、ないしリパック機能(「ビットストリームのリパック」)609は、デコードされていないAC-3ビットストリーム501と、COMPRとDYNRNGの値608と、計測された会話の音量505とを受け取る。すでに述べたように、計測された会話の真の音量505は、例えば1dB単位に丸められて(これは重要ではない)、新たなDIALNORMの値となる。デコードされていないAC-3ビットストリーム501中で、新たなDIALNORMの値、および新たなCOMPRとDYNRNGの値は更新される。さらに、十分な未使用のデータ・ビットが存在するとビットスリームのリパック609が決定すれば、DIALNORM確認データが未使用のデータ・ビットの全てあるいは一部と置き換えられる。新たな更新されたAC-3ビットストリームは、新たなビットストリーム610として出力される。
「使用可能な領域の決定」701の機能または装置は、COMPRとDYNRNGの値を更新するため、および新たなDIALNORM確認データを含ませるために使用可能な全ての未使用のデータ・ビットを識別する。AC-3ビットストリーム中のCOMPRとDYNRNGパラメーターはそれぞれ8ビット必要である。これらのパラメーターにはそれぞれ「存在」を表すフラグがある。COMPRパラメーターにはCOMPREフラグがあって、1にセットされれば、ビットストリーム中でそれに続いてCOMPRパラメーターがあることを示している。同様に、DYNRNGパラメーターにはDYNRNGフラグがあって、1にセットされれば、ビットストリーム中でそれに続いてDYNRNGパラメーターがあることを示している。任意のフレームのはじめのブロックのDYNRNGフラグが0にセットされている場合、デコーダーはDYNRNGの初期値を0dBであると想定する。任意のフレームの任意のブロック1ないし5のDYNRNGフラグの値が0にセットされている場合、デコーダーは直前のブロックのDYNRNGの値を再使用する。各フレームのCOMPRおよびDYNRNGパラメーターが条件附で存在することは、COMPRおよびDYNRNGに使用されるビットの総数が変わりうる事を意味している。
(「ダイナミック・レンジ圧縮(D.R.C.)情報の減少」)703の機能ないし装置は、未使用のデータ・ビットの識別結果702を受け取り、新たなCOMPRおよびDYNRNGの総ビット数が未使用のビット数に古いCOMPRおよびDYNRNGの値に使用されている総ビット数を加えたものよりも大きい場合、新たなCOMORおよびDYNRNGの値のために必要な総ビット数を減少させるために、新たなダイナミック・レンジ情報608を計算する。機能または装置703の出力は、新たなCOMPRおよびDYNRNGの値であって、前記のようなビット数の要求を考慮して調整されたものである。
装置又は機能「DIALNORM、ダイナミック・レンジ圧縮、およびDIALNORM確認情報の更新」705は、デコードされていないAC-3ビットストリーム501、新たなCOMPRおよびDYNRNGの値704(これは、ビット数の要求に従って調整されているかもしれない)、計測された会話の音量505を受け取り、ビットストリームのDIALNORMパラメーターとダイナミックレンジパラメーターを更新し、ビットストリームにDIALNORM確認情報を挿入する。
DIALNORM確認データを含む、更新されたAC-3ビットストリームは、エラー訂正ワード生成装置または機能(「CRC更新」)707に渡される。AC-3フレームのデータが変化していた場合、二つのエラー検出ワードCRC1とCRC2は再計算されなければならない。8分の5フレーム境界より前の部分のデータのみが変更を受けていた場合、CRC1のみが再計算を要する。同様に、8分の5フレーム境界より後のデータのみが変更を受けていた場合、CRC2のみの再計算を要する。
DIALNORMメタデータが適正でなく、DIALNORMレンジが音量伝達に不十分な場合
図4に示すように、確認情報が存在せず(ステップ401の出力がNO側である)、かつ存在するAC-3 DIALNORMの値が正しくない(ステップ406の出力がNO側である)場合、計測された音量がDIALNORMの適正な値の範囲にあるかを決定しなければならない(ステップ408)。すでに述べたように、計測された会話の音量505が、AC-3ビットストリームとして許容されるDIALNORMパラメーターの有効な範囲の外にある場合、DIALNORMパラメーターは音量を伝達するのに十分な範囲を持っていない。換言すれば、計測された音量が-31dB未満であるか、-1dBより大きい場合である。この場合、ステップ408の出力はNOである。この状態を修正する一つの方法として、すでに述べたように、最も近い有効な値でそのフレームのDIALNORMパラメーターを更新することが挙げられる。しかしながら、この方法によっては、DIALNORMの値と計測された会話の音量の間に一定の誤差が生じることになる。この種の誤差を極小化する適切な選択肢は、以下に図6bの例として参照しながら記述する、ステップ411、412、および413を実行することである。すでに述べたように、図6bは、図5の「ビットストリームの更新」507のバリエーションであって、ステップ411、412、および413を実行するにあたって有用である。図6aとは異なる図6bの要素は以下に示す。図6aと図6bに共通の要素は、それぞれ共通の参照番号で示されている。
デコードされた音声503は調整可能なゲイン変更装置あるいは変更機能(「ゲイン調整」)611に適用される。適切なゲイン変更が音声に適用されることによって、計測された会話音量とDIALNORMの値の間の誤差を減少させることができる(ステップ411)。例えば、計測された会話の音量が-36dBであって、DIALNORMが最も近い適正な値、すなわち、-31dBに設定されていた場合、音声を5dB引き上げて、-36dBから-31dBにする。
ゲイン調整のされた音声は、修正されたAC-3音声エンコードを用いて再エンコードされ、同時に、新たなDIALNORMとダイナミック・レンジ圧縮情報608(ステップ412)が修正されたAC-3エンコーダー又はエンコード機能(「修正されたAC-3エンコード」)629に適用される。修正されたAC-3エンコードは「修正された」とされるのは、それがDIALNORM確認データの機能に対応していて、エンコードの手順の後、最終的なビットストリームのパックの前に、そのデータを未使用のデータ・ビットに挿入するからである。この再エンコードの過程では(DIALNORM、ダイナミック・レンジ圧縮情報、およびDIALNORM確認を除く)オリジナルのBSI、およびオリジナルのビットストリーム501フレームのAUXメタデータが維持され、算出された新たなエラー検出ワードを含む。
すでに述べたように、図4のプロセス全てか、あるいは図4のプロセスまたは前記プロセスのステップを使用する装置のサブセットを使用することができる。
本発明の他の実施態様として、正しいDIALNORMおよび適合する確認データの有無に関わらず、しかし、そのような確認データが存在するならばそれを使用して、AC-3ビットストリームを適切にデコードすることに関連する。これは「確認データ対応デコード」と呼ばれる。本発明のこの実施態様は、図8に典型的なフローチャートの形式で説明される。下に説明するように、図8の手順のすべてか、あるいは図8の手順のサブセットが使用される。この手順のステップを使用するように設定された手順又は装置は、例えば、ビットストリームのデコードの過程において有用である。図4の各ステップに実質的に対応する図8の各ステップは、対応する参照番号を採用している(例えば、「801」と「401」)。図8の各ステップまたはそのサブセットは、一つ又は複数の手順の一部分を表し、または、複数の装置で実行される機能であると理解されなければならない。
図8に示すように、はじめに実行されるステップ(ステップ801)は、AC-3ビットストリーム中にAC-3 DIALNORM確認データが存在するか否かを決定するステップである。このステップは、すでに述べた図4のステップ401(図3に示された詳細を含む)と同じ動作を行う。
図8のステップ801に示したように、DIALNORM確認データが存在する場合(ステップ801の出力がYESの場合)、次のステップであるステップ802は、確認データがAC-3 DIALNORMの値に合致するかを決定する。このステップは、すでに述べた図4のステップ402と同様の動作を行う。値が合致する場合は通常のDIALNORMの値は正しく、手順に処理に適用されたAC-3ビットストリーム(ステップ801の入力)は、ステップ814に示すように、既存のDIALNORMと関連するダイナミック・レンジ・メタデータを使用してデコードされ、デコードされたAC-3ビットストリームが作られる。値が合致するか否かは、ステップ402に関連してすでに説明したように、これらの値が閾値の間にあるか否かで決定される。
DIALNORM確認データがAC-3ビットストリームから抽出され、かつ通常のAC-3 DIALNROMメタデータと合致しない(ステップ802の出力がNOである)場合、DIALNORMメタデータは確認DIALNORMメタデータによって更新される(803)。通常のDIALNORMの値が正しくないと決定され、更新する必要があるのであるから、関連するAC-3ダイナミック・レンジ圧縮メタデータもまた正しくない可能性がある。従って、ダイナミック・レンジ圧縮情報を分析して、それが正しければ、DIALNORMメタデータ・パラメーターのみが更新される。ダイナミック・レンジ圧縮情報が正しくなければ、それもまた更新しなければならない。この分析および更新の詳細は、図4のステップ409ないし413および図6bに関連して説明する。
DIALNORMメタデータが正しい場合
図8の例で示したとおり、DIALNORM確認データがAC-3ビットストリームに含まれていない(ステップ801の出力がNOである)場合、AC-3ビットストリームは、DIALNORMパラメーターおよび関連するダイナミック・レンジ・コントロール・パラメーターを適用することなく(これらのメタデータ・パラメーターは正しくない可能性があるのであるから)音声に(たとえば、PCMにコード化された音声)デコードされ(ステップ804)、デコードされた音声のコンテンツの音量は、ビットストリームを作成したエンコーダーに入力された音量と同じになる。次に、デコードされた音声のDIALNORMレベルが計測される(ステップ805)。このDIALNORMの計測は、すでに述べた会話音量測定104と同じ手順でよい。ステップ805の会話の音量の測定に続いて、ステップ806で、測定された値は入力されたAC-3ビットストリームのAC-3 DIALNORMメタデータの値と比較される。ステップ806のYESの出力に続いて示されるように、DIALNORMの値が適正である(ステップ806の出力がYESである)場合、入力されたAC-3ビットストリーム中のオリジナルのDIALNORMの値と関連するオリジナルのダイナミック・レンジ圧縮情報は、ステップ804のAC-3デコードによって生成されたデコードされた音声に適用され、適正なDIALNORMおよびダイナミック・レンジ圧縮パラメーターの値が適用された、デコードされたAC-3音声ビットストリームを得ることができる。
DIALNORMメタデータが正しくない場合
既存のDIALNORMメタデータが正しくない(ステップ806でNO側に出力された)場合、DIALNORMの値にステップ805で計測されたDIALNORMの値をセットし、計測されたDIALNORMパラメーターの値から新たなダイナミック・レンジ圧縮情報を決定する必要がある。これはステップ815で行われ、ステップ412と同じ手順でよい。ステップ815で決定された計測されたDIALNORMの値とダイナミック・レンジ圧縮情報は、ステップ816で、ステップ804で生成されたデコードされたデジタルまたはアナログの音声に適用される。
すでに述べたように、図8のプロセスまたは、このプロセスの使用した図8のプロセスもしくは装置のサブセットのいずれもが使用されうる。
本発明は、ハードウェアまたはソフトウェア、あるいはその両者の組み合わせ(たとえば、プログラマブル・ロジック・アレー)として実装することができる。特に指定がなければ、本発明の一部として含まれるアルゴリズムまたは手順は、特定のコンピューターまたはそのほかの装置に本来的に関係づけられている訳ではない。特に、ここに記述した指導に従ったプログラムを用いて様々な汎用の機械を使用してもよいし、より専門化した装置(たとえば、集積回路)を作成して必要な方法のステップを実行することはより便利であるともいいうる。従って、本発明は、一つまたは複数のプログラム可能なコンピューター・システム上で動作する一つまたは複数のコンピューター・プログラムとして実装することができる。前記コンピューター・システムはそれぞれ、少なくとも1のプロセッサーをもち、少なくとも1のデータ・ストレージ・システム(揮発性および不揮発性のメモリーないし記憶素子を含む)をもち、少なくとも1の入力装置ないし入力ポートをもち、少なくとも1の出力装置または出力ポートを持つものである。プログラム・コードは入力データに適用されて、ここに記述した機能を実行し、出力情報を生成する。出力情報は、周知の形式で1または複数の装置に適用される。
Claims (9)
- 音声に対応するデジタル・ビットストリームを生成する方法であって、
前記音声に対するメタデータを生成する工程と、
前記メタデータの正しいバージョンのコピーまたはデータ圧縮されたコピーを含むメタデータ確認情報を生成する工程であって、前記メタデータ確認情報は、前記音声に対するメタデータが適正であるか否かを検出し、適正でない場合にはそれを適正なものに変更するために使用することができるものである、前記メタデータ確認情報を生成する工程と、
前記音声を表すデータ・ビット、前記メタデータおよび前記メタデータ確認情報を含むデジタル・ビットストリームを組み立てる工程と
を含み、前記メタデータ確認情報は、前記音声に対するメタデータが適正でない場合、前記メタデータを前記コピーで更新するために使用することができる、方法。 - 請求項1に記載の方法であって、前記メタデータを生成する工程が前記音声の計測結果に基づいてメタデータを生成する工程である、方法。
- 請求項2に記載の方法であって、前記音声の計測は前記音声の音量の計測である、方法。
- 請求項1に記載の方法であって、前記メタデータ確認情報が暗号化されている、方法。
- 請求項1に記載の方法であって、前記メタデータ確認情報を表す複数のビットが前記ビットストリーム中の通常は情報を持たない複数のビットの全部又は一部を置き換える、方法。
- 請求項1に記載の方法であって、前記メタデータ確認情報は、電子迷彩技術を用いて前記ビットストリームにコード化されている、方法。
- デジタル音声ビットストリームを取り扱う方法であって、前記音声ビットストリームは音声を表す複数のデータ・ビットおよび前記音声に対するメタデータを含み、前記音声ビットストリームは、メタデータが前記音声に対して適正であるか否かを検出するために使うことができ、適正でない場合には適正になるようにメタデータを変更するメタデータ確
認情報を表す複数のデータ・ビットを含むことがあり、
前記メタデータ確認情報が前記ビットストリーム中に存在するかどうかを決定する工程と、
メタデータ確認情報が存在する場合、それがメタデータの少なくとも一部が適正であることを確認する工程と、
前記メタデータ確認情報が適正であると確認する場合、ビットストリームに変更を加えない工程と、
前記メタデータ確認情報が適正であると確認しない場合、前記メタデータの前記の少なくとも一部分を訂正する工程と、
前記メタデータ確認情報が存在しない場合、前記メタデータの少なくとも一部分が適正か否かを決定する工程と、
前記メタデータの前記のすくなとも一部分が適正である場合、前記ビットストリームに変更を加えないか、または、前記のメタデータの少なくとも一部に対応するメタデータ確認情報を前記ビットストリームに挿入する工程と、
前記メタデータの前記のすくなとも一部分が適正でない場合、前記メタデータの前記の一部分にデフォルトの値を設定する工程と
を含み、前記メタデータ確認情報は、前記メタデータの正しいバージョンのコピーまたはデータ圧縮されたコピーを含み、
前記メタデータの前記の少なくとも一部分を訂正する工程は、前記メタデータの少なくとも一部分を前記コピーで更新することを含む、方法。 - デジタル音声ビットストリームをデコードする方法であって、前記音声ビットストリームは音声を表す複数のデータ・ビットおよび前記音声に対するメタデータを含み、前記音声ビットストリームは、メタデータが前記音声に対して適正であるか否かを検出するために使うことができ、適正でない場合には適正になるようにメタデータを変更するメタデータ確認情報を表す複数のデータ・ビットを含むことがあり、
前記メタデータ確認情報が前記ビットストリームに存在するか否かを決定する工程と、メタデータ確認情報が存在する場合、それが前記メタデータの少なくとも一部分が適正であることを確認する工程と、
前記情報が適正であると確認する場合、前記メタデータを用いて前記ビットストリームをデコードする工程と、
前記メタデータ確認情報が前記メタデータの前記のすくなとも一部分が適正であると確認しない場合、それを用いて前記メタデータを訂正し、前記訂正されたメタデータを用いて前記ビットストリームをデコードする工程と、
メタデータ確認情報が前記ビットストリームに存在しない場合、前記ビットストリーム中の前記メタデータを用いて前記ビットストリームをデコードし、またはメタデータの規定値を用いて前記ビットストリームをデコードする工程と
を含み、前記メタデータ確認情報は、前記メタデータの正しいバージョンのコピーまたはデータ圧縮されたコピーを含み、
前記メタデータを訂正することは、前記メタデータを前記コピーで更新することを含む、方法。 - デジタル音声ビットストリームをデコードする方法であって、前記音声ビットストリームは音声を表す複数のデータ・ビットおよび前記音声に対するメタデータを含み、前記音声ビットストリームは、メタデータが前記音声に対して適正であるか否かを検出するために使うことができ、適正でない場合には適正になるようにメタデータを変更するメタデータ確認情報を表す複数のデータ・ビットを含むことがあり、
前記メタデータ確認情報が前記ビットストリームに存在するか否かを決定する工程と、
メタデータ確認情報が存在する場合、それが前記メタデータの少なくとも一部分が適正であることを確認するか否かを決定する工程と、
前記情報が適正であると確認する場合、前記メタデータを用いて前記ビットストリームをデコードする工程と、
前記メタデータ確認情報が前記メタデータの前記すくなくとも一部分が適正であると確認しない場合、それを用いて前記メタデータを訂正し、前記訂正されたメタデータを用いて
前記ビットストリームをデコードする工程と、
メタデータ確認情報が前記ビットストリームに存在しない場合、前記メタデータの前記の少なくとも一部が適正であるか否かを決定する工程と、
前記メタデータの前記の少なくとも一部が適正である場合、前記ビットストリームを前記のメタデータを用いてデコードする工程と、
前記メタデータの前記の少なくとも一部が適正でない場合、前記ビットストリームの前記の少なくとも一部分にデフォルトの値を設定してデコードする工程と
を含み、前記メタデータ確認情報は、前記メタデータの正しいバージョンのコピーまたはデータ圧縮されたコピーを含み、
前記メタデータを訂正することは、前記メタデータを前記コピーで更新することを含む、方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67136105P | 2005-04-13 | 2005-04-13 | |
US60/671,361 | 2005-04-13 | ||
PCT/US2006/011202 WO2006113062A1 (en) | 2005-04-13 | 2006-03-23 | Audio metadata verification |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008536193A JP2008536193A (ja) | 2008-09-04 |
JP2008536193A5 JP2008536193A5 (ja) | 2009-05-07 |
JP5166241B2 true JP5166241B2 (ja) | 2013-03-21 |
Family
ID=36655019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008506487A Active JP5166241B2 (ja) | 2005-04-13 | 2006-03-23 | 音声メタデータ確認 |
Country Status (17)
Country | Link |
---|---|
US (1) | US20090063159A1 (ja) |
EP (1) | EP1878010B1 (ja) |
JP (1) | JP5166241B2 (ja) |
KR (1) | KR101253225B1 (ja) |
CN (1) | CN101160616B (ja) |
AU (1) | AU2006237491B2 (ja) |
BR (1) | BRPI0609300A2 (ja) |
CA (1) | CA2604817C (ja) |
DK (1) | DK1878010T3 (ja) |
ES (1) | ES2527552T3 (ja) |
HK (1) | HK1113429A1 (ja) |
IL (1) | IL186047A (ja) |
MX (1) | MX2007012734A (ja) |
MY (1) | MY147064A (ja) |
PL (1) | PL1878010T3 (ja) |
TW (1) | TW200638335A (ja) |
WO (1) | WO2006113062A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9154102B2 (en) | 2010-03-10 | 2015-10-06 | Dolby Laboratories Licensing Corporation | System for combining loudness measurements in a single playback mode |
US9842596B2 (en) | 2010-12-03 | 2017-12-12 | Dolby Laboratories Licensing Corporation | Adaptive processing with multiple media processing nodes |
US9905237B2 (en) | 2013-01-21 | 2018-02-27 | Dolby Laboratories Licensing Corporation | Decoding of encoded audio bitstream with metadata container located in reserved data space |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
DE602005022641D1 (de) | 2004-03-01 | 2010-09-09 | Dolby Lab Licensing Corp | Mehrkanal-Audiodekodierung |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
CN101228575B (zh) | 2005-06-03 | 2012-09-26 | 杜比实验室特许公司 | 利用侧向信息的声道重新配置 |
JP4193865B2 (ja) * | 2006-04-27 | 2008-12-10 | ソニー株式会社 | デジタル信号切換え装置及びその切換え方法 |
UA93243C2 (ru) | 2006-04-27 | 2011-01-25 | ДОЛБИ ЛЕБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШи | Регулирование усиления звука c использованием основанного ha конкретной громкости выявления аккустических событий |
JP4175390B2 (ja) * | 2006-06-09 | 2008-11-05 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US7934264B2 (en) * | 2007-07-27 | 2011-04-26 | International Business Machines Corporation | Methods, systems, and computer program products for detecting alteration of audio or image data |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
WO2010053728A1 (en) * | 2008-10-29 | 2010-05-14 | Dolby Laboratories Licensing Corporation | Signal clipping protection using pre-existing audio gain metadata |
US9179235B2 (en) * | 2008-11-07 | 2015-11-03 | Adobe Systems Incorporated | Meta-parameter control for digital audio data |
US8527267B2 (en) * | 2008-12-04 | 2013-09-03 | Linear Accoustic, Inc. | Adding additional data to encoded bit streams |
TWI384459B (zh) * | 2009-07-22 | 2013-02-01 | Mstar Semiconductor Inc | 音框檔頭之自動偵測方法 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
TWI447709B (zh) * | 2010-02-11 | 2014-08-01 | Dolby Lab Licensing Corp | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CA2804040C (en) | 2010-06-29 | 2021-08-03 | Georgia Tech Research Corporation | Systems and methods for detecting call provenance from call audio |
US20120033819A1 (en) * | 2010-08-06 | 2012-02-09 | Samsung Electronics Co., Ltd. | Signal processing method, encoding apparatus therefor, decoding apparatus therefor, and information storage medium |
US8948406B2 (en) * | 2010-08-06 | 2015-02-03 | Samsung Electronics Co., Ltd. | Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium |
TWI574565B (zh) * | 2011-03-31 | 2017-03-11 | Sony Corp | A transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a computer-readable medium, and a broadcasting system |
JP5719966B2 (ja) | 2011-04-08 | 2015-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定 |
US9620131B2 (en) * | 2011-04-08 | 2017-04-11 | Evertz Microsystems Ltd. | Systems and methods for adjusting audio levels in a plurality of audio signals |
US8965774B2 (en) * | 2011-08-23 | 2015-02-24 | Apple Inc. | Automatic detection of audio compression parameters |
US9373334B2 (en) * | 2011-11-22 | 2016-06-21 | Dolby Laboratories Licensing Corporation | Method and system for generating an audio metadata quality score |
JP5909100B2 (ja) * | 2012-01-26 | 2016-04-26 | 日本放送協会 | ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
EP2680259A1 (en) * | 2012-06-28 | 2014-01-01 | Thomson Licensing | Method and apparatus for watermarking an AC-3 encoded bit stream |
FR2996388B1 (fr) * | 2012-10-01 | 2015-10-30 | Sigfox | Procede de transmission d'une information utile entre deux terminaux et procede de generation d'une table d'association utilisee dans le cadre de la transmission |
CN107257234B (zh) * | 2013-01-21 | 2020-09-15 | 杜比实验室特许公司 | 解码具有保留数据空间中的元数据容器的编码音频比特流 |
BR122020007932B1 (pt) | 2013-01-21 | 2022-09-27 | Dolby International Ab | Dispositivo de processamento de áudio e método para decodificar um ou mais quadros de um fluxo de bits de áudio codificado |
WO2014114781A1 (en) * | 2013-01-28 | 2014-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices |
US9559651B2 (en) | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US20150025894A1 (en) * | 2013-07-16 | 2015-01-22 | Electronics And Telecommunications Research Institute | Method for encoding and decoding of multi channel audio signal, encoder and decoder |
CN109785851B (zh) | 2013-09-12 | 2023-12-01 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
EP3061090B1 (en) * | 2013-10-22 | 2019-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
RU2653858C1 (ru) | 2014-05-28 | 2018-05-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио |
US9286383B1 (en) | 2014-08-28 | 2016-03-15 | Sonic Bloom, LLC | System and method for synchronization of data and audio |
US10020001B2 (en) * | 2014-10-01 | 2018-07-10 | Dolby International Ab | Efficient DRC profile transmission |
ES2916254T3 (es) * | 2014-10-10 | 2022-06-29 | Dolby Laboratories Licensing Corp | Sonoridad de programa basada en la presentación, independiente de la transmisión |
US10338794B2 (en) | 2015-05-15 | 2019-07-02 | Spotify Ab | Playback of media streams in dependence of a time of a day |
US20160337429A1 (en) * | 2015-05-15 | 2016-11-17 | Spotify Ab | Method and device for resumed playback of streamed media |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US11130066B1 (en) | 2015-08-28 | 2021-09-28 | Sonic Bloom, LLC | System and method for synchronization of messages and events with a variable rate timeline undergoing processing delay in environments with inconsistent framerates |
FR3044814A1 (fr) * | 2016-04-21 | 2017-06-09 | Continental Automotive France | Systeme et procede de controle du volume sonore dans un systeme multimedia |
US20170311005A1 (en) * | 2016-04-26 | 2017-10-26 | Szu-Tung Lin | Method of wireless audio transmission and playback |
US10210881B2 (en) * | 2016-09-16 | 2019-02-19 | Nokia Technologies Oy | Protected extended playback mode |
US10091349B1 (en) | 2017-07-11 | 2018-10-02 | Vail Systems, Inc. | Fraud detection system and method |
US10623581B2 (en) | 2017-07-25 | 2020-04-14 | Vail Systems, Inc. | Adaptive, multi-modal fraud detection system |
TWI809289B (zh) | 2018-01-26 | 2023-07-21 | 瑞典商都比國際公司 | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 |
IL314886A (en) | 2018-04-09 | 2024-10-01 | Dolby Int Ab | Methods, devices and systems for three-degree-of-freedom amplification of MPEG-H 3D audio |
US11250867B1 (en) * | 2019-10-08 | 2022-02-15 | Rockwell Collins, Inc. | Incorporating data into a voice signal with zero overhead |
KR102453919B1 (ko) | 2022-05-09 | 2022-10-12 | (주)피플리 | 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59221047A (ja) * | 1983-05-30 | 1984-12-12 | Victor Co Of Japan Ltd | デイジタル信号伝送における同期信号検出回路 |
JPH0681058B2 (ja) * | 1983-09-26 | 1994-10-12 | パイオニア株式会社 | デ−タ送受信方式 |
CA1235189A (en) * | 1985-01-14 | 1988-04-12 | Haruhiko Akiyama | Error correction encoding system |
US4953112A (en) * | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
MY110584A (en) * | 1992-10-09 | 1998-08-29 | Koninklijke Philips Electronics Nv | Method of and device for correction errors and erasures in digital information |
GB2272615A (en) * | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
JP2611667B2 (ja) * | 1994-07-27 | 1997-05-21 | 日本電気株式会社 | 異種フレーム形式混在通信システム |
JP2671821B2 (ja) * | 1994-09-28 | 1997-11-05 | 日本電気株式会社 | データ伝送装置 |
US5646997A (en) * | 1994-12-14 | 1997-07-08 | Barton; James M. | Method and apparatus for embedding authentication information within digital data |
JP2768297B2 (ja) * | 1995-03-23 | 1998-06-25 | 日本電気株式会社 | データ転送方法とその装置 |
US5699369A (en) * | 1995-03-29 | 1997-12-16 | Network Systems Corporation | Adaptive forward error correction system and method |
CA2175394C (en) * | 1995-05-19 | 2001-07-03 | Ichiro Okajima | Terminal, network, and communication system |
US5828677A (en) * | 1996-03-20 | 1998-10-27 | Lucent Technologies Inc. | Adaptive hybrid ARQ coding schemes for slow fading channels in mobile radio systems |
US6427012B1 (en) * | 1997-05-19 | 2002-07-30 | Verance Corporation | Apparatus and method for embedding and extracting information in analog signals using replica modulation |
US6185309B1 (en) * | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
US6088826A (en) * | 1997-08-21 | 2000-07-11 | Advanced Micro Devices Inc. | Method for checking data for errors in data communication systems |
US6141788A (en) * | 1998-03-13 | 2000-10-31 | Lucent Technologies Inc. | Method and apparatus for forward error correction in packet networks |
GB2340351B (en) * | 1998-07-29 | 2004-06-09 | British Broadcasting Corp | Data transmission |
US6188987B1 (en) * | 1998-11-17 | 2001-02-13 | Dolby Laboratories Licensing Corporation | Providing auxiliary information with frame-based encoded audio information |
JP2000235458A (ja) * | 1999-02-15 | 2000-08-29 | Sharp Corp | 補助記憶装置およびこの補助記憶装置を搭載した情報処理装置 |
EP1157499A4 (en) * | 1999-03-10 | 2003-07-09 | Digimarc Corp | PROCESS FOR SIGNAL PROCESSING, DEVICES AND APPLICATIONS FOR THE MANAGEMENT OF DIGITAL RIGHTS |
JP3728578B2 (ja) * | 1999-03-31 | 2005-12-21 | 富士通株式会社 | マルチキャリア伝送における不均一誤り保護方法並びにその符号器及び復号器 |
JP3699863B2 (ja) * | 1999-07-12 | 2005-09-28 | 株式会社日立コミュニケーションテクノロジー | エラー訂正符号装置、エラー訂正符号復号装置および伝送装置 |
US6748362B1 (en) * | 1999-09-03 | 2004-06-08 | Thomas W. Meyer | Process, system, and apparatus for embedding data in compressed audio, image video and other media files and the like |
US6675125B2 (en) * | 1999-11-29 | 2004-01-06 | Syfx | Statistics generator system and method |
US6678855B1 (en) * | 1999-12-02 | 2004-01-13 | Microsoft Corporation | Selecting K in a data transmission carousel using (N,K) forward error correction |
US6748441B1 (en) * | 1999-12-02 | 2004-06-08 | Microsoft Corporation | Data carousel receiving and caching |
US6553511B1 (en) * | 2000-05-17 | 2003-04-22 | Lsi Logic Corporation | Mass storage data integrity-assuring technique utilizing sequence and revision number metadata |
JP2002006885A (ja) * | 2000-06-19 | 2002-01-11 | Sharp Corp | 条件付きデジタル情報の記録再生装置と再生方法とそれに用いられる記録媒体 |
WO2002015587A2 (en) * | 2000-08-16 | 2002-02-21 | Dolby Laboratories Licensing Corporation | Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information |
AUPQ952700A0 (en) * | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
US6928433B2 (en) * | 2001-01-05 | 2005-08-09 | Creative Technology Ltd | Automatic hierarchical categorization of music by metadata |
US6807528B1 (en) * | 2001-05-08 | 2004-10-19 | Dolby Laboratories Licensing Corporation | Adding data to a compressed data frame |
US7295755B2 (en) * | 2001-06-22 | 2007-11-13 | Thomson Licensing | Method and apparatus for simplifying the access of metadata |
US20040037421A1 (en) * | 2001-12-17 | 2004-02-26 | Truman Michael Mead | Parital encryption of assembled bitstreams |
US7707221B1 (en) * | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
AU2003237120B2 (en) * | 2002-04-29 | 2008-10-09 | Sony Electronics, Inc. | Supporting advanced coding formats in media files |
US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7617438B2 (en) * | 2004-04-15 | 2009-11-10 | International Business Machines Corporation | Method and apparatus for supporting checksum offload in partitioned data processing systems |
DE602005019559D1 (de) * | 2004-05-11 | 2010-04-08 | Nippon Telegraph & Telephone | Schallpaket-sendeverfahren, schallpaket-sendevorrichtung, schallpaket-sendeprogramm und aufzeichnungsmedium, in dem dieses programm aufgezeichnet wurde |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
-
2006
- 2006-03-22 TW TW095109832A patent/TW200638335A/zh unknown
- 2006-03-23 DK DK06748775.1T patent/DK1878010T3/en active
- 2006-03-23 AU AU2006237491A patent/AU2006237491B2/en active Active
- 2006-03-23 KR KR1020077023402A patent/KR101253225B1/ko active IP Right Grant
- 2006-03-23 US US11/918,367 patent/US20090063159A1/en not_active Abandoned
- 2006-03-23 EP EP06748775.1A patent/EP1878010B1/en active Active
- 2006-03-23 PL PL06748775T patent/PL1878010T3/pl unknown
- 2006-03-23 BR BRPI0609300-0A patent/BRPI0609300A2/pt not_active Application Discontinuation
- 2006-03-23 CA CA2604817A patent/CA2604817C/en active Active
- 2006-03-23 WO PCT/US2006/011202 patent/WO2006113062A1/en active Application Filing
- 2006-03-23 MX MX2007012734A patent/MX2007012734A/es active IP Right Grant
- 2006-03-23 ES ES06748775.1T patent/ES2527552T3/es active Active
- 2006-03-23 CN CN2006800121334A patent/CN101160616B/zh active Active
- 2006-03-23 JP JP2008506487A patent/JP5166241B2/ja active Active
- 2006-04-07 MY MYPI20061584A patent/MY147064A/en unknown
-
2007
- 2007-09-18 IL IL186047A patent/IL186047A/en active IP Right Grant
-
2008
- 2008-03-27 HK HK08103411.7A patent/HK1113429A1/xx unknown
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9154102B2 (en) | 2010-03-10 | 2015-10-06 | Dolby Laboratories Licensing Corporation | System for combining loudness measurements in a single playback mode |
US9842596B2 (en) | 2010-12-03 | 2017-12-12 | Dolby Laboratories Licensing Corporation | Adaptive processing with multiple media processing nodes |
US9905237B2 (en) | 2013-01-21 | 2018-02-27 | Dolby Laboratories Licensing Corporation | Decoding of encoded audio bitstream with metadata container located in reserved data space |
US9911426B2 (en) | 2013-01-21 | 2018-03-06 | Dolby Laboratories Licensing Corporation | Audio encoder and decoder with program loudness and boundary metadata |
US9916838B2 (en) | 2013-01-21 | 2018-03-13 | Dolby Laboratories Licensing Corporation | Audio encoder and decoder with program loudness and boundary metadata |
US10672413B2 (en) | 2013-01-21 | 2020-06-02 | Dolby Laboratories Licensing Corporation | Decoding of encoded audio bitstream with metadata container located in reserved data space |
Also Published As
Publication number | Publication date |
---|---|
CA2604817C (en) | 2015-06-16 |
DK1878010T3 (en) | 2015-01-12 |
HK1113429A1 (en) | 2008-10-03 |
KR101253225B1 (ko) | 2013-04-16 |
TW200638335A (en) | 2006-11-01 |
AU2006237491A1 (en) | 2006-10-26 |
IL186047A (en) | 2013-11-28 |
CN101160616B (zh) | 2011-12-07 |
KR20080009078A (ko) | 2008-01-24 |
AU2006237491B2 (en) | 2011-09-08 |
ES2527552T3 (es) | 2015-01-26 |
US20090063159A1 (en) | 2009-03-05 |
JP2008536193A (ja) | 2008-09-04 |
WO2006113062A1 (en) | 2006-10-26 |
BRPI0609300A2 (pt) | 2010-03-23 |
CA2604817A1 (en) | 2006-10-26 |
MY147064A (en) | 2012-10-15 |
EP1878010A1 (en) | 2008-01-16 |
MX2007012734A (es) | 2008-01-11 |
PL1878010T3 (pl) | 2015-03-31 |
IL186047A0 (en) | 2008-02-09 |
CN101160616A (zh) | 2008-04-09 |
EP1878010B1 (en) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5166241B2 (ja) | 音声メタデータ確認 | |
JP7543386B2 (ja) | 多様な再生環境のためのダイナミックレンジ制御 | |
JP6851523B2 (ja) | 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化 | |
JP4726898B2 (ja) | オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法 | |
KR102122137B1 (ko) | 인코딩된 오디오 확장 메타데이터-기반 동적 범위 제어 | |
CN110675883B (zh) | 用于下混合音频内容的响度调整 | |
JP5695677B2 (ja) | 単一再生モードにおいてラウドネス測定値を合成するシステム | |
JP6727194B2 (ja) | 効率的なdrcプロファイル伝送 | |
US20100040135A1 (en) | Apparatus for processing mix signal and method thereof | |
JP2002073091A (ja) | 復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090323 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111025 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111227 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120127 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120703 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121220 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5166241 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |