JP6133408B2 - 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード - Google Patents
複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード Download PDFInfo
- Publication number
- JP6133408B2 JP6133408B2 JP2015511810A JP2015511810A JP6133408B2 JP 6133408 B2 JP6133408 B2 JP 6133408B2 JP 2015511810 A JP2015511810 A JP 2015511810A JP 2015511810 A JP2015511810 A JP 2015511810A JP 6133408 B2 JP6133408 B2 JP 6133408B2
- Authority
- JP
- Japan
- Prior art keywords
- data rate
- channel
- group
- encoder
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 126
- 238000000034 method Methods 0.000 claims description 92
- 230000001419 dependent effect Effects 0.000 claims description 26
- 238000009877 rendering Methods 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 15
- 230000001052 transient effect Effects 0.000 claims description 10
- 239000008186 active pharmaceutical agent Substances 0.000 claims 38
- 230000004913 activation Effects 0.000 claims 1
- 230000003796 beauty Effects 0.000 claims 1
- 238000013442 quality metrics Methods 0.000 claims 1
- 230000000873 masking effect Effects 0.000 description 57
- 238000009826 distribution Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 23
- 239000000284 extract Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は2012年5月15日に出願された米国仮特許出願第61/647,226号の優先権の利益を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
本稿はオーディオ・エンコード/デコードに関する。詳細には、本稿はエンコードされたマルチチャネル・オーディオ信号の品質を改善するための方法およびシステムに関する。
いくつかの態様を記載しておく。
〔態様1〕
全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードするよう構成されたオーディオ・エンコーダであって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり;前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該オーディオ・エンコーダは、
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与えるよう構成された基本エンコーダと;
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与えるよう構成された拡張エンコーダと;
・前記基本群のチャネルについての瞬時IS符号化品質指標および/または前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、定期的に適応させるよう構成されたレート制御ユニットとを有する、
エンコーダ。
〔態様2〕
前記レート制御ユニットは、前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標の差が低下するよう前記ISデータレートおよび前記DSデータレートを決定するよう構成されている、態様1記載のエンコーダ。
〔態様3〕
前記基本エンコーダおよび前記拡張エンコーダが、前記マルチチャネル・オーディオ信号のフレームのシーケンスをエンコードしてそれによりそれぞれ前記独立サブストリームおよび前記従属サブストリームのISフレームおよびDSフレームの対応するシーケンスを与えるよう構成されたフレーム・ベースのオーディオ・エンコーダである、態様1または2記載のエンコーダ。
〔態様4〕
前記レート制御ユニットは、前記マルチチャネル・オーディオ信号のフレームの前記シーケンスの各フレームについて前記ISデータレートおよび前記DSデータレートを適応させるよう構成されている、態様3記載のエンコーダ。
〔態様5〕
・前記IS符号化品質指標は、ISフレームの前記対応するシーケンスについてのIS符号化品質指標のシーケンスを含み;
・前記DS符号化品質指標は、DSフレームの前記対応するシーケンスについてのDS符号化品質指標のシーケンスを含み;
・前記レート制御ユニットは、ISフレームの前記シーケンスのISフレームのための前記ISデータレートおよびDSフレームの前記シーケンスのDSフレームのための前記DSデータレートを、IS符号化品質指標の前記シーケンスおよびDS符号化品質指標の前記シーケンスに基づいて、前記ISフレームについての前記ISデータレートと前記DSフレームについての前記DSデータレートとの和が実質的に前記全利用可能データレートとなるよう決定するよう構成されている、
態様3または4記載のエンコーダ。
〔態様6〕
・前記基本群のチャネルの第一のフレームに基づいて前記IS符号化品質指標を決定するおよび/または前記拡張群のチャネルの対応する第一のフレームに基づいて前記DS符号化品質指標を決定するよう構成された符号化困難さ決定ユニットをさらに有する、
態様5記載のエンコーダ。
〔態様7〕
・前記IS符号化品質指標は:前記基本群の前記第一のフレームの知覚的エントロピー;前記基本群の前記第一のフレームのトーン性;前記基本群の前記第一のフレームのスペクトル帯域幅;前記基本群の前記第一のフレームにおける過渡成分の存在;前記基本群のチャネル間の相関の度合い;および前記基本群の前記第一のフレームのエネルギーのうちの一つまたは複数であり;
・前記DS符号化品質指標は:前記拡張群の前記第一のフレームの知覚的エントロピー;前記拡張群の前記第一のフレームのトーン性;前記拡張群の前記第一のフレームのスペクトル帯域幅;前記拡張群の前記第一のフレームにおける過渡成分の存在;前記拡張群のチャネル間の相関の度合い;および前記拡張群の前記第一のフレームのエネルギーのうちの一つまたは複数である、
態様6記載のエンコーダ。
〔態様8〕
・前記基本エンコーダは、前記基本群の第一のフレームから変換係数の基本ブロックを決定するよう構成された変換ユニットを有し;
・前記拡張エンコーダは、前記拡張群の対応する第一のフレームから変換係数の拡張ブロックを決定するよう構成された変換ユニットを有し;
・前記基本エンコーダは、変換係数の前記基本ブロックから指数の基本ブロックおよび仮数の基本ブロックを決定するよう構成された浮動小数点エンコード・ユニットを有し;
・前記拡張エンコーダは、変換係数の前記拡張ブロックから指数の拡張ブロックおよび仮数の拡張ブロックを決定するよう構成された浮動小数点エンコード・ユニットを有し;
・前記レート制御ユニットは、
・前記全利用可能データレートに基づいて、仮数の前記基本ブロックおよび仮数の前記拡張ブロックをエンコードするための利用可能な仮数ビットの総数を決定し;
・利用可能な仮数ビットの前記総数を、前記瞬時IS符号化品質指標および前記瞬時DS符号化品質指標に基づいて仮数の前記基本ブロックおよび仮数の前記拡張ブロックに分配し、それにより前記ISデータレートおよび前記DSデータレートを適応させる、
よう構成されている、
態様5記載のエンコーダ。
〔態様9〕
前記レート制御ユニットは、
・変換係数の前記基本ブロックについての基本パワースペクトル密度(PSDと称される)分布を決定し;
・変換係数の前記拡張ブロックについての拡張PSD分布を決定し;
・変換係数の前記基本ブロックについての基本マスキング曲線を決定し;
・変換係数の前記拡張ブロックについての拡張マスキング曲線を決定し;
・前記基本PSD分布、前記拡張PSD分布、前記基本マスキング曲線および前記拡張マスキング曲線に基づいて、利用可能な仮数ビットの前記総数を仮数の前記基本ブロックおよび仮数の前記拡張ブロックに分配する、
よう構成されている、
態様8記載のエンコーダ。
〔態様10〕
前記レート制御ユニットは、
・ISオフセットを使って前記基本マスキング曲線をオフセットすることによってオフセット基本マスキング曲線を決定し;
・前記基本PSD分布と前記オフセット基本マスキング曲線の比較に基づいて仮数ビットの基本数を仮数の前記基本ブロックに割り当て;
・DSオフセットを使って前記拡張マスキング曲線をオフセットすることによってオフセット拡張マスキング曲線を決定し;
・前記拡張PSD分布と前記オフセット拡張マスキング曲線の比較に基づいて仮数ビットの拡張数を仮数の前記拡張ブロックに割り当て;
・割り当てられた仮数ビットの総数を、仮数ビットの前記基本数と仮数ビットの前記拡張数との和として決定し;
・前記割り当てられた仮数ビットの総数と利用可能な仮数ビットの前記総数との差が所定のビット閾値未満となるよう、前記ISオフセットおよび前記DSオフセットを調整する、
よう構成されている、
態様9記載のエンコーダ。
〔態様11〕
前記瞬時IS符号化品質指標が前記ISオフセットを含み;
前記瞬時DS符号化品質指標が前記DSオフセットを含む、
態様10記載のエンコーダ。
〔態様12〕
前記レート制御ユニットは、
・前記ISオフセットと前記DSオフセットが前記マルチチャネル・オーディオ信号のフレームの前記シーケンスについて等しいよう、前記ISオフセットおよび前記DSオフセットを調整し、それにより前記マルチチャネル・オーディオ信号のフレームの前記シーケンスの各フレームについての前記ISデータレートおよび前記DSデータレートを適応させるよう構成されている、
態様11記載のエンコーダ。
〔態様13〕
前記レート制御ユニットは、
・前記マルチチャネル・オーディオ信号の前記第一のフレームについて前記ISオフセットおよび前記DSオフセットを決定し;
・前記マルチチャネル・オーディオ信号の第二のフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを、前記第一のフレームについての前記ISオフセットおよび前記DSオフセットに基づいて調整する、
よう構成されており、前記第一のフレームは前記第二のフレームに先行する、
態様10記載のエンコーダ。
〔態様14〕
前記レート制御ユニットは、
・前記ISオフセットと前記DSオフセットとの間の差が低下するよう、前記マルチチャネル・オーディオ信号の前記第二のフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを調整するよう構成されている、
態様13記載のエンコーダ。
〔態様15〕
前記レート制御ユニットは、
・前記第一のフレームについての前記ISオフセットと前記DSオフセットとの間の差を決定し;
・前記第二のフレームについての前記ISデータレートを、前記第一のフレームについての前記ISデータレートと比べてあるレート・オフセットだけ変化させ、前記第二のフレームについての前記DSデータレートを、前記第一のフレームについての前記DSデータレートと比べて前記レート・オフセットに負号を付けたものだけ変化させるよう構成されており、
前記レート・オフセットは、決定された前記差に依存する、
態様13または14記載のエンコーダ。
〔態様16〕
前記基本エンコーダおよび前記拡張エンコーダが、ドルビー・デジタル・プラスのエンコードを実行するよう構成されている、
態様1ないし15のうちいずれか一項記載のエンコーダ。
〔態様17〕
・前記基本チャネル構成およびチャネルの前記基本群はN個のチャネルを有しており;
・前記拡張チャネル構成はM個のチャネルを有しており、MはNより大きく;
・チャネルの前記拡張群は、前記基本チャネル構成を前記拡張チャネル構成に拡張するための一つまたは複数の拡張チャネルを有している、
態様1ないし16のうちいずれか一項記載のエンコーダ。
〔態様18〕
チャネルの前記拡張群は、前記拡張チャネル構成においてレンダリングされるときに前記基本群のチャネルのうちの一つまたは複数のチャネルを置き換える一つまたは複数の置換チャネルを有する、態様17記載のエンコーダ。
〔態様19〕
・前記マルチチャネル・オーディオ信号は、中央、左、右、左サラウンド、右サラウンド、左サラウンド後方、右サラウンド後方チャネルおよび低域効果チャネルを含む7.1オーディオ信号であり;
・前記基本群のチャネルは中央、左および右チャネルならびに下方混合された左サラウンド・チャネルおよび下方混合された右サラウンド・チャネルを含み;
・前記下方混合された左サラウンド・チャネルおよび前記下方混合された右サラウンド・チャネルは、左サラウンド、右サラウンド、左サラウンド後方、右サラウンド後方チャネルから導出され;
・拡張群のチャネルは、左サラウンド、右サラウンド、左後方および右後方チャネルを含み;
・前記基本チャネル構成は5.1チャネル構成であり;
・前記拡張チャネル構成は7.1チャネル構成である、
態様1ないし18のうちいずれか一項記載のエンコーダ。
〔態様20〕
複数のマルチチャネル・オーディオ信号を全利用可能データレートに従ってエンコードするよう構成されている、態様1ないし19のうちいずれか一項記載のエンコーダであって、前記複数のマルチチャネル・オーディオ信号のそれぞれは、前記基本チャネル構成に従ってそれぞれのマルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――それぞれの前記基本群と組み合わせて――前記拡張チャネル構成に従ってそれぞれのマルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり、
・前記基本エンコーダは、前記複数のマルチチャネル・オーディオ信号の前記複数の基本群を対応する複数のISデータレートに従ってエンコードし、それにより対応する複数の独立サブストリームを与えるよう構成されており;
・前記拡張エンコーダは、前記複数のマルチチャネル・オーディオ信号の前記複数の拡張群を対応する複数のDSデータレートに従ってエンコードし、それにより対応する複数の従属サブストリームを与えるよう構成されており;
・前記レート制御ユニットは、前記複数のISデータレートと前記複数のDSデータレートとの和が実質的に前記全利用可能データレートに対応するよう、複数の複数の基本群についての一つまたは複数の瞬時IS符号化品質指標および/または前記複数の拡張群についての一つまたは複数の瞬時DS符号化品質指標に基づいて前記複数のISデータレートおよび前記複数のDSデータレートを定期的に適応させるよう構成されている、
態様1ないし19のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様21〕
全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードする方法であって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり、前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該方法は:
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与える段階と;
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与える段階と;
・前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、前記基本群のチャネルについての瞬時IS符号化品質指標および/または前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを定期的に適応させる段階とを含む、
方法。
〔態様22〕
・前記基本群のチャネルの抜粋に基づいて前記IS符号化品質指標を決定するおよび/または前記拡張群のチャネルの対応する抜粋に基づいて前記DS符号化品質指標を決定する段階をさらに含む、
態様21記載の方法。
〔態様23〕
・前記IS符号化品質指標は、前記独立サブストリームの抜粋の知覚的品質を示し;
・前記DS符号化品質指標は、前記従属サブストリームの抜粋の知覚的品質を示す、
態様21または22記載の方法。
〔態様24〕
前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記IS符号化品質指標と前記DS符号化品質指標との間の絶対的な差が差閾値未満となるよう、前記独立サブストリームの前記抜粋および前記従属サブストリームの前記抜粋をエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含む、
態様23記載の方法。
〔態様25〕
前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記IS符号化品質指標と前記DS符号化品質指標との間の差が差閾値未満であることに基づいて、前記独立サブストリームのさらなる抜粋および前記従属サブストリームの対応するさらなる抜粋をエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含み、前記さらなる抜粋は前記抜粋よりあとのものである、
態様23記載の方法。
〔態様26〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様21ないし25のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラム。
〔態様27〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様21ないし25のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
〔態様28〕
コンピュータ上で実行されたときに態様21ないし25のうちいずれか一項記載の方法段階を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。
〔態様29〕
エンコードされたオーディオ・データをデコードする方法であって:
前記エンコードされたオーディオ・データを示す信号を受領する段階と;
前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを示す信号を生成する段階とを含み、前記エンコードされたオーディオ・データは:
(a)ISデータレートに従って基本群のチャネルをエンコードし、それにより独立サブストリームを与え;
(b)DSデータレートに従って拡張群のチャネルをエンコードし、それにより従属サブストリームを与え;
(c)前記基本群のチャネルについての瞬時IS符号化品質指標および/または前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に全利用可能データレートに対応するよう、定期的に適応させることによって生成されたものである、
方法。
〔態様30〕
前記エンコードされたオーディオ・データが、さらに前記基本群のチャネルの抜粋に基づいて前記IS符号化品質指標を決定するおよび/または前記拡張群のチャネルの対応する抜粋に基づいて前記DS符号化品質指標を決定することによって生成されたものである、態様29記載の方法。
〔態様31〕
前記瞬時IS符号化品質指標は、前記独立サブストリームの抜粋の知覚的品質を示し;前記瞬時DS符号化品質指標は、前記従属サブストリームの抜粋の知覚的品質を示す、態様29または30記載の方法。
〔態様32〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様29ないし31のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラム。
〔態様33〕
プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに態様29ないし31のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
〔態様34〕
コンピュータ上で実行されたときに態様29ないし31のうちいずれか一項記載の方法段階に従ってオーディオ・データをデコードするよう構成されたオーディオ・デコーダ。
Claims (19)
- 全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードするよう構成されたオーディオ・エンコーダであって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり;前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該オーディオ・エンコーダは、
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与えるよう構成された基本エンコーダと;
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与えるよう構成された拡張エンコーダと;
・前記基本群のチャネルについての瞬時IS符号化品質指標および前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、定期的に適応させるよう構成されたレート制御ユニットとを有する、
エンコーダ。 - 前記レート制御ユニットは、前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標の差が低下するよう前記ISデータレートおよび前記DSデータレートを決定するよう構成されている、請求項1記載のエンコーダ。
- 前記基本エンコーダおよび前記拡張エンコーダが、前記マルチチャネル・オーディオ信号のフレームのシーケンスをエンコードしてそれによりそれぞれ前記独立サブストリームおよび前記従属サブストリームのISフレームおよびDSフレームの対応するシーケンスを与えるよう構成されたフレーム・ベースのオーディオ・エンコーダである、請求項1記載のエンコーダ。
- 前記レート制御ユニットは、前記マルチチャネル・オーディオ信号のフレームの前記シーケンスの各フレームについて前記ISデータレートおよび前記DSデータレートを適応させるよう構成されている、請求項3記載のエンコーダ。
- ・前記瞬時IS符号化品質指標は、ISフレームの前記対応するシーケンスについての瞬時IS符号化品質指標のシーケンスをなし;
・前記瞬時DS符号化品質指標は、DSフレームの前記対応するシーケンスについての瞬時DS符号化品質指標のシーケンスをなし;
・前記レート制御ユニットは、ISフレームの前記シーケンスのISフレームのための前記ISデータレートおよびDSフレームの前記シーケンスのDSフレームのための前記DSデータレートを、瞬時IS符号化品質指標の前記シーケンスおよび瞬時DS符号化品質指標の前記シーケンスに基づいて、前記ISフレームについての前記ISデータレートと前記DSフレームについての前記DSデータレートとの和が実質的に前記全利用可能データレートとなるよう決定するよう構成されている、
請求項3記載のエンコーダ。 - ・前記基本群のチャネルの第一のフレームに基づいて前記瞬時IS符号化品質指標を決定するおよび前記拡張群のチャネルの対応する第一のフレームに基づいて前記瞬時DS符号化品質指標を決定するよう構成された符号化困難さ決定ユニットをさらに有する、
請求項5記載のエンコーダ。 - ・前記瞬時IS符号化品質指標は:前記基本群の前記第一のフレームの知覚的エントロピー;前記基本群の前記第一のフレームのトーン性;前記基本群の前記第一のフレームのスペクトル帯域幅;前記基本群の前記第一のフレームにおける過渡成分の存在;前記基本群のチャネル間の相関の度合い;および前記基本群の前記第一のフレームのエネルギーのうちの一つまたは複数であり;
・前記瞬時DS符号化品質指標は:前記拡張群の前記第一のフレームの知覚的エントロピー;前記拡張群の前記第一のフレームのトーン性;前記拡張群の前記第一のフレームのスペクトル帯域幅;前記拡張群の前記第一のフレームにおける過渡成分の存在;前記拡張群のチャネル間の相関の度合い;および前記拡張群の前記第一のフレームのエネルギーのうちの一つまたは複数である、
請求項6記載のエンコーダ。 - 全利用可能データレートに従ってマルチチャネル・オーディオ信号をエンコードする方法であって、前記マルチチャネル・オーディオ信号は、基本チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための基本群のチャネルおよび――前記基本群と組み合わせて――拡張チャネル構成に従って前記マルチチャネル・オーディオ信号をレンダリングするための拡張群のチャネルとして表現可能であり、前記基本チャネル構成および前記拡張チャネル構成は互いに異なり、当該方法は:
・ISデータレートに従って前記基本群のチャネルをエンコードし、それによりISと称される独立サブストリームを与える段階と;
・DSデータレートに従って前記拡張群のチャネルをエンコードし、それによりDSと称される従属サブストリームを与える段階と;
・前記ISデータレートと前記DSデータレートの和が実質的に前記全利用可能データレートに対応するよう、前記基本群のチャネルについての瞬時IS符号化品質指標および前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを定期的に適応させる段階とを含む、
方法。 - ・前記基本群のチャネルの一つまたは複数のフレームに基づいて前記瞬時IS符号化品質指標を決定するおよび前記拡張群のチャネルの一つまたは複数の対応するフレームに基づいて前記瞬時DS符号化品質指標を決定する段階をさらに含む、
請求項8記載の方法。 - ・前記瞬時IS符号化品質指標は、前記独立サブストリームの一つまたは複数のフレームの知覚的品質を示し;
・前記瞬時DS符号化品質指標は、前記従属サブストリームの一つまたは複数のフレームの知覚的品質を示す、
請求項8記載の方法。 - 前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標との間の絶対的な差が差閾値未満となるよう、前記独立サブストリームの前記一つまたは複数のフレームおよび前記従属サブストリームの前記一つまたは複数のフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含む、
請求項10記載の方法。 - 前記ISデータレートおよび前記DSデータレートを適応させる段階が、
・前記瞬時IS符号化品質指標と前記瞬時DS符号化品質指標との間の差が差閾値未満であることに基づいて、前記独立サブストリームの一つまたは複数のさらなるフレームおよび前記従属サブストリームの一つまたは複数の対応するさらなるフレームをエンコードするための前記ISデータレートおよび前記DSデータレートを適応させることを含み、前記一つまたは複数のさらなるフレームは前記一つまたは複数のフレームよりあとのものである、
請求項10記載の方法。 - プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項8記載の方法段階を実行するために適応されているソフトウェア・プログラム。
- プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項8記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
- エンコードされたオーディオ・データをデコードする方法であって:
前記エンコードされたオーディオ・データを示す信号を受領する段階と;
前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを示す信号を生成する段階とを含み、前記エンコードされたオーディオ・データは:
(a)ISデータレートに従って基本群のチャネルをエンコードし、それにより独立サブストリームを与え;
(b)DSデータレートに従って拡張群のチャネルをエンコードし、それにより従属サブストリームを与え;
(c)前記基本群のチャネルについての瞬時IS符号化品質指標および前記拡張群のチャネルについての瞬時DS符号化品質指標に基づいて前記ISデータレートおよび前記DSデータレートを、前記ISデータレートと前記DSデータレートの和が実質的に全利用可能データレートに対応するよう、定期的に適応させることによって生成されたものである、
方法。 - 前記エンコードされたオーディオ・データが、さらに前記基本群のチャネルの抜粋に基づいて前記瞬時IS符号化品質指標を決定するおよび前記拡張群のチャネルの対応する抜粋に基づいて前記瞬時DS符号化品質指標を決定することによって生成されたものである、請求項15記載の方法。
- プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項15記載の方法段階を実行するために適応されているソフトウェア・プログラム。
- プロセッサ上での実行のためおよび該プロセッサ上で実行されたときに請求項15記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
- コンピュータ上で実行されたときに請求項15記載の方法段階に従ってオーディオ・データをデコードするよう構成されたオーディオ・デコーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261647226P | 2012-05-15 | 2012-05-15 | |
US61/647,226 | 2012-05-15 | ||
PCT/US2013/040919 WO2013173314A1 (en) | 2012-05-15 | 2013-05-14 | Efficient encoding and decoding of multi-channel audio signal with multiple substreams |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015520872A JP2015520872A (ja) | 2015-07-23 |
JP6133408B2 true JP6133408B2 (ja) | 2017-05-24 |
Family
ID=48576522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015511810A Active JP6133408B2 (ja) | 2012-05-15 | 2013-05-14 | 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード |
Country Status (9)
Country | Link |
---|---|
US (1) | US9779738B2 (ja) |
EP (1) | EP2850613B1 (ja) |
JP (1) | JP6133408B2 (ja) |
CN (1) | CN104285253B (ja) |
AR (1) | AR091042A1 (ja) |
ES (1) | ES2641390T3 (ja) |
HK (1) | HK1201371A1 (ja) |
TW (1) | TWI505262B (ja) |
WO (1) | WO2013173314A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378748B2 (en) | 2012-11-07 | 2016-06-28 | Dolby Laboratories Licensing Corp. | Reduced complexity converter SNR calculation |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
US20150025894A1 (en) * | 2013-07-16 | 2015-01-22 | Electronics And Telecommunications Research Institute | Method for encoding and decoding of multi channel audio signal, encoder and decoder |
CN110634494B (zh) * | 2013-09-12 | 2023-09-01 | 杜比国际公司 | 多声道音频内容的编码 |
PL3444815T3 (pl) * | 2013-11-27 | 2020-11-30 | Dts, Inc. | Matrycowe miksowanie oparte na multiplecie dla wielokanałowego audio o dużej liczbie kanałów |
CN104065977B (zh) * | 2014-06-06 | 2018-05-15 | 北京音之邦文化科技有限公司 | 音/视频文件的处理方法及装置 |
CN110364190B (zh) * | 2014-10-03 | 2021-03-12 | 杜比国际公司 | 个性化音频的智能访问 |
MX370034B (es) | 2015-02-02 | 2019-11-28 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio codificada. |
MY188894A (en) | 2015-10-08 | 2022-01-12 | Dolby Int Ab | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
CA3199796A1 (en) | 2015-10-08 | 2017-04-13 | Dolby International Ab | Layered coding for compressed sound or sound field representations |
US10812550B1 (en) * | 2016-08-03 | 2020-10-20 | Amazon Technologies, Inc. | Bitrate allocation for a multichannel media stream |
US11276411B2 (en) * | 2017-09-20 | 2022-03-15 | Voiceage Corporation | Method and device for allocating a bit-budget between sub-frames in a CELP CODEC |
JP2021530723A (ja) * | 2018-07-02 | 2021-11-11 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置 |
US10666291B1 (en) * | 2019-03-12 | 2020-05-26 | Microsoft Technology Licensing, Llc | High efficiency data decoder |
CN113948097A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编码方法和装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2637090B2 (ja) * | 1987-01-26 | 1997-08-06 | 株式会社日立製作所 | 音響信号処理回路 |
JPH0758707A (ja) * | 1993-08-20 | 1995-03-03 | Fujitsu Ltd | 量子化ビット割当方式 |
JPH08123488A (ja) * | 1994-10-24 | 1996-05-17 | Sony Corp | 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6044396A (en) | 1995-12-14 | 2000-03-28 | Time Warner Cable, A Division Of Time Warner Entertainment Company, L.P. | Method and apparatus for utilizing the available bit rate in a constrained variable bit rate channel |
KR19990042668A (ko) | 1997-11-27 | 1999-06-15 | 정선종 | 다중 비디오 전송을 위한 비디오 부호화 장치 및 방법 |
US6859496B1 (en) | 1998-05-29 | 2005-02-22 | International Business Machines Corporation | Adaptively encoding multiple streams of video data in parallel for multiplexing onto a constant bit rate channel |
US6931372B1 (en) | 1999-01-27 | 2005-08-16 | Agere Systems Inc. | Joint multiple program coding for digital audio broadcasting and other applications |
US6611212B1 (en) * | 1999-04-07 | 2003-08-26 | Dolby Laboratories Licensing Corp. | Matrix improvements to lossless encoding and decoding |
US6493388B1 (en) | 2000-04-19 | 2002-12-10 | General Instrument Corporation | Rate control and buffer protection for variable bit rate video programs over a constant rate channel |
US7212872B1 (en) * | 2000-05-10 | 2007-05-01 | Dts, Inc. | Discrete multichannel audio with a backward compatible mix |
DE10102159C2 (de) | 2001-01-18 | 2002-12-12 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer |
EP1500083B1 (en) * | 2002-04-22 | 2006-06-28 | Koninklijke Philips Electronics N.V. | Parametric multi-channel audio representation |
JP2005294977A (ja) | 2004-03-31 | 2005-10-20 | Ulead Systems Inc | スライドウィンドウ(slidingwindow)を用いた2パスビデオエンコーディング方法とシステム |
US7818444B2 (en) | 2004-04-30 | 2010-10-19 | Move Networks, Inc. | Apparatus, system, and method for multi-bitrate content streaming |
KR100773539B1 (ko) * | 2004-07-14 | 2007-11-05 | 삼성전자주식회사 | 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치 |
KR100682915B1 (ko) * | 2005-01-13 | 2007-02-15 | 삼성전자주식회사 | 다채널 신호 부호화/복호화 방법 및 장치 |
US7734053B2 (en) * | 2005-12-06 | 2010-06-08 | Fujitsu Limited | Encoding apparatus, encoding method, and computer product |
US7974287B2 (en) * | 2006-02-23 | 2011-07-05 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
US8887218B2 (en) | 2007-11-29 | 2014-11-11 | Jan Maurits Nicolaas Fielibert | Systems and methods of adjusting bandwidth among multiple media streams |
JP5446258B2 (ja) * | 2008-12-26 | 2014-03-19 | 富士通株式会社 | オーディオ符号化装置 |
US20100324915A1 (en) | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
KR101283783B1 (ko) | 2009-06-23 | 2013-07-08 | 한국전자통신연구원 | 고품질 다채널 오디오 부호화 및 복호화 장치 |
IT1398196B1 (it) | 2009-06-25 | 2013-02-14 | St Microelectronics Srl | Controllore dinamico della velocita' di trasmissione indipendente dal gruppo di immagini |
JP5345024B2 (ja) * | 2009-08-28 | 2013-11-20 | 日本放送協会 | 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム |
US8588294B2 (en) | 2010-01-15 | 2013-11-19 | General Instrument Corporation | Statistical multiplexing using a plurality of two-pass encoders |
-
2013
- 2013-04-23 TW TW102114404A patent/TWI505262B/zh active
- 2013-05-14 AR ARP130101660A patent/AR091042A1/es active IP Right Grant
- 2013-05-14 ES ES13726928.8T patent/ES2641390T3/es active Active
- 2013-05-14 WO PCT/US2013/040919 patent/WO2013173314A1/en active Application Filing
- 2013-05-14 US US14/398,967 patent/US9779738B2/en active Active
- 2013-05-14 CN CN201380025178.5A patent/CN104285253B/zh active Active
- 2013-05-14 JP JP2015511810A patent/JP6133408B2/ja active Active
- 2013-05-14 EP EP13726928.8A patent/EP2850613B1/en active Active
-
2015
- 2015-02-06 HK HK15101374.7A patent/HK1201371A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
CN104285253A (zh) | 2015-01-14 |
EP2850613A1 (en) | 2015-03-25 |
ES2641390T3 (es) | 2017-11-08 |
US9779738B2 (en) | 2017-10-03 |
HK1201371A1 (en) | 2015-08-28 |
WO2013173314A1 (en) | 2013-11-21 |
AR091042A1 (es) | 2014-12-30 |
EP2850613B1 (en) | 2017-08-16 |
CN104285253B (zh) | 2017-05-17 |
TWI505262B (zh) | 2015-10-21 |
JP2015520872A (ja) | 2015-07-23 |
TW201405548A (zh) | 2014-02-01 |
US20150131800A1 (en) | 2015-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6133408B2 (ja) | 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード | |
JP6768735B2 (ja) | オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念 | |
USRE49107E1 (en) | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control | |
JP7378440B2 (ja) | 圧縮されたhoa信号をデコードする方法および装置 | |
JP6474845B2 (ja) | 軽減された計算量の変換器snr計算 | |
JP5129888B2 (ja) | トランスコード方法、トランスコーディングシステム及びセットトップボックス | |
CN105849801B (zh) | 解码设备和方法以及程序 | |
TWI648729B (zh) | 將高階保真立體音響信號壓縮之方法,將已壓縮高階保真立體音響信號解壓縮之方法,將高階保真立體音響信號壓縮之裝置,以及將已壓縮高階保真立體音響信號解壓縮之裝置 | |
JP5480274B2 (ja) | 信号処理方法及び装置 | |
JP2012507059A (ja) | 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護 | |
JP2022003397A (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
EP3724876B1 (en) | Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis | |
JP2007183528A (ja) | 符号化装置、符号化方法、および符号化プログラム | |
JP2023072027A (ja) | 復号装置および方法、並びにプログラム | |
JP2007004050A (ja) | ステレオ信号の符号化装置及び符号化プログラム | |
JP2011118215A (ja) | 符号化装置、符号化方法、プログラムおよび電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6133408 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |