JP7455836B2 - デュアルエンドのメディア・インテリジェンス - Google Patents
デュアルエンドのメディア・インテリジェンス Download PDFInfo
- Publication number
- JP7455836B2 JP7455836B2 JP2021532235A JP2021532235A JP7455836B2 JP 7455836 B2 JP7455836 B2 JP 7455836B2 JP 2021532235 A JP2021532235 A JP 2021532235A JP 2021532235 A JP2021532235 A JP 2021532235A JP 7455836 B2 JP7455836 B2 JP 7455836B2
- Authority
- JP
- Japan
- Prior art keywords
- audio content
- content
- classification information
- control weights
- virtualizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 225
- 238000012805 post-processing Methods 0.000 claims description 91
- 238000009499 grossing Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 46
- 239000003623 enhancer Substances 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 111
- 230000007704 transition Effects 0.000 description 40
- 238000004422 calculation algorithm Methods 0.000 description 26
- 230000000694 effects Effects 0.000 description 18
- 230000004044 response Effects 0.000 description 15
- 230000003068 static effect Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Description
ステップS420では、オーディオ・コンテンツのコンテンツ型を示す分類情報が、コンテンツ解析(の結果)に基づいて生成される。
ステップS430では、オーディオ・コンテンツおよび分類情報がビットストリームにエンコードされる。
最後に、ステップS440では、ビットストリームが出力される。
ステップS720では、少なくとも部分的にはサービス型指示に基づいて、オーディオ・コンテンツのコンテンツ解析が実行される。そのようなコンテンツ解析の限定しない例は、図8を参照して以下に記載される。
ステップS730では、オーディオ・コンテンツのコンテンツ型を示す分類情報が、コンテンツ解析(の結果)に基づいて生成される。
ステップS740では、オーディオ・コンテンツおよび分類情報がビットストリーム中にエンコードされる。
最後に、ステップS750で、ビットストリームが出力される。
ステップS1120では、オーディオ・コンテンツおよび分類情報がビットストリームからデコードされる。
ステップS1130では、デコードされたオーディオ・コンテンツの(オーディオ)後処理を実行するための後処理モードが、ステップS1120で得られた分類情報に基づいて選択される。いくつかの実装では、後処理モードの選択は、さらにユーザー入力に基づくことができる。
1-music_confidence*{1-max[effects_confidence,speech_confidence]^2} (式1)
により計算されうる。
ステップS1420では、2チャネル・オーディオ・コンテンツおよび分類情報が、ビットストリームからデコード/多重分離される。
ステップS1430では、ステップS1420でデコードされた2チャネル・オーディオ・コンテンツはアップミックスされて、アップミックスされた5.1チャネル・オーディオ・コンテンツにされる。
ステップS1440では、2チャネルのスピーカー・アレイのための5.1仮想化のために、アップミックスされた5.1チャネル・オーディオ・コンテンツに対して仮想化器が適用される。仮想化器は、それぞれの制御重みの制御の下で動作する。仮想化器のための制御重みは、分類情報(たとえば、信頼値)に基づいて計算される。これは、たとえば、図13を参照して上述した仕方で行なうことができる。
ステップS1450では、クロスフェーダーが、2チャネル・オーディオ・コンテンツおよび仮想化されたアップミックスされた5.1チャネル・オーディオ・コンテンツに適用される。クロスフェーダーは、それぞれの制御重みの制御の下で動作する。クロスフェーダーのための制御重みは、分類情報(たとえば信頼値)に基づいて計算される。
最後に、ステップS1460では、クロスフェーダーの出力は、2チャネル・スピーカー・アレイにルーティングされる。
ステップS1620では、2チャネル・オーディオ・コンテンツおよび分類情報は、ビットストリームからデコード/多重分離される。
ステップS1630では、2チャネル・オーディオ・コンテンツをアップミックスして、アップミックスされた5.1チャネル・オーディオ・コンテンツにするために、2チャネル・オーディオ・コンテンツにアップミキサーが適用される。アップミキサーは、それぞれの制御重みの制御の下で動作する。アップミキサーのための制御重みは、分類情報(たとえば、信頼値)に基づいて計算される。アップミキサーのための制御重みは、たとえば、アップミックス重みに関連してもよい。
ステップS1640では、5チャネル・スピーカー・アレイのための5.1仮想化のために、アップミックスされた5.1チャネル・オーディオ・コンテンツに対して仮想化器が適用される。仮想化器は、それぞれの制御重みの制御の下で動作する。仮想化器の制御重みは、分類情報(たとえば、信頼値)に基づいて計算される。これは、たとえば、図13を参照して上述した仕方で行なうことができる。
最後に、ステップS1650で、仮想化器の出力は、5チャネル・スピーカー・アレイにルーティングされる。
〔EEE1〕
オーディオ・コンテンツをエンコードする方法であって:
オーディオ・コンテンツのコンテンツ解析を実行する段階と;
前記コンテンツ解析に基づいて前記オーディオ・コンテンツのコンテンツ型を示す分類情報を生成する段階と;
前記オーディオ・コンテンツおよび前記分類情報をビットストリーム中にエンコードする段階と;
前記ビットストリームを出力する段階とを含む、
方法。
〔EEE2〕
前記コンテンツ解析が、少なくとも部分的には前記オーディオ・コンテンツについてのメタデータに基づく、EEE1に記載の方法。
〔EEE3〕
オーディオ・コンテンツをエンコードする方法であって:
前記オーディオ・コンテンツのコンテンツ型に関するユーザー入力を受領する段階と;
前記ユーザー入力に基づいて前記オーディオ・コンテンツのコンテンツ型を示す分類情報を生成する段階と;
前記オーディオ・コンテンツおよび前記分類情報をビットストリーム中にエンコードする段階と;
前記ビットストリームを出力する段階とを含む、
方法。
〔EEE4〕
前記ユーザー入力が:
前記オーディオ・コンテンツが所与のコンテンツ型であることを示すラベル;および
一つまたは複数の信頼値であって、各信頼値はそれぞれのコンテンツ型に関連付けられ、かつ前記オーディオ・コンテンツが該それぞれのコンテンツ型である確からしさの指示を与える、信頼値
の一つまたは複数を含む、EEE3に記載の方法。
〔EEE5〕
オーディオ・コンテンツをエンコードする方法であって、前記オーディオ・コンテンツが、オーディオ・プログラムの一部としてオーディオ・コンテンツのストリームにおいて提供され、当該方法が:
前記オーディオ・コンテンツのサービス型を示すサービス型指示を受領する段階と;
少なくとも部分的には前記サービス型指示に基づいて前記オーディオ・コンテンツのコンテンツ解析を実行する段階と;
前記コンテンツ解析に基づいて前記オーディオ・コンテンツのコンテンツ型を示す分類情報を生成する段階と;
前記オーディオ・コンテンツおよび前記分類情報をビットストリーム中にエンコードする段階と;
前記ビットストリームを出力する段階とを含む、
方法。
〔EEE6〕
前記オーディオ・コンテンツの前記サービス型が音楽サービスであるかどうかを前記サービス型指示に基づいて判定し;
前記オーディオ・コンテンツの前記サービス型が音楽サービスであるとの判定に応答して、前記オーディオ・コンテンツのコンテンツ型が音楽コンテンツであることを示すように前記分類情報を生成することをさらに含む、
EEE5に記載の方法。
〔EEE7〕
前記オーディオ・コンテンツの前記サービス型がニュースキャスト・サービスであるかどうかを前記サービス型指示に基づいて判定する段階と;
前記オーディオ・コンテンツの前記サービス型がニュースキャスト・サービスであるとの判定に応答して、前記オーディオ・コンテンツが発話コンテンツであることを示す、より高い可能性を有するように前記コンテンツ解析を適応させる段階とを含む、
EEE5または6に記載の方法。
〔EEE8〕
前記サービス型指示は、フレームごとに提供される、EEE5ないし7のうちいずれか一項に記載の方法。
〔EEE9〕
オーディオ・コンテンツをエンコードする方法であって、前記オーディオ・コンテンツはファイルベースで提供され、前記ファイルはそれぞれのオーディオ・コンテンツについてのメタデータを含み、当該方法は:
少なくとも部分的には前記オーディオ・コンテンツについての前記メタデータに基づいて前記オーディオ・コンテンツのコンテンツ解析を実行する段階と;
前記コンテンツ解析に基づいて前記オーディオ・コンテンツのコンテンツ型を示す分類情報を生成する段階と;
前記オーディオ・コンテンツおよび前記分類情報をビットストリーム中にエンコードする段階と;
前記ビットストリームを出力する段階とを含む、
方法。
〔EEE10〕
前記メタデータは、前記ファイルのファイル・コンテンツ型を示すファイル・コンテンツ型指示を含み、
前記コンテンツ解析は、少なくとも部分的には前記ファイル・コンテンツ型指示に基づく、
EEE9に記載の方法。
〔EEE11〕
前記ファイルの前記ファイル・コンテンツ型が音楽ファイルであるかどうかを、前記ファイル・コンテンツ型指示に基づいて判定し;
前記ファイルの前記ファイル・コンテンツ型が音楽ファイルであるとの判定に応答して、前記オーディオ・コンテンツの前記コンテンツ型が音楽コンテンツであることを示すように前記分類情報を生成することをさらに含む、
EEE10に記載の方法。
〔EEE12〕
前記ファイルの前記ファイル・コンテンツ型がニュースキャスト・ファイルであるかどうかを、前記ファイル・コンテンツ型指示に基づいて判定し;
前記ファイルの前記ファイル・コンテンツ型がニュースキャスト・ファイルであるとの判定に応答して、前記オーディオ・コンテンツが発話コンテンツであることを示す、よりも高い可能性を有するように前記コンテンツ解析を適応させることをさらに含む、
EEE10または11に記載の方法。
〔EEE13〕
前記ファイルの前記ファイル・コンテンツ型が動的であるかどうかを、前記ファイル・コンテンツ型指示に基づいて判定し;
前記ファイルの前記ファイル・コンテンツ型が動的コンテンツであるとの判定に応答して、異なるコンテンツ型間の、より高い遷移レートを許容するように前記コンテンツ解析を適応させることをさらに含む、
EEE10ないし12のうちいずれか一項に記載の方法。
〔EEE14〕
前記分類情報が、一つまたは複数の信頼値を含み、各信頼値はそれぞれのコンテンツ型に関連付けられ、かつ前記オーディオ・コンテンツが該それぞれのコンテンツ型である確からしさの指示を与える、
EEE1ないし13のうちいずれか一項に記載の方法。
〔EEE15〕
前記コンテンツ型は:音楽コンテンツ、オーディオ・コンテンツ、または効果コンテンツの一つまたは複数を含む、EEE1ないし14のうちいずれか一項に記載の方法。
〔EEE16〕
前記オーディオ・コンテンツにおけるシーン遷移の指示を前記ビットストリーム中にエンコードすることをさらに含む、EEE1ないし15のうちいずれか一項に記載の方法。
〔EEE17〕
エンコードする前の前記分類情報の平滑化をさらに含む、
EEE1ないし16のうちいずれか一項に記載の方法。
〔EEE18〕
エンコードする前に前記分類情報を量子化することをさらに含む、
EEE1ないし17のうちいずれか一項に記載の方法。
〔EEE19〕
前記分類情報を、前記ビットストリームのパケット中の特定のデータ・フィールドにエンコードすることをさらに含む、
EEE1ないし18のうちいずれか一項に記載の方法。
〔EEE20〕
オーディオ・コンテンツと該オーディオ・コンテンツについての分類情報とを含むビットストリームからオーディオ・コンテンツをデコードする方法であって、前記分類情報は、前記オーディオ・コンテンツのコンテンツ分類を示し、当該方法は:
前記ビットストリームを受領する段階と;
前記オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記分類情報に基づいて、デコードされたオーディオ・コンテンツの後処理を実行するための後処理モードを選択する段階とを含む、
方法。
〔EEE21〕
前記後処理モードの選択は、ユーザー入力にさらに基づく、EEE20に記載の方法。
〔EEE22〕
オーディオ・コンテンツと該オーディオ・コンテンツについての分類情報とを含むビットストリームからオーディオ・コンテンツをデコードする方法であって、前記分類情報は、前記オーディオ・コンテンツのコンテンツ分類を示し、当該方法は:
前記ビットストリームを受領する段階と;
前記オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記分類情報に基づいて、デコードされたオーディオ・コンテンツの後処理のための一つまたは複数の制御重みを計算する段階とを含む、
方法。
〔EEE23〕
前記分類情報は、一つまたは複数の信頼値を含み、それぞれの信頼値は、それぞれのコンテンツ型に関連付けられ、前記オーディオ・コンテンツが該それぞれのコンテンツ型である確からしさの指標を与えるものであり;
前記制御重みは、前記信頼値に基づいて計算される、
EEE22に記載の方法。
〔EEE24〕
前記制御重みは、前記デコードされたオーディオ・コンテンツの後処理のためのそれぞれのモジュールのための制御重みである、EEE22または23に記載の方法。
〔EEE25〕
前記制御重みは、等化器のための制御重み、仮想化器のための制御重み、サラウンドプロセッサのための制御重み、およびダイアログ向上器のための制御重みのうちの一つまたは複数を含む、EEE22ないし24のうちいずれか一項に記載の方法。
〔EEE26〕
前記制御重みの計算は、前記デコードを実行する装置の装置型に依存する、EEE22ないし25のうちいずれか一項に記載の方法。
〔EEE27〕
前記制御重みの計算は、ユーザー入力にさらに基づく、EEE22ないし26のうちいずれか一項に記載の方法。
〔EEE28〕
前記制御重みの計算は、前記オーディオ・コンテンツのチャネル数にさらに基づく、EEE22ないし27のうちいずれか一項に記載の方法。
〔EEE29〕
前記制御重みは、仮想化器のための制御重みを含み、
前記仮想化器のための制御重みは、前記分類情報が、前記オーディオ・コンテンツの前記コンテンツ型が音楽である、または音楽である可能性が高いことを示す場合に、前記仮想化器が無効にされるように計算される、
EEE22ないし28のうちいずれか一項に記載の方法。
〔EEE30〕
前記制御重みは、仮想化器のための制御重みを含み、
前記仮想化器のための制御重みは、前記仮想化器の係数が素通しと完全な仮想化との間でスケールするように計算される、
EEE22ないし29のうちいずれか一項に記載の方法。
〔EEE31〕
前記制御重みは、ダイアログ向上器のための制御重みを含み、
前記ダイアログ向上器のための制御重みは、前記分類情報が、前記オーディオ・コンテンツの前記コンテンツ・タイプが発話である、または発話である可能性が高いことを示す場合に、前記ダイアログ向上器によるダイアログ向上が向上されるように計算される、
EEE22ないし30のうちいずれか一項に記載の方法。
〔EEE32〕
前記制御重みは、動的等化器のための制御重みを含み、
前記動的等化器のための制御重みは、前記分類情報が、前記オーディオ・コンテンツの前記コンテンツ型が発話である、または発話である可能性が高いことを示す場合に、前記動的等化器が無効にされるように計算される、
EEE22ないし31のうちいずれか一項に記載の方法。
〔EEE33〕
前記制御重みの平滑化をさらに含む、EEE22ないし32のうちいずれか一項に記載の方法。
〔EEE34〕
前記制御重みの平滑化は、平滑化される特定の制御重みに依存する、EEE33に記載の方法。
〔EEE35〕
前記制御重みの平滑化は、前記デコードを実行する装置の装置型に依存する、EEE33または34に記載の方法。
〔EEE36〕
前記制御重みの連続性を増大させるために、前記制御重みに非線形マッピング関数を適用することをさらに含む、EEE33ないし35のうちいずれか一項に記載の方法。
〔EEE37〕
2チャネル・オーディオ・コンテンツと該2チャネル・オーディオ・コンテンツについての分類情報とを含むビットストリームからオーディオ・コンテンツをデコードする方法であって、前記分類情報は、前記2チャネル・オーディオ・コンテンツのコンテンツ分類を示し、当該方法は:
前記AC-4ビットストリームを受領する段階と;
前記2チャネル・オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記2チャネル・オーディオ・コンテンツをアップミックスして、アップミックスされた5.1チャネル・オーディオ・コンテンツにする段階と;
2チャネル・スピーカー・アレイのための5.1仮想化のために、前記アップミックスされた5.1チャネル・オーディオ・コンテンツに仮想化器を適用する段階と;
前記2チャネル・オーディオ・コンテンツおよび前記仮想化されたアップミックスされた5.1チャネル・オーディオ・コンテンツにクロスフェーダーを適用する段階と;
前記クロスフェーダーの出力を前記2チャネル・スピーカー・アレイにルーティングする段階とを含み、
当該方法は、前記分類情報に基づいて前記仮想化器および前記クロスフェーダーのためのそれぞれの制御重みを計算する段階をさらに含む、
方法。
〔EEE38〕
2チャネル・オーディオ・コンテンツと該2チャネル・オーディオ・コンテンツについての分類情報とを含むビットストリームからオーディオ・コンテンツをデコードする方法であって、前記分類情報は、前記2チャネル・オーディオ・コンテンツのコンテンツ分類を示し、当該方法は:
前記ビットストリームを受領する段階と;
前記2チャネル・オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記2チャネル・オーディオ・コンテンツをアップミックスして、アップミックスされた5.1チャネル・オーディオ・コンテンツにするよう、前記2チャネル・オーディオ・コンテンツにアップミキサーを適用する段階と;
5チャネル・スピーカー・アレイのための5.1仮想化のために、前記アップミックスされた5.1チャネル・オーディオ・コンテンツに仮想化器を適用する段階と;
前記仮想化器の出力を前記5チャネル・スピーカー・アレイにルーティングする段階とを含み、
当該方法は、前記分類情報に基づいて前記アップミキサーおよび前記仮想化器のためのそれぞれの制御重みを計算する段階をさらに含む、
方法。
〔EEE39〕
オーディオ・コンテンツをエンコードするためのエンコーダであって、当該エンコーダはプロセッサを有し、前記プロセッサは、前記プロセッサのための命令を記憶しているメモリに結合されており、前記プロセッサは、EEE1ないし19のうちいずれか一項に記載の方法を実行するように適応されている、エンコーダ。
〔EEE40〕
オーディオ・コンテンツをデコードするためのデコーダであって、当該デコーダはプロセッサを有し、前記プロセッサは、前記プロセッサのための命令を記憶しているメモリに結合されており、前記プロセッサは、EEE20ないし38のうちいずれか一項に記載の方法を実行するように適応されている、デコーダ。
〔EEE41〕
命令を含んでいるコンピュータ・プログラムであって、前記命令は、EEE1ないし38のうちいずれか一項に記載の方法を実行するよう前記命令をプロセッサに実行させるものである、コンピュータ・プログラム。
〔EEE42〕
EEE41に記載のコンピュータ・プログラムを記憶しているコンピュータ読み取り可能な記憶媒体。
Claims (15)
- エンコーダにおいてエンコードされたビットストリームからオーディオ・コンテンツをデコードする方法であって、前記ビットストリームはオーディオ・コンテンツと該オーディオ・コンテンツについての分類情報とを含み、前記分類情報は、前記オーディオ・コンテンツのコンテンツ型を示し、前記分類情報は、一つまたは複数の信頼値を含み、それぞれの信頼値は、それぞれのコンテンツ型に関連付けられ、前記オーディオ・コンテンツが該それぞれのコンテンツ型である確からしさの指標を与えるものであり、当該方法は、デコーダによって実行され:
前記エンコーダからの前記ビットストリームを受領する段階と;
前記オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記分類情報に基づいて、デコードされたオーディオ・コンテンツの後処理を実行するための後処理モードを選択する段階と;
前記分類情報に基づいて、前記デコードされたオーディオ・コンテンツの前記後処理のための一つまたは複数の制御重みを計算する段階であって、前記制御重みは前記信頼値に基づいて計算される、段階とを含む、
方法。 - 前記後処理モードの選択は、ユーザー入力にさらに基づく、請求項1に記載の方法。
- 前記ビットストリームがチャネル・ベースのオーディオ・コンテンツを含み、前記後処理が:
アップミキサーにより前記チャネル・ベースのオーディオ・コンテンツをアップミックスして、アップミックスされたチャネル・ベースのオーディオ・コンテンツにする段階と;
所望の数のチャネルのスピーカー・アレイのための仮想化のための仮想化されたアップミックスされたチャネル・ベースのオーディオ・コンテンツを得るために、前記アップミックスされたチャネル・ベースのオーディオ・コンテンツに仮想化器を適用する段階とを含む、
請求項1または2に記載の方法。 - 前記仮想化器の出力を前記スピーカー・アレイにルーティングする段階と;
前記分類情報に基づいて、前記アップミキサーおよび前記仮想化器のためのそれぞれの制御重みを計算する段階とをさらに含む、
または、
前記仮想化器を適用した後、当該方法は、さらに:
前記チャネル・ベースのオーディオ・コンテンツおよび前記仮想化されたアップミックスされたオーディオ・コンテンツにクロスフェーダーを適用する段階と;
前記クロスフェーダーの出力を前記スピーカー・アレイにルーティングする段階と;
前記分類情報に基づいて、前記アップミキサーおよび前記クロスフェーダーのためのそれぞれの制御重みを計算する段階とをさらに含む、
請求項3に記載の方法。 - 前記制御重みは、前記デコードされたオーディオ・コンテンツの後処理のためのそれぞれのモジュールのための制御重みである、および/または
前記制御重みは、等化器のための制御重み、仮想化器のための制御重み、サラウンドプロセッサのための制御重み、およびダイアログ向上器のための制御重みのうちの一つまたは複数を含む、
請求項1ないし4のうちいずれか一項に記載の方法。 - 前記制御重みの計算は、前記デコードを実行する装置の装置型に依存する、および/または
前記制御重みの計算は、ユーザー入力にさらに基づく、
請求項1ないし5のうちいずれか一項に記載の方法。 - 前記制御重みの計算は、前記オーディオ・コンテンツのチャネル数にさらに基づく、および/または
前記制御重みは、仮想化器のための制御重みを含み、
前記仮想化器のための制御重みは、前記分類情報が、前記オーディオ・コンテンツの前記コンテンツ型が音楽である、または前記一つまたは複数の信頼値のうちの音楽に関連付けられた信頼値が閾値より高いことを示す場合に、
前記仮想化器が無効にされるように計算される、
請求項1ないし6のうちいずれか一項に記載の方法。 - 前記制御重みは、仮想化器のための制御重みを含み、
前記仮想化器のための制御重みは、前記仮想化器の係数が素通しと完全な仮想化との間でスケールするように計算される、および/または
前記制御重みは、ダイアログ向上器のための制御重みを含み、
前記ダイアログ向上器のための制御重みは、前記分類情報が、前記オーディオ・コンテンツの前記コンテンツ型が発話である、または前記一つまたは複数の信頼値のうちの発話に関連付けられた信頼値が閾値より高いことを示す場合に、前記ダイアログ向上器によるダイアログ向上が強化されるように計算される、
請求項1ないし7のうちいずれか一項に記載の方法。 - 前記制御重みは、動的等化器のための制御重みを含み、
前記動的等化器のための制御重みは、前記分類情報が、前記オーディオ・コンテンツの前記コンテンツ型が発話である、または前記一つまたは複数の信頼値のうちの発話に関連付けられた信頼値が閾値より高いことを示す場合に、前記動的等化器が無効にされるように計算される、
請求項1ないし8のうちいずれか一項に記載の方法。 - 前記制御重みの平滑化をさらに含み、
前記制御重みの平滑化は、平滑化される特定の制御重みに依存する、
請求項1ないし9のうちいずれか一項に記載の方法。 - 前記制御重みの連続性を増大させるために、前記制御重みに非線形マッピング関数を適用することをさらに含む、請求項9または10に記載の方法。
- 前記ビットストリームがAC-4ビットストリームであり、当該方法が:
2チャネル・オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記2チャネル・オーディオ・コンテンツをアップミックスして、アップミックスされた5.1チャネル・オーディオ・コンテンツにする段階と;
2チャネル・スピーカー・アレイのための5.1仮想化のために、前記アップミックスされた5.1チャネル・オーディオ・コンテンツに仮想化器を適用する段階と;
前記2チャネル・オーディオ・コンテンツおよび前記仮想化されたアップミックスされた5.1チャネル・オーディオ・コンテンツにクロスフェーダーを適用する段階と;
前記クロスフェーダーの出力を前記2チャネル・スピーカー・アレイにルーティングする段階とを含み、
当該方法は、前記分類情報に基づいて前記仮想化器および前記クロスフェーダーのためのそれぞれの制御重みを計算する段階をさらに含む、
請求項2ないし11のうちいずれか一項に記載の方法。 - 前記ビットストリームは、2チャネル・オーディオ・コンテンツおよび該2チャネル・オーディオ・コンテンツについての分類情報を含み、前記分類情報は、前記2チャネル・オーディオ・コンテンツのコンテンツ分類を示すものであり、当該方法は:
前記2チャネル・オーディオ・コンテンツおよび前記分類情報をデコードする段階と;
前記2チャネル・オーディオ・コンテンツをアップミックスして、アップミックスされた5.1チャネル・オーディオ・コンテンツにするよう、前記2チャネル・オーディオ・コンテンツにアップミキサーを適用する段階と;
5チャネル・スピーカー・アレイのための5.1仮想化のために、前記アップミックスされた5.1チャネル・オーディオ・コンテンツに仮想化器を適用する段階と;
前記仮想化器の出力を前記5チャネル・スピーカー・アレイにルーティングする段階とを含み、
当該方法は、前記分類情報に基づいて前記アップミキサーおよび前記仮想化器のためのそれぞれの制御重みを計算する段階をさらに含む、
請求項2ないし12のうちいずれか一項に記載の方法。 - オーディオ・コンテンツをデコードするためのデコーダであって、当該デコーダはプロセッサを有し、前記プロセッサは、前記プロセッサのための命令を記憶しているメモリに結合されており、前記プロセッサは、請求項1ないし13のうちいずれか一項に記載の方法を実行するように適応されている、デコーダ。
- 命令を含んでいるコンピュータ・プログラムであって、前記命令は、請求項1ないし13のうちいずれか一項に記載の方法を実行するよう前記命令をプロセッサに実行させるものである、コンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024038518A JP2024081674A (ja) | 2018-12-13 | 2024-03-13 | デュアルエンドのメディア・インテリジェンス |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2018/120923 | 2018-12-13 | ||
CN2018120923 | 2018-12-13 | ||
US201962792997P | 2019-01-16 | 2019-01-16 | |
US62/792,997 | 2019-01-16 | ||
EP19157080.3 | 2019-02-14 | ||
EP19157080 | 2019-02-14 | ||
PCT/US2019/065338 WO2020123424A1 (en) | 2018-12-13 | 2019-12-10 | Dual-ended media intelligence |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024038518A Division JP2024081674A (ja) | 2018-12-13 | 2024-03-13 | デュアルエンドのメディア・インテリジェンス |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022513184A JP2022513184A (ja) | 2022-02-07 |
JPWO2020123424A5 JPWO2020123424A5 (ja) | 2022-09-14 |
JP7455836B2 true JP7455836B2 (ja) | 2024-03-26 |
Family
ID=69104844
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021532235A Active JP7455836B2 (ja) | 2018-12-13 | 2019-12-10 | デュアルエンドのメディア・インテリジェンス |
JP2024038518A Pending JP2024081674A (ja) | 2018-12-13 | 2024-03-13 | デュアルエンドのメディア・インテリジェンス |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024038518A Pending JP2024081674A (ja) | 2018-12-13 | 2024-03-13 | デュアルエンドのメディア・インテリジェンス |
Country Status (8)
Country | Link |
---|---|
US (1) | US20220059102A1 (ja) |
EP (1) | EP3895164B1 (ja) |
JP (2) | JP7455836B2 (ja) |
KR (1) | KR20210102899A (ja) |
CN (1) | CN113168839B (ja) |
BR (1) | BR112021009667A2 (ja) |
RU (1) | RU2768224C1 (ja) |
WO (1) | WO2020123424A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022040282A1 (en) * | 2020-08-18 | 2022-02-24 | Dolby Laboratories Licensing Corporation | Audio content identification |
CN115102931B (zh) * | 2022-05-20 | 2023-12-19 | 阿里巴巴(中国)有限公司 | 自适应调整音频延迟的方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007306114A (ja) | 2006-05-09 | 2007-11-22 | Sharp Corp | 映像音声再生装置、及びその音像移動方法 |
JP2010508545A (ja) | 2007-02-14 | 2010-03-18 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置 |
JP2016507088A (ja) | 2013-06-19 | 2016-03-07 | ドルビー ラボラトリーズ ライセンシング コーポレイション | プログラム情報またはサブストリーム構造メタデータをもつオーディオ・エンコーダおよびデコーダ |
JP2016509249A (ja) | 2012-12-21 | 2016-03-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US20080208589A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Presenting Supplemental Content For Digital Media Using A Multimodal Application |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MY153562A (en) * | 2008-07-11 | 2015-02-27 | Fraunhofer Ges Forschung | Method and discriminator for classifying different segments of a signal |
UA100353C2 (uk) * | 2009-12-07 | 2012-12-10 | Долбі Лабораторіс Лайсензін Корпорейшн | Декодування цифрових потоків кодованого багатоканального аудіосигналу з використанням адаптивного гібридного перетворення |
US8965545B2 (en) * | 2010-09-30 | 2015-02-24 | Google Inc. | Progressive encoding of audio |
TWI733583B (zh) * | 2010-12-03 | 2021-07-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US20140056430A1 (en) * | 2012-08-21 | 2014-02-27 | Electronics And Telecommunications Research Institute | System and method for reproducing wave field using sound bar |
JP6041789B2 (ja) * | 2013-01-03 | 2016-12-14 | 三菱電機株式会社 | 入力信号を符号化する方法 |
RU2639663C2 (ru) * | 2013-01-28 | 2017-12-21 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах |
CN107093991B (zh) * | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
US9418650B2 (en) * | 2013-09-25 | 2016-08-16 | Verizon Patent And Licensing Inc. | Training speech recognition using captions |
EP3175446B1 (en) * | 2014-07-31 | 2019-06-19 | Dolby Laboratories Licensing Corporation | Audio processing systems and methods |
US9934790B2 (en) * | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US9934785B1 (en) * | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
-
2019
- 2019-12-10 WO PCT/US2019/065338 patent/WO2020123424A1/en active Search and Examination
- 2019-12-10 US US17/312,011 patent/US20220059102A1/en active Pending
- 2019-12-10 JP JP2021532235A patent/JP7455836B2/ja active Active
- 2019-12-10 EP EP19831966.7A patent/EP3895164B1/en active Active
- 2019-12-10 RU RU2021116055A patent/RU2768224C1/ru active
- 2019-12-10 KR KR1020217017682A patent/KR20210102899A/ko unknown
- 2019-12-10 BR BR112021009667-1A patent/BR112021009667A2/pt unknown
- 2019-12-10 CN CN201980080866.9A patent/CN113168839B/zh active Active
-
2024
- 2024-03-13 JP JP2024038518A patent/JP2024081674A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007306114A (ja) | 2006-05-09 | 2007-11-22 | Sharp Corp | 映像音声再生装置、及びその音像移動方法 |
JP2010508545A (ja) | 2007-02-14 | 2010-03-18 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置 |
JP2016509249A (ja) | 2012-12-21 | 2016-03-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング |
JP2016507088A (ja) | 2013-06-19 | 2016-03-07 | ドルビー ラボラトリーズ ライセンシング コーポレイション | プログラム情報またはサブストリーム構造メタデータをもつオーディオ・エンコーダおよびデコーダ |
Also Published As
Publication number | Publication date |
---|---|
CN113168839A (zh) | 2021-07-23 |
WO2020123424A1 (en) | 2020-06-18 |
KR20210102899A (ko) | 2021-08-20 |
JP2022513184A (ja) | 2022-02-07 |
JP2024081674A (ja) | 2024-06-18 |
EP3895164A1 (en) | 2021-10-20 |
RU2768224C1 (ru) | 2022-03-23 |
CN113168839B (zh) | 2024-01-23 |
US20220059102A1 (en) | 2022-02-24 |
BR112021009667A2 (pt) | 2021-08-17 |
EP3895164B1 (en) | 2022-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12051432B2 (en) | Concept for combined dynamic range compression and guided clipping prevention for audio devices | |
JP5284360B2 (ja) | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム | |
EP2898509B1 (en) | Audio coding with gain profile extraction and transmission for speech enhancement at the decoder | |
KR102686742B1 (ko) | 객체 기반 오디오 신호 균형화 | |
JP2024081674A (ja) | デュアルエンドのメディア・インテリジェンス | |
JP2022137052A (ja) | マルチチャネル信号の符号化方法およびエンコーダ | |
US20090222272A1 (en) | Controlling Spatial Audio Coding Parameters as a Function of Auditory Events | |
JP6133422B2 (ja) | マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 | |
US11501785B2 (en) | Method and apparatus for adaptive control of decorrelation filters | |
WO2008111770A1 (en) | A method and an apparatus for processing an audio signal | |
EP2896221A1 (en) | Apparatus and method for providing enhanced guided downmix capabilities for 3d audio | |
JP5468020B2 (ja) | 音響信号復号装置及びバランス調整方法 | |
US11463833B2 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
US20240363129A1 (en) | Concept for combined dynamic range compression and guided clipping prevention for audio devices | |
US20240363130A1 (en) | Concept for combined dynamic range compression and guided clipping prevention for audio devices | |
WO2009075511A1 (en) | A method and an apparatus for processing a signal | |
US20240363128A1 (en) | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20210607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220906 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7455836 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |