DE202013006242U1 - Audio-Decodierer mit Programminformations-Metadaten - Google Patents

Audio-Decodierer mit Programminformations-Metadaten Download PDF

Info

Publication number
DE202013006242U1
DE202013006242U1 DE202013006242U DE202013006242U DE202013006242U1 DE 202013006242 U1 DE202013006242 U1 DE 202013006242U1 DE 202013006242 U DE202013006242 U DE 202013006242U DE 202013006242 U DE202013006242 U DE 202013006242U DE 202013006242 U1 DE202013006242 U1 DE 202013006242U1
Authority
DE
Germany
Prior art keywords
audio
metadata
program
program information
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE202013006242U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of DE202013006242U1 publication Critical patent/DE202013006242U1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Information Transfer Systems (AREA)
  • Application Of Or Painting With Fluid Materials (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

Eine elektrische Vorrichtung, die aufweist: eine Schnittstelle zum Empfangen eines Rahmens von codiertem Audio, wobei der Rahmen Programminformations-Metadaten, die sich in einem Auslassen-Feld des Rahmens befinden, und codierte Audiodaten aufweist, die sich außerhalb des Auslassen-Felds befinden; einen Puffer, der mit der Schnittstelle gekoppelt ist, zum temporären Speichern des Rahmens; einen Parser, der mit dem Puffer gekoppelt ist, zum Extrahieren der codierten Audiodaten aus dem Rahmen; und einen AC-3-Audio-Decodierer, der mit dem Parser gekoppelt oder mit diesem integriert ist, zum Erzeugen von decodiertem Audio aus den codierten Audiodaten.

Description

  • QUERVERWEIS ZU VERWANDTEN ANMELDUNGEN
  • Die vorliegende Anmeldung beansprucht Priorität zu der vorläufigen US Patentanmeldung Nr. 61/836,865, eingereicht am 19. Juni 2013 mit dem Titel „Audio Encoder and Decoder with Program Information or Substream Structure Metadata” von Jeffrey Riedmiller und Michael Ward.
  • TECHNISCHES GEBIET
  • Die vorliegende Anmeldung betrifft Audiosignalverarbeitungseinheiten und insbesondere Decodierer von Audiodaten-Bitströmen mit Metadaten, die für eine Programminformation hinsichtlich Audioinhalt indikativ sind, der durch die Bitströme angegeben wird. Einige Ausführungsbeispiele der Erfindung erzeugen oder decodieren Audiodaten in einem der Formate, die als Dolby Digital (AC-3), Dolby Digital Plus (Enhanced AC-3 oder E-AC-3), oder Dolby E bekannt sind.
  • HINTERGRUND
  • Dolby, Dolby Digital, Dolby Digital Plus und Dolby E sind Warenzeichen der Dolby Laboratories Licensing Corporation. Dolby Laboratories bietet proprietäre Implementierungen von AC-3 und E-AC-3, bekannt als Dolby Digital beziehungsweise Dolby Digital Plus.
  • Audiodatenverarbeitungseinheiten arbeiten typischerweise in einer blinden Art und Weise und achten nicht auf die Verarbeitungshistorie von Audiodaten, die stattfindet, bevor die Daten empfangen werden. Dies kann in einem Verarbeitungssystem funktionieren, in dem eine einzelne Entität die gesamte Audiodatenverarbeitung und -codierung für eine Vielzahl von Ziel-Mediawiedergabevorrichtungen durchführt, während eine Ziel-Mediawiedergabevorrichtung die gesamte Decodierung und Wiedergabe der codierten Audiodaten durchführt. Allerdings funktioniert diese blinde Verarbeitung nicht gut (oder überhaupt nicht) in Situationen, in denen eine Vielzahl von Audioverarbeitungseinheiten über ein diverses Netzwerk verteilt sind oder in einem Tandem (d. h. eine Kette) platziert sind und von denen erwartet wird, ihre jeweiligen Typen von Audioverarbeitung optimal durchzuführen. Zum Beispiel können einige Audiodaten für Hochleistungs-Mediasysteme codiert sein und müssen eventuell in eine reduzierte Form, die für eine mobile Vorrichtung geeignet ist, entlang einer Medienverarbeitungskette umgewandelt werden. Demgemäß kann eine Audioverarbeitungseinheit unnötigerweise einen Typ einer Verarbeitung auf den Audiodaten durchführen, der bereits durchgeführt wurde. Zum Beispiel kann eine Lautstärkeabgleichungseinheit eine Verarbeitung auf einem Eingangs-Audio-Clip durchführen, unabhängig davon, ob die gleiche oder eine ähnliche Lautstärkeabgleichung früher auf dem Eingangs-Audio-Clips bereits durchgeführt wurde oder nicht. Als ein Ergebnis kann die Lautstärkeabgleichungseinheit eine Abgleichung durchführen, auch wenn dies nicht notwendig ist. Diese unnötige Verarbeitung kann auch eine Verschlechterung und/oder das Entfernen von spezifischen Merkmalen verursachen, während der Inhalt der Audiodaten wiedergegeben wird.
  • Kurze Beschreibung
  • Eine elektrische Vorrichtung wird offenbart, die eine Schnittstelle zum Empfangen eines Rahmens von codiertem Audio umfasst, wobei der Rahmen Programminformations-Metadaten umfasst, die sich in einem Auslassen- bzw. Überspringen(Skip)-Feld des Rahmens befinden, und codierte Audiodaten, die sich außerhalb des Auslassen-Felds befinden. Ein Puffer ist mit der Schnittstelle gekoppelt zum temporären Speichern des Rahmens und ein Parser bzw. Analysierer ist mit dem Puffer gekoppelt zum Extrahieren der codierten Audiodaten aus dem Rahmen. Ein AC-3-Audio-Decodierer ist mit dem Parser gekoppelt oder mit diesem integriert zum Erzeugen von decodiertem Audio aus den codierten Audiodaten.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Ausführungsbeispiels eines Systems.
  • 2 ist ein Blockdiagramm eines Codierers, der ein Ausführungsbeispiel der erfindungsgemäßen Audioverarbeitungseinheit ist.
  • 3 ist ein Blockdiagramm eines Decodierers, der ein Ausführungsbeispiel der erfindungsgemäßen Audioverarbeitungseinheit ist, und eines damit gekoppelten Postprozessors, der ein anderes Ausführungsbeispiel der erfindungsgemäßen Audioverarbeitungseinheit ist.
  • 4 ist ein Diagramm eines AC-3-Rahmens, einschließlich der Segmente, in die er unterteilt ist.
  • 5 ist ein Diagramm des Synchronisationsinformation(SI – Synchronization Information)-Segments eines AC-3-Rahmens, einschließlich der Segmente, in die er unterteilt ist.
  • 6 ist ein Diagramm eines Bitstrom-Information(BSI – Bitstream Information)-Segments eines AC-3-Rahmens, einschließlich der Segmente, in die er unterteilt ist.
  • 7 ist ein Diagramm eines E-AC-3-Rahmens, einschließlich der Segmente, in die er unterteilt ist.
  • 8 ist ein Diagramm eines Metadaten-Segments eines codierten Bitstroms, der in Übereinstimmung mit einem Ausführungsbeispiel der Erfindung erzeugt wird, einschließlich eines Metadaten-Segment-Headers, der ein Container-Sync-Wort (als „Container-Sync” in 8 identifiziert) und Versions- und Schlüssel-ID-Werte aufweist, gefolgt von mehreren Metadaten-Nutzlasten und Schutzbits.
  • Bezeichnung und Nomenklatur
  • In dieser Offenbarung, einschließlich der Ansprüche, bezieht sich der Ausdruck „Metadaten” (eines codierten Audio-Bitstroms) auf getrennte und verschiedene Daten von entsprechenden Audiodaten des Bitstroms.
  • In dieser Offenbarung, einschließlich der Ansprüche, bezeichnet der Ausdruck „Programminformations-Metadaten” (oder „PIM (program information metadata)”) Metadaten eines codierten Audiobitstroms, die für zumindest ein Audioprogramm indikativ sind, wobei die Metadaten für zumindest eine Eigenschaft oder Charakteristik von Audioinhalt von zumindest einem Programm Indikativ sind (zum Beispiel Metadaten, die einen Typ oder Parameter einer Verarbeitung angeben, die auf Audiodaten des Programms durchgeführt wird, oder Metadaten, die angeben, welche Kanäle des Programms aktive Kanäle sind).
  • In dieser Offenbarung, einschließlich der Ansprüche, bezeichnet der Ausdruck „Audioprogramm” einen Satz von einem oder mehreren Audiokanälen und optional auch assoziierte Metadaten (zum Beispiel Metadaten, die eine gewünschte räumliche Audiopräsentation beschreiben, und/oder PIM).
  • In dieser Offenbarung, einschließlich der Ansprüche, wird der Ausdruck „koppeln” oder „gekoppelt” verwendet, um entweder eine direkte oder eine indirekte Verbindung zu bezeichnen. Wenn somit eine erste Vorrichtung mit einer zweiten Vorrichtung gekoppelt wird, kann diese Verbindung über eine direkte Verbindung oder über eine indirekte Verbindung über andere Vorrichtungen und Verbindungen sein.
  • Detaillierte Beschreibung von Ausführungsbeispielen der Erfindung
  • Ein typischer Strom von Audiodaten umfasst sowohl Audioinhalt (zum Beispiel einen oder mehrere Kanäle von Audioinhalt) und Metadaten, die zumindest eine Charakteristik des Audioinhalts angeben. Zum Beispiel gibt es in einem AC-3-Bitstrom mehrere Audio-Metadaten-Parameter, die insbesondere vorgesehen sind zur Verwendung bei einem Ändern des Klangs des Programms, das an eine Hörumgebung geliefert wird. Einer der Metadaten-Parameter ist der DIALNORM-Parameter, der vorgesehen ist, um den mittleren Pegel eines Dialogs in einem Audioprogramm anzugeben, und verwendet wird, um einen Audio-Abspielsignalpegel zu bestimmen.
  • Obwohl die vorliegende Erfindung nicht auf eine Verwendung mit einem AC-3-Bitstrom, einem E-AC-3-Bitstrom oder einem Dolby-E-Bitstrom beschränkt ist, wird sie zur Einfachheit in Ausführungsbeispielen beschrieben, in denen sie einen derartigen Bitstrom erzeugt, decodiert oder anderweitig verarbeitet.
  • Ein codierter AC-3-Bitstrom weist Metadaten auf und einen bis sechs Kanäle von Audioinhalt. Bei dem Audioinhalt handelt es sich um Audiodaten, die unter Verwendung einer Wahrnehmungsaudiocodierung komprimiert wurden. Die Metadaten umfassen mehrere Audio-Metadaten-Parameter, die zur Verwendung bei einem Verändern des Klangs eines Programms vorgesehen sind, das an eine Hörumgebung geliefert wird.
  • Jeder Rahmen eines AC-3-codierten Audiobitstroms enthält Audioinhalt und Metadaten für 1536 Abtastwerte von digitalem Audio. Für eine Abtastrate von 48 kHz entspricht dies 32 Millisekunden von digitalem Audio oder einer Rate von 31,25 Rahmen pro Sekunde Audio.
  • Jeder Rahmen eines E-AC-3-codierten Audiobitstroms enthält Audioinhalt und Metadaten für 256, 512, 768 oder 1536 Abtastwerte von digitalem Audio, abhängig davon, ob der Rahmen einen, zwei, drei beziehungsweise sechs Blöcke von Audiodaten enthält. Für eine Abtastrate von 48 kHz entspricht dies 5,333, 10,667, 16 oder 32 Millisekunden von digitalem Audio oder einer Rate von 189,9, 93,75, 62,5 beziehungsweise 31,25 Rahmen pro Sekunde von Audio.
  • Wie in 4 gezeigt, ist jeder AC-3-Rahmen in Abschnitte (Segmente) unterteilt, einschließlich: ein Abschnitt Synchronisationsinformation (SI – Synchronization Information), der (wie in 5 gezeigt) ein Synchronisationswort (SW – Synchronization Word) und das erste von zwei Fehlerkorrekturwörtern (CRC1) enthält; einen Abschnitt Bitstrom-Information (BSI – Bitstream Information), der die meisten der Metadaten enthält; sechs Audio-Blöcke (AB0 bis AB5), die Daten-komprimierten Audioinhalt enthalten (und auch Metadaten umfassen können); Ausschuss-Bit-Segmente (W – Waste) (auch als „Auslassen- bzw. skip-Felder” bekannt), die alle nicht-verwendeten Bits enthalten, die übrig bleiben, nachdem der Audioinhalt komprimiert ist; einen Abschnitt Hilfs(AUX – Auxiliary)-Information, der mehr Metadaten enthalten kann; und das zweite von zwei Fehlerkorrekturwörtern (CRC2).
  • Wie in 7 gezeigt, ist jeder E-AC-3-Rahmen in Abschnitte (Segmente) unterteilt, einschließlich: ein Abschnitt Synchronisationsinformation (SI – Synchronization Information), der (wie in 5 gezeigt) ein Synchronisationswort (SW – Synchronization Word) enthält; einen Abschnitt Bitstrom-Information (BSI – Bitstream Information), der die meisten der Metadaten enthält; zwischen einem und sechs Audio-Blöcken (AB0 bis AB5), die Daten-komprimierten Audioinhalt enthalten (und auch Metadaten umfassen können); Ausschuss-Bit-Segmente (W – Waste) (auch als „Auslassen-Felder” bekannt), die alle nicht-verwendeten Bits enthalten, die übrig bleiben, nachdem der Audioinhalt komprimiert ist (obwohl nur ein Ausschuss-Bit-Segment gezeigt wird, folgt typischerweise ein anderes Ausschuss-Bit- oder Auslassen-Feld-Segment jedem Audioblock); einen Abschnitt Hilfs(AUX – Auxiliary)-Information, der mehr Metadaten enthalten kann; und ein Fehlerkorrekturwort (CRC).
  • In einem AC-3(oder E-AC-3)-Bitstrom gibt es mehrere Audio-Metadaten-Parameter, die spezifisch zur Verwendung bei einem Ändern des Klangs des Programms vorgesehen sind, das an eine Hörumgebung geliefert wird. Einer der Metadaten-Parameter ist der DIALNORM-Parameter, der in dem BSI-Segment enthalten ist.
  • Wie in 6 gezeigt, umfasst das BSI-Segment eines AC-3-Rahmens einen Fünf-Bit-Parameter („DIALNORM”), der den DIALNORM-Wert für das Programm angibt. Ein Fünf-Bit-Parameter („DIALNORM2”), der den DIALNORM-Wert für ein zweites Audioprogramm angibt, das in demselben AC-3-Rahmen getragen wird, ist enthalten, wenn der Audiocodiermodus („acmod”) des AC-3-Rahmens „0” ist, was anzeigt, dass eine Dual-Mono- oder „1 + 1”-Kanal-Konfiguration verwendet wird.
  • Das BSI-Segment umfasst auch ein Flag („addbsie”), das das Vorhandensein (oder Fehlen) von zusätzlicher Bitstrom-Information nach dem „addbsie”-Bit angibt, einen Parameter („addbsil”), der die Länge einer zusätzlichen Bitstrom-Information nach dem „addbsil”-Wert angibt, und bis zu 64 Bits von zusätzlicher Bitstrom-Information („addbsi”) nach dem „addbsil”-Wert.
  • Das BSI-Segment umfasst andere Metadaten-Werte, die nicht ausdrücklich in 6 gezeigt werden.
  • Gemäß typischen Ausführungsbeispielen der Erfindung sind PIM (und optional auch andere Metadaten) in einem oder mehreren reservierten Feldern (oder Schlitzen) von Metadaten-Segmenten eines Audiobitstroms eingebettet (zum Beispiel dem Auslassen-Feld), der auch Audiodaten in anderen Segmenten (Audiodaten-Segmente) umfasst. Typischerweise umfasst zumindest ein Segment jedes Rahmens des Bitstroms (zum Beispiel das Auslassen-Feld) PIM und zumindest ein anderes Segment des Rahmens umfasst entsprechende Audiodaten (d. h. Audiodaten mit zumindest einer Charakteristik oder Eigenschaft, die von den PIM angegeben wird).
  • In einer Klasse von Ausführungsbeispielen ist jedes Metadaten-Segment eine Datenstruktur (manchmal hier als ein Container bezeichnet), die eine oder mehrere Metadaten-Nutzlast(en) enthalten kann. Jede Nutzlast umfasst einen Header mit einem spezifischen Nutzlast-Identifizierer (und Nutzlast-Konfigurationsdaten), um eine eindeutige Angabe des Typs von Metadaten zu liefern, die in der Nutzlast vorhanden sind. Die Reihenfolge von Nutzlasten in dem Container ist nicht definiert, so dass Nutzlasten in jeder Reihenfolge gespeichert werden können, und ein Parser bzw. Analysierer muss in der Lage sein, den gesamten Container zu analysieren, um relevante Nutzlasten zu extrahieren und Nutzlasten zu ignorieren, die entweder nicht relevant sind oder nicht unterstützt werden. 8 (die unten beschrieben wird) zeigt die Struktur eines derartigen Containers und von Nutzlasten in dem Container.
  • Ein Kommunizieren von Metadaten (zum Beispiel PIM) in einer Audiodatenverarbeitungskette ist besonders nützlich, wenn zwei oder mehr Audioverarbeitungseinheiten in der Verarbeitungskette (oder einen Inhalt-Lebenszyklus) miteinander im Tandem arbeiten müssen. Ohne Aufnahme von Metadaten in einen Audiobitstrom können schwerwiegende Mediaverarbeitungsprobleme auftreten, wie Qualitäts-, Pegel- und räumliche Verschlechterungen beispielsweise, wenn zwei oder mehr Audio-Codecs in der Kette verwendet werden und eine single-ended-Lautstärkeanpassung während eines Bitstrom-Pfads zu einer Media-verbrauchenden Vorrichtung (oder einem Wiedergabepunkt des Audioinhalts des Bitstroms) mehr als einmal angewendet wird.
  • 1 ist ein Blockdiagramm einer beispielhaften Audioverarbeitungskette (ein Audiodatenverarbeitungssystem), bei der eines oder mehrere der Elemente des Systems in Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung konfiguriert werden kann/können. Das System umfasst die folgenden Elemente, miteinander gekoppelt, wie gezeigt: eine Vorverarbeitungseinheit, einen Codierer, eine Signalanalyse- und Metadaten-Korrektureinheit, einen Transcodierer, einen Decodierer und eine Vorverarbeitungseinheit. In Variationen des gezeigten Systems sind ein oder mehrere der Elemente weggelassen oder zusätzlichen Audiodatenverarbeitungseinheiten sind enthalten.
  • In einigen Implementierungen ist die Vorverarbeitungseinheit von 1 konfiguriert, PCM(Zeitdomäne)-Abtastwerte, die Audioinhalt aufweisen, als Eingabe anzunehmen und verarbeitete PCM-Abtastwerte auszugeben. Der Codierer kann konfiguriert sein, die PCM-Abtastwerte als Eingabe anzunehmen und einen codierten (zum Beispiel komprimierten) Audiobitstrom auszugeben, der indikativ ist für den Audioinhalt. Die Daten des Bitstroms, die indikativ sind für den Audioinhalt, werden hier manchmal als „Audiodaten” bezeichnet. Wenn der Codierer gemäß einem typischen Ausführungsbeispiel der vorliegenden Erfindung konfiguriert ist, umfasst der Audiobitstrom, der von dem Codierer ausgegeben wird, PIM sowie Audiodaten.
  • Die Signalanalyse- und Metadaten-Korrektureinheit von 1 kann einen oder mehrere codierte Audio-Bitströme als Eingabe annehmen und bestimmen (zum Beispiel validieren), ob Metadaten in jedem codierten Audiobitstrom korrekt sind, durch Durchführen einer Signalanalyse. Wenn die Signalanalyse- und Metadaten-Korrektureinheit feststellt, dass enthalte Metadaten ungültig sind, ersetzt sie typischerweise den/die falschen Wert(e) mit dem/den richtigen Wert(en), der/die von der Signalanalyse erlangt wird/werden. Somit kann jeder codierte Audiobitstrom, der von der Signalanalyse- und Metadaten-Korrektureinheit ausgegeben wird, korrigierte (oder nicht-korrigierte) Verarbeitungszustands-Metadaten sowie codierte Audiodaten umfassen.
  • Der Decodierer von 1 kann codierte (zum Beispiel komprimierte) Audio-Bitströme als Eingabe annehmen und (in Reaktion) Ströme von decodierten PCM-Audio-Abtastwerten ausgeben. Wenn der Decodierer gemäß einem typischen Ausführungsbeispiel der vorliegenden Erfindung konfiguriert ist, ist die Ausgabe des Decodierers in einem typischen Betrieb eines der folgenden oder umfasst eines der folgenden:
    ein Strom von Audio-Abtastwerten und zumindest ein entsprechender Strom von PIM (und typischerweise auch andere Metadaten), die aus einem eingegebenen codierten Bitstrom extrahiert sind; oder
    ein Strom von Audio-Abtastwerten und ein entsprechender Strom von Steuerungsbits, die aus PIM (und typischerweise auch anderen Metadaten) bestimmt werden, die aus einem eingegebenen codierten Bitstrom extrahiert sind; oder
    ein Strom von Audio-Abtastwerten, ohne einen entsprechenden Strom von Metadaten oder Steuerungsbits, die aus Metadaten bestimmt werden. In diesem letzten Fall kann der Decodierer Metadaten aus dem eingegebenen codierten Bitstrom extrahieren und zumindest eine Operation auf den extrahierten Metadaten durchführen (zum Beispiel eine Validierung), obwohl er die daraus bestimmten extrahierten Metadaten oder Steuerungsbits nicht ausgibt.
  • Durch Konfigurieren der Nachverarbeitungseinheit von 1 in Übereinstimmung mit einem typischen Ausführungsbeispiel der vorliegenden Erfindung ist die Nachverarbeitungseinheit konfiguriert, einen Strom von decodierten PCM-Audioabtastwerten anzunehmen und darauf eine Nachverarbeitung durchzuführen (zum Beispiel eine Lautstärkeabgleichung des Audioinhalts) unter Verwendung von PIM (und typischerweise auch anderen Metadaten), die mit den Abtastwerten empfangen werden, oder Steuerungsbits, bestimmt durch den Decodierer aus Metadaten, die mit den Abtastwerten empfangen werden. Die Nachverarbeitungseinheit ist typischerweise auch konfiguriert, den nachverarbeiteten Audioinhalt zum Abspielen durch einen oder mehrere Lautsprecher wiederzugeben.
  • Typische Ausführungsbeispiele der vorliegenden Erfindung sehen eine verbesserte Audioverarbeitungskette vor, in der Audioverarbeitungseinheiten (zum Beispiel Codierer, Decodierer, Transcodierer, und Vor- und Nachverarbeitungseinheiten) ihre jeweilige Verarbeitung anpassen, die auf Audiodaten anzuwenden ist, gemäß einem zeitgleichen Zustand der Media-Daten, wie durch Metadaten angegeben wird, die jeweils durch die Audioverarbeitungseinheiten empfangen werden.
  • Die Audiodaten-Eingabe an eine Audioverarbeitungseinheit des Systems von 1 (zum Beispiel der Codierer oder Transcodierer von 1) kann PIM (und optional auch andere Metadaten) sowie Audiodaten (zum Beispiel codierte Audiodaten) umfassen. Diese Metadaten können in dem Eingangs-Audio durch ein anderes Element des Systems von 1 (oder einer anderen Quelle, die in 1 nicht gezeigt wird) in Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung aufgenommen worden sein. Die Verarbeitungseinheit, die das Eingangs-Audio (mit Metadaten) empfängt, kann konfiguriert sein, zumindest eine Operation auf den Metadaten (zum Beispiel Validierung) oder in Reaktion auf die Metadaten (zum Beispiel adaptive Verarbeitung des Eingangs-Audios) durchzuführen, und typischerweise die Metadaten, eine verarbeitete Version der Metadaten oder Steuerungsbits, die aus den Metadaten bestimmt werden, auch in ihrem Ausgangs-Audio aufzunehmen.
  • 2 ist ein Blockdiagramm eines Codierers (100), der ein Ausführungsbeispiel der erfindungsgemäßen Audioverarbeitungseinheit ist. Eine/Jede der Komponenten oder Elemente des Codierers 100 kann/können als ein oder mehrere Prozess(e) und/oder eine oder mehrere Schaltung(en) (zum Beispiel ASICs, FPGAs oder andere integrierte Schaltungen), in Hardware, Software oder eine Kombination aus Hardware und Software implementiert werden. Der Codierer 100 weist einen Rahmenpuffer 110, einen Parser 111, einen Decodierer 101, einen Audiozustandsvalidierer 102, eine Lautheits-Verarbeitungsstufe 103, eine Audiostrom-Auswahlstufe 104, einen Codierer 105, eine Füller/Formatierer-Stufe 107, eine Metadaten-Erzeugungsstufe 106, ein Dialog-Lautheitsmessungs-Teilsystem 108 und einen Rahmenpuffer 109 auf, verbunden wie gezeigt. Auch umfasst der Codierer 100 typischerweise andere Verarbeitungselemente (nicht gezeigt).
  • Der Codierer 100 (der ein Transcodierer ist) ist konfiguriert, einen Eingangs-Audiobitstrom (der zum Beispiel einer aus einem AC-3-Bitstrom, einem E-AC-3-Bitstrom oder einem Dolby-E-Bitstrom sein kann) in einen codierten Ausgangs-Audiobitstrom (der zum Beispiel ein anderer aus einem AC-3-Bitstrom, einem E-AC-3-Bitstrom oder einem Dolby-E-Bitstrom sein kann) umzuwandeln, einschließlich durch Durchführen einer adaptiven und automatischen Lautheits-Verarbeitung unter Verwendung von Lautheits-Verarbeitungszustands-Metadaten, die in dem Eingangsbitstrom enthalten sind. Zum Beispiel kann der Codierer 100 konfiguriert sein, einen Eingangs-Dolby-E-Bitstrom (ein Format, das typischerweise in Produktions- und Broadcast-Einrichtungen verwendet wird, aber nicht in Verbrauchergeräten, die Audioprogramme empfangen, die an diese ausgestrahlt wurden) in einen codierten Ausgangs-Audiobitstrom (geeignet zum Aussenden an Verbrauchergeräte) in einem AC-3- oder E-AC-3-Format umzuwandeln.
  • Das System von 2 umfasst auch ein codiertes Audio-Liefer-Teilsystem 150 (das die codierten Bitströme speichert und/oder liefert, die von dem Codierer 100 ausgegeben werden) und einen Decodierer 152. Ein codierter Audiobitstrom, der von dem Codierer 100 ausgegeben wird, kann durch das Teilsystem 150 gespeichert werden (zum Beispiel in der Form einer DVD oder Blu Ray Disc) oder durch das Teilsystem 150 übertragen werden (das eine Übertragungsverbindung oder -Netzwerk implementieren kann), oder kann durch das Teilsystem 150 sowohl gespeichert als auch übertragen werden. Der Decodierer 152 ist konfiguriert, einen codierten Audiobitstrom (der durch den Codierer 100 erzeugt wird) zu decodieren, den er über das Teilsystem 150 empfängt, einschließlich durch Extrahieren von Metadaten (PIM und optional auch Lautheits-Verarbeitungszustands-Metadaten und/oder andere Metadaten) aus jedem Rahmen des Bitstroms und Erzeugen decodierter Audiodaten. Typischerweise ist der Decodierer 152 konfiguriert, eine adaptive Verarbeitung auf den decodierten Audiodaten unter Verwendung von PIM durchzuführen, und/oder die decodierten Audiodaten und Metadaten an einen Postprozessor weiterzuleiten, der konfiguriert ist, eine adaptive Verarbeitung auf den decodierten Audiodaten unter Verwendung der Metadaten durchzuführen. Typischerweise umfasst der Decodierer 152 einen Puffer, der den codierten Audiobitstrom speichert (zum Beispiel auf eine nicht-transitorische Weise), der von dem Teilsystem 150 empfangen wird.
  • Verschiedene Implementierungen des Codierers 100 und des Decodierers 152 sind konfiguriert, um verschiedene Ausführungsbeispiele des erfindungsgemäßen Vorgehens durchzuführen.
  • Ein Rahmenpuffer 110 ist ein Pufferspeicher, der gekoppelt ist, um einen codierten Eingangs-Audiobitstrom zu empfangen. In Betrieb speichert der Puffer 110 (zum Beispiel auf eine nicht-transitorische Weise) zumindest einen Rahmen des codierten Audiobitstroms, und eine Sequenz der Rahmen des codierten Audiobitstroms wird von dem Puffer 110 dem Parser 111 zugeführt.
  • Der Parser 111 ist gekoppelt und konfiguriert, PIM aus jedem Rahmen des codierten Eingangsaudios zu extrahieren, in dem solche Metadaten enthalten sind, um Audiodaten aus dem codierten Eingangsaudio zu extrahieren, und um die Audiodaten dem Decodierer 101 zuzuführen. Der Decodierer 101 des Codierers 100 ist konfiguriert, die Audiodaten zu decodieren, um decodierte Audiodaten zu erzeugen, und um die decodierten Audiodaten der Lautheits-Verarbeitungsstufe 103, der Audiostrom-Auswahlstufe 104, dem Teilsystem 108 und typischerweise auch dem Zustandsvalidierer 102 zuzuführen.
  • Der Zustandsvalidierer 102 ist konfiguriert, die ihm zugeführten Metadaten zu authentifizieren und zu validieren. In einigen Ausführungsbeispielen sind die Metadaten ein Datenblock (oder sind darin enthalten), der in dem Eingangsbitstrom aufgenommen wurde (zum Beispiel in Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung). Der Block kann einen kryptographischen Hash (einen Hash-basierten Nachrichtenauthentifizierungscode (HMAC – Hash-Based Message Authentication Code)) zum Verarbeiten der Metadaten und/oder der zugrundeliegenden Audiodaten (vorgesehen von dem Decodierer 101 an den Validierer 102) aufweisen. Der Datenblock kann in diesen Ausführungsbeispielen digital signiert sein, so dass eine stromabwärtige Audioverarbeitungseinheit relativ einfach die Verarbeitungszustands-Metadaten authentifizieren und validieren kann.
  • Der Zustandsvalidierer 102 führt Steuerungsdaten an die Audiostrom-Auswahlstufe 104, den Metadaten-Generator 106 und das Dialoglautheitsmessungs-Teilsystem 108 zu, um die Ergebnisse der Validierungsoperation anzuzeigen. In Reaktion auf die Steuerungsdaten kann die Stufe 104 entweder die adaptiv verarbeitete Ausgabe der Lautheits-Verarbeitungsstufe 103 oder die Audiodaten, die von dem Decodierer 101 ausgegeben werden, auswählen (und weiter an den Codierer 105 leiten).
  • Die Stufe 103 des Codierers 100 ist konfiguriert, eine adaptive Lautheits-Verarbeitung auf den decodierten Audiodaten durchzuführen, die von dem Decodierer 101 ausgegeben werden, basierend auf einer oder mehreren Audiodaten-Charakteristik(en), die durch die Metadaten angegeben werden, extrahiert durch den Decodierer 101. Die Stufe 103 kann ein adaptiver Transformations-Domäne-Echtzeit-Lautheits- und Dynamikregelungs-Prozessor sein. Die Stufe 103 kann eine Benutzereingabe (zum Beispiel Benutzer-Ziel-Lautheit/Dynamikregelungswerte oder „dialnorm”-Werte) oder eine andere Metadaten-Eingabe (zum Beispiel ein oder mehrere Typ(en) von Daten Dritter, Verfolgungsinformation, Identifizierern, proprietäre oder Standard-Information, Benutzeranmerkungsdaten, Benutzerpräferenzdaten etc.) und/oder eine andere Eingabe (zum Beispiel von einem Fingerabdruck-Verfahren) empfangen und eine derartige Eingabe verwenden, um die decodierten Audiodaten zu verarbeiten, die von dem Decodierer 101 ausgegeben werden. Die Stufe 103 kann eine adaptive Lautheits-Verarbeitung auf decodierten Audiodaten (von dem Decodierer 101 ausgegeben) durchführen, die für ein einzelnes Audioprogramm indikativ sind, und kann die Lautheits-Verarbeitung zurücksetzen in Reaktion auf ein Empfangen von decodierten Audiodaten (von dem Decodierer 101 ausgegeben), die für ein anderes Audioprogramm indikativ sind.
  • Das Dialoglautheitsmessungs-Teilsystem 108 kann arbeiten, um eine Lautheit von Segmenten des decodierten Audios (von dem Decodierer 101) zu bestimmen, die für einen Dialog (oder andere Sprache) indikativ sind, zum Beispiel unter Verwendung von Metadaten, die durch den Decodierer 101 extrahiert werden, wenn die Steuerungsbits von dem Validierer 102 anzeigen, dass die Metadaten ungültig sind. Ein Betrieb des Dialoglautheitsmessung-Teilsystems 108 kann deaktiviert werden, wenn die Metadaten eine zuvor bestimmte Lautheit von Dialog(oder andere Sprach)-Segmenten des decodierten Audios (von dem Decodierer 101) anzeigen, wenn die Steuerungsbits von dem Validierer 102 anzeigen, dass die Metadaten gültig sind. Das Teilsystem 108 kann eine Lautheitsmessung auf decodierten Audiodaten durchführen, die für ein einzelnes Audioprogramm indikativ sind, und kann die Messung in Reaktion auf ein Empfangen von decodierten Audiodaten zurücksetzen, die für ein anderes Audioprogramm indikativ sind.
  • Nützliche Werkzeuge (zum Beispiel der „Dolby LM100”-Lautheitsmesser) zum bequemen und einfachen Messen des Pegels eines Dialogs in einem Audioinhalt sind vorhanden. Einige Ausführungsbeispiele der erfindungsgemäßen APU (zum Beispiel die Stufe 108 des Codierers 100) sind implementiert, um ein derartiges Werkzeug zu umfassen (oder dessen Funktionen durchzuführen), um die mittlere Dialoglautheit von Audioinhalt eines Audiobitstroms (zum Beispiel eines decodierten AC-3-Bitstroms, der an die Stufe 108 von dem Decodierer 101 des Codierers 100 zugeführt wird) zu messen.
  • Wenn die Stufe 108 implementiert wird, um die wahre mittlere Dialoglautheit von Audiodaten zu messen, kann die Messung einen Schritt eines Isolierens von Segmenten des Audioinhalts umfassen, die vorwiegend Sprache enthalten. Die Audio-Segmente, die überwiegend Sprache sind, werden dann in Übereinstimmung mit einem Lautheitsmessungsalgorithmus verarbeitet. Für Audiodaten, die aus einem AC-3-Bitstrom decodiert werden, kann dieser Algorithmus ein standardmäßiges K-gewichtetes Lautheitsmaß sein (in Übereinstimmung mit dem internationalen Standard ITU-R BS.1770). Alternativ können andere Lautheitsmaße verwendet werden (zum Beispiel solche, die auf psychoakustischen Modellen von Lautheit basieren).
  • Der Metadaten-Generator 106 erzeugt Metadaten (und/oder leitet an die Stufe 107), die durch die Stufe 107 in den codierten Bitstrom aufzunehmen sind, der von dem Codierer 100 auszugeben ist. Der Metadaten-Generator 106 kann an die Stufe 107 die Metadaten (und optional auch PIM) leiten, die durch den Codierer 101 und/oder den Parser 11 extrahiert werden (zum Beispiel, wenn Steuerungsbits von dem Validierer 102 anzeigen, dass die Metadaten gültig sind), oder neue PIM und/oder andere Metadaten erzeugen und die neuen Metadaten an die Stufe 107 zuführen (zum Beispiel, wenn Steuerungsbits von dem Validierer 102 anzeigen, dass die Metadaten, die durch den Decodierer 101 extrahiert werden, ungültig sind), oder er kann an die Stufe 107 eine Kombination von Metadaten, die von dem Decodierer 101 und/oder dem Parser 111 extrahiert werden, und neu erzeugten Metadaten zuführen. Der Metadaten-Generator 106 kann Lautheit-Daten, die von dem Teilsystem 108 erzeugt werden, und zumindest einen Wert aufnehmen, der den Typ einer Lautheits-Verarbeitung anzeigt, die durch das Teilsystem 108 durchgeführt wird.
  • Der Metadaten-Generator 106 kann Schutzbits erzeugen (die aus einem Hash-basierten Nachrichtenauthentifizierungscode (HMAC – Hash-Based Message Authentication Code) bestehen können oder diesen umfassen können), die nützlich sind für zumindest eines aus einer Entschlüsselung, Authentifizierung oder Validierung der Metadaten, die in den codierten Bitstrom und/oder die zugrundeliegenden Audiodaten, die in den codierten Bitstrom aufzunehmen sind, aufzunehmen sind. Der Metadaten-Generator 106 kann derartige Schutzbits an die Stufe 107 liefern zur Aufnahme in den codierten Bitstrom.
  • In einem typischen Betrieb verarbeitet das Dialoglautheitsmessung-Teilsystem 108 die Audiodaten, die von dem Decodierer 101 ausgegeben werden, um in Reaktion darauf Lautheitswerte (zum Beispiel Gate-gesteuerte und nicht-Gate-gesteuerte Dialoglautheitswerte) und Dynamikregelungswerte zu erzeugen. In Reaktion auf diese Werte kann der Metadaten-Generator 106 Lautheits-Verarbeitungszustands-Metadaten zur Aufnahme (durch den Füller/Formatierer 107) in den codierten Bitstrom zur Ausgabe von dem Codierer 100 erzeugen.
  • Der Codierer 105 codiert (zum Beispiel durch Durchführen einer Komprimierung) die Audiodaten, die von der Auswahlstufe 104 ausgegeben werden, und führt das codierte Audio der Stufe 107 zu für eine Aufnahme in den codierten Bitstrom zur Ausgabe von der Stufe 107.
  • Die Stufe 107 multiplext das codierte Audio von dem Codierer 105 und die Metadaten (einschließlich PIM) von dem Generator 106, um den codierten Bitstrom zur Ausgabe von der Stufe 107 zu erzeugen, vorzugsweise derart, dass der codierte Bitstrom ein Format hat, das durch ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung spezifiziert wird.
  • Der Rahmenpuffer 109 ist ein Pufferspeicher, der zumindest einen Rahmen des codierten Audiobitstroms speichert (zum Beispiel auf eine nicht-transitorische Weise), der von der Stufe 107 ausgegeben wird, und eine Sequenz der Rahmen des codierten Audiobitstroms wird dann von dem Puffer 109 als Ausgabe von dem Codierer 100 an das Liefersystem 150 zugeführt.
  • In einigen Implementierungen des Codierers 100 ist der codierte Bitstrom, der in dem Speicher 109 zwischengespeichert ist (und an das Liefersystem 150 ausgegeben wird), ein AC-3-Bitstrom oder ein E-AC-3-Bitstrom und weist Audiodaten-Segmente (zum Beispiel die AB0–AB5-Segmente des Rahmens, der in 4 gezeigt wird) und Metadaten-Segmenten auf, wobei die Audiodaten-Segmente indikativ sind für Audiodaten, und jedes von zumindest einigen der Metadaten-Segmente PIM (und optional auch andere Metadaten) umfasst. Die Stufe 107 fügt Metadaten-Segmente (einschließlich Metadaten) in den Bitstrom in dem folgenden Format ein. Jedes der Metadaten-Segmente, das PIM umfasst, ist in einem Ausschuss-Bit-Segment des Bitstroms (auch als „Auslassen-Feld” bezeichnet) (zum Beispiel ein Ausschuss-Bit-Segment „W” wie in 4 oder 7 gezeigt), oder ein „addbsi”-Feld des Bitstrom-Information(„BSI”)-Segments eines Rahmens des Bitstroms oder in einem auxdata-Feld (zum Beispiel das AUX-Segment, das in 4 oder 7 gezeigt wird) an dem Ende eines Rahmens des Bitstroms enthalten. Ein Rahmen des Bitstroms kann ein oder zwei Metadaten-Segment(e) umfassen, von denen jedes Metadaten umfasst, und wenn der Rahmen zwei Metadaten-Segmente umfasst, kann eines in dem addbsi-Feld des Rahmens und das andere in dem AUX-Feld des Rahmens vorhanden sein.
  • In einigen Ausführungsbeispielen hat jedes Metadaten-Segment (hier manchmal als ein „Container” bezeichnet), das von der Stufe 107 eingefügt wird, ein Format, das einen Metadaten-Segment-Header (und optional auch andere obligatorische oder „Kern”-Elemente) und eine oder mehrere Metadaten-Nutzlast(en) nachfolgend auf den Metadaten-Segment-Header umfasst. PIM, wenn vorhanden, sind in einer ersten der Metadaten-Nutzlasten enthalten (durch einen Nutzlast-Header identifiziert und typischerweise mit einem Format eines ersten Typs). Ähnlich ist jeder andere Typ von Metadaten (wenn vorhanden) in einer anderen der Metadaten-Nutzlasten enthalten (durch einen Nutzlast-Header identifiziert und typischerweise mit einem Format, das spezifisch ist für den Typ von Metadaten). Das beispielhafte Format ermöglicht einen bequemen Zugriff auf die PIM und andere Metadaten zu anderen Zeitpunkten als während einer Decodierung (zum Beispiel durch einen Postprozessor nach einer Decodierung oder durch einen Prozessor, der konfiguriert ist zum Erkennen der Metadaten, ohne eine vollständige Decodierung des codierten Bitstroms durchzuführen), und ermöglicht eine bequeme und effiziente Fehlererfassung und -korrektur (zum Beispiel eine Teilstromidentifikation) während einer Decodierung des Bitstroms. Eine Metadaten-Nutzlast in einem Metadaten-Segment kann PIM umfassen, eine andere Metadaten-Nutzlast in dem Metadaten-Segment kann einen zweiten Typ von Metadaten umfassen, und optional auch zumindest eine andere Metadaten-Nutzlast in dem Metadaten-Segment kann andere Metadaten umfassen (zum Beispiel Lautheits-Verarbeitungszustands-Metadaten oder „LPSM (loudness processing state metadata)”).
  • In einigen Ausführungsbeispielen hat eine Programminformations-Metadaten(PIM – program information metadaten)-Nutzlast, die in einem Rahmen eines codierten Bitstroms (zum Beispiel ein AC-3-Bitstrom, der für zumindest ein Audioprogramm indikativ ist) aufgenommen ist (durch Stufe 107), das folgende Format:
    einen Nutzlast-Header, der typischerweise zumindest einen Identifikationswert (zum Beispiel einen Wert, der indikativ ist für eine PIM-Format-Version und optional auch Länge-, Zeitdauer-, Anzahl- und Teilstrom-Assoziations-Werte); und
    nach dem Header, PIM in dem folgenden Format:
    Aktivkanal-Metadaten, die indikativ sind für jeden stillen Kanal und jeden nicht-stillen Kanal eines Audioprogramms (d. h. welche(r) Kanal/Kanäle des Programms Audioinformation enthält/enthalten, und welche(r) (wenn überhaupt) nur Stille enthält/enthalten (typischerweise für die Dauer des Rahmens)). In Ausführungsbeispielen, in denen der codierte Bitstrom ein AC-3- oder E-AC-3-Bitstrom ist, können die Aktivkanal-Metadaten in einem Rahmen des Bitstroms in Verbindung mit zusätzlichen Metadaten des Bitstroms verwendet werden (zum Beispiel das Audiocodier-Modus(„acmod”)-Feld des Rahmens, und, wenn vorhanden, das chanmap-Feld in dem Rahmen oder assoziierten abhängigen Teilstrom-Rahmen), um zu bestimmen, welche(r) Kanal/Kanäle des Programms Audioinformation enthält/enthalten und welche(r) Stille enthält/enthalten. Das „acmod”-Feld eines AC-3- oder E-AC-3-Rahmens gibt die Anzahl von Vollbereichs-Kanälen eines Audioprogramms an, angegeben durch Audioinhalt des Rahmens (zum Beispiel, ob das Programm ein 1.0-Kanal monophones Programm, ein 2.0-Kanal-Stereo-Programm oder ein Programm ist, das L, R, C, Ls, Rs Vollbereichs-Kanäle aufweist), oder dass der Rahmen für zwei unabhängige 1.0-Kanal monophone Programme indikativ ist. Ein „chanmap”-Feld eines E-AC-3-Bitstroms gibt eine Kanal-Zuordnung für einen abhängigen Teilstrom an, angegeben von dem Bitstrom. Aktivkanal-Metadaten können nützlich sein zum Implementieren eines Aufwärtsmischens (upmixing) (in einem Postprozessor) stromabwärts eines Decodierers, um zum Beispiel Audio zu Kanälen, die Stille enthalten, an dem Ausgang des Decodierers hinzuzufügen;
    Abwärtsmischen- bzw. Downmix-Verarbeitungszustands-Metadaten, die angegeben, ob das Programm abwärtsgemischt wurde (vor oder während einer Codierung), und wenn ja, den Typ eines Abwärtsmischen, der angewendet wurde. Abwärtsmischen-Verarbeitungszustands-Metadaten können nützlich sein zum Implementieren eines Aufwärtsmischens (in einem Postprozessor) stromabwärts eines Decodierers, um zum Beispiel den Audioinhalt des Programms unter Verwendung von Parametern aufwärts zu mischen, die am ehesten einem Typ eines Abwärtsmischens entsprechen, der angewendet wurde. In Ausführungsbeispielen, in denen der codierte Bitstrom ein AC-3- oder E-AC-3-Bitstrom ist, können die Abwärtsmischen-Verarbeitungszustands-Metadaten in Verbindung mit dem Audiocodiermodus(„acmod”)-Feld des Rahmens verwendet werden, um den Typ des Abwärtsmischens zu bestimmen (wenn vorhanden), der auf den Kanal/die Kanäle des Programms angewendet wird;
    Aufwärtsmischen- bzw. Upmix-Verarbeitungszustands-Metadaten, die angeben, ob das Programm aufwärtsgemischt wurde (zum Beispiel aus einer kleineren Anzahl von Kanälen) vor oder während einer Codierung, und wenn ja, den Typ des Aufwärtsmischens, der angewendet wurde. Aufwärtsmischen-Verarbeitungszustands-Metadaten können nützlich sein zum Implementieren eines Abwärtsmischens (in einem Postprozessor) stromabwärts eines Decodierers, um zum Beispiel den Audioinhalt des Programms auf eine Weise abwärtszumischen, die mit einem Typ eines Aufwärtsmischens kompatibel ist (zum Beispiel Dolby Pro Logic, oder Dolby Pro Logic II Movie Modus oder Dolby Pro Logic II Music Modus oder Dolby Professionelle Upmixer), der auf das Programm angewendet wurde. In Ausführungsbeispielen, in denen der codierte Bitstrom ein E-AC-3-Bitstrom ist, können die Aufwärtsmischen-Verarbeitungszustands-Metadaten in Verbindung mit anderen Metadaten verwendet werden (zum Beispiel der Wert einer „strmtyp”-Feld des Rahmens), um den Typ eines Aufwärtsmischens zu bestimmen (wenn vorhanden), der auf den Kanal/die Kanäle des Programms angewendet wird. Der Wert des „strmtyp”-Felds (in dem BSI-Segment eines Rahmens eines E-AC-3-Bitstroms) gibt an, ob ein Audioinhalt des Rahmens zu einem unabhängigen Strom (der ein Programm bestimmt) oder einem unabhängigen Teilstrom (eines Programms, das mehrere Teilströme enthält oder mit diesen assoziiert ist) gehört, und kann somit unabhängig von jedem anderen Teilstrom decodiert werden, der durch den E-AC-3-Bitstrom angegeben wird, oder ob Audioinhalt des Rahmens zu einem abhängigen Teilstrom (eines Programms, das mehrere Teilströme enthält oder mit diesen assoziiert ist) gehört und somit in Verbindung mit einem unabhängigen Teilstrom decodiert werden muss, mit dem er assoziiert ist; und
    Vorverarbeitungszustands-Metadaten, die angeben, ob eine Vorverarbeitung auf Audioinhalt des Rahmens durchgeführt wurde (vor einem Codieren des Audioinhalts, um den codierten Bitstrom zu erzeugen), und wenn ja, den Typ der Vorverarbeitung, die durchgeführt wurde.
  • In einigen Implementierungen sind die Vorverarbeitungszustands-Metadaten indikativ für:
    ob eine Surround-Dämpfung angewendet wurde (zum Beispiel, ob Surround-Kanäle des Audioprogramms um 3 dB vor einem Codieren gedämpft wurden),
    ob eine 90°-Phasenverschiebung angewendet wurde (zum Beispiel auf die Surround-Kanäle Ls- und Rs-Kanäle des Audioprogramms vor einem Codieren),
    ob ein Tiefpaßfilter auf einen LFE-Kanal des Audioprogramms vor einem Codieren angewendet wurde,
    ob ein Pegel eines LFE-Kanals des Programms während der Produktion überwacht wurde und wenn ja, der überwachte Pegel des LFE-Kanals relativ zu einem Pegel der Vollbereichs-Audiokanäle des Programms,
    ob eine Dynamikbereichskomprimierung durchgeführt werden soll (zum Beispiel in dem Decodierer) auf jedem Block des decodierten Audioinhalts des Programms, und wenn ja, der Typ (und/oder Parameter) einer durchzuführenden Dynamikbereichskomprimierung (zum Beispiel kann dieser Typ von Vorverarbeitungszustands-Metadaten angeben, welcher der folgenden Komprimierungsprofiltypen durch den Codierer angenommen wurde, um Dynamikbereichskomprimierungs-Steuerwerte zu erzeugen, die in dem codierten Bitstrom enthalten sind: Film Standard, Film schwach, Musik Standard, Musik schwach, oder Sprache. Alternativ kann dieser Typ von Vorverarbeitungszustands-Metadaten angeben, dass eine starke Dynamikbereichskomprimierung („compr” Komprimierung) auf jedem Rahmen von decodiertem Audioinhalt des Programms auf eine Weise durchgeführt werden soll, die durch Dynamikbereichskomprimierungs-Steuerwerte bestimmt wird, die in dem codierten Bitstrom enthalten sind),
    ob eine Spektralerweiterungsverarbeitung und/oder Kanalkopplungscodierung verwendet wurde, um spezifische Frequenzbereiche von Inhalt des Programms zu codieren und wenn ja, die minimalen und maximalen Frequenzen der Frequenzkomponenten des Inhalts, auf dem eine Spektralerweiterungscodierung durchgeführt wurde, und die minimalen und maximalen Frequenzen von Frequenzkomponenten des Inhalts, auf dem eine Kanalkopplungscodierung durchgeführt wurde. Dieser Typ einer Vorverarbeitungszustands-Metadaten-Information kann nützlich sein, um eine Entzerrung (in einem Postprozessor) stromabwärts eines Decodierers durchzuführen. Sowohl Kanalkopplung- als auch Spektralerweiterungs-Information sind ebenfalls nützlich zur Optimierung einer Qualität während Transcodier-Operationen und -Anwendungen. Zum Beispiel kann ein Codierer sein Verhalten optimieren (einschließlich der Anpassung von Vorverarbeitungsschritten, wie Kopfhörer-Virtualisierung, Aufwärtsmischen, usw.) basierend auf dem Zustand von Parametern, wie Spektralerweiterungs- und Kanalkopplungs-Information. Darüber hinaus kann der Codierer seine Kopplungs- und Spektralerweiterungs-Parameter dynamisch anpassen, um Werte anzupassen und/oder zu optimieren, basierend auf dem Zustand der eingehenden (und authentifizierten) Metadaten, und
    ob Dialog-Verbesserungs-Anpassungsbereichs-Daten in dem codierten Bitstrom enthalten sind, und wenn ja, der Anpassungsbereich, der verfügbar ist während einer Durchführung einer Dialog-Verbesserungs-Verarbeitung (zum Beispiel in einem Postprozessor stromabwärts eines Decodierers), um den Pegel eines Dialog-Inhalts relativ zu dem Pegel eines Nicht-Dialog-Inhalts in dem Audioprogramm anzupassen.
  • In einigen Implementierungen sind zusätzliche Vorverarbeitungszustands-Metadaten (zum Beispiel Metadaten, die Kopfhörer-bezogene Parameter angeben) in einer PIM-Nutzlast eines codierten Bitstroms (durch Stufe 107) enthalten zur Ausgabe von dem Codierer 100.
  • Jeder Metadaten-Nutzlast folgt die entsprechende Nutzlast-ID und Nutzlastkonfigurationswerte.
  • In einigen Ausführungsbeispielen hat jedes der Metadaten-Segmente in dem Ausschuss-Bit-/Auslassen-Feld-Segment (oder auxdata-Feld oder „addbsi”-Feld) eines Rahmens drei Strukturebenen:
    eine Struktur auf hoher Ebene (zum Beispiel ein Metadaten-Segment-Header), einschließlich eines Flags, das anzeigt, ob das Ausschuss-Bit(oder auxdata oder addbsi)-Feld Metadaten umfasst, zumindest einen ID-Wert, der anzeigt, welche(r) Typ(en) von Metadaten vorhanden ist/sind, und typischerweise auch einen Wert, der angibt, wie viele Bits von Metadaten (zum Beispiel von jedem Typ) vorhanden sind (wenn Metadaten vorhanden sind). Ein Typ von Metadaten, der vorhanden sein kann, ist PIM, und ein anderer Typ von Metadaten, der vorhanden sein kann, ist LSPM;
    eine Struktur einer mittleren Ebene, die Daten aufweist, die mit jedem identifizierten Typ von Metadaten assoziiert sind (zum Beispiel Metadaten-Nutzlast-Header, Schutzwerte und Nutzlast-ID und Nutzlastkonfigurationswerte für jeden identifizierten Typ von Metadaten); und
    eine Struktur einer unteren Ebene, die eine Metadaten-Nutzlast für jeden identifizierten Typ von Metadaten aufweist (zum Beispiel eine Sequenz von PIM-Werten, wenn PIM als vorhanden identifiziert wird, und/oder Metadaten-Werte eines anderen Typs (zum Beispiel LSPM), wenn dieser andere Typ von Metadaten als vorhanden identifiziert wird).
  • Die Datenwerte in einer derartigen Struktur mit drei Ebenen können verschachtelt sein. Zum Beispiel kann/können der/die Schutzwert(e) für jede Nutzlast (zum Beispiel jede PIM oder andere Metadaten-Nutzlast), identifiziert durch die Strukturen einer hohen und mittleren Ebene, nach der Nutzlast enthalten sein (und somit nach dem Metadaten-Nutzlast-Header der Nutzlast), oder der/die Schutzwert(e) für alle Metadaten-Nutzlasten, identifiziert durch die Strukturen einer hohen und mittleren Ebene, kann/können nach der letzten Metadaten-Nutzlast in dem Metadaten-Segment enthalten sein (und somit nach den Metadaten-Nutzlast-Headern aller Nutzlasten des Metadaten-Segments).
  • In einem Beispiel (das unter Bezugnahme auf das Metadaten-Segment oder „Container” von 8 beschrieben wird) identifiziert ein Metadaten-Segment-Header vier Metadaten-Nutzlasten. Wie in 8 gezeigt, weist der Metadaten-Segment-Header ein Container-Sync-Wort (als „Container sync” identifiziert) und Versions- und Schlüssel-ID-Werte auf. Auf den Metadaten-Segment-Header folgen die vier Metadaten-Nutzlasten und Schutzbits. Nutzlast-ID und Nutzlast-Konfigurations(zum Beispiel Nutzlastgröße)-Werte für die erste Nutzlast (zum Beispiel eine PIM-Nutzlast) folgen dem Metadaten-Segment Header, die erste Nutzlast selbst folgt auf die ID und Konfigurationswerte, Nutzlast-ID und Nutzlast-Konfigurations(zum Beispiel Nutzlastgröße)-Werte für die zweite Nutzlast (zum Beispiel eine PIM-Nutzlast) folgen auf die erste Nutzlast, die zweite Nutzlast selbst folgt auf diese ID und Konfigurationswerte, Nutzlast-ID und Nutzlast-Konfigurations(zum Beispiel Nutzlastgröße)-Werte für die dritte Nutzlast (zum Beispiel eine Lautheitsverarbeitungszustands-Metadaten-Nutzlast) folgen auf die zweite Nutzlast, die dritte Nutzlast selbst folgt auf diese ID und Konfigurationswerte, Nutzlast-ID und Nutzlast-Konfigurations(zum Beispiel Nutzlastgröße)-Werte für die vierte Nutzlast folgen auf die dritte Nutzlast, die vierte Nutzlast selbst folgt auf diese ID und Konfigurationswerte, und Schutzwert(e) (identifiziert als „Schutzdaten” in 8) für alle oder einen Teil der Nutzlasten (oder für die Struktur der hohen und mittleren Ebene und alle oder einige der Nutzlasten) folgen der letzten Nutzlast.
  • 3 ist ein Blockdiagramm eines Decodierers (200), der ein Ausführungsbeispiel der erfindungsgemäßen Audioverarbeitungseinheit ist, und eines Postprozessors (300), der damit gekoppelt ist. Der Postprozessor (300) ist auch ein Ausführungsbeispiel der erfindungsgemäßen Audioverarbeitungseinheit. Die Komponenten oder Elemente des Decodierers 200 und des Postprozessors 300 können als ein oder mehrere Prozess(e) und/oder eine oder mehrere Schaltung(en) (zum Beispiel ASICs, FPGAs oder andere integrierte Schaltungen), in Hardware, Software oder einer Kombination aus Hardware und Software implementiert werden. Der Decodierer 200 weist einen Rahmenpuffer 201, einen Parser 205, einen Audio-Decodierer 202, eine Audiozustands-Validierungsstufe (Validierer) 203 und eine Steuerungsbit-Erzeugungsstufe 204 auf, verbunden wie gezeigt. Typischerweise umfasst der Decodierer 200 auch andere Verarbeitungselemente (nicht gezeigt).
  • Der Rahmenpuffer 201 (ein Pufferspeicher) speichert (zum Beispiel auf eine nicht-transitorische Weise) zumindest einen Rahmen des codierten Audiobitstroms, der durch den Decodierer 200 empfangen wird. Eine Sequenz der Rahmen des codierten Audiobitstroms wird von dem Puffer 201 an den Parser 205 zugeführt.
  • Der Parser 205 ist gekoppelt und konfiguriert, um PIM (und optional auch andere Metadaten) aus jedem Rahmen des codierten Eingangsaudios zu extrahieren, um zumindest einige der Metadaten (zum Beispiel PIM) an den Audio-Zustandsvalidierer 203 und die Stufe 204 zuzuführen, die extrahierten Metadaten als Ausgabe (zum Beispiel an den Postprozessor 300) zuzuführen, um Audiodaten aus dem codierten Eingangsaudio zu extrahieren und um die extrahierten Audiodaten an den Decodierer 202 zuzuführen.
  • Der codierte Audiobitstrom, der in den Decodierer 200 eingegeben wird, kann einer aus einem AC-3-Bitstrom, einem E-AC-3-Bitstrom oder einem Dolby-E-Bitstrom sein.
  • Das System von 3 umfasst auch einen Postprozessor 300. Der Postprozessor 300 weist einen Rahmenpuffer 301 und andere Verarbeitungselemente (nicht gezeigt) auf, einschließlich zumindest eines Verarbeitungselements, das mit dem Puffer 301 gekoppelt ist. Der Rahmenpuffer 301 speichert (zum Beispiel auf eine nicht-transitorische Weise) zumindest einen Rahmen des decodierten Audiobitstroms, der durch den Postprozessor 300 von dem Decodierer 200 empfangen wird. Verarbeitungselemente des Postprozessors 300 sind gekoppelt und konfiguriert zum Empfangen und adaptiven Verarbeiten einer Sequenz der Rahmen des decodierten Audiobitstroms, der von dem Puffer 301 ausgegeben wird, unter Verwendung von Metadaten, die von dem Decodierer 200 ausgegeben werden, und/oder Steuerungsbits, die von der Stufe 204 des Decodierers 200 ausgegeben werden. Typischerweise ist der Postprozessor 300 konfiguriert, eine adaptive Verarbeitung auf den decodierten Audiodaten unter Verwendung von Metadaten von dem Decodierer 200 durchzuführen (zum Beispiel adaptive Lautheits-Verarbeitung auf den decodierten Audiodaten unter Verwendung von Metadaten-Werten, wobei die adaptive Verarbeitung basieren kann auf einem Lautheitsverarbeitungszustand und/oder einer oder mehreren Audiodaten-Charakteristik(en), angegeben durch Metadaten für Audiodaten, die indikativ sind für ein einzelnes Audioprogramm).
  • Verschiedene Implementierungen des Decodierers 200 und des Postprozessors 300 sind konfiguriert, um verschiedene Ausführungsbeispiele des erfindungsgemäßen Vorgehens durchzuführen.
  • In einigen Implementierungen des Decodierers 200 ist der empfangene (und in dem Speicher 201 gepufferte) codierte Bitstrom ein AC-3-Bitstrom oder ein E-AC-3-Bitstrom und weist Audiodaten-Segmente (zum Beispiel die AB0–AB5-Segmente des Rahmens, der in 4 gezeigt wird) und Metadaten-Segmente auf, wobei die Audiodaten-Segmente indikativ sind für Audiodaten, und jedes von zumindest einigen der Metadaten-Segmente PIM (oder andere Metadaten) umfasst. Die Decodierer-Stufe 202 (und/oder der Parser 205) ist konfiguriert, die Metadaten aus dem Bitstrom zu extrahieren. Jedes der Metadaten-Segmente, das PIM (und optional auch andere Metadaten) umfasst, ist in einem Ausschuss-Bit-Segment eines Rahmens des Bitstroms oder in einem „addbsi”-Feld des Bitstrom-Information(„BSI”)-Segments eines Rahmens des Bitstroms oder in einem auxdata-Feld (zum Beispiel das AUX-Segment, das in 4 gezeigt wird) an dem Ende eines Rahmens des Bitstroms enthalten. Ein Rahmen des Bitstroms kann ein oder zwei Metadaten-Segment(e) umfassen, von denen jedes Metadaten umfasst, und wenn der Rahmen zwei Metadaten-Segmente umfasst, kann eines in dem addbsi-Feld des Rahmens und das andere in dem AUX-Feld des Rahmens vorhanden sein.
  • Ausführungsbeispiele der vorliegenden Erfindung können in Hardware, Firmware oder Software oder einer Kombination aus beiden (zum Beispiel als ein programmierbares Logik-Array) implementiert sein. Zusätzlich können die hier beschriebenen Audioverarbeitungseinheiten Teil verschiedener Kommunikationsvorrichtungen, wie Fernseher, Mobiltelefone, Personalcomputer, Tablet-Computer, Laptops, Set-top-Boxen und/oder Video-Empfänger, sein und/oder mit diesen integriert sein. Sofern nicht anders angegeben, sind die Algorithmen oder Prozesse, die als Teil der Erfindung enthalten sind, nicht inhärent auf einen bestimmten Computer oder eine andere Vorrichtung bezogen. Insbesondere können verschiedene Universalmaschinen mit Programmen verwendet werden, die gemäß den Lehren hier geschrieben werden, oder es kann einfacher sein, eine stärker spezialisierte Vorrichtung (zum Beispiel integrierte Schaltungen) zu konstruieren, um die erforderlichen Vorgänge durchzuführen. Somit kann die Erfindung in einem oder mehreren Computerprogramm(en) implementiert werden, das/die auf einem oder mehreren programmierbaren Computersystem(en) ausgeführt wird/werden (zum Beispiel eine Implementierung eines der Elemente von 1 oder der Codierer 100 von 2 (oder ein Element davon), oder der Decodierer 200 von 3 (oder ein Element davon), oder der Postprozessor 300 von 3 (oder ein Element davon)), die jeweils zumindest einen Prozessor, zumindest ein Datenspeichersystem (einschließlich flüchtiger und nicht-flüchtiger Speicher und/oder Speicherelemente), zumindest eine Eingabevorrichtung oder -anschluss, und zumindest eine Ausgabevorrichtung oder -anschluss aufweisen. Der Programmcode wird auf Eingangsdaten angewendet, um die hier beschriebenen Funktionen durchzuführen und eine Ausgabeinformation zu erzeugen. Die Ausgabeinformation wird auf eine oder mehrere Ausgabevorrichtung(en) auf bekannte Weise angewendet.
  • Jedes derartige Programm kann in jeder gewünschten Computersprache (einschließlich Maschinen-, Assembler- oder höhere prozedurale, logische oder objektorientierte Programmiersprachen) implementiert werden, um mit einem Computersystem zu kommunizieren. In jedem Fall kann die Sprache eine kompilierte oder interpretierte Sprache sein.
  • Zum Beispiel, wenn durch Computersoftware-Anweisungssequenzen implementiert, können verschiedene Funktionen und Schritte von Ausführungsbeispielen der Erfindung durch Multithread-Software-Anweisungssequenzen implementiert werden, die in geeigneter digitaler Signalverarbeitungs-Hardware laufen, in diesem Fall können die verschiedenen Vorrichtungen, Schritte und Funktionen der Ausführungsbeispiele Teilen der Software-Anweisungen entsprechen.
  • Jedes derartige Computerprogramm ist vorzugsweise auf einem Speichermedium oder einer Speichervorrichtung (zum Beispiel Festspeicher oder -Media oder magnetische oder optische Media) gespeichert oder auf diese heruntergeladen, die durch einen allgemeinen oder programmierbaren Spezial-Computer lesbar sind, zum Konfigurieren und Betreiben des Computers, wenn das Speichermedium oder die Speichervorrichtung durch das Computersystem gelesen wird, um die hier beschriebenen Vorgehensweisen durchzuführen. Das erfindungsgemäße System kann auch als ein computerlesbares Speichermedium implementiert sein, das mit einem Computerprogramm konfiguriert ist (d. h. Speichern), wobei das derart konfigurierte Speichermedium ein Computersystem veranlasst, auf eine spezifische und vordefinierte Weise zu arbeiten, um die hier beschriebenen Funktionen durchzuführen.
  • Eine Anzahl von Ausführungsbeispielen der Erfindung wurden beschrieben. Dennoch ist offensichtlich, dass verschiedene Modifikationen durchgeführt werden können, ohne von dem Gedanken und dem Umfang der Erfindung abzuweichen. Zahlreiche Modifikationen und Variationen der vorliegenden Erfindung sind angesichts der obigen Lehren möglich. Es ist offensichtlich, dass in dem Umfang der beigefügten Ansprüche die Erfindung anders praktiziert werden kann, als spezifisch hier beschrieben wurde.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • internationalen Standard ITU-R BS.1770 [0050]

Claims (20)

  1. Eine elektrische Vorrichtung, die aufweist: eine Schnittstelle zum Empfangen eines Rahmens von codiertem Audio, wobei der Rahmen Programminformations-Metadaten, die sich in einem Auslassen-Feld des Rahmens befinden, und codierte Audiodaten aufweist, die sich außerhalb des Auslassen-Felds befinden; einen Puffer, der mit der Schnittstelle gekoppelt ist, zum temporären Speichern des Rahmens; einen Parser, der mit dem Puffer gekoppelt ist, zum Extrahieren der codierten Audiodaten aus dem Rahmen; und einen AC-3-Audio-Decodierer, der mit dem Parser gekoppelt oder mit diesem integriert ist, zum Erzeugen von decodiertem Audio aus den codierten Audiodaten.
  2. Die elektrische Vorrichtung gemäß Anspruch 1, wobei die Programminformations-Metadaten eine Nutzlast von Metadaten aufweisen, und die Nutzlast einen Header umfasst und nach dem Header zumindest einige der Programminformations-Metadaten.
  3. Die elektrische Vorrichtung gemäß Anspruch 1, wobei das codierte Audio indikativ ist für ein Audioprogramm und die Programminformations-Metadaten indikativ sind für zumindest eine Eigenschaft oder Charakteristik von Audioinhalt des Audioprogramms.
  4. Die elektrische Vorrichtung gemäß Anspruch 3, wobei die Programminformations-Metadaten Aktivkanal-Metadaten umfassen, die indikativ sind für jeden Nicht-Stille-Kanal und jeden Stille-Kanal des Audioprogramms.
  5. Die elektrische Vorrichtung gemäß Anspruch 3, wobei die Programminformations-Metadaten Abwärtsmischen-Verarbeitungszustands-Metadaten umfassen, die indikativ sind dafür, ob das Audioprogramm abwärts gemischt wurde, und wenn ja, für einen Typ eines Abwärtsmischens, der auf das Audioprogramm angewendet wurde.
  6. Die elektrische Vorrichtung gemäß Anspruch 3, wobei die Programminformations-Metadaten Aufwärtsmischen-Verarbeitungszustands-Metadaten umfassen, die indikativ sind dafür, ob das Audioprogramm aufwärts gemischt wurde, und wenn ja, für einen Typ eines Aufwärtsmischens, der auf das Audioprogramm angewendet wurde.
  7. Die elektrische Vorrichtung gemäß Anspruch 3, wobei die Programminformations-Metadaten Vorverarbeitungszustands-Metadaten umfassen, die indikativ sind dafür, ob eine Vorverarbeitung auf Audioinhalt des Rahmens durchgeführt wurde, und wenn ja, für einen Typ einer Vorverarbeitung, die auf dem Audioinhalt durchgeführt wurde.
  8. Die elektrische Vorrichtung gemäß Anspruch 3, wobei die Programminformations-Metadaten Spektralerweiterungsverabeitungs- oder Kanalkopplungs-Metadaten umfassen, die indikativ sind dafür, ob eine Spektralerweiterungsverabeitung oder Kanalkopplung auf das Audioprogramm angewendet wurde, und wenn ja, für einen Frequenzbereich, auf den die Spektralerweiterung oder Kanalkopplung angewendet wurde.
  9. Die elektrische Vorrichtung gemäß Anspruch 1, wobei das codierte Audio ein AC-3-Bitstrom ist.
  10. Die elektrische Vorrichtung gemäß Anspruch 1, die weiter einen Postprozessor aufweist, der mit dem AC-3-Decodierer gekoppelt ist, wobei der Postprozessor konfiguriert ist zum Durchführen einer adaptiven Verarbeitung auf dem decodiertem Audio.
  11. Eine Audioverarbeitungsvorrichtung, die aufweist: einen Eingangspufferspeicher zum Speichern zumindest eines Rahmens eines codierten Audiobitstroms, der Programminformations-Metadaten und Audiodaten aufweist; einen Parser, der mit dem Eingangspufferspeicher gekoppelt ist, zum Extrahieren der Audiodaten und/oder der Programminformations-Metadaten; einen AC-3- oder E-AC-3-Decodierer, der mit dem Parser gekoppelt oder mit diesem integriert ist, zum Erzeugen von decodierten Audiodaten; und einen Ausgangspufferspeicher, der mit dem Decodierer gekoppelt ist, zum Speichern der decodierten Audiodaten.
  12. Die Audioverarbeitungsvorrichtung gemäß Anspruch 11, wobei die Programminformations-Metadaten eine Nutzlast von Metadaten aufweisen, und die Nutzlast einen Header umfasst und nach dem Header zumindest einige der Programminformations-Metadaten.
  13. Die Audioverarbeitungsvorrichtung gemäß Anspruch 12, wobei der codierte Audiobitstrom indikativ ist für ein Audioprogramm und die Programminformations-Metadaten indikativ sind für zumindest eine Eigenschaft oder Charakteristik von Audioinhalt des Audioprogramms.
  14. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei die Programminformations-Metadaten Aktivkanal-Metadaten umfassen, die indikativ sind für jeden Nicht-Stille-Kanal und jeden Stille-Kanal des Audioprogramms.
  15. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei die Programminformations-Metadaten Abwärtsmischen-Verarbeitungszustands-Metadaten umfassen, die indikativ sind dafür, ob das Audioprogramm abwärts gemischt wurde, und wenn ja, für einen Typ eines Abwärtsmischens, der auf das Audioprogramm angewendet wurde.
  16. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei die Programminformations-Metadaten Aufwärtsmischen-Verarbeitungszustands-Metadaten umfassen, die indikativ sind dafür, ob das Audioprogramm aufwärts gemischt wurde, und wenn ja, für einen Typ eines Aufwärtsmischens, der auf das Audioprogramm angewendet wurde.
  17. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei die Programminformations-Metadaten Vorverarbeitungszustands-Metadaten umfassen, die indikativ sind dafür, ob eine Vorverarbeitung auf Audioinhalt des Rahmens durchgeführt wurde, und wenn ja, für einen Typ einer Vorverarbeitung, die auf dem Audioinhalt durchgeführt wurde.
  18. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei die Programminformations-Metadaten Spektralerweiterungsverabeitungs- oder Kanalkopplungs-Metadaten umfassen, die indikativ sind dafür, ob eine Spektralerweiterungsverabeitung oder Kanalkopplung auf das Audioprogramm angewendet wurde, und wenn ja, für einen Frequenzbereich, auf den die Spektralerweiterung oder Kanalkopplung angewendet wurde.
  19. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei der codierte Audio-Bitstrom ein AC-3-Bitstrom ist.
  20. Die Audioverarbeitungsvorrichtung gemäß Anspruch 13, wobei die Audioverarbeitungsvorrichtung eine Kommunikationsvorrichtung ist, die aus der Gruppe ausgewählt ist, die aus einem Fernseher, einem Mobiltelefon, einem Personalcomputer, einem Tablet-Computer, einem Laptop, einer Set-top-Box und einem Audio/Video-Empfänger besteht.
DE202013006242U 2013-06-19 2013-07-10 Audio-Decodierer mit Programminformations-Metadaten Expired - Lifetime DE202013006242U1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361836865P 2013-06-19 2013-06-19
US61/836,865 2013-06-19

Publications (1)

Publication Number Publication Date
DE202013006242U1 true DE202013006242U1 (de) 2013-08-01

Family

ID=49112574

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202013006242U Expired - Lifetime DE202013006242U1 (de) 2013-06-19 2013-07-10 Audio-Decodierer mit Programminformations-Metadaten

Country Status (24)

Country Link
US (7) US10037763B2 (de)
EP (3) EP3680900A1 (de)
JP (8) JP3186472U (de)
KR (7) KR200478147Y1 (de)
CN (10) CN110600043A (de)
AU (1) AU2014281794B9 (de)
BR (6) BR122017011368B1 (de)
CA (1) CA2898891C (de)
CL (1) CL2015002234A1 (de)
DE (1) DE202013006242U1 (de)
ES (2) ES2777474T3 (de)
FR (1) FR3007564B3 (de)
HK (3) HK1204135A1 (de)
IL (1) IL239687A (de)
IN (1) IN2015MN01765A (de)
MX (5) MX2021012890A (de)
MY (2) MY192322A (de)
PL (1) PL2954515T3 (de)
RU (4) RU2619536C1 (de)
SG (3) SG10201604617VA (de)
TR (1) TR201808580T4 (de)
TW (11) TWM487509U (de)
UA (1) UA111927C2 (de)
WO (1) WO2014204783A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185401A (zh) * 2014-10-10 2021-01-05 杜比实验室特许公司 基于发送无关的表示的节目响度
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9621963B2 (en) 2014-01-28 2017-04-11 Dolby Laboratories Licensing Corporation Enabling delivery and synchronization of auxiliary content associated with multimedia data using essence-and-version identifier
PL3123469T3 (pl) * 2014-03-25 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie kodera audio i urządzenie dekodera audio z wydajnym kodowaniem wzmocnienia w sterowaniu zakresem dynamiki
WO2016009944A1 (ja) * 2014-07-18 2016-01-21 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10878828B2 (en) * 2014-09-12 2020-12-29 Sony Corporation Transmission device, transmission method, reception device, and reception method
JP6809221B2 (ja) * 2014-09-12 2021-01-06 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN113257273A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
JP6812517B2 (ja) * 2014-10-03 2021-01-13 ドルビー・インターナショナル・アーベー パーソナル化されたオーディオへのスマート・アクセス
CN110364190B (zh) * 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
CN105765943B (zh) 2014-10-20 2019-08-23 Lg 电子株式会社 发送广播信号的装置、接收广播信号的装置、发送广播信号的方法和接收广播信号的方法
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US10271094B2 (en) 2015-02-13 2019-04-23 Samsung Electronics Co., Ltd. Method and device for transmitting/receiving media data
WO2016129976A1 (ko) * 2015-02-14 2016-08-18 삼성전자 주식회사 시스템 데이터를 포함하는 오디오 비트스트림을 디코딩하는 방법 및 장치
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN107533846B (zh) * 2015-04-24 2022-09-16 索尼公司 发送装置、发送方法、接收装置与接收方法
PL3311379T3 (pl) * 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US10140822B2 (en) 2015-08-05 2018-11-27 Dolby Laboratories Licensing Corporation Low bit rate parametric encoding and transport of haptic-tactile signals
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CN105468711A (zh) * 2015-11-19 2016-04-06 中央电视台 一种音频处理方法及装置
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
CN105828272A (zh) * 2016-04-28 2016-08-03 乐视控股(北京)有限公司 音频信号处理方法和装置
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
CA3049729C (en) 2017-01-10 2023-09-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, method for providing a decoded audio signal, method for providing an encoded audio signal, audio stream, audio stream provider and computer program using a stream identifier
US10878879B2 (en) * 2017-06-21 2020-12-29 Mediatek Inc. Refresh control method for memory system to perform refresh action on all memory banks of the memory system within refresh window
JP7274492B2 (ja) 2018-02-22 2023-05-16 ドルビー・インターナショナル・アーベー パケット化メディアストリームのサイドロード処理のための方法、機器、およびシステム
CN108616313A (zh) * 2018-04-09 2018-10-02 电子科技大学 一种基于超声波的旁路信息安全隐蔽传送方法
US10937434B2 (en) * 2018-05-17 2021-03-02 Mediatek Inc. Audio output monitoring for failure detection of warning sound playback
SG11202012937WA (en) 2018-06-26 2021-01-28 Huawei Tech Co Ltd High-level syntax designs for point cloud coding
US11430463B2 (en) * 2018-07-12 2022-08-30 Dolby Laboratories Licensing Corporation Dynamic EQ
CN109284080B (zh) * 2018-09-04 2021-01-05 Oppo广东移动通信有限公司 音效调整方法、装置、电子设备以及存储介质
CN113168839B (zh) * 2018-12-13 2024-01-23 杜比实验室特许公司 双端媒体智能
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
EP4014506B1 (de) 2019-08-15 2023-01-11 Dolby International AB Verfahren und vorrichtungen zur erzeugung und verarbeitung von modifizierten audiobitströmen
CN114303392A (zh) * 2019-08-30 2022-04-08 杜比实验室特许公司 多声道音频信号的声道标识
US11533560B2 (en) 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
US11380344B2 (en) 2019-12-23 2022-07-05 Motorola Solutions, Inc. Device and method for controlling a speaker according to priority data
CN112634907B (zh) * 2020-12-24 2024-05-17 百果园技术(新加坡)有限公司 用于语音识别的音频数据处理方法及装置
CN113990355A (zh) * 2021-09-18 2022-01-28 赛因芯微(北京)电子科技有限公司 音频节目元数据和产生方法、电子设备及存储介质
CN114051194A (zh) * 2021-10-15 2022-02-15 赛因芯微(北京)电子科技有限公司 一种音频轨道元数据和生成方法、电子设备及存储介质
US20230117444A1 (en) * 2021-10-19 2023-04-20 Microsoft Technology Licensing, Llc Ultra-low latency streaming of real-time media
WO2023205025A2 (en) * 2022-04-18 2023-10-26 Dolby Laboratories Licensing Corporation Multisource methods and systems for coded media

Family Cites Families (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
JPH0746140Y2 (ja) 1991-05-15 1995-10-25 岐阜プラスチック工業株式会社 かん水栽培方法において使用する水位調整タンク
JPH0746140A (ja) * 1993-07-30 1995-02-14 Toshiba Corp 符号化装置及び復号化装置
US6611607B1 (en) * 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP3186472B2 (ja) 1994-10-04 2001-07-11 キヤノン株式会社 ファクシミリ装置およびその記録紙選択方法
US7224819B2 (en) * 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
JPH11234068A (ja) 1998-02-16 1999-08-27 Mitsubishi Electric Corp ディジタル音声放送受信機
JPH11330980A (ja) * 1998-05-13 1999-11-30 Matsushita Electric Ind Co Ltd 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体
US6530021B1 (en) * 1998-07-20 2003-03-04 Koninklijke Philips Electronics N.V. Method and system for preventing unauthorized playback of broadcasted digital data streams
US6975254B1 (en) * 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
US6909743B1 (en) 1999-04-14 2005-06-21 Sarnoff Corporation Method for generating and processing transition streams
US8341662B1 (en) * 1999-09-30 2012-12-25 International Business Machine Corporation User-controlled selective overlay in a streaming media
US7450734B2 (en) * 2000-01-13 2008-11-11 Digimarc Corporation Digital asset management, targeted searching and desktop searching using digital watermarks
KR100865247B1 (ko) * 2000-01-13 2008-10-27 디지맥 코포레이션 메타데이터를 인증하고 매체 신호들의 워터마크들 내에 메타데이터를 임베딩하는 방법
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US8091025B2 (en) * 2000-03-24 2012-01-03 Digimarc Corporation Systems and methods for processing content objects
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
GB2373975B (en) 2001-03-30 2005-04-13 Sony Uk Ltd Digital audio signal processing
US6807528B1 (en) 2001-05-08 2004-10-19 Dolby Laboratories Licensing Corporation Adding data to a compressed data frame
AUPR960601A0 (en) * 2001-12-18 2002-01-24 Canon Kabushiki Kaisha Image protection
US7535913B2 (en) * 2002-03-06 2009-05-19 Nvidia Corporation Gigabit ethernet adapter supporting the iSCSI and IPSEC protocols
JP3666463B2 (ja) * 2002-03-13 2005-06-29 日本電気株式会社 光導波路デバイスおよび光導波路デバイスの製造方法
EP1491033A1 (de) * 2002-03-27 2004-12-29 Koninklijke Philips Electronics N.V. Markierung eines digitalen objektes mit einem wasserzeichen durch eine digitale unterschrift
JP4355156B2 (ja) 2002-04-16 2009-10-28 パナソニック株式会社 画像復号化方法及び画像復号化装置
US7072477B1 (en) 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
TWI404419B (zh) 2004-04-07 2013-08-01 Nielsen Media Res Inc 與壓縮過音頻/視頻資料一起使用之資料插入方法、系統、機器可讀取媒體及設備
GB0407978D0 (en) * 2004-04-08 2004-05-12 Holset Engineering Co Variable geometry turbine
US8131134B2 (en) * 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
AU2005299410B2 (en) * 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US9639554B2 (en) * 2004-12-17 2017-05-02 Microsoft Technology Licensing, Llc Extensible file system
US7729673B2 (en) 2004-12-30 2010-06-01 Sony Ericsson Mobile Communications Ab Method and apparatus for multichannel signal limiting
CN101156208B (zh) * 2005-04-07 2010-05-19 松下电器产业株式会社 记录媒体、再现装置、记录方法、再现方法
WO2006109718A1 (ja) * 2005-04-07 2006-10-19 Matsushita Electric Industrial Co., Ltd. 記録媒体、再生装置、記録方法、再生方法
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
WO2007066880A1 (en) * 2005-09-14 2007-06-14 Lg Electronics Inc. Method and apparatus for encoding/decoding
EP1958430A1 (de) 2005-12-05 2008-08-20 Thomson Licensing Wasserzeichen für codierten inhalt
US8929870B2 (en) * 2006-02-27 2015-01-06 Qualcomm Incorporated Methods, apparatus, and system for venue-cast
US8244051B2 (en) * 2006-03-15 2012-08-14 Microsoft Corporation Efficient encoding of alternative graphic sets
US20080025530A1 (en) 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
US8948206B2 (en) * 2006-08-31 2015-02-03 Telefonaktiebolaget Lm Ericsson (Publ) Inclusion of quality of service indication in header compression channel
CN101529504B (zh) * 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
EP2111616B1 (de) 2007-02-14 2011-09-28 LG Electronics Inc. Verfahren und vorrichtung zum kodieren von einem audiosignal
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
US20100208829A1 (en) * 2007-04-04 2010-08-19 Jang Euee-Seon Bitstream decoding device and method having decoding solution
JP4750759B2 (ja) * 2007-06-25 2011-08-17 パナソニック株式会社 映像音声再生装置
US7961878B2 (en) * 2007-10-15 2011-06-14 Adobe Systems Incorporated Imparting cryptographic information in network communications
WO2009093867A2 (en) * 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing audio signal
US9143329B2 (en) * 2008-01-30 2015-09-22 Adobe Systems Incorporated Content integrity and incremental security
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
US20090253457A1 (en) * 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
KR100933003B1 (ko) * 2008-06-20 2009-12-21 드리머 Bd-j 기반 채널 서비스 제공 방법 및 이를 실현시키기위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체
EP2144230A1 (de) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierungs-/Audiodekodierungsschema geringer Bitrate mit kaskadierten Schaltvorrichtungen
EP2146522A1 (de) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Erzeugung eines Audio-Ausgangssignals unter Verwendung objektbasierter Metadaten
US8374361B2 (en) * 2008-07-29 2013-02-12 Lg Electronics Inc. Method and an apparatus for processing an audio signal
JP2010081397A (ja) * 2008-09-26 2010-04-08 Ntt Docomo Inc データ受信端末、データ配信サーバ、データ配信システム、およびデータ配信方法
JP2010082508A (ja) 2008-09-29 2010-04-15 Sanyo Electric Co Ltd 振動モータおよびそれを用いた携帯端末装置
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP2353161B1 (de) * 2008-10-29 2017-05-24 Dolby International AB Schutz gegen signalabschneiden unter verwendung bestehender audio verstärkungs-metadaten
JP2010135906A (ja) 2008-12-02 2010-06-17 Sony Corp クリップ防止装置及びクリップ防止方法
EP2205007B1 (de) * 2008-12-30 2019-01-09 Dolby International AB Verfahren und Vorrichtung zur Kodierung dreidimensionaler Hörbereiche und zur optimalen Rekonstruktion
WO2010090427A2 (ko) * 2009-02-03 2010-08-12 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
WO2010143088A1 (en) * 2009-06-08 2010-12-16 Nds Limited Secure association of metadata with content
EP2309497A3 (de) * 2009-07-07 2011-04-20 Telefonaktiebolaget LM Ericsson (publ) System zur Verarbeitung digitaler Audiosignale
TWI506486B (zh) * 2009-10-09 2015-11-01 Egalax Empia Technology Inc 分析位置的方法與裝置
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
AP3301A (en) 2009-12-07 2015-06-30 Dolby Lab Licensing Corp Decoding of multichannel audio encoded bit streamsusing adaptive hybrid transformation
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
ES2526761T3 (es) 2010-04-22 2015-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para modificar una señal de audio de entrada
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US8948406B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
CN103003877B (zh) * 2010-08-23 2014-12-31 松下电器产业株式会社 声音信号处理装置及声音信号处理方法
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
JP5792821B2 (ja) * 2010-10-07 2015-10-14 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法
TW202405797A (zh) * 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US8989884B2 (en) 2011-01-11 2015-03-24 Apple Inc. Automatic audio configuration based on an audio output device
CN102610229B (zh) * 2011-01-21 2013-11-13 安凯(广州)微电子技术有限公司 一种音频动态范围压缩方法、装置及设备
JP2012235310A (ja) 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
TWI543642B (zh) 2011-07-01 2016-07-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
KR101547809B1 (ko) 2011-07-01 2015-08-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 시스템을 위한 동기화 및 전환 방법과 시스템
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2013102411A (ja) 2011-10-14 2013-05-23 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
KR102172279B1 (ko) * 2011-11-14 2020-10-30 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
EP2783366B1 (de) 2011-11-22 2015-09-16 Dolby Laboratories Licensing Corporation Verfahren und system zur erzeugung einer audiometadatenqualitätskennzahl
ES2565394T3 (es) 2011-12-15 2016-04-04 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, método y programa informático para evitar artefactos de recorte
WO2013118476A1 (ja) * 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
US9633667B2 (en) * 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US8793506B2 (en) * 2012-08-31 2014-07-29 Intel Corporation Mechanism for facilitating encryption-free integrity protection of storage data at computing systems
US20140074783A1 (en) * 2012-09-09 2014-03-13 Apple Inc. Synchronizing metadata across devices
EP2757558A1 (de) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Niveaueinstellung der Zeitbereichsebene zur Audiosignaldekodierung oder -kodierung
KR102158002B1 (ko) * 2013-01-21 2020-09-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
JP6445460B2 (ja) 2013-01-28 2018-12-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置
US9372531B2 (en) * 2013-03-12 2016-06-21 Gracenote, Inc. Detecting an event within interactive media including spatialized multi-channel audio content
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
JP2015050685A (ja) 2013-09-03 2015-03-16 ソニー株式会社 オーディオ信号処理装置および方法、並びにプログラム
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
US9300268B2 (en) 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
JP6588899B2 (ja) 2013-10-22 2019-10-09 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
PL3123469T3 (pl) 2014-03-25 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie kodera audio i urządzenie dekodera audio z wydajnym kodowaniem wzmocnienia w sterowaniu zakresem dynamiki
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
PT3149955T (pt) 2014-05-28 2019-08-05 Fraunhofer Ges Forschung Processador de dados e transporte de dados de controlo do utilizador para descodificadores e renderizadores de áudio
BR112016027506B1 (pt) 2014-05-30 2023-04-11 Sony Corporation Aparelho e método de processamento de informação
MX368088B (es) 2014-06-30 2019-09-19 Sony Corp Procesador de informacion y metodo de procesamiento de informacion.
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US20160315722A1 (en) 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
MX371222B (es) 2015-05-29 2020-01-09 Fraunhofer Ges Forschung Dispositivo y metodo para control de volumen.
PL3311379T3 (pl) 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
internationalen Standard ITU-R BS.1770

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185401A (zh) * 2014-10-10 2021-01-05 杜比实验室特许公司 基于发送无关的表示的节目响度
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110459228B (zh) 2024-02-06
HK1217377A1 (zh) 2017-01-06
KR20210111332A (ko) 2021-09-10
US20180012610A1 (en) 2018-01-11
JP6561031B2 (ja) 2019-08-14
JP7427715B2 (ja) 2024-02-05
AU2014281794A1 (en) 2015-07-23
BR122016001090A2 (pt) 2019-08-27
CN110491395A (zh) 2019-11-22
KR102297597B1 (ko) 2021-09-06
MX2019009765A (es) 2019-10-14
TWI756033B (zh) 2022-02-21
RU2019120840A (ru) 2021-01-11
MX2022015201A (es) 2023-01-11
MX2015010477A (es) 2015-10-30
CL2015002234A1 (es) 2016-07-29
AU2014281794B9 (en) 2015-09-10
TW201506911A (zh) 2015-02-16
JP2024028580A (ja) 2024-03-04
RU2589370C1 (ru) 2016-07-10
JP6046275B2 (ja) 2016-12-14
US20200219523A1 (en) 2020-07-09
BR122020017897B1 (pt) 2022-05-24
SG10201604617VA (en) 2016-07-28
FR3007564B3 (fr) 2015-11-13
JP2017004022A (ja) 2017-01-05
US9959878B2 (en) 2018-05-01
RU2696465C2 (ru) 2019-08-01
KR101673131B1 (ko) 2016-11-07
EP3373295B1 (de) 2020-02-12
CN110491395B (zh) 2024-05-10
IL239687A (en) 2016-02-29
BR122017011368A2 (pt) 2019-09-03
CA2898891A1 (en) 2014-12-24
PL2954515T3 (pl) 2018-09-28
CN104240709A (zh) 2014-12-24
CA2898891C (en) 2016-04-19
TW201804461A (zh) 2018-02-01
TR201808580T4 (tr) 2018-07-23
US11404071B2 (en) 2022-08-02
MX342981B (es) 2016-10-20
TW202244900A (zh) 2022-11-16
JP6866427B2 (ja) 2021-04-28
KR20190125536A (ko) 2019-11-06
KR20220021001A (ko) 2022-02-21
US20160322060A1 (en) 2016-11-03
US11823693B2 (en) 2023-11-21
JP2019174852A (ja) 2019-10-10
TW202143217A (zh) 2021-11-16
JP3186472U (ja) 2013-10-10
US10147436B2 (en) 2018-12-04
EP3373295A1 (de) 2018-09-12
TWI647695B (zh) 2019-01-11
CN110473559A (zh) 2019-11-19
US20160196830A1 (en) 2016-07-07
TWI588817B (zh) 2017-06-21
IN2015MN01765A (de) 2015-08-28
EP3680900A1 (de) 2020-07-15
FR3007564A3 (fr) 2014-12-26
JP2022116360A (ja) 2022-08-09
TW202042216A (zh) 2020-11-16
KR20160088449A (ko) 2016-07-25
RU2017122050A (ru) 2018-12-24
TWI613645B (zh) 2018-02-01
KR102358742B1 (ko) 2022-02-08
ES2674924T3 (es) 2018-07-05
JP6571062B2 (ja) 2019-09-04
MX2021012890A (es) 2022-12-02
US10037763B2 (en) 2018-07-31
JP2021101259A (ja) 2021-07-08
US20160307580A1 (en) 2016-10-20
KR200478147Y1 (ko) 2015-09-02
TW202343437A (zh) 2023-11-01
KR20240055880A (ko) 2024-04-29
JP2016507088A (ja) 2016-03-07
BR122017012321B1 (pt) 2022-05-24
CN203415228U (zh) 2014-01-29
HK1204135A1 (en) 2015-11-06
BR122017012321A2 (pt) 2019-09-03
MX367355B (es) 2019-08-16
BR112015019435B1 (pt) 2022-05-17
BR122017011368B1 (pt) 2022-05-24
AU2014281794B2 (en) 2015-08-20
CN110491396A (zh) 2019-11-22
BR122020017896B1 (pt) 2022-05-24
JP2017040943A (ja) 2017-02-23
JP7090196B2 (ja) 2022-06-23
KR102041098B1 (ko) 2019-11-06
BR122016001090B1 (pt) 2022-05-24
RU2017122050A3 (de) 2019-05-22
SG11201505426XA (en) 2015-08-28
TW201735012A (zh) 2017-10-01
TW201635276A (zh) 2016-10-01
CN104995677B (zh) 2016-10-26
HK1214883A1 (zh) 2016-08-05
TWI708242B (zh) 2020-10-21
KR102659763B1 (ko) 2024-04-24
EP2954515B1 (de) 2018-05-09
ES2777474T3 (es) 2020-08-05
US20240153515A1 (en) 2024-05-09
WO2014204783A1 (en) 2014-12-24
TWI605449B (zh) 2017-11-11
EP2954515A1 (de) 2015-12-16
TW201635277A (zh) 2016-10-01
TW201921340A (zh) 2019-06-01
US20230023024A1 (en) 2023-01-26
EP2954515A4 (de) 2016-10-05
MY192322A (en) 2022-08-17
CN106297810A (zh) 2017-01-04
CN106297810B (zh) 2019-07-16
TWM487509U (zh) 2014-10-01
IL239687A0 (en) 2015-08-31
RU2619536C1 (ru) 2017-05-16
CN106297811B (zh) 2019-11-05
TWI553632B (zh) 2016-10-11
CN110600043A (zh) 2019-12-20
TWI831573B (zh) 2024-02-01
RU2624099C1 (ru) 2017-06-30
UA111927C2 (uk) 2016-06-24
SG10201604619RA (en) 2016-07-28
TWI790902B (zh) 2023-01-21
MY171737A (en) 2019-10-25
CN104240709B (zh) 2019-10-01
KR20140006469U (ko) 2014-12-30
KR20150099615A (ko) 2015-08-31
BR112015019435A2 (pt) 2017-07-18
TWI719915B (zh) 2021-02-21
CN104995677A (zh) 2015-10-21
CN106297811A (zh) 2017-01-04
CN110459228A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
DE202013006242U1 (de) Audio-Decodierer mit Programminformations-Metadaten
DE602005006424T2 (de) Stereokompatible mehrkanal-audiokodierung
KR20210145299A (ko) 적어도 하나의 필 요소 내의 향상된 스펙트럼 대역 복제 메타데이터를 사용한 오디오 비트스트림의 디코딩
DE202013001075U1 (de) Audio-Codierer und Decodierer mit Lautheits-Verarbeitugszustands-Metadaten

Legal Events

Date Code Title Description
R207 Utility model specification

Effective date: 20130926

R150 Utility model maintained after payment of first maintenance fee after three years
R151 Utility model maintained after payment of second maintenance fee after six years
R152 Utility model maintained after payment of third maintenance fee after eight years
R071 Expiry of right