DE102021006419A1 - Streaming-Techniken - Google Patents

Streaming-Techniken Download PDF

Info

Publication number
DE102021006419A1
DE102021006419A1 DE102021006419.4A DE102021006419A DE102021006419A1 DE 102021006419 A1 DE102021006419 A1 DE 102021006419A1 DE 102021006419 A DE102021006419 A DE 102021006419A DE 102021006419 A1 DE102021006419 A1 DE 102021006419A1
Authority
DE
Germany
Prior art keywords
audio signal
personalization
version
encoded audio
selectable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021006419.4A
Other languages
English (en)
Inventor
Moritz Fuchs
Oliver Peter Major
Ziad Marwan Daoud Shaban
Bernd CZELHAN
Harald Fuchs
Ingo Hofmann
Bernd Herrmann
Max Neuendorf
Stefan Meltzer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE102021006419.4A priority Critical patent/DE102021006419A1/de
Priority to PCT/EP2022/088027 priority patent/WO2023126489A1/en
Publication of DE102021006419A1 publication Critical patent/DE102021006419A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Es sind Streaming-Techniken offenbart. Zum Beispiel weist eine Streaming-Clientvorrichtung (100) folgende Merkmale auf:eine Kommunikationsschnittstelle (10), die konfiguriert ist, um einen Bitstrom (12) von einer Streaming-Servervorrichtung zu empfangen, wobei der Bitstrom (12) enthältein codiertes Audiosignal (14) gemäß einer Codiertes-Audiosignal-Version, die unter einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen aufweist,Seiteninformationen (16), die umfassen:Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen für jede der auswählbaren Codiertes-Audiosignal-Versionen anzeigen; undKapazitätsinformationen, die eine Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen für eine externe Ressource (13, 300) zum Übertragen des codierten Audiosignals erforderlich sind;eine Personalisierungseinheit (20), die konfiguriert ist, um eine Personalisierung (22) durch Wählen, für jeden einer Mehrzahl von möglichen Zuständen (73) der externen Ressource (13, 300), einer bevorzugten Codiertes-Audiosignal-Version (16) unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen (16) basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen zu definieren;eine Auswahleinrichtung (30), die konfiguriert ist, um eine Auswahl (32) einer ausgewählten Codiertes-Audiosignal-Version (16) basierend auf einem momentanen Zustand (73) der externen Ressource (13) und der Personalisierung (22) durchzuführen, so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version (32) erforderlich ist, zu dem momentanen Zustand (73) der externen Ressource (13) passt, wobei die Kommunikationsschnittstelle (10) konfiguriert ist, um eine Anforderung (19) zum Bereitstellen des codierten Audiosignals (14) gemäß der ausgewählten Codiertes-Audiosignal-Version (32) zu der Streaming-Servervorrichtung (200) zu senden; undeinem Decodierer (60), der konfiguriert ist, um das empfangene codierte Audiosignal (14) zu decodieren, oder einen Transcodierer, der konfiguriert ist, um das empfangene codierte Audiosignal (14) in einem anderen Bitstrom zu transcodieren.

Description

  • Es sind Streaming-Techniken (beispielsweise Techniken für adaptives Streaming, beispielsweise für eine Streaming-Servervorrichtung, oder eine Streaming-Clientvorrichtung) und Streamingverfahren offenbart.
  • Hintergrund
  • Einige adaptive Streaming-Techniken (beispielsweise für Audioinhalt) erlauben einen bestimmten Grad an Personalisierung, was ermöglicht, dass die Clientvorrichtung (beispielsweise unter einer Benutzeranforderung) einige Attribute des Audioinhalts, der wiedergegeben werden soll, modifiziert. Jedoch kann eine Personalisierung üblicherweise nicht zu weit gehen: Tatsächlich besteht die Gefahr, dass einige Personalisierungen gegen die Autorfassung (Authoring) verstoßen und es ist nicht gewährleistet, dass es genügend Autorfassung gibt, um alle möglichen Personalisierungen zu erfüllen, zumindest nicht bei jeder Bitrate. Daher kann, wenn von einer Bitrate zu einer anderen Bitrate umgeschaltet wird, die Personalisierung verloren gehen, wodurch die Service-Qualität reduziert wird. Aus diesem Grund wird in dem Fall, dass die Bitrate adaptiv reduziert wird, das Streaming häufig unterbrochen, bei einem Versuch, die Personalisierung zu bewahren: Auch in diesem Fall ist die Service-Qualität reduziert, da die Kontinuität des Bereitstellens des Stroms verloren geht, und die Wiedergabe an einer ungewollten Unterbrechung leidet.
  • Zusammenfassung
  • Gemäß einem Aspekt ist eine Streaming-Clientvorrichtung mit folgenden Merkmalen vorgesehen:
    • einer Kommunikationsschnittstelle, die konfiguriert ist, um einen Bitstrom von einer Streaming-Servervorrichtung zu empfangen, wobei der Bitstrom folgende Merkmale aufweist:
      • ein codiertes Audiosignal gemäß einer Codiertes-Audiosignal-Version, die unter einer Vielzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen adressiert, Seiteninformationen, die folgende Merkmale aufweisen:
        • Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen anzeigen; und
        • Kapazitätsinformationen, die die Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen von einer externen Ressource zum Übertragen des codierten Audiosignals erforderlich ist;
      • einer Personalisierungseinheit, die konfiguriert ist, um eine Personalisierung zu definieren durch Auswählen, für jeden einer Mehrzahl von möglichen Zuständen der externen Ressource, einer bevorzugten Codiertes-Audiosignal-Version unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen, basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen;
      • einer Auswahleinrichtung, der konfiguriert ist, um eine Auswahl einer ausgewählten Codiertes-Audiosignal-Version basierend auf einem momentanen Zustand der externen Ressource und der Personalisierung durchzuführen, so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version erforderlich ist, zu dem momentanen Zustand der externen Ressource passt, wobei die Kommunikationsschnittstelle konfiguriert ist, um eine Anforderung zum Bereitstellen des codierten Audiosignals gemäß der ausgewählten Codiertes-Audiosignal-Version zu der Streaming-Servervorrichtung zu senden; und
      • einem Decodierer, der konfiguriert ist, um das empfangene codierte Audiosignal zu decodieren, oder einem Transcodierer, der konfiguriert ist, um das empfangene codierte Audiosignal auf einen anderen Bitstrom zu transcodieren.
  • Gemäß einem Aspekt weist die zumindest eine auswählbare Codiertes-Audiosignal-Version zumindest eine deaktivierbare Personalisierungsoption auf, wobei die Streaming-Clientvorrichtung konfiguriert ist, um eine zweite Auswahl bezüglich der zumindest einen deaktivierbaren Personalisierungsoption durchzuführen, um zwischen einem Aktivieren und einem Deaktivieren der zumindest einen deaktivierbaren Personalisierungsoption auszuwählen, wobei die Seiteninformationen anzeigen, dass die zumindest eine deaktivierbare Personalisierungsoption deaktivierbar ist.
  • Gemäß einem Aspekt weist die zumindest eine auswählbare Codiertes-Audiosignal-Version zumindest zwei alternative Personalisierungsoptionen auf, die alternativ zueinander sind, wobei die Streaming-Clientvorrichtung konfiguriert ist, um eine zweite Auswahl zwischen den zwei alternativen Personalisierungsoptionen durchzuführen, um selektiv eine der zumindest zwei alternativen Personalisierungsoptionen zu aktivieren, während die andere(n) der zumindest zwei alternativen Personalisierungsoptionen deaktiviert wird (werden), wobei die Seiteninformationen anzeigen, dass die zumindest zwei alternativen Personalisierungsoptionen alternativ zueinander sind.
  • Gemäß einem Aspekt umfasst die Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen:
    • eine erste auswählbare Codiertes-Audiosignal-Version mit zumindest einer ersten alternativen Personalisierungsoption und einer zweiten alternativen Personalisierungsoption alternativ zu der ersten Personalisierungsoption, wobei die erste auswählbare Codiertes-Audiosignal-Version eine erste Kapazität bei einem ersten möglichen Zustand der externen Ressource erfordert; und
    • eine zweite auswählbare Codiertes-Audiosignal-Version, die bei einem zweiten möglichen Zustand der externen Ressource eine zweite Kapazität erfordert, wobei die zweite Kapazität geringer ist als die erste Kapazität, wobei die zweite auswählbare Codiertes-Audiosignal-Version die erste alternative Personalisierungsoption, aber nicht die zweite alternative Personalisierungsoption aufweist,
    • wobei die Auswahleinrichtung in einem Fall, dass die Personalisierung die erste alternative Personalisierungsoption erfordert, konfiguriert ist, um:
      • falls der momentane Zustand der externen Ressource zu dem ersten möglichen Zustand der externen Ressource passt, die erste auswählbare Codiertes-Audiosignal-Version auszuwählen, wobei die erste alternative Personalisierungsoption gewählt und decodiert, aufbereitet oder transcodiert wird, während die zweite alternative Personalisierungsoption deaktiviert wird;
      • falls der momentane Zustand der externen Ressource zu dem zweiten möglichen Zustand der externen Ressource passt, die zweite auswählbare Codiertes-Audiosignal-Version auszuwählen.
  • Gemäß einem Aspekt weist die erste auswählbare Codiertes-Audiosignal-Version mehr alternative Personalisierungsoptionen als die zweite auswählbare Codiertes-Audiosignal-Version auf.
  • Gemäß einem Aspekt ist die erste alternative Personalisierungsoption auf einen ersten numerischen Bereich definiert, der einen zweiten numerischen Bereich, auf den die zweite alternative Personalisierungsoption definiert ist, enthält.
  • Gemäß einem Aspekt weist die erste auswählbare Codiertes-Audiosignal-Version die gleiche alternative Personalisierungsoption der zweiten auswählbaren Codiertes-Audiosignal-Version plus zusätzliche alternative Personalisierungsoptionen auf.
  • Gemäß einem Aspekt ist die Personalisierungseinheit konfiguriert, um für jeden möglichen Zustand der externen Ressource die Personalisierung durch eine Auswertung von zumindest einer Auswertungsbedingung auf zumindest einer Personalisierungsoption, oder einem Satz oder einer Kombination von Personalisierungsoptionen, für jede auswählbare Codiertes-Audiosignal-Version zu definieren, wobei die Auswertung zumindest eine Ordnung liefert, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß einer Einstufung zu sortieren, um die am höchsten eingeordnete auswählbare Codiertes-Audiosignal-Version als die bevorzugte Codiertes-Audiosignal-Version zu wählen.
  • Gemäß einem Aspekt umfasst die zumindest eine Auswertungsbedingung zumindest eine erste Auswertungsbedingung bezüglich zumindest einer ersten Personalisierungsoption, oder einem Satz oder einer Kombination von Personalisierungsoptionen, und zumindest eine zweite Auswertungsbedingung bezüglich zumindest einer zweiten Personalisierungsoption, oder einem zweiten Satz oder einer Kombination von Personalisierungsoptionen, um zumindest eine erste Ordnung zu definieren, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß der ersten Auswertung zu sortieren, und eine zweite Ordnung, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß der zweiten Auswertung zu sortieren, um die bevorzugte Codiertes-Audiosignal-Version basierend auf zumindest einer der ersten Ordnung und der zweiten Ordnung zu wählen.
  • Gemäß einem Aspekt ist die erste Auswertungsbedingung dominant und die zweite Auswertungsbedingung ist sekundär, um die bevorzugte Codiertes-Audiosignal-Version primär basierend auf der ersten Ordnung zu definieren, und im Falle einer Parität der Einstufung zwischen unterschiedlichen höchstrangingen auswählbaren Codiertes-Audiosignal-Versionen der ersten Ordnung die höchstranginge auswählbare Codiertes-Audiosignal-Version der ersten Ordnung, die den höchsten Rang in der zweiten Ordnung besitzt, als die bevorzugte Codiertes-Audiosignal-Version zu definieren.
  • Gemäß einem Aspekt weist die erste Auswertungsbedingung eine Bedingung bezüglich einer Dialogsprache auf, und die zweite Auswertungsbedingung weist eine Bedingung bezüglich zumindest einer Personalisierungsoption, die nicht eine Sprache ist, auf.
  • Gemäß einem Aspekt ist eine Zuweisung eines ersten Auswertungswerts (score) von der ersten Auswertung und eines zweiten Auswertungswerts von der zweiten Auswertung definiert, um eine finale Ordnung durch die Verwendung sowohl des ersten Auswertungswerts als auch des zweiten Auswertungswerts zu definieren.
  • Gemäß einem Aspekt ist die erste Auswertungsbedingung eine Bedingung bezüglich der ersten alternativen Personalisierungsoption, und die zweite Auswertungsbedingung ist eine Bedingung bezüglich der zweiten alternativen Personalisierungsoption.
  • Gemäß einem Aspekt ist die erste Auswertungsbedingung bezüglich einer ersten Dialogsprache, die aufbereitet werden soll, und die zweite Auswertungsbedingung ist bezüglich einer zweiten Dialogsprache, die möglicherweise alternativ zu der ersten Dialogsprache aufbereitet werden soll.
  • Gemäß einem Aspekt ist die Streaming-Clientvorrichtung konfiguriert, um, falls sich die Personalisierungseingabe auf eine solche Weise ändert, dass zumindest eine Auswertungsbedingung durch eine momentan deaktivierte zumindest eine alternative Personalisierungsoption noch erfüllt ist, die ausgewählte Version beizubehalten, ohne eine Anforderung an die Streaming-Servervorrichtung zu senden, und die zweite Auswahl zu ändern, um die zumindest eine Auswertungsbedingung zu erfüllen.
  • Gemäß einem Aspekt ist die zumindest eine Personalisierungsoption eine Vorauswahl. Gemäß einem Aspekt umfasst die zumindest eine Personalisierungsoption den Dialog des codierten Audiosignals. Gemäß einem Aspekt umfasst die zumindest eine Option einen Verstärkungspegel. Gemäß einem Aspekt umfasst die zumindest eine Option Positionsdaten. Gemäß einem Aspekt umfasst die zumindest eine Option eine Audioobjektauswahl. Gemäß einem Aspekt betrifft die zumindest eine Option ein Stummschalten (muting) und eine Lautschalten (unmuting) eines spezifischen Audioobjekts. Gemäß einem Aspekt umfasst die zumindest eine Option Mischwerte für Komponenten des codierten Audiosignals. Gemäß einem Aspekt umfasst die zumindest eine Option Informationen bezüglich der Aktivierung und Deaktivierung von Komponenten des codierten Audiosignals und/oder Informationen, die verwendet werden, um die Aufbereitung von Komponenten des codierten Audiostroms zu beeinflussen. Gemäß einem Aspekt wird die Personalisierung zumindest aus einer Personalisierungseingabe, die eine Benutzerpersonalisierungseingabe ist, die von einer Benutzerschnittstelle erhalten wird, erhalten, oder ist zumindest durch diese bedingt. Gemäß einem Aspekt wird die Personalisierung zumindest von einer Personalisierungseingabe, die eine vordefinierte Einstellung aufweist oder auf derselben basiert, erhalten, oder ist zumindest durch diese bedingt. Gemäß einem Aspekt wird die Personalisierung zumindest aus einer Dienstanbietereinstellung erhalten, oder ist durch dieselbe bedingt. Gemäß einem Aspekt wird die Personalisierung zumindest durch eine VoD-Präferenz (VoD = video on demand = Video auf Abruf) erhalten, oder ist zumindest durch dieselbe bedingt. Gemäß einem Aspekt basiert die Personalisierungseingabe auf einer Wahl der zumindest einen Personalisierungsoption oder eines Satzes oder einer Kombination von Personalisierungsaudiooptionen. Gemäß einem Aspekt beinhaltet die Personalisierungseingabe die Wahl von zumindest einer Auswertungsbedingung.
  • Gemäß einem Aspekt ist die Streaming-Clientvorrichtung konfiguriert, um zu dem Benutzer hin Personalisierungsinformationen über die auswählbaren Codiertes-Audiosignal-Versionen, wie sie in der Seiteninformation erhalten werden, auszugeben, wobei die Personalisierungsinformationen zumindest eine Personalisierungsaudiooption anzeigen, um den Benutzer zu führen, um die zumindest eine Auswertungsbedingung zu definieren.
  • Gemäß einem Aspekt ist die Streaming-Clientvorrichtung konfiguriert, um die bevorzugte Audiosignalversion basierend auf der Personalisierungseingabe zu ändern, um die Anforderung der ausgewählten Audiosignalversion während des Empfangs des Bitstroms zu aktualisieren, und um nachfolgend das codierte Audiosignal gemäß der aktualisierten ausgewählten Audiosignalversion zu erhalten.
  • Gemäß einem Aspekt ist die Auswahleinrichtung konfiguriert, um die gewählte Audiosignal-version basierend auf dem momentanen Zustand der externen Ressource zu ändern, so dass die Anforderung der gewählten Audiosignalversion während des Empfangs des Bitstroms aktualisiert wird, und um nachfolgend das codierte Audiosignal gemäß der aktualisierten ausgewählten Audiosignalversion zu erhalten.
  • Gemäß einem Aspekt ist die Streaming-Clientvorrichtung konfiguriert, um eine zweite Auswahl durchzuführen, falls eine neue Personalisierung erforderlich ist, und falls die neue Personalisierung durch eine alternative Personalisierungsoption, die momentan empfangen wird, erfüllt ist.
  • Gemäß einem Aspekt ist der Zustand der externen Ressource eine Bandbreite, die zur Übertragung des Bitstroms zur Verfügung steht.
  • Gemäß einem Aspekt weist die externe Ressource das Kommunikationsnetz zwischen der Streaming-Servervorrichtung und der Streaming-Clientvorrichtung auf oder ist durch dieselbe vorgesehen.
  • Gemäß einem Aspekt umfasst die Kapazität, die für jede auswählbare Codiertes-Audiosignal-Version erforderlich ist, eine Bitrate.
  • Gemäß einem Aspekt ist das codierte Audiosignal in eine Mehrzahl von Segmenten segmentiert, wobei jedes Segment mit einem jeweiligen Segment eines codierten Audiosignals von zumindest einer anderen codierten Audiosignalversion austauschbar ist.
  • Gemäß einem Aspekt ist die Streaming-Clientvorrichtung konfiguriert, um die Auswahl, die durch die Auswahleinrichtung durchgeführt wird, und/oder die Personalisierung, die durch die Personalisierungseinheit definiert ist, durch Kapazitätsanforderungs-Konditionierungsinformationen zu konditionieren, so dass die ausgewählte Audiosignalversion eine Kapazität erfordert, die einem vordefinierten Datenplan folgt.
  • Gemäß einem Aspekt ist die Streaming-Clientvorrichtung konfiguriert, um die Auswahl, die durch die Auswahleinrichtung durchgeführt wird, und/oder die Personalisierung, die durch die Personalisierungseinheit definiert ist, durch Kapazitätsanforderungs-Konditionierungsinformationen zu konditionieren, so dass die ausgewählte Audiosignalversion eine vordefinierte Schnelleinstellfunktion (Tune-In-Funktion) erfordert.
  • Gemäß einem Aspekt ist das codierte Audiosignal gemäß dem Codec MPEG-H 3D Audio, wobei andere auswählbare Codiertes-Audiosignal-Versionen gemäß dem Codec MPEG-H 3D Audio sind, wobei der Bitstrom und/oder die Seiteninformationen gemäß dem MPEG-H 3D eingebettet sind.
  • Gemäß einem Aspekt ist das codierte Audiosignal gemäß dem Codec MPEG-H 3D Audio und/oder MPEG-D USAC (Extended (erweiterter) HE-AAC), wobei die codierte Audiosignalversion gemäß MPEG-H 3D Audio ist, und die anderen auswählbaren Codiertes-Audiosignal-Versionen entweder unter Verwendung von MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC, codiert sind, wobei der Bitstrom oder die Seiteninformationen gemäß MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind.
  • Gemäß einem Aspekt ist eine Streaming-Servervorrichtung vorgesehen, mit folgenden Merkmalen:
    • einer Kommunikationsschnittstelle, die konfiguriert ist, um:
      • einen Bitstrom zu einer Streaming-Clientvorrichtung zu übertragen, wobei der Bitstrom gemäß einer Mehrzahl von Segmenten segmentiert ist und ein codiertes Audiosignal und Seiteninformationen aufweist;
      • Anforderungen einer ausgewählten Audiosignalversion des Bitstroms zu empfangen, und den Bitstrom gemäß der ausgewählten codierten Audiosignalversion beginnend bei einem nachfolgenden Segment zu übertragen, wobei jede der codierten Audiosignalversionen eine vorbestimmte Kapazität erfordert und zumindest eine Personalisierungsoption anbietet; und
      • eine Inhaltvorbereitungsvorrichtung, um in jede codierte Audiosignalversion Seiteninformationen einzubetten, die Kapazitätsinformationen, die eine Kapazität, die für eine Übertragung von anderen codierten Audiosignalversionen erforderlich ist, anzeigen, und Konfigurationsinformationen enthalten, die zumindest eine Personalisierungsoption, die durch die anderen codierten Audiosignalversionen geboten werden, anzeigen.
  • Gemäß einem Aspekt zeigen die Konfigurationsinformationen einen Satz von Personalisierungsoptionen, die durch die anderen codierten Audiosignalversionen angeboten werden, an.
  • Gemäß einem Aspekt zeigen die Konfigurationsinformationen einen Satz von alternativen Personalisierungsoptionen, die durch den momentanen und/oder durch die anderen codierten Audiosignalversionen angeboten werden, an.
  • Gemäß einem Aspekt ist das codierte Audiosignal gemäß dem Codec MPEG-H 3D Audio, wobei andere auswählbare codierte Audiosignalversionen gemäß dem Codec MPEG-H 3D Audio sind, wobei der Bitstrom und/oder Seiteninformationen gemäß MPEG-H 3D eingebettet sind.
  • Gemäß einem Aspekt ist das codierte Audiosignal gemäß dem Codec MPEG-H 3D Audio und/oder MPEG-D USAC (Extended (erweiterter) HE-AAC), wobei die codierte Audiosignalversion gemäß MPEG-H 3D Audio ist, und die anderen auswählbaren Codiertes-Audiosignal-Versionen entweder unter Verwendung von MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC, codiert sind, wobei der Bitstrom oder die Seiteninformationen gemäß MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind.
  • Gemäß einem Aspekt ist ein Streamingverfahren vorgesehen, das folgende Merkmale aufweist:
    • Empfangen eines Bitstroms von einer Streaming-Servervorrichtung, wobei der Bitstrom folgende Merkmale aufweist:
      • ein codiertes Audiosignal gemäß einer Codiertes-Audiosignal-Version, die zwischen einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen aufweist, und
      • Seiteninformationen, die folgende Merkmale aufweisen:
        • Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen anzeigen; und
        • Kapazitätsinformationen, die eine Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen von einer externen Ressource erforderlich sind, um das codierte Audiosignal zu übertragen;
    • Definieren einer Personalisierung durch Wählen, für jeden einer Mehrzahl von möglichen Zuständen der externen Ressource, einer bevorzugten Codiertes-Audiosignal-Version unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen, basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen;
    • Durchführen einer Auswahl einer ausgewählten Codiertes-Audiosignal-Version basierend auf einem momentanen Zustand der externen Ressource und der Personalisierung, so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version erforderlich ist, zu dem momentanen Zustand der externen Ressource passt,
    • Senden, an die Streaming-Servervorrichtung, einer Bereitstellungsanforderung des codierten Audiosignals gemäß der ausgewählten Codiertes-Audiosignal-Version; und
    • Bereitstellen des empfangenen codierten Audiosignals an einen Decodierer oder einen Transcodierer.
  • Gemäß einem Aspekt ist eine nicht-transitorische Speichereinheit vorgesehen, die Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor einen Bitstrom, der von einer Streaming-Servervorrichtung empfangen wird, verarbeitet, wobei der Bitstrom folgende Merkmale aufweist:
    • ein codiertes Audiosignal gemäß einer Codiertes-Audiosignal-Version, die unter einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen aufweist, und
    • Seiteninformationen, die folgende Merkmale aufweisen:
      • Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen anzeigen; und
      • Kapazitätsinformationen, die eine Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen von einer externen Ressource zum Übertragen des codierten Audiosignals erforderlich sind;
    wobei die Verarbeitung folgende Merkmale aufweist:
    • Definieren einer Personalisierung durch Wählen, für jeden der Mehrzahl von möglichen Zuständen der externen Ressource, einer bevorzugten Codiertes-Audiosignal-Version unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen, basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen;
    • Durchführen einer Auswahl einer ausgewählten Codiertes-Audiosignal-Version basierend auf einem momentanen Zustand der externen Ressource und der Personalisierung, so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version erforderlich ist, zu dem momentanen Zustand der externen Ressource passt, um die Bereitstellungsanforderung des codierten Audiosignals gemäß der ausgewählten Codiertes-Audiosignal-Version an die Streaming-Servervorrichtung zu steuern; und
    • Steuern des Bereitstellens des empfangenen codierten Audiosignals an einen Decodierer oder einen Transcodierer.
  • Gemäß einem Aspekt ist ein Streamingverfahren zum Übertragen eines Bitstroms zu einer Streaming-Clientvorrichtung vorgesehen, wobei der Bitstrom gemäß einer Mehrzahl von Segmenten segmentiert ist und ein codiertes Audiosignal und Seiteninformationen aufweist, das folgende Merkmale aufweist:
    • Empfangen von Anforderungen einer ausgewählten Audiosignalversion des Bitstroms, und Übertragen des Bitstroms gemäß der ausgewählten Codiertes-Audiosignal-Version beginnend mit einem nachfolgenden Segment, wobei jede der Codiertes-Audiosignal-Versionen eine vorbestimmte Kapazität erfordert und zumindest eine Personalisierungsoption anbietet; und
    • wobei das Verfahren ein Einbetten, für jede Codiertes-Audiosignal-Version, von Seiteninformationen aufweist, die Kapazitätsinformationen, die eine Kapazität, die zur Übertragung anderer codierter Audiosignalversionen erforderlich ist, anzeigen, und Konfigurationsinformationen, die die zumindest eine Personalisierungsoption, die durch die anderen Codiertes-Audiosignal-Versionen geboten werden, enthalten.
  • Gemäß einem Aspekt ist eine nicht-transitorische Speichereinheit vorgesehen, die Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor einen Bitstrom, der zu einer Streaming-Clientvorrichtung übertragen werden soll, verarbeitet, wobei der Bitstrom gemäß einer Mehrzahl von Segmenten segmentiert ist und ein codiertes Audiosignal und Seiteninformationen aufweist, wobei die Verarbeitung folgende Merkmale aufweist:
    • nach dem Empfangen von Anforderungen einer ausgewählten Audiosignalversion des Bitstroms, Steuern der Übertragung des Bitstroms gemäß der ausgewählten Codiertes-Audiosignal-Version beginnend mit einem nachfolgenden Segment, wobei jede der Codiertes-Audiosignal-Versionen eine vorbestimmte Kapazität erfordert und zumindest eine Personalisierungsoption anbietet;
    • wobei die Verarbeitung ein Einbetten, für jede Codiertes-Audiosignal-Version, von Seiteninformationen mit Kapazitätsinformationen, die eine Kapazität, die zur Übertragung anderer codierter Audiosignalversionen erforderlich ist, anzeigen, und Konfigurationsinformationen, die die zumindest eine Personalisierungsoption, die durch die anderen codierten Audiosignalversionen geboten wird, anzeigen.
  • Figurenliste
    • 1a, 1b, 1c, 1d, 1e zeigen Beispiele von Streaming-Clientvorrichtungen.
    • 2a und 2b zeigen Beispiele von Operationen.
    • 3a, 3b, 4a, 4b, 5a, 5b, 6a, 6b, 7 zeigen Beispiele von Operationen einer Streaming-Clientvorrichtung.
    • 8 zeigt ein Beispiel von Seiteninformationen in einem Bitstrom.
    • 9 zeigt ein Beispiel einer Streaming-Servervorrichtung.
    • 10a, 10b, 10c, 10d, 10e zeigen Beispiele von Streaming-Clientvorrichtungen.
    • 11 a, 11b, 11c, 12a, 12b, 13a, 13b zeigen Beispiele von Operationen.
  • Beispiele
  • Nachfolgend wird hierin in der Regel auf Audioinhalt (beispielsweise Ströme, Signale usw.) und Hardware und Prozeduren, um den Audioinhalt zu verarbeiten, Bezug genommen. Jedoch kann der Audioinhalt Teil eines Medieninhalts (beispielsweise einschließlich Video) sein. Es sei angemerkt, dass bei Beispielen jeglicher hierin genannter Inhalt (beispielsweise Ströme, Signale, usw.) als Teil des Medieninhalts (beispielsweise Medienströme, Mediensignale) verstanden werden kann, der somit auch Videoinhalt umfasst, wobei Hardware und Prozeduren zum Verarbeiten von Medieninhalt bestimmt sein können, der den Audioinhalt und auch den Videoinhalt enthält.
  • Die 1a-1 e und 10a-10e zeigen Beispiele von Streaming-Clientvorrichtungen 100, 100b, 100c, 100d, 100e, 400, 400b, 400c, 400d, 400e. Es ist eine Streaming-Clientvorrichtung 100 (bzw. 100b, 100c, 100d, 100e, 400, 400b, 400c, 400d, 400e) dargestellt, die einen Bitstrom 12 empfangen kann, wobei der Bitstrom 12 ein codiertes Audiosignal 14 und Seiteninformationen 16 enthält. Das codierte Audiosignal 14 kann Audioinformationen (beispielsweise Töne (Sound)), die in komprimierter Form codiert sind und die durch die Streaming-Clientvorrichtung 100 dekomprimiert (decodiert) werden sollen, um zu einem Benutzer wiedergegeben zu werden, sein. Die Streaming-Clientvorrichtung 100 (oder 100b, 100c, 100d, 100e) kann in Kommunikation mit einer Streaming-Servervorrichtung sein (beispielsweise durch ein Kommunikationsnetz 300, wie z. B. das Internet oder ein lokales Netz oder eine Kombination derselben, und das drahtlos, verdrahtet oder beides sein kann). Durch das Kommunikationsnetz 300 kann die Streaming-Clientvorrichtung 100 (oder 100b, 100c, 100d, 100e) Informationen übertragen und empfangen (beispielsweise kann sie Anforderungen 19 zu der Streaming-Servervorrichtung hin übertragen und/oder den Bitstrom 12 von der Streaming-Servervorrichtung empfangen). Die Streaming-Clientvorrichtung 100 (oder 100b, 100c, 100d, 100e oder 400-400e) kann eine Kommunikationsschnittstelle aufweisen, die die Kommunikation ermöglichen kann. Beispielsweise kann die Kommunikationsschnittstelle 10 Anforderungen 19 zu der Streaming-Servervorrichtung senden und kann den Bitstrom 12 empfangen.
  • Der Bitstrom 12 kann das codierte Audiosignal 14 aufweisen, das gemäß einer Codiertes-Audiosignal-Version (momentane Codiertes-Audiosignal-Version) codiert sein kann. Es wird gezeigt, dass die Codiertes-Audiosignal-Version unter einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen (beispielsweise Darstellungen) ausgewählt werden kann. Der Bitstrom 12 (oder zumindest das codierte Audiosignal 14) können segmentiert sein, und es ist im Allgemeinen möglich, die Codiertes-Audiosignal-Version während des Bitstromempfangs zu ändern, beispielsweise nach einer Anforderung (19), die ausgewählte Codiertes-Signal-version (siehe auch unten) zu aktualisieren, so dass das nachfolgende Segment durch die Streaming-Servervorrichtung gemäß der aktualisierten ausgewählten Codiertes-Signal-Version übertragen wird. Allgemein gesprochen ist das codierte Audiosignal 14 in eine Mehrzahl von Segmenten segmentiert, wobei jedes Segment mit einem jeweiligen Segment eines codierten Audiosignals von zumindest einer anderen Codiertes-Audiosignal-Version austauschbar ist.
  • Der Bitstrom 12 kann Seiteninformationen 16 umfassen. Die Seiteninformationen 16 können die Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen auflisten. Für jede auswählbare Audiosignalversion, die in den Seiteninformationen gelistet ist, kann der Bitstrom 12 auch weitere Seiteninformationen 16 enthalten, einschließlich beispielsweise Konfigurationsinformationen, die zumindest eine Personalisierungsoption anzeigen. Die zumindest eine Personalisierungsoption kann beispielsweise eine Option bezüglich eines Audioattributs sein, das die spezielle auswählbare Codiertes-Audiosignal-Version charakterisiert. Beispielsweise kann das codierte Audiosignal 14 eine Dialogsprache (beispielsweise Englisch, Französisch, Spanisch, usw.) aufweisen. Die zumindest eine Personalisierungsoption kann bezüglich einer Vorauswahl definiert sein: es kann einen vollständigen Satz (Kombination) von mehreren Personalisierungsoptionen geben, die, kombiniert miteinander, einer speziellen auswählbaren Codiertes-Audiosignal-Version zugeordnet sind. Die Personalisierung kann beispielsweise die Wahl des Codecs, gemäß dem die ausgewählte Version codiert ist, enthalten. Beispiele von Codecs sind MPEG-H 3D Audio, Extended HE-AAC (USAC), AC-4, usw. Beispiele von Personalisierungsoptionen können zumindest eines von Verstärkungspegel, Positionsdaten, Audioobjektauswahl (eine Gruppe von Audioobjekten/Kanälen, wo nur einer zu einer Zeit aktiv ist, beispielsweise der Hauptdialog eines Films) oder ein Stummschalten und Lautschalten eines spezifischen Audioobjekts, Mischwerte für Komponenten des codierten Audiosignals, Informationen bezüglich der Auswahl und Abwahl von Komponenten des codierten Audiosignals, Informationen, die verwendet werden, um die Aufbereitung von Komponenten des Inhalts zu beeinflussen, umfassen.
  • Die Seiteninformationen 16 des Bitstroms 12 können auch Kapazitätsinformationen bereitstellen, die eine Kapazität anzeigen, die für eine auswählbare Codiertes-Audiosignal-Version von einer externen Ressource erforderlich ist (beispielsweise eine spezielle Bitrate). Die Seiteninformationen 16 des Bitstroms 12 können Kapazitätsinformationen enthalten, die die Kapazität anzeigen, die für jede auswählbare Codiertes-Audiosignal-Version von einer externen Ressource erforderlich ist (beispielsweise einer Netzressource, wie z. B. der Bandbreite, die für das Netz 300, das die Übertragung des Bitstroms 12 transportiert, erforderlich ist). Daher können die Kapazitätsinformationen häufig allgemein als Bitrate angezeigt werden. Jede auswählbare Codiertes-Audiosignal-Version (gemäß jeder Personalisierung) kann daher einer speziellen Bitrate (Kapazität, die von der externen Ressource erforderlich ist) zugeordnet sein. Mehrere auswählbare Codiertes-Audiosignal-Versionen können die gleiche Bitrate aufweisen (jedoch mit anderen Audiooptionen); ferner können mehrere auswählbare Codiertes-Audiosignal-Versionen verschiedene Bitraten aufweisen (und verschiedene Audiooptionen aufweisen).
  • Es sei angemerkt, dass eine einzelne Personalisierung mehrere Bitraten definieren kann: je höher die Bitrate, desto höher die Auflösung (und/oder die Qualität) der Audioinformationen, die in dem codierten Audiosignal 14 codiert sind (insbesondere wenn der gleiche Codec verwendet wird). Allgemein gesprochen bevorzugt ein Benutzer codierte Audiosignale 14 hoher Qualität zu haben, selbst wenn die Netzkapazität die Echtzeitbereitstellung einer Codiertes-Audiosignal-Version mit einer hohen Bitrate nicht immer ermöglicht. Bei einigen Beispielen ist, je höher die Auflösung (und die Bitrate) ist, desto höher die Anzahl von Kanälen (oder allgemeiner die räumliche Auflösung). Beispielsweise besitzt eine 2-Kanal-Codiertes-Signal-Version im Allgemeinen eine höhere Bitrate als eine 1-Kanal-Codiertes-Signal-Version (allgemeiner je höher die Bitrate, desto höher die Anzahl von Kanälen bei einigen Beispielen). Bei Beispielen ist die Wahl der höchsten Bitrate durch die Wahl des Codecs begrenzt: es ist im Prinzip nicht garantiert, dass alle auswählbaren Versionen den gleichen Codec besitzen, und, wenn ein Codec für den Bitstrom 12 gewählt wird, haben die nachfolgend ausgewählten Versionen den gleichen Codec des vorherigen. Bei einigen Beispielen ist es möglicherweise nicht erlaubt, von einer Version, die gemäß einem Codec codiert ist, zu einer anderen Version, die gemäß einem anderen Codec codiert ist, umzuschalten.
  • Bei Beispielen stellt für den Hörer (Benutzer) jede Personalisierungsoption (oder Satz oder Kombination von Personalisierungsoptionen) eine Option dar, die sie nach Wunsch wählen können, oder von deren Wahl sie Abstand nehmen können. Zusätzlich oder alternativ muss der Benutzer nicht notwendigerweise explizit eine spezielle Personalisierungsoption oder einen Satz oder eine Kombination von Optionen anfordern, sondern eine vordefinierte Personalisierung ist definiert, beispielsweise automatisch durch Optionen definiert (die durch den Benutzer bei einer Initialisierungsprozedur ausgewählt worden sein können, oder die im Werk vordefinierte Optionen sein können, usw.). Es wird gezeigt, dass die Bitrate einer auswählbaren Version nicht notwendigerweise eine der Personalisierungsoptionen ist: Bei einigen Beispielen ist es möglich, dass die Bitrate daher kein Teil der Personalisierung ist, die durch den Benutzer gesteuert wird, sondern kann automatisch durch eine Bitratenadaptierung definiert werden. Beispielsweise könnte die Bitrate als auf der Bandbreite basierend gewählt werden, um gemäß der Netzkapazität die höchstmögliche Bitrate zu haben, oder könnte durch einen Datenplan definiert werden. Oder ein schnelles Einstellen (tune-in) könnte implementiert sein, um mit einer geringen Bitrate zu starten und nachfolgend auf eine höhere Bitrate umzuschalten, um die Einführung einer Startverzögerung zu vermeiden.
  • Die Streaming-Clientvorrichtung 100 (oder 100b, 100c, 100d, 100e, 400, 400b, 400c, 400d, 400e) kann eine Personalisierungseinheit 20 aufweisen. Die Personalisierungseinheit 20 kann eine Personalisierung 22 des empfangenen Bitstroms 20 definieren. Die Personalisierung 22 kann durch Wählen, für jeden möglichen Zustand der externen Ressource (beispielsweise des Netzes 300) unter einer Mehrzahl von möglichen Zuständen, einer bevorzugten Codiertes-Audiosignal-Version unter der Vielzahl von auswählbaren Codiertes-Audiosignal-Versionen realisiert werden. Die Personalisierungseinheit 20 kann daher entscheiden, dass für bestimmte Netzbandbreiten eine spezielle Codiertes-Audiosignal-Version bevorzugt ist, während für andere Bandbreiten eine andere Version bevorzugt ist. Bei einigen Beispielen kann die Personalisierungseinheit 20 eine Tabelle erzeugen, die verschiedenen Netzbandbreiten (oder allgemeiner Zuständen der externen Ressource) verschiedene auswählbare Codiertes-Audiosignal-Versionen zuordnet. Da jede auswählbare Codiertes-Audiosignal-Version zumindest einer Personalisierungsoption zugeordnet ist (oder einem Satz oder einer Kombination von Personalisierungsaudiooptionen), wird die Personalisierungseinheit 20 bei Beispielen die bevorzugte Decodiertes-Audiosignal-Version unter denen, die in den Seiteninformationen 16 des Bitstroms 12 gelistet sind, wählen. Die bevorzugte Codiertes-Audiosignal-Version für jede Netzbandbreite (oder allgemeiner für jeden Zustand der externen Ressource) wird durch die Personalisierungseinheit 20 auch basierend auf den Kapazitätsinformationen, wie sie in den Seiteninformationen 16 des Bitstroms 12 bereitgestellt werden und die jeder auswählbaren Codiertes-Audiosignal-Version 16 zugeordnet sind, gewählt. Auch die Konfigurationsinformationen (die zumindest eine Personalisierungsoption über einen vollständigen Satz, oder eine Kombination, von mehreren Personalisierungsoptionen, die miteinander kombiniert sind, anzeigen) können berücksichtigt werden. Die Personalisierungseinheit 20 kann bei einigen Beispielen als am Beginn des Empfangs des Bitstroms 12 arbeitend (beispielsweise vorzugsweise) verstanden werden: die Seiteninformationen 16 können Teil eines Manifests sein (das eine Datei ist, die normalerweise als Seiteninformationen 16 am Beginn der Bitstromübertragung übertragen wird) sein oder können gleichwohl am Beginn der Bitstromübertragung übertragen werden, so dass die Personalisierungseinheit 20 die bevorzugte Codiertes-Audiosignal-Version, die nachfolgend empfangen werden soll, entscheiden kann. Bei Beispielen werden, mit oder ohne die Übertragung des Manifests, die Seiteninformationen 16, die die Konfigurationsinformationen und die Kapazitätsinformationen anzeigen, parallel zu der Übertragung des codierten Audiosignals 14 übertragen. Die Personalisierungseinheit 20 kann den Codec (beispielsweise unter MPEG-H 3D Audio, Extended HE-AAC, AC-4 usw.) definieren. Wenn die Liste der auswählbaren Codiertes-Audiosignal-Versionen in den Seiteninformationen 16 (zusammen mit den Konfigurationsinformationen und den Kapazitätsinformationen, die jeder auswählbaren Codiertes-Audiosignal-Version zugeordnet sind) bereitgestellt wird, kann die Personalisierungseinheit 20 bei der Inbetriebnahme (start-up) arbeiten, beispielsweise eine Tabelle vorbereiten, die mögliche Zustände 73 der externen Ressource 13 (beispielsweise Bandbreiten des Kommunikationsnetzes) auswählbaren Codiertes-Audiosignal-Versionen zuordnet. Bei einigen Beispielen kann die Tabelle (die Teil der Personalisierung 22 ist) nachfolgend aktualisiert werden, beispielsweise durch einen neuen Benutzerbefehl (und, falls es keine Aktualisierung gibt, kann die Tabelle während der gesamten Übertragung des Bitstroms 12 beibehalten werden).
  • Die 1 a-1 e und 1 0a-1 0e zeigen ferner eine Benutzerschnittstelle 40 (in die ein Benutzer Eingaben machen kann und/oder die Ausgaben zu einem Benutzer bereitstellen kann). Die Benutzerschnittstelle 40 kann zumindest eine Benutzerschnittstellen-Personalisierungseingabe 42 bereitstellen, die die Personalisierungseinheit 20 konditionieren kann, um die Personalisierung 22 zu definieren. Die Benutzerschnittstelle 40 kann ferner von der Personalisierungseinheit 20 oder der Kommunikationsschnittstelle 10 Personalisierungsinformationen über die auswählbaren Codiertes-Audiosignal-Versionen, die in den Seiteninformationen 16 gelistet sind, erhalten. Die Personalisierungsinformationen 43 können (beispielsweise durch Visualisierung auf einer Anzeige und/oder durch Vorschlagen durch eine Audionachricht) zumindest eine Personalisierungsoption anzeigen, beispielsweise um den Benutzer zu führen, eine Personalisierungseingabe 42 bereitzustellen, um die Personalisierungseinheit 20 beim Definieren der Personalisierung 22 zu konditionieren. Beispielsweise könnte eine Ausgabe 43 in der Anzeige (als Teil der Benutzerschnittstelle 40 oder durch dieselbe gesteuert) den Benutzer auffordern, spezielle Personalisierungsinformationen 43, die zu der Personalisierungseinheit 20 bereitgestellt werden sollen, auszuwählen, um die Wahl der bevorzugten Codiertes-Audiosignal-Version zu konditionieren (dies könnte durch eine Audionachricht durchgeführt werden). In bestimmten Fällen ist es nicht (oder nicht nur) der Hörer (Benutzer), der entscheidet, welche Personalisierungsaudiooptionen gewählt werden sollen: beispielsweise kann die Personalisierung 22 vordefiniert in vordefinierten Einstellungen 42d sein oder solche enthalten (wie z. B. bei dem Beispiel des Beispiels von 1d oder 10d), oder kann zumindest teilweise durch einen entfernten Bereitsteller definiert sein (beispielsweise in den 1e und 10e, wo die vordefinierten Einstellungen 42e' als Personalisierungseingabe 42d zu der Personalisierungseinheit 20 bereitgestellt werden). Bei einigen Beispielen ist es (zumindest in der Theorie) sogar möglich, dass der Benutzer die Personalisierungsaudiooptionen, die ausgewählt werden, nicht kennt: beispielsweise kümmert sich der Benutzer im Allgemeinen nicht um den verwendeten Codec, sondern sie möchten einfach einen bestimmten Audiodienst haben. Daher kann der Benutzer an der Personalisierung 22 mitwirken, aber in bestimmten Fällen kann die Personalisierung 22 halbautomatisch sein (beispielsweise durch die Benutzung der Benutzerschnittstelle 40, siehe unten). Daher können in bestimmten Fällen die Personalisierungseingaben 42 und 42d zusammenwirken, um eine Personalisierung 22 zu definieren.
  • Allgemein gesprochen kann die Personalisierungseinheit 20 ein bestimmtes Personalisierungskriterium anwenden, das vordefiniert sein kann (z. B. ein voreingestelltes Kriterium) oder das zumindest teilweise durch den Benutzer definiert werden kann (beispielsweise durch die Benutzerschnittstelle 40). Das Personalisierungskriterium kann daher als ein Teil der Personalisierungsinformationen 43, die durch den Benutzer bereitgestellt werden, zu der Personalisierungseinheit 20 bereitgestellt werden, oder kann zumindest teilweise durch den Benutzer oder durch die Interaktion mit dem Benutzer definiert werden. Das Personalisierungskriterium kann zumindest eine Auswertungsbedingung bezüglich der zumindest einen Personalisierungsoption einrichten. Ein Wert (Optionswert) von zumindest einer Personalisierungsoption kann ausgewertet werden (beispielsweise durch die Personalisierungseinheit 20) Version-um-Version unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen, um verschiedene auswählbare Codierte-Audiosignal-Versionen gemäß den Werten der Personalisierungsoption zu sortieren (beispielsweise durch Bilden einer Einstufung basierend auf der Auswertungsbedingung, so dass, je mehr die zumindest eine Auswertungsbedingung durch eine auswählbare Codiertes-Audiosignal-Version respektiert wird, desto höher die Einstufung der auswählbaren Codiertes-Audiosignal-Version ist). Wenn eine Personalisierungsoption beispielsweise einen binären Wert (d. h. entweder „wahr“ oder „falsch“ aufweist, oder äquivalent „0“ oder „1“) aufweist, kann zumindest eine Auswertungsbedingung bezüglich dessen ausgewertet werden, ob die Personalisierungsoption einen vordefinierten Wert aufweist oder nicht. Das Personalisierungskriterium kann werden „wähle die auswählbare Codiertes-Audiosignal-Version, deren Personalisierungsoption wahr ist“ (oder umgekehrt). Folglich wird die Personalisierungseinheit 20 die Personalisierung 22 definieren, indem vorzugsweise die auswählbare Codiertes-Audiosignal-Version als die bevorzugte Codiertes-Audiosignal-Version gewählt wird, deren binäre Personalisierungsoption „wahr“ ist (oder umgekehrt). Die Bedeutung von „vorzugsweise wählen“ kann als Erhöhen der Einstufung der auswählbaren Codiertes-Audiosignal-Versionen verstanden werden, die die Auswertungsbedingung erfüllen (und/oder die das Personalisierungskriterium erfüllen), so dass diese auswählbaren Codiertes-Audiosignal-Versionen ihre Positionen in der Ordnung erhöhen; wobei parallel die Einstufung derjenigen auswählbaren Codiertes-Audiosignal-Versionen, die die Auswertungsbedingung nicht erfüllen, verringert wird. Es kann nicht-binäre Personalisierungsoptionen geben. Beispielsweise kann die Personalisierungsoption in einem Bereich von Werten definiert sein, wobei das Personalisierungskriterium eine Auswertungsbedingung bezüglich des Werts einrichten könnte (beispielsweise Verstärkung oder eine oder mehrere Positionskoordinaten eines Audioobjekts in einer 3D-Klangumgebung): Die Auswertungsbedingung kann durch einen Vergleich des Optionswerts mit einer speziellen Schwelle (Auswertungsschwelle) ausgewertet werden. Die Schwelle kann beispielsweise durch einen Benutzer gewählt werden, beispielsweise mithilfe der Benutzerschnittstelle 40, oder kann eine voreingestellte Schwelle sein. Ein weiteres Personalisierungskriterium (und/oder Auswertungsbedingung) kann basierend auf einer „nächstliegender Wert“-Bedingung sein: Wenn es erforderlich ist, dass die Personalisierungsoption einen erforderlichen Wert aufweist (beispielsweise einen Wert B, wobei B eine rationale Zahl ist, beispielsweise B=5,0), beispielsweise für die Verstärkung oder für eine Audioobjektposition, kann die Personalisierung als eine bevorzugte Codiertes-Audiosignal-Version die Codiertes-Audiosignal-Version definieren, deren Optionswert dem erforderlichen Wert am nächsten liegt (beispielsweise wenn es drei auswählbare Codiertes-Audiosignal-Versionen 1,0, 2,0, 3,0 gibt, wobei B=4,8 für Version 1, B=4,9 für Version 2, und B=5,2 für Version 3, wird die bevorzugte Version Version 2 sein, die den geringsten Abstand von dem erforderlichen Wert B=5 hat). Allgemein gesprochen kann jedoch die Personalisierungseinheit 20 die bevorzugte Codiertes-Audiosignal-Version(en) durch Auswerten zumindest einer Auswertungsbedingung, die beispielsweise durch das Personalisierungskriterium eingerichtet ist, wählen. Die zumindest eine Auswertungsbedingung kann eine Bedingung bezüglich zumindest einer der Personalisierungsoptionen sein, die in den Konfigurationsinformationen der Seiteninformationen 16 gelistet sind. Die Personalisierungseinheit 20 kann, beispielsweise dem Personalisierungskriterium und/oder der zumindest einen Personalisierungsbedingung folgend, für jede Kapazität (beispielsweise Bitrate), die durch die externe Ressource (Netz) erlaubt ist, zumindest eine Ordnung (Einstufung) unter den auswählbaren Codiertes-Audiosignal-Versionen definieren, so dass die Version mit dem höchsten Rang in der Ordnung die bevorzugte Codiertes-Audiosignal-Version für die spezielle Kapazität (Bitrate) ist. Im Allgemeinen kann sich das Personalisierungskriterium (oder allgemeiner die zumindest eine Auswertungsbedingung) mit der Zeit entwickeln: Beispielsweise kann die Modifikation des Personalisierungskriteriums (oder allgemeiner der zumindest einen Auswertungsbedingung) durch die Personalisierungseingabe 42 und/oder 42d konditioniert werden (es wird gezeigt, dass sie auch durch eine Kapazitätsanforderungs-Konditionierungseinheit 75, wie in den 1b und 10b, konditioniert werden kann). Wenn die Personalisierungsoption beispielsweise eine Vorauswahl ist und die Dialogsprache, wie z. B. Englisch, Französisch, Spanisch, des Audiosignals einstellt, könnte der Benutzer durch die Benutzerschnittstelle 40 und bereitgestellt durch die Personalisierungseingabe 42 (oder 42d) die Modifikation der Vorauswahl (beispielsweise Umschalten von Englisch auf Deutsch) anfordern: dies beinhaltet die Modifikation der Personalisierung 22 durch die Personalisierungseinheit 20, die für jede Kapazität (Bitrate) eine andere bevorzugte Codiertes-Audiosignal-Version zuordnet. Daher kann die Auswertungsbedingung als Bereitstellen zumindest einer Ordnung verstanden werden, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß einer Einstufung zu sortieren, so dass die Personalisierungseinheit 20 die am höchsten eingeordnete auswählbare Codiertes-Audiosignal-Version als die bevorzugte Codiertes-Audiosignal-Version wählt.
  • Die zumindest eine Auswertungsbedingung kann bei einigen Beispielen umfassen:
    • 1. zumindest eine erste Auswertung einer ersten Auswertungsbedingung bezüglich zumindest einer ersten Personalisierungsoption, oder eines ersten Satzes oder einer Kombination von Personalisierungsoptionen, und
    • 2. (optional) zumindest eine zweite Auswertung bezüglich zumindest einer zweiten Personalisierungsoption, oder eines zweiten Satzes oder einer Kombination von Personalisierungsoptionen.

    (Dies ist nicht immer der Fall. Es gibt Verwendungsfälle, bei denen alle Personalisierungsoptionen in einer Vorauswahl eingestellt sind, weshalb kein zweiter Auswertungsschritt oder keine zweite Personalisierungsoption existieren.)
  • Folglich werden zumindest eine erste Ordnung definiert, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß der ersten Auswertung zu sortieren, und zumindest eine zweite Ordnung, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß der zweiten Auswertung zu sortieren, um die bevorzugte Codiertes-Audiosignal-Version basierend auf zumindest einer der ersten Ordnung und der zweiten Ordnung zu wählen. Bei einigen Beispielen kann die erste Auswertungsbedingung dominant sein und/oder kann eine sogenannte Vorauswahl (beispielsweise ein Vorauswählen einer Dialogsprache) sein, wobei die zweite Auswertungsbedingung rezessiv (sekundär) sein kann, wobei die zweite Ordnung es somit ermöglichen kann, sekundäre Optionen, die bezüglich der dominanten weniger wichtig sind, zu definieren. Es kann mehrere Hierarchieebenen geben, wobei eine übergeordnete Auswertungsbedingung somit dominant gegenüber einer untergeordneten Auswertungsbedingung sein kann. Bei nicht-hierarchischen Beispielen kann eine Zuweisung eines ersten Auswertungswerts von der ersten Auswertung und eines zweiten Auswertungswerts von der zweiten Auswertung definiert sein, um eine finale Ordnung unter Verwendung sowohl des ersten Auswertungswerts als auch des zweiten Auswertungswerts zu definieren.
  • Zumindest eine Personalisierungsoption kann zumindest eines von Verstärkungspegel, Positionsdaten, Audioobjektauswahl (eine Gruppe von Audioobjekten/Kanälen, wo nur einer zu einer Zeit aktiv ist, beispielsweise der Hauptdialog eines Films) oder ein Stummschalten und Lautschalten eines spezifischen Audioobjekts, Mischwerte für Komponenten des codierten Audiosignals, usw. enthalten, wobei ein Satz (oder eine Kombination) von Personalisierungsoptionen eine Mehrzahl der Optionen enthalten kann.
  • Die 1a-1e und 10a-10e zeigen auch eine Überwachungseinheit 70 (die auch optional oder extern sein kann). Die Überwachungseinheit 70 kann den Zustand einer externen Ressource 13 überwachen (beispielsweise die Netzbandbreite 13, die zur Übertragung des Bitstroms 12 zur Verfügung steht). Der überwachte Zustand kann daher für die tatsächliche Auswahl der Codiertes-Audiosignal-Version, die von der Streaming-Servervorrichtung angefordert werden soll, verwendet werden. Die Überwachungseinheit (70) kann den momentanen Zustand 73 der externen Ressource 13 (beispielsweise die Bandbreite des Netzes 300) erhalten, indem sie Verzögerungsinformationen bezüglich der Ankunft zumindest eines Datenpakets des Bitstroms 12 bezüglich zumindest eines Zeitstempels, der in einem Feld des jeweiligen Datenpakets codiert ist, misst. Somit erfolgt eine Messung 73 des externen Zustands 13 auf eine solche Weise, dass, je höher die Verzögerung, eine desto geringere Kapazität das Netz 300 aufweist. Alternativ kann der momentane Zustand (73) der externen Ressource (13) von einer Überwachungseinheit erhalten werden, die in einem Betriebssystem implementiert ist, das in der Streaming-Clientvorrichtung 100 (oder irgendeiner von 100b-100e) arbeitet. Andere Überwachungstechniken können durchgeführt werden. Anstelle der Überwachungseinheit 70 können eine Messung oder andere Informationen 73 über den Überwachungszustand durch eine andere Entität bereitgestellt werden (beispielsweise einen Anbieter und/oder die Streaming-Servervorrichtung).
  • Die 1a-1e und 10a-10e zeigen eine Auswahleinrichtung 30. Die Auswahleinrichtung 30 kann die Operation des Auswählens (32) der Codiertes-Audiosignal-Version, die von der Streaming-Servervorrichtung angefordert werden soll, durchführen. Die Auswahleinrichtung 30 kann im laufenden Betrieb arbeiten und kann basierend auf dem überwachten Zustand 73 des externen Zustands (beispielsweise der Netzbandbreite, und auch basierend auf der Personalisierung 22, wie sie durch die Personalisierungseinheit 20 definiert wird) exakt die Codiertes-Audiosignal-Version (die eindeutig sein kann) auswählen, die von der Streaming-Servervorrichtung angefordert werden soll. Häufig ist, je höher die Bandbreite 13, die zur Übertragung des Bitstroms 12 zur Verfügung steht, ist, desto höher die Bitrate der ausgewählten Codiertes-Audiosignal-Version 32; je geringer die Bandbreite 13 (73), desto geringer die Bitrate der ausgewählten Codiertes-Audiosignal-Version 32. Analog ist, je höher die Bitrate, desto höher die Bandbreite 13 (73), die zur Übertragung des Bitstroms 12 zur Verfügung steht, desto höher die Wahrscheinlichkeit, dass die ausgewählte Codiertes-Audiosignal-Version 32 die Präferenz des Benutzers trifft (da aufgrund der Tatsache, dass mehrere auswählbare Codiertes-Audiosignal-Versionen für den Benutzer zur Verfügung stehen, es einfacher ist, dass die Anforderung des Benutzers erfüllt wird und die Qualität hoch ist). (Es wird auch gezeigt, speziell Bezug nehmend auf die 10a-10e, dass, je höher die Bandbreite ist, desto größer die Anzahl von alternativen Personalisierungsoptionen, die in einer auswählbaren Codiertes-Audiosignal-Version geboten werden können, ist). Die Kommunikationsschnittstelle 10 wird eine Anforderung 19 senden, die das Bereitstellen des codierten Audiosignals 14 gemäß der ausgewählten Audiosignalversion 32, wie sie durch die Auswahleinrichtung 30 ausgewählt wurde, anfordert. Somit wird zumindest ab dem nachfolgenden Bitstromsegment der Bitstrom 12 gemäß der ausgewählten Audiosignalversion 32 bereitgestellt. (Es wird auch gezeigt, speziell Bezug nehmend auf die 10a-1 0e, dass es nicht immer der Fall sein wird, dass die Anforderung 19 zu übertragen ist, da bestimmte alternative Personalisierungsoptionen bereits latent in der momentan empfangenen Audiosignalversion 32 vorliegen können, und es nicht notwendig ist, dieselben zu aktivieren).
  • Eine bestimmte Filterung kann bei Beispielen passend sein, um zu vermeiden, dass verschiedene Auswahlen kontinuierlich aktualisiert werden. Es ist daher möglich, dass der überwachte Statuszustand 73 kein augenblicklicher Zustand ist, sondern die Entwicklung der Bandbreite in den unmittelbar vorhergehenden Minuten berücksichtigen kann (beispielsweise in einem Zeitbereich von maximal den letzten 10 Minuten oder 20 Minuten). Zusätzlich oder alternativ kann der Zustand 73 (zumindest teilweise) als eine Vorhersage der Bandbreite erhalten werden, beispielsweise vorhergesagt durch historische und/oder statistische Daten, beispielsweise nachdem der momentane augenblickliche Netzzustand und/oder die unmittelbar vorhergehenden Zustände berücksichtigt wurden).
  • Das codierte Audiosignal 14, wie es in dem Bitstrom 12 empfangen wird, wird daher einem Decodierer 60 durch die Kommunikationsschnittstelle 10 bereitgestellt. Der Decodierer 60 kann (beispielsweise durch eine elektrische oder drahtlose Verbindung 62) die decodierte Version des codierten Audiosignals 14, wie es empfangen wird, bereitstellen. Die Wiedergabeeinheit 50 wird die Töne dem Benutzer bereitstellen (die Wiedergabevorrichtung 50 kann Teil der Vorrichtung 100 sein oder extern zu dieser sein). Der Decodierer 60 kann durch einen Transcodierer 60c ersetzt sein (beispielsweise in den 1c und 10c). Der Decodierer 60 kann das codierte Audiosignal 14, das in dem Bitstrom 12 empfangen wird, dekomprimieren und/oder das Mischen, Aufwärtsmischen, räumliche Mischen, usw. durchführen, indem Parameter, die in dem Bitstrom 12 codiert sind, berücksichtigt werden. Der Decodierer 60 (oder Transcodierer 60c) kann durch die Benutzerschnittstelle 40 oder durch andere Einstellungen einer Einstellungsmaschine (beispielsweise 40d in den 1d und 10d) oder durch eine Wiedergabeeinheit 50 gesteuert werden, ungeachtet dessen, dass diese der Einfachheit halber in den Figuren nicht gezeigt sind. (Es wird auch gezeigt, speziell Bezug nehmend auf die 10a-10e, dass einige Steuerung durch die sogenannte zweite Auswahl 432 ausgeübt werden kann, die alternative Personalisierungsoptionen, die latent in dem codierten Audiosignal 14, das momentan in dem Bitstrom 12 empfangen wird, jedoch momentan nicht aufbereitet wird, vorliegen, aktivieren, deaktivieren und/oder wählen kann).
  • 1 b und 10b zeigen Beispiele von Streaming-Clientvorrichtungen 100b, 400b, die vollständig analog zu der Streaming-Clientvorrichtung 100 von 1a und 400 von 10a sind, mit Ausnahme der Tatsache, dass ferner eine Kapazitätsanforderungs-Konditionierungseinheit 75 vorgesehen ist, die Kapazitätsanforderungs-Konditionierungsinformationen 76 zu der Auswahleinrichtung 30, die eine Kapazitätsmenge (beispielsweise eine Bitrate), die zu einem speziellen zeitlichen Augenblick erforderlich ist, anzeigen, ausgeben kann.
  • Die Kapazitätsanforderungs-Konditionierungseinheit (Musterauswahleinheit) 75 kann ein vordefiniertes Auswahlmuster als Kapazitätsanforderungs-Konditionierungsinformationen 76 bereitstellen. Die Kapazitätsanforderungs-Konditionierungsinformationen 76 können eine augenblickliche Bitrate, die durch die Auswahleinrichtung 30 verwendet werden soll, erfordern. Die erforderliche augenblickliche Bitrate kann einem vordefinierten Auswahlmuster folgen, das eine bestimmte Bitrate unabhängig von der überwachten Bandbreite 73 erfordert. Falls die Bandbreite, die durch die Kapazitätsanforderungs-Konditionierungsinformationen 76 gefordert wird, über der Kapazität ist, die für die Übertragung zur Verfügung steht, wird die Auswahleinrichtung 30 die Kapazitätsanforderungs-Konditionierungsinformationen 76 bei Beispielen ignorieren. Falls die Bandbreite, die durch die Kapazitätsanforderungs-Konditionierungseinheit 75 gefordert wird, unter der Netzbandbreite ist, wird die Auswahleinrichtung 30 dennoch bei Beispielen die Bitrate auswählen, die in der Erforderliche-Kapazität-Informationen-Anforderung, die in den Kapazitätsanforderungs-Konditionierungsinformationen 76 angezeigt wird, gefordert wird. Der Grund dafür, eine Bitrate zu erfordern, die geringer ist als die überwachte Bandbreite, kann darin liegen, dass es beabsichtigt sein kann, einem vordefinierten Datenplan zu folgen (beispielsweise so, dass die Bandbreite nicht begrenzt ist, es aber bevorzugt sein könnte, Bandbreite zu sparen), wobei der Datenplan in der Kapazitätsanforderungs-Konditionierungseinheit 75 gespeichert ist. Zusätzlich oder alternativ kann ein Auswahlmuster (das auch in der Kapazitätsanforderungs-Konditionierungseinheit 75 gespeichert ist) eine Schnell-Einstell-Funktion implementieren, so dass bei der Inbetriebnahme eine geringe Bitrate ausgewählt wird, und nachfolgend (beispielsweise nach einer vordefinierten Zeitdauer) die Auswahleinrichtung 30 eine Höhere-Bitrate-Version auswählt, beispielsweise mit dem Effekt des Vermeidens einer Startverzögerung. Die Kapazitätsanforderungs-Konditionierungsinformationen 76 können verschiedene Auswahlen bei der gleichen Bandbreite bewirken, selbst wenn das Netz ausreichend Kapazität hat, um bei einer höheren Bandbreite zu arbeiten. Selbst wenn es nicht gezeigt ist, kann die Kapazitätsanforderungs-Konditionierungseinheit 75 statt mit der Auswahleinrichtung 30 mit der Personalisierungseinheit verbunden sein, oder mit beiden derselben, so dass die Kapazitätsanforderungs-Konditionierungsinformationen 76 die Personalisierung 22 direkt konditionieren. Die Kapazitätsanforderungs-Konditionierungseinheit 75 kann die Filterung durchführen, wie oben erörtert wurde.
  • Wie oben erklärt wurde, zeigen die 1a, 1b, 10a und 10b Beispiele einer Vorrichtung 100, 100b, 400, 400b, bei der der Decodierer 60 eine decodierte (beispielsweise dekomprimierte) Version 62 des Bitstroms 12 (und speziell des Audiosignals 14) zu einer Wiedergabeeinheit 50 (beispielsweise einem Renderer) bereitstellt. Stattdessen zeigen die 1c und 10c Varianten einer Streaming-Clientvorrichtung 100c, 400c, bei der der Decodierer 60 durch einen Transcodierer 60c ersetzt ist (oder durch eine Einheit, die sowohl die Funktion des Decodierers 60 als auch des Transcodierers 60c durchführt). Der Transcodierer 60c kann das codierte Audiosignal 14 von einer ersten codierten Version (die, die von der Streaming-Servervorrichtung übertragen wurde) in eine zweite codierte Version 62c transcodieren (beispielsweise decodieren und nachfolgend wieder codieren). Die zweite codierte Version 62c kann in einer Speichereinheit (beispielsweise einem Flash-Speicher, einer Festplatte, einer Floppy-Diskette, einer digitalen vielseitigen Diskette, DVD, einer BluRay, usw.) gespeichert werden oder zu einer anderen Vorrichtung (beispielsweise einem weiteren Decodierer) übertragen werden, entweder durch das gleiche Kommunikationsnetz 300 oder durch eine andere Übertragungsressource (beispielsweise ein weiteres Netz, oder eine Nah-Übertragungsressource, Bluetooth, WiFi, ZigBee, Ethernet usw.), die verdrahtet oder drahtlos sein kann. Die Streaming-Clientvorrichtung 100c kann auch die Musterauswahleinheit 75 von 1b aufweisen und daher (zumindest bei einigen Beispielen) als die Streaming-Clientvorrichtung 100b arbeiten, mit der Besonderheit des Transcodierens statt des einfachen Decodierens.
  • Die Personalisierungseinheit 20 muss nicht notwendigerweise einzig durch eine Benutzerschnittstelle 40 gesteuert werden. Die 1d und 10d zeigen Varianten 100d, 400d, bei denen vordefinierte Einstellungen 40d (die beispielsweise in einer Speichereinheit gespeichert sind) eine Personalisierungseingabe 42d zusätzlich oder anstelle der Benutzerpersonalisierungseingabe 42 bereitstellen. Die Personalisierungseingabe 42d kann durch den Benutzer (beispielsweise durch die Benutzerschnittstelle 40) zu verschiedenen Zeiten (beispielsweise sogar Tage vor der Übertragung des Bitstroms 12) gesteuert werden und kann für eine Mehrzahl von Bitstromübertragungen gültig sein. Informationen bezüglich der Personalisierungseingabe 42d können auch dem Benutzer bereitgestellt werden (dies ist der Grund, warum der Pfeil 42d` bidirektional ist). (Die vordefinierten Einstellungen 40d können eine Video-auf-Abruf-Präferenz, VoD-Präferenz, aufweisen). Zusätzlich oder alternativ können, wie in den 1e und 10e gezeigt ist, einige oder alle der Personalisierungsinformationen 42 eine vordefinierte Einstellung 42d aufweisen oder können auf derselben basieren, die durch eine vordefinierte Einstellungsmaschine 40d verarbeitet sind, die von einer Dienstanbietereinstellung, die durch vordefinierte Einstellungsinformationen 42e' definiert ist, erhalten werden. In den 1e und 10e sind die vordefinierten Einstellungen 42d (die eine VoD-Präferenz sein können oder eine solche enthalten oder in einer solchen enthalten sein können) nicht als ein Teil des Bitstroms 12 zu betrachten, sondern können als eine Einstellung verstanden werden, die vor der Anforderung der Übertragung des Bitstroms 12 definiert wird. Beispielsweise können die vordefinierten Einstellungsinformationen 42e' durch den Dienstanbieter (beispielsweise die Streaming-Servervorrichtung oder ein anderes System, das die Streaming-Servervorrichtung steuert oder dieselbe enthält) bei der Bestellung eines Bereitstellungsdienstes bekannt sein (der die Übertragung des Bitstroms 12 beinhaltet). Die vordefinierten Einstellungsinformationen 42e' (und/oder die vordefinierte Einstellung 42d) können ungeachtet durch eine Benutzereingabe konditioniert werden (beispielsweise beschlossen im Voraus, wie z. B. bei der Bestellung des Bereitstellungsdienstes), beispielsweise durch die Verbindung 42d' (wobei die Anforderung von der Kommunikationsvorrichtung 10 zu der Streaming-Servervorrichtung hier nicht gezeigt ist).
  • Bei den Beispielen der 1a-1e und 10a-10e können die Benutzerpersonalisierungseingabe 42 und/oder die vordefinierte Einstellung 42d zumindest eines der Auswertungsbedingungen und/oder des Personalisierungskriteriums definieren. Bei einigen Beispielen, die auf den 1a-1e und 10a-10e basieren, kann die Benutzerschnittstelle 40 zu dem Benutzer (Hörer) hin Personalisierungsinformationen bezüglich der auswählbaren Codiertes-Audiosignal-Versionen, wie sie in den Seiteninformationen 16 (die Personalisierungsinformationen, die die zumindest eine Personalisierungsoption oder zumindest einen Satz oder die Kombination von Personalisierungsoptionen anzeigen) erhalten werden, ausgeben, um den Benutzer zu führen, um das Personalisierungskriterium und/oder zumindest eine Auswertungsbedingung zu definieren.
  • Allgemein gesprochen ist es möglich, (beispielsweise durch die Benutzerschnittstelle 40) die bevorzugte Audiosignalversion (22) basierend beispielsweise auf der zumindest einen Personalisierungseingabe (42) zu ändern: es wird daher die Anforderung (19) der ausgewählten Audiosignalversion (32) auch während des Empfangs des Bitstroms (12) aktualisiert. Somit wird nachfolgend das codierte Audiosignal (14) gemäß der aktualisierten ausgewählten Audiosignalversion (32) erhalten. Daher können die Personalisierungseinheit 20 und die Auswahleinrichtung 30 vorteilhafterweise während des laufenden Betriebs arbeiten.
  • Der Unterschied zwischen den Beispielen der 10a-10e und denen der 1 a-1 e wird nun erklärt. Wie zu sehen ist, ermöglichen die Beispiele der 10a-10e eine zweite Auswahl 432 (die in den 1a-1e nicht gezeigt ist) unter den Personalisierungsoptionen in der momentan codierten Audiosignalversion 14.
  • Einige Personalisierungsoptionen der momentan codierten Audiosignalversion können beispielsweise auswählbar deaktiviert und aktiviert werden, beispielsweise durch die Personalisierungseingabe 42 (oder 42d), die beispielsweise durch den Benutzer eingestellt wird. Wenn eine Personalisierungsoption deaktiviert wird (beispielsweise durch die zweite Auswahl 432), kann somit eine Personalisierungsoption latent vorliegen, aber nicht ausgelöst werden (beispielsweise nicht decodiert und/oder nicht transcodiert, oder in jedem Fall nicht aufbereitet). Dies kann das Beispiel einiger Kanäle sein, die auswählbar aufbereitet oder nicht aufbereitet werden, beispielsweise gemäß der Personalisierungseingabe 42, die durch den Benutzer eingestellt wird. Andere Personalisierungsoptionen können selektiv aktiviert und deaktiviert werden, ungeachtet dessen, dass sie durch die Streaming-Clientvorrichtung 400-400e empfangen werden.
  • Es gibt die Möglichkeit, dass einige Personalisierungsoptionen vorliegen, die alternativ zueinander sind (beispielsweise wird eine auf Kosten einer oder mehrerer anderer aktiviert). Bei Beispielen können die alternative Personalisierungsoption(en) beide parallel in der gleichen codierten Audiosignalversion 14 übertragen werden, obwohl nur eine aktiviert (und aufbereitet) wird, während die anderen gleichzeitig deaktiviert (und nicht aufbereitet) werden, beispielsweise unter einer Wahl, die durch die Personalisierungseingabe 42 (beispielsweise durch den Benutzer) oder 42d angezeigt (oder zumindest konditioniert) wird. Die deaktivierte(n) Personalisierungsoption(en) kann (können) daher latent in der momentan codierten Audiosignalversion 14 vorliegen, wobei jedoch ihre Aufbereitung nicht ausgelöst wird (es kann sein, dass sie bei einigen Beispielen nicht einmal decodiert oder transcodiert wird). Zum Beispiel können die alternativen Personalisierungsoptionen die Dialogsprache betreffen: die gleiche codierte Audiosignalversion 14 kann sowohl die englische Dialogsprache als auch die deutsche Dialogsprache enthalten, wobei nur eine derselben aufbereitet werden soll. Daher kann der Benutzer eine zweite Auswahl 432 durchführen, die eine Dialogsprache wählt, indem Englisch aktiviert und gleichzeitig Deutsch deaktiviert wird, oder umgekehrt. Allgemein gesprochen erfordert eine auswählbare codierte Audiosignalversion, die eine deaktivierbare und/oder alternative Personalisierungsoption(en) aufweist, eine größere Kapazität (größere Bandbreite), da mehr Informationen durch die Streaming-Servervorrichtung übertragen werden als die, die tatsächlich wiedergegeben werden (was somit bedeutet, dass die Kapazität, die für das codierte Audiosignal erforderlich ist, größer ist). Jedoch wird, aufgrund des Durchführens der zweiten Auswahl 432, die Aktivierung/Deaktivierung und/oder die Wahl zwischen den alternativen Personalisierungsoptionen ausgelöst, und nicht das Anfordern (durch die Anforderung 19) einer neuen auswählbaren Codiertes-Audiosignal-Version an die Streaming-Servervorrichtung. Es sei angemerkt, dass in den Seiteninformationen 16 eine Anzeige sein kann, ob eine Personalisierungsoption(en) deaktivierbar ist oder nicht, und/oder ob zwei oder mehr Personalisierungsoptionen alternativ zueinander sind. Daher kann die Personalisierungseinheit 20 die bequemste Personalisierung bezüglich Bitrate, Qualität und Benutzeranforderung definieren, wobei die Auswahleinrichtung 30 die Codiertes-Audiosignal-Version unter Berücksichtigung derselben auswählen kann. Beispielsweise gibt es die folgenden Fälle A und B:
    1. A) falls der momentane Status 73 des Netzes 300 eine hohe Kapazität ermöglicht, kann eine Codiertes-Audiosignal-Version mit vielen alternativen Optionen ausgewählt werden; und
    2. B) falls der momentane Status 73 des Netzes 300 nur eine geringe Kapazität ermöglicht, kann eine Codiertes-Audiosignal-Version mit weniger alternativen Optionen ausgewählt werden (in einigen Fällen kann eine einzige Personalisierungsoption gewählt werden, welche die ist, die durch die Personalisierungseinheit 22 definiert ist).
  • In beiden Fällen kann jedoch die gleiche Personalisierungsoption für den Benutzer aufbereitet werden. Jedoch:
    • - wenn der Benutzer die Personalisierungseingabe 42 in dem Fall ändert, dass das Netz 300 eine höhere Kapazität ermöglicht (Fall A), wird das Auslösen des Benutzerbefehls durch die zweite Auswahl 432 durchgeführt, und die neue Personalisierungsoption wird unmittelbar aufbereitet; und
    • - wenn der Benutzer die Personalisierungseingabe 42 in dem Fall ändert, dass das Netz 300 eine geringe Kapazität ermöglicht (Fall B), könnte dies durch die Auswahl 32 durchgeführt werden, und eine neue Option würde (durch die Anforderung 19) an die Streaming-Servervorrichtung angefordert werden.
  • Somit kann, wenn es die Netzkapazität ermöglicht (Fall A), die Auswahleinrichtung 30 die Codiertes-Audiosignal-Version auswählen, die eine höhere Kapazität als unbedingt notwendig erfordert, wobei jedoch nachfolgende Personalisierungseingaben 42 oder 42d für nachfolgende Befehle vorbereitet werden.
  • Es ist möglich, ein Personalisierungskriterium einzurichten, gemäß dem eine erste alternative Personalisierungsoption eine dominante Auswertungsbedingung erfüllt und eine zweite alternative Option (alternativ zu der ersten alternativen Option) eine rezessive Auswertungsbedingung erfüllt (mehrstufige, hierarchische Bedingungen können definiert werden, beispielsweise einschließlich einer tertiären Bedingung usw.). Auf diese Weise ist es normalerweise bevorzugt, eine Codiertes-Audiosignal-Version zu haben, die sowohl die erste als auch die zweite alternative Option aufweist (beispielsweise wenn die Bandbreite hoch ist), aber sekundär kann eine Codiertes-Audiosignal-Version angefordert werden, die nur die erste alternative Personalisierungsoption aufweist (beispielsweise wenn die Bandbreite nachfolgend reduziert wird). Beispielsweise kann die dominante Bedingung eine erste alternative Option erfordern, wie eine bestimmte Dialogsprache (beispielsweise Englisch), und eine sekundäre Bedingung kann eine alternative Option erfordern, wie eine andere Sprache (beispielsweise Deutsch), um sicherzustellen, dass, vereinbar mit der Kapazität (13, 73) des Netzes 300, beide alternativen Optionen parallel empfangen werden, ungeachtet dessen, dass eine nicht aufbereitet wird, und dass, wenn die Kapazität des Netzes abnimmt (beispielsweise Fall B), zumindest die dominante Option empfangen wird.
  • Beispiele bezüglich der Arbeitsweise der Vorrichtungen der 1 a-1 e sind in den 3a-7 gezeigt. Beispiele bezüglich der Arbeitsweise der Vorrichtungen der 10a-10e sind in den 11a-13b gezeigt. Bei den Beispielen wird der Klarheit halber häufig auf Bandbreiten mit bestimmten gegebenen Werten verwiesen (beispielsweise 768 kbps, 25 kbps, 2 kbps, usw.), was gemäß Beispielen geändert werden kann, wobei auch die Anzahl von Zuständen geändert werden kann (beispielsweise zwei mögliche Zustände oder mehr).
  • Ein Beispiel des Betriebs wird durch die 3a und 3b bereitgestellt. 3a zeigt ein Beispiel von Seiteninformationen 16 als Teil des Bitstroms 12. Es existieren fünf auswählbare Versionen 1, 2, 3, 4 und 5, die die Streaming-Servervorrichtung der Streaming-Clientvorrichtung anbieten kann. Die auswählbare Version 1 weist die Option A=a1 auf und erfordert eine Kapazität von 768 kbps; die auswählbare Version 2 weist die Option A=a1 auf und erfordert eine Kapazität von 25 kbps; die auswählbare Version 3 weist die Option A=a1 auf und erfordert eine Kapazität von 2 kbps; die auswählbare Version 4 weist die Option A=a2 auf und erfordert eine Kapazität von 768 kbps; und die auswählbare Version 5 weist die Option A=a2 auf und erfordert eine Kapazität von 2 kbps. Aus bestimmten Gründen (vielleicht aufgrund der Autorfassung oder aus irgendwelchen anderen Gründen) gibt es bei der Kapazität von 25 kbps keine auswählbare Version, die die Option A=a2 bereitstellt. Alle diese Informationen werden in den Seiteninformationen 16 bereitgestellt. Die Personalisierungseinheit 20 kann daher eine Personalisierung 22 definieren (die auch auf einer Personalisierungseingabe 42, wie sie durch den Benutzer durch die Benutzerschnittstelle 40 bereitgestellt wird, basiert), bei der folgende existieren:
    1. 1. Eine bevorzugte Version 1 (die die auswählbare Version 4 ist), die die Kapazität von 768 kbps erfordert.
    2. 2. Die bevorzugte Version 2 (die die auswählbare Version 5 ist), die eine Kapazität von 2 kbps erfordert.
  • Hier war das Personalisierungskriterium (Auswertungsbedingung), dass die Option A gleich a2 sein muss (beispielsweise da die Personalisierungseingabe 42 und/oder 42d dies erfordert). Daher werden zwei Zustände des Netzes betrachtet:
    1. 1. Ein Zustand 1 für eine Bandbreite gleich oder größer als 768 kbps.
    2. 2. Ein Zustand 2 für eine Bandbreite kleiner als 768 kbps.
  • Daher wählt in diesem Fall die Personalisierung 22 nur die auswählbare Version 4 für die Kapazität von zumindest 768 kbps aus, und die auswählbare Version 5 für die Kapazität von weniger als 768 kbps (jedoch über 2 kbps). Es ist keine Personalisierung für eine auswählbar Version bei 25 kbps bereitgestellt, da die einzige auswählbare Version bei 25 kbps Version 2 ist, wobei jedoch Version 2 nicht das Personalisierungskriterium (Auswertungsbedingung), dass es Option A=a2 aufweist, erfüllt. Wenn folglich die für die Übertragung zur Verfügung stehende Bandbreite 25 kbps ist, wird der Benutzer den Ton bei der bevorzugten Version 2 (auswählbare Version 5) genießen, die bei 2 kbps ist. Obwohl der Benutzer Ton bei einer geringeren Bitrate genießt, geht seine Personalisierung nicht verloren. Sobald die Kapazität des Kommunikationsnetzes (oder allgemeiner der externen Ressource) sich erhöht, wird der Benutzer zum Genießen des Tons, der bei der bevorzugten Version 1 (auswählbare Version 4) bereitgestellt wird, zurückkehren.
  • 3a zeigt eine Grafik der Entwicklung des Netzzustands 73 (13) mit der Zeit (Zeit: Abszisse; Netzzustand, oder Bandbreite, Ordinate). Zwei spezielle Werte, wie sie durch das momentane Personalisierungskriterium (Auswertungsbedingung) definiert sind, sind gezeigt: eine erste Schwelle von 768 kbps (was die Schwelle für die Personalisierungskriteriumwahlen in 3a ist) und 2 kbps und 25 kbps (was eine nicht-verwendete Schwelle ist, die zum Auslösen der Auswahl der auswählbaren Version 2 verwendet werden würde). Es ist zu sehen, dass, bis zu dem Zeitpunkt t1, die ausgewählte Version die bevorzugte Version 1 (auswählbare Version 4) ist, da die Bandbreite über der Schwelle von 768 kbps ist. Zum Zeitpunkt t1 wird die Schwelle von 768 kbps erreicht und nachfolgend ist die Bandbreite kleiner als 768 kbps. Folglich wird die ausgewählte Version die bevorzugte Version 2 (das heißt, die auswählbare Version 5). Daher wird die angeforderte Version (durch die Anforderung 19) die auswählbare Version 2 bei 2 kbps. Dies ändert sich zu einem Zeitpunkt t2 wieder, weshalb das Netz wieder im Zustand 1 sein wird und die ausgewählte Version 32 die bevorzugte Version 1 (das heißt, die auswählbare Version 4) sein wird. Wie zu sehen ist, wird der Wert A=a2 der Personalisierungsaudiooption stets beibehalten, weshalb die Personalisierung stets beachtet wird. Es sei angemerkt, dass 3b die Verzögerungen aufgrund der Überwachung und der Anforderung (19) und des Bereitstellens des codierten Audiosignals gemäß der neuen ausgewählten Version 32 (was selbstverständlich eine bestimmte Verzögerungszeit erfordert) als vernachlässigbar betrachtet (die Zeitpunkte t1 und t2 sollten tatsächlich in 3b etwas nach rechts verschoben sein).
  • 3a zeigt auch, dass in dem Zeitintervall zwischen t3 und t4 (die beide zwischen t1 und t2 liegen) die Bandbreite unter 25 kbps abfällt. Jedoch ändert sich nichts, da die Personalisierung 22 keine Schwelle bei 25 kbps einstellt. Eine Schwelle ist implizit durch die Kapazitätsschwelle von 2 kbps definiert, jedoch besteht in diesem Fall keine Möglichkeit, den Bitstrom 12 rechtzeitig bereitzustellen.
  • Die 4a und 4b zeigen den Fall, in dem die Seiteninformationen 16 exakt die gleichen sind wie in 3a (die auswählbaren Versionen, die Optionen und die erforderlichen Kapazitäten sind die gleichen), wobei auch die Entwicklung der Netzbandbreite die gleiche bleibt wie in 3b. Jedoch ist in diesem Fall die Personalisierung 22 verschieden, da das Personalisierungskriterium (Auswertungsbedingung) A=a1 lautet, was die Auswahl von einer der auswählbaren Versionen 1, 2, 3 anstelle der auswählbaren Versionen 4 und 5 impliziert. In diesem Fall sind die möglichen Zustände der externen Ressource (Bandbreite des Kommunikationsnetzes) drei. Vor t1 ist die ausgewählte Version die wählbare Version 1 (bevorzugte Version 1). Zwischen t1 und t3 ist die ausgewählte Version (bevorzugte Version 2) die auswählbare Version 2, da die Bandbreite zwischen 25 kbps und 768 kbps liegt. Zwischen t3 und t4 ist die ausgewählte Version (bevorzugte Version 3) die auswählbare Version 3, da die erforderliche Kapazität 2 kbps beträgt. Zwischen t4 und t2 ist die ausgewählte Version (bevorzugte Version 2) die auswählbare Version 2, da die erforderliche Kapazität 2 kbps beträgt. Ferner ist die ausgewählte Version (bevorzugte Version 1) nach t2 die auswählbare Version 1, da die Netzkapazität mehr als 768 kbps beträgt. Wie in 4a zu sehen ist, basiert das Personalisierungskriterium (Auswertungsbedingungen) nun auf der Auswertung von zwei Schwellen (25 kbps und 768 kbps) und es ist nun möglich, dem Benutzer auch zu erlauben, den Ton bei 25 kbps zwischen t1 und t3 und zwischen t4 und t2 zu genießen. In diesem Fall wird das codierte Audiosignal mit der geringsten Qualität gemäß der auswählbaren Version 3 nur zwischen t3 und t4 bereitgestellt. Die Personalisierung 22 wird ebenfalls beachtet.
  • Falls die Eingabe 42 (beispielsweise wenn der Benutzer dies verlangt) oder 42d die Änderung des Personalisierungskriteriums erfordert (beispielsweise von dem Personalisierungskriterium A=a1 von 4a zu dem Personalisierungskriterium A=a2 von 3a), wird die Personalisierungseinheit 20 entsprechend arbeiten (beispielsweise das Kriterium und die bevorzugte Version ändern) und die Auswahleinrichtung 30 wird ebenfalls die Versionen entsprechend auswählen.
  • Bei einem Aspekt gemäß den 5a und 5b weist ein Beispiel einer Personalisierung 22 eine dominante Bedingung bezüglich einer ersten Audiooption A (von der gefordert wird, die dominante Auswertungsbedingung A=WAHR) zu erfüllen, und eine sekundäre (rezessive) Auswertungsbedingung (die gemäß dem Personalisierungskriterium und/oder der Auswertungsbedingung darin besteht, „B=WAHR“ zu erfüllen).
  • Wie zu sehen ist, ist, wenn die Bandbreite über 768 kpbs ist (vor t1 und nach t2), die ausgewählte Version die auswählbare Version 1. Tatsächlich:
    • - unter allen neun auswählbaren Versionen sind die auswählbaren Versionen 1, 2, 3, 7, 9 höher in der dominanten Einstufung, da die dominante Auswertungsbedingung A=WAHR verifiziert ist, während die auswählbaren Versionen 4, 5, 6, 8 geringer als die dominante Einstufung sind, da die dominante Bedingung hier nicht erfüllt ist; und
    • - bei der sekundären Einstufung verifizieren nur die Versionen 1 und 3 die sekundäre Auswertungsbedingung „B=WAHR“ und sind daher bevorzugte Versionen.
  • Die ausgewählte Version 1 passt besser zu dem Zustand des Netzes als die auswählbare Version 3 im Fall einer geringen Bandbreite (die akustische Bitrate der auswählbaren Version 3 ist extrem gering), und somit ist die bevorzugte Version 1, die in dem Zustand 1 ausgewählt werden soll, wenn die Bandbreite ≥ 768 kbps ist, die auswählbare Version 1 (bevorzugte Version 1). Andererseits ist, falls das Netz in dem Zustand 2, in dem die Bandbreite geringer als 768 kbps ist, ist, die ausgewählte Version (bevorzugte Version 2) die auswählbare Version 3, da die auswählbare Version 1 nicht zu der Bandbreite von weniger als 768 kbps passt und die verbleibenden auswählbaren Versionen 2, 5, 6, 8, 9 in der dominanten oder der rezessiven (sekundären) Einstufung, die durch die Auswertungsbedingungen (und/oder das Personalisierungskriterium) definiert ist, geringer sind. In 5b ist zu sehen, dass vor t1 und nach t2 die ausgewählte Version die bevorzugte Version 1 (auswählbare Version 1) ist, während zwischen t1 und t2 die ausgewählte Version die bevorzugte Version 2 (auswählbare Version 3) ist.
  • Ein weiteres Beispiel ist in den 6a und 6b bereitgestellt. Hier ist eine erste Personalisierungsaudiooption beispielsweise die Dialogsprache (abgekürzt als „LANG“), die die dominante Bedingung (beispielsweise eine Vorauswahl) erfüllen soll; und eine sekundäre „rezessive Bedingung“ (Personalisierungskriterium) liegt in dem nummerischen Wert der Personalisierungsoption B als nächstliegend zu 5,0. Wie zu sehen ist, ist im Fall einer Bandbreite von mehr als 768 kbps die ausgewählte Version die auswählbare Version 1, da:
    • - die auswählbaren Versionen 7, 8, 9, die dominante Auswertungsbedingung nicht erfüllen (weshalb dieselben in der dominanten Einstufung geringer sind);
    • - unter den auswählbaren Versionen 1, 2, 3, 4, 5, 6, die in der dominanten Einstufung höher sind, die auswählbare Version, die am nächsten bei 5,0 (Auswertungsschwelle) ist, die auswählbare Version 1 ist (weshalb die auswählbare Version 1 in der rezessiven Einstufung die höchste ist).
  • Folglich wird vor dem Zeitpunkt t1 in 6b und nach den Zeitpunkt t2 der Zustand 1 der Bandbreite, die ≥ 768 kbps ist, adressiert, indem die auswählbare Version 1 (bevorzugte Version 1) ausgewählt wird. In dem Zustand 2 zwischen 25 kbps und 768 kbps wird eine zweite bevorzugte Version 2 unter den auswählbaren Versionen 2, 3, 5, 6, 8, 9, die konform zu der Bandbreite sind (die auswählbaren Versionen 1, 4, 7 haben eine zu hohe Bitrate und sind daher ausgeschlossen), gewählt. In diesem Fall setzt die dominante Einstufung die Versionen 8 und 9 (deren Sprache Deutsch ist) als unterste in der dominanten Einstufung, und unter den Versionen 2, 3, 5 und 6 ist die bevorzugte Version 2 die auswählbare Version 2, da ihr Wert B=5,4 am nächsten an der Auswertungsschwelle 5,0 ist, die durch die sekundäre Bedingung eingestellt ist (die auswählbaren Versionen 3 und 5 sind daher in der Einstufung geringer). Zwischen den auswählbaren Versionen 2 und 6 ist die ausgewählte Version die bevorzugte Version 2, da sie eine Bitrate aufweist, die besser zu der Netzbandbreite passt (die auswählbare Version 2 hat eine besseres Qualität als die auswählbare Version 6). Folglich würde zwischen den Zeitpunkten t2 und t3 der Status 2 durch die bevorzugte Version 2, die die auswählbare Version 2 ist, adressiert. Dies findet auch zwischen den Zeitpunkten t4 und t2 statt.
  • Im Fall einer Bandbreite von weniger als 25 kbps kann die ausgewählte Version (bevorzugte Version 3) dann nur unter der Gruppe von auswählbaren Versionen 3, 6 und 9 gewählt werden (da die anderen nicht zu der Bitrate passen). Jedoch ist die auswählbare Version 9 ausgeschlossen, da die dominante Bedingung, die Sprache Englisch aufzuweisen, durch die auswählbare Version 9 nicht erfüllt ist. Folglich wird die sekundäre Bedingung, dass die Option B am nächsten zu 5,0 (sekundäre Auswertungsschwelle) ist, ausgewertet. Folglich wird die bevorzugte Version 3 als die auswählbare Version 6 gewählt, da ihre Option B=5,4 näher an der Schwelle von 5,0 ist als die Option B=5,5 der auswählbaren Version 3. Folglich wird der Status 3 der Bandbreite zwischen 2 kbps und 25 kbps zwischen den Zeitpunkten t3 und t4 durch die bevorzugte Version 3, die gewählt wird, um die auswählbare Version 6 zu sein, adressiert.
  • 7 zeigt das Beispiel der 6a und 6b, wobei jedoch in diesem Fall die bevorzugte Version im laufenden Betrieb geändert wird (und auch die ausgewählte Version wird im laufenden Betrieb geändert): in diesem Fall entscheidet der Benutzer, von der Dialogsprache Englisch zu der Dialogsprache Deutsch zu schalten, wobei das Auslösen als zum Zeitpunkt t5 auftretend dargestellt ist. Vor dem Zeitpunkt t5 ist die Dialogsprache Englisch und die dominante Bedingung und die sekundäre Bedingung (und die Personalisierung 22) sind die gleichen wie in 6a, weshalb die Grafik von 7 der Grafik von 6b folgt. Ungeachtet dessen ändert (beispielsweise durch 42) der Benutzer zu einem Zeitpunkt t5 die Hauptauswertungsbedingung, was die Dialogsprache von Englisch zu Deutsch ändert, während die sekundäre Auswertungsbedingung basierend auf der Nähe zu der Auswertungsschwelle 5,0 beibehalten wird. Folglich wird die Personalisierung 22 im laufenden Betrieb durch die Personalisierungseinheit 20 geändert (die Personalisierung, die in 6a gezeigt ist, ist nicht mehr gültig): nun soll als dominante Bedingung die Dialogsprache Deutsch sein, was bewirkt, dass die auswählbaren Versionen 7, 8 und 9 als in der dominanten Einstufung höher liegend aktualisiert werden. In der sekundären (rezessiven) Einstufung weisen alle auswählbaren Versionen 7, 8, 9 den gleichen Optionswert B=5,0 auf. Trotz allem ist die Bandbreite nach t5 geringer als 68 kbps, weshalb die auswählbare Version 7 (die mehr als 768 kbps erfordert) in der Ordnung keine hohe Einstufung haben kann. Daher wird unter den am höchsten platzierten auswählbaren Versionen 8 und 9 die auswählbare Version 8 (die 25 kbps erfordert) ausgewählt, da sie zu der Bandbreite besser passen. Diese Situation ändert sich zum Zeitpunkt t2, nach dem die Bandbreite über 768 kbps liegt, weshalb die bevorzugte Version die auswählbare Version 7 wird. Zum Zeitpunkt t6 ändert (beispielsweise durch 42) der Benutzer die Auswertungsbedingung wieder und stellt die Dialogsprache wieder auf Englisch ein. An diesem Punkt springt die Personalisierung zurück, um wie in 6a zu sein, und die auswählbare Version 1 wird nun ausgewählt.
  • 2a zeigt einen Betrieb, der durch die Streaming-Clientvorrichtung 100-100e durchgeführt werden kann. Der Betrieb 500 kann einen Schritt 502 des Empfangens von Seiteninformationen 16, die Konfigurationsinformationen und Kapazitätsinformationen aufweisen, aufweisen, um Kenntnis von den auswählbaren Codiertes-Audiosignal-Versionen zu haben. Danach kann ein Schritt 504 des Definierens der Auswertungsbedingung folgen. Schritt 502 kann beispielsweise durch die Personalisierungseinheit 20 beispielsweise unter Beschränkungen, die auf einer Personalisierungseingabe(n) 42 und/oder 42d basieren, durchgeführt werden. Es kann ein Schritt 506 des Definierens des momentanen ausgewerteten möglichen Zustands als den ersten möglichen Zustand einer Gruppe von möglichem Zustand definiert sein. Beispielsweise können die unterschiedlichen möglichen Zustände bei den Beispielen der 3a-7 den verschiedenen Bitraten bei den Bereichen, die durch die Schwellen 768 kbps, 25 kbps und 2 kbps definiert sind, zugeordnet sein. Daher kann der momentan ausgewertete mögliche Zustand der erste auszuwertende sein (könnte beispielsweise der Zustand 1 über 768 kbps sein). Von diesem Punkt aus kann eine Schleife 507 beispielsweise zwischen Zuständen 508, 510 und 512 durchgeführt werden, in der die bevorzugten Codiertes-Audiosignal-Versionen für die verschiedenen möglichen Zustände ausgewertet werden. In der Schleife kann ein Schritt 508 des Beschränkens der auswählbaren Codiertes-Audiosignal-Versionen auf diejenigen, die zu dem momentan ausgewerteten möglichen Zustand konform sind (beispielsweise möglicherweise konditioniert durch die Informationen 76), vorgesehen sein. Dies kann beispielsweise erhalten werden, indem diejenigen auswählbaren Codiertes-Audiosignal-Versionen vermieden werden, die eine Kapazität erfordern, die nicht mit dem möglichen Zustand zusammenpassen (die beispielsweise eine größere Kapazität als diese erfordern) (beispielsweise diejenigen, die eine Bitrate aufweisen, die für eine spezielle Kapazität des Netzes oder die Bandbreite zu hoch ist). Dann kann ein Schritt 510 des Bestimmens der bevorzugten auswählbaren Codiertes-Audiosignal-Version(en) für den momentan ausgewerteten möglichen Zustand existieren, beispielsweise durch Auswerten der Erfüllung der Auswertungsbedingung durch die Personalisierungsoption(en) der auswählbaren Versionen. Diese Operationen können daher zumindest eine Einstufung (beispielsweise dominante Einstufungen oder Einstufungen basierend auf Auswertungswerten) durchführen. Danach existiert der Schritt 512 des Aktualisierens des momentan ausgewerteten möglichen Zustands (beispielsweise von Zustand 1 bei einer Bandbreite ≥ 768 kbps, wobei ein anderer Bandbreitebereich zwischen 25 kbps und 768 kbps nun momentan ausgewertet werden kann). Daher werden die Schritte 508 und 510 für den neuen momentan ausgewerteten möglichen Zustand wiederholt. Am Ende der Aktualisierung kann ein Schritt 514 des Erhaltens des Zustands 73 (beispielsweise Bandbreite) und/oder der Informationen 76 (beispielsweise von der Kapazitätsanforderungs-Konditionierungseinheit 75) vorliegen. Dann kann eine Auswahl der Version, die angefordert werden soll, im Schritt 516 vorliegen. Gemäß dem Betrieb 500 kann eine oder mehrere bevorzugte auswählbare Version(en) für jeden möglichen Zustand existieren. Die Auswahleinrichtung 30 wählt im Schritt 516 die bevorzugte Version gemäß der momentanen Kapazität des Netzes und/oder der Informationen 76 aus. Die Schritte 504-512 können durch die Personalisierungseinheit 20 durchgeführt werden.
  • Die Beispiele der 3a-7 sind hauptsächlich auf die Beispiele in den 1a-1e gerichtet und werden unter der Annahme eines Falls durchgeführt, bei dem keine Personalisierungsoptionen, die alternativ zueinander sind, existieren. Hier ist jedoch die Möglichkeit, alternative Optionen zu haben, erlaubt. Nachfolgend werden hierin hauptsächlich der Betrieb von Beispielen der 10a-10e erörtert, die beispielsweise die zweite Auswahl 423 (mit alternativen Optionen) einbeziehen.
  • 11a zeigt ein Beispiel, bei dem im Fall einer maximalen Bandbreite (oder einer maximalen Kapazität bei mehr als 768 kbps) eine auswählbare Version 1 zwei alternative Optionen aufweist, die alternativ zueinander sind, das heißt, wobei die Dialogsprache entweder Englisch oder Deutsch ist, und eine weitere auswählbare Version 8 weist zwei alternative Optionen auf, das heißt, wobei die Sprache entweder Deutsch oder Spanisch ist. Bei einer geringeren Kapazität (zwischen 25 kbps und 768 kbps) stehen eine auswählbare Version 2 mit nur Englisch, eine auswählbare Version 4 mit nur Spanisch und eine auswählbare Version 6 mit nur Deutsch zur Verfügung. Bei der geringsten Kapazität (unter 25 kbps) stehen eine auswählbare Version 2 mit nur Englisch, eine auswählbare Version 4 mit nur Spanisch und eine auswählbare Version 6 mit nur Deutsch zur Verfügung. Die Personalisierung 22 kann die Wahl von Englisch erfordern (beispielsweise da der Benutzer in einer Personalisierungseingabe 42 die Verwendung von Englisch als Dialogsprache eingestellt hat), weshalb die ausgewählte Version (bevorzugte Version 1) die bevorzugte Version für die Bandbreite ≥ 768 kbps ist, wobei die zweite Auswahl 432 Englisch ist. Für eine Bandbreite zwischen 25 kbps und 768 kbps ist die ausgewählte Version (bevorzugte Version 2) die auswählbare Version 2 (da die auswählbaren Versionen 4 und 6 kein Englisch aufweisen); und für eine Bandbreite geringer als 25 kbps ist die ausgewählte Version (bevorzugte Version 3) die auswählbare Version 3 (da die auswählbaren Versionen 5 und 7 kein Englisch aufweisen). Die Grafik in 11c zeigt die Auswahlen, die durch Anfordern (durch die Anforderung 19) der verschiedenen auswählbaren Versionen 1, 2, 3 durchgeführt werden. Es sei in 11c der Fall untersucht, in dem der Benutzer, zu einem Zeitpunkt t0<t1, die Personalisierungseingabe 42 von Englisch zu Deutsch ändert. In diesem Fall ändert sich die Personalisierung 22 (weshalb die Personalisierung 22, wie sie in 11a gezeigt ist, nicht mehr gültig ist), jedoch bleibt die bevorzugte Version die auswählbare Version 1, da die auswählbare Version 1 auch die Option Deutsch hat. Folglich wird zum Zeitpunkt t0 die Dialogsprache augenblicklich (durch 432) zu Deutsch umgeschaltet, indem Englisch deaktiviert wird und Deutsch (was alternativ zu Englisch ist) aktiviert wird. Es besteht kein Bedarf danach, einen neuen Strom, der Deutsch enthält, anzufordern (beispielsweise durch die Anforderung 19). Nach der Zeit t0 werden die ausgewählten Versionen diejenigen sein, die Deutsch als eine Option aufweisen, wodurch die Auswertungsbedingung des Aufweisens der Dialogsprache, die Deutsch ist, erfüllt ist. Zum Zeitpunkt t10>t2 stellt der Benutzer die Dialogsprache erneut auf Englisch ein. Auch in diesem Fall ändert sich die Personalisierung 22 (und kehrt zu der in 11a zurück), wobei die zweite Auswahl 432 erneut Englisch wählt, ohne eine neue auswählbare Version von der Streaming-Servervorrichtung anzufordern (in der Zeitspanne zwischen t4 und t10 wurde Englisch nichtsdestotrotz empfangen, obwohl in einer latenten, nicht-aufbereiteten Form, beispielsweise nicht decodiert oder nicht transcodiert).
  • Ein weiteres Beispiel ist in den 12a und 12b bereitgestellt. Dieses Beispiel ist im Wesentlichen das gleiche wie das der 11 a-11 c, jedoch existiert hier für den Zustand von 768 kbps oder mehr eine zusätzliche auswählbare Version 9, die nur Englisch als Dialogsprache aufweist. Die auswählbare Version 9 könnte auch eine bessere Qualität als die auswählbare Version 1 aufweisen, jedoch kann die auswählbare Version 1 ungeachtet dessen auf Kosten der auswählbaren Version 9 bevorzugt werden. Dies kann beispielsweise in dem Fall stattfinden, in dem die Personalisierungseingabe 42 oder 42d fordert:
    • - als dominante Bedingung, dass die Dialogsprache Englisch ist; und
    • - als rezessive Bedingung, dass die Dialogsprache Deutsch ist, als eine alternative Option.
  • Die auswählbare Version 1 erfüllt sowohl die dominante Bedingung als auch die rezessive (sekundäre) Bedingung, da die auswählbare Version 1 sowohl Deutsch als auch Englisch aufweist, während die auswählbare Version 9 die rezessive Kondition nicht erfüllt, da sie nicht Deutsch anbietet. Aus diesem Grund ist die Personalisierung so definiert, dass die auswählbare Version 1 die bevorzugte Version für die Bandbreite ≥ 768 kbps ist, ungeachtet dessen, dass die auswählbare Version 9 auch eine bessere Qualität haben könnte. Das Verhalten von 11c gilt auch für das Beispiel der 12a und 12b, wenn die Personalisierungseingabe 42 oder 42d wie bei t0 und t10 geändert wird. Der Fall der 12a und 12b kann beispielsweise auftreten, wenn ein deutscher Benutzer beabsichtigt, einen Film in Englisch anzuschauen: der Film wird in Englisch wiedergegeben und, falls der deutsche Benutzer beabsichtigt, in seine Muttersprache umzuschalten, wird dies unmittelbar in Gang gebracht. Beispielsweise kann die dominante Bedingung durch die Eingabe 42 gewählt werden, und die rezessive Bedingung kann durch 42d gewählt werden (vordefinierte Einstellungen, in Anbetracht der Tatsache, dass das Gerät in Deutschland in Verkehr gebracht werden kann).
  • Die 13a und 13b zeigen ein weiteres Beispiel. In diesem Fall gibt es die folgenden auswählbaren Versionen:
    • 1) Für eine Bandbreite ≥ 768 kbps:
      • a. eine auswählbare Version 1, die alternative Optionen Englisch, Deutsch und Spanisch anbietet, und eine weitere Option B in einem Bereich [4,0, 5,6] (B könnte eine Verstärkung sein, eine Audioobjektposition oder eine andere Audio- oder Raum-Größe)
    • 2) Für eine Bandbreite in dem Bereich zwischen [25 kbps, 768 kbps]:
      1. a. eine auswählbare Version 2, die alternative Optionen Englisch und Spanisch anbietet, und eine Option B in einem Bereich [4,4, 5,2]
      2. b. eine auswählbare Version 4, die nur Englisch anbietet, und eine Option B in einem Bereich [4,2, 5,7]
      3. c. eine auswählbare Version 6, die nur Deutsch anbietet, und eine Option B in einem Bereich [4,4, 5,2]
    • 3) Für eine Bandbreite in dem Bereich unter 25 kbps:
      1. a. eine auswählbare Version 3, die nur Englisch anbietet, und eine Option B nur bei 5,5
      2. b. eine auswählbare Version 5, die nur Englisch anbietet, und eine Option B nur bei 5,3
      3. c. eine auswählbare Version 7, die nur Deutsch anbietet, und eine Option B nur bei 5,0.
  • Es sei angenommen, dass die Personalisierungseingabe 42 und/oder 42d lautet:
    • 1) als dominante Bedingung die Sprache Englisch
    • 2) als sekundäre Bedingung, dass B 5,0 ist oder zumindest so nahe wie möglich bei 5,0 ist
    • 3) als tertiäre Bedingung, dass die alternative Sprache Spanisch ist.
  • Hier wird die Personalisierungseinheit 20 die Personalisierung 22 wie folgt definieren:
    • 1) für die Bandbreite ≤ 768 kbps ist die bevorzugte Version 1 die auswählbare Version 1 (die die einzige auswählbare Version ist, die mehr als 768 kbps erfordert).
    • 2) für eine Bandbreite zwischen 25 kbps und 768 kbps ist die bevorzugte Version 2 die auswählbare Version 2, da, unter den auswählbaren Versionen 2, 3, 4, 5, 6, 7:
      1. a. in der dominanten Ordnung (basierend darauf, dass die dominante Bedingung der Sprache Englisch ist), die höchste Einstufung den auswählbaren Versionen 2, 3, 4, 5 zuerkannt wird (da die auswählbaren Versionen 6 und 7 kein Englisch aufweisen)
      2. b. in der sekundären (rezessiven) Ordnung (basierend auf der sekundären Bedingung des Aufweisens des Werts B so nahe wie möglich an 5,0) die höchste Einstufung den auswählbaren Versionen 2, 4 zuerkannt wird (da B=5,0 in dem Bereich der auswählbaren Versionen 2 und 4 ist, während B=5,0 nicht in dem Bereich, oder dem einzelnen Wert, der auswählbaren Versionen 3 und 5 ist; wobei die auswählbaren Versionen 4 und 6 bereits in der dominanten Ordnung ausgeschlossen sind)
      3. c. in der tertiären (rezessivsten) Ordnung (basierend auf der tertiären Bedingung des Aufweisens von Spanisch als alternativer Option) wird unter den auswählbaren Versionen 2 und 4 die höchste Einstufung der auswählbaren Version 2 zuerkannt, da sie auch Spanisch als alternative Option aufweist (während die auswählbare Version 4 Spanisch nicht aufweist und die anderen auswählbaren Versionen bereits in den übergeordneten Ordnungen ausgeschlossen wurden)
    • 3) für eine Bandbreite unter 25 kbps ist die bevorzugte Version 3 die auswählbare Version 5, da unter den auswählbaren Versionen 3, 5 und 7:
      1. a. den auswählbaren Versionen 3 und 5 die höchste Einstufung in der dominanten Ordnung zuerkannt wird (basierend auf der dominanten Bedingung, dass die Sprache Englisch ist), während die auswählbare Version 7 kein Englisch aufweist
      2. b. in der sekundären (rezessiven) Ordnung (basierend auf der sekundären Bedingung des Aufweisens des Werts B so nahe wie möglich an 5,0) wird der auswählbaren Version 5 (die B=5,3 aufweist) eine höhere Einstufung gegenüber der auswählbaren Version 3 (die B=5,5 aufweist, was weiter entfernt von der Schwelle 5,0 ist als die auswählbare Version 5) zuerkannt.
  • Bezug nehmend auf 13b arbeitet die Auswahleinrichtung 30 wie folgt:
    • 1) vor t1:
      1. a. die Auswahleinrichtung 30 wird die auswählbare Version 1 anfordern (durch eine Anforderung 19), der Definition der Personalisierung 22 folgend
      2. b. ferner wird die Auswahleinrichtung 30 auch die zweite Auswahl 432 durch Wählen der Sprache, um Englisch zu sein (was durch die auswählbare Version 1 angeboten wird) einstellen und den Wert von B, um 5,0 zu sein (was auch in dem Bereich [4,0, 5,6], der durch die auswählbare Version 1 angeboten wird, ist)
      3. c. (vorteilhafterweise, wenn die Personalisierungseingabe 42 oder 42d plötzlich geändert wird, um als dominante Bedingung die Sprache Spanisch aufzuweisen, wird die ausgewählte Version die auswählbare Version 1 bleiben, jedoch wird die zweite Auswahl 432 auf Spanisch umschalten, wobei Englisch deaktiviert wird, und eine neue aktive Anforderung 19 einer anderen auswählbaren Version vermieden wird)
    • 2) zwischen t1 und t3:
      1. a. die Auswahleinrichtung 30 wird die auswählbare Version 2 anfordern (durch eine Anforderung 19), folgend der Definition der Personalisierung 22
      2. b. ferner wird die Auswahleinrichtung 30 auch die zweite Auswahl 432 durch Wählen der Sprache, um Englisch zu sein (was durch die auswählbare Version 2 angeboten wird) einstellen, und den Wert von B, um 5,0 zu sein (was ebenfalls in dem Bereich [4,4, 5,2], der durch die auswählbare Version 2 angeboten wird, ist)
      3. c. (vorteilhafterweise, wenn die Personalisierungseingabe 42 oder 42d plötzlich geändert wird, um als eine dominante Bedingung die Sprache Deutsch aufzuweisen, wird die ausgewählte Version die auswählbare Version 2 bleiben, aber die zweite Auswahl 432 wird auf Spanisch umschalten, wobei Englisch deaktiviert wird und wobei eine neue aktive Anforderung 19 einer anderen auswählbaren Version vermieden wird)
      4. d. (ferner vorteilhafterweise, wenn die Personalisierungseingabe 42 oder 42d plötzlich geändert wird, um als rezessive Bedingung aufzuweisen, dass B so nahe wie möglich an 4,4 ist, wird die ausgewählte Version die auswählbare Version 2 bleiben, jedoch wird die zweite Auswahl 432 auf ein Aufweisen von B=4,4 schalten, wobei B=5,0 deaktiviert wird, und wobei eine neue aktive Anforderung 19 nach einer anderen auswählbaren Version vermieden wird)
    • 3) zwischen t3 und t4:
      1. a. die Auswahleinrichtung 30 wird die auswählbare Version 5 anfordern (beispielsweise durch eine Anforderung 19), folgend der Definition der Personalisierung 22
      2. b. es existiert keine zweite Auswahl 432, da die einzige Sprachoption Englisch ist und B nur einzig bei B=5,3 bereitgestellt wird
      3. c. (vorteilhafterweise, wenn die Personalisierungseingabe 42 oder 42d plötzlich geändert wird, um als eine rezessive Bedingung aufzuweisen, dass B so nahe wie möglich an 4,4 ist, wird die ausgewählte Version die auswählbare Version 5 bleiben, wobei eine neue aktive Anforderung 19 nach einer anderen auswählbaren Version vermieden wird)
    • 4) zwischen t4 und t2 wird die Auswahl 32 wie zwischen t1 und t3 sein
    • 5) nach t2 wird die Auswahl 32 exakt wie vor t1 sein.
  • 2b zeigt einen Betrieb 500b, die durch jedes der Beispiele der 10a-10e durchgeführt werden kann. Die Schritte 502-512 können wie bei dem Beispiel 500 von 2a durchgeführt werden. Der Betrieb 500b bezieht sich auf den Fall, bei dem sich der Zustand 73 oder die Personalisierung 22 ändert (514), beispielsweise aufgrund eines Befehls in der Personalisierungseingabe 42 und/oder 42d, was auch das Personalisierungskriterium und/oder die Auswertungsbedingung(en) ändern kann. Es sei lediglich angemerkt, dass in diesem Fall unter den Optionen alternative Optionen zu berücksichtigen sind (beispielsweise bei rezessiven Auswertungsbedingungen): Im Schritt 515 wird ausgewertet, ob die momentane Auswertungsbedingung(en) durch das momentan empfangene codierte Audiosignal 14 erfüllt ist (beispielsweise durch eine alternative Option, momentan deaktiviert und daher nicht aufbereitet oder transcodiert, obwohl sie momentan empfangen wird). Falls die alternative Option der Auswertungsbedingung(en) genügt, kann eine zweite Auswahl 432 durch die Auswahleinrichtung 30 durchgeführt werden (bei 515b), um die alternative Option(en) zu aktivieren, die die momentane Auswertungsbedingung(en) erfüllt, und die Übertragung einer neuen Anforderung 19 wird vermieden. Andernfalls wird bei 516 eine neue auswählbare Codiertes-Audiosignal-Version ausgewählt und eine neue Anforderung 19 wird an die Streaming-Servervorrichtung gesendet.
  • Da die obigen Beispiele (beispielsweise in den 1a-1e und 10a-10e) als hauptsächlich auf ein Streamen mit adaptiver Bitrate gerichtet verstanden werden können, kann sich die Bitrate 12, wie sie durch die Streaming-Servervorrichtung an die Streaming-Clientvorrichtung 100 bereitgestellt wird, im laufenden Betrieb ändern: das codierte Audiosignal 14 (oder allgemeiner der Bitstrom 12) kann in Segmente unterteilt werden, wobei für jedes Segment eine andere Codiertes-Audiosignal-Version (unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen bereitgestellt werden kann). Die Auswahleinrichtung 30 kann daher im laufenden Betrieb arbeiten, indem verschiedene Audiosignalversionen ansprechend auf verschiedene Zustände der externen Ressource (beispielsweise der Bandbreite, die durch das Netz bereitgestellt wird) angefordert werden. Es sei jedoch angemerkt, dass die Auswahleinrichtung 30 nicht einfach die Audiosignalversion zu der Kapazität, die mit dem überwachten Zustand 73 passt (Bandbreite, die für den Bitstrom 12 zur Verfügung steht) auswählt, sondern auch basierend auf der Personalisierung 22, wie sie durch die Personalisierungseinheit 20 definiert wird. Daher existieren zumindest die folgenden Konsequenzen:
    1. 1. Die Auswahleinrichtung 30 wählt eine Codiertes-Audiosignal-Version aus, die am besten zu der Kapazität (Bandbreite), die durch das Kommunikationsnetz (oder allgemeiner die externe Ressource) bereitgestellt wird, passt. Es ist jedoch nicht immer garantiert, dass tatsächlich die Version mit der höchsten Bitrate durch die Auswahleinrichtung 30 ausgewählt wird. Beispielweise könnte die Version mit der höchsten Qualität (die die höchste Bitrate erfordert) nicht die bevorzugte Version sein (beispielsweise da eine Version mit geringerer Qualität das Personalisierungskriterium besser erfüllt und auf Kosten der Version der höchsten Qualität gewählt wird).
    2. 2. Selbst wenn diese Strategie nachteilig erscheinen könnte (da die ausgewählte Codiertes-Audiosignal-Version 32 nicht notwendigerweise die höchstmögliche Bitrate aufweist), werden dennoch die Benutzerauswahlen beibehalten.
    3. 3. Wenn das Kommunikationsnetz (oder allgemeiner die externe Ressource) vorübergehend unter einer Spitze einer geringen Bandbreite leidet (die Bandbreite, die für die Übertragung des Bitstroms 12 zur Verfügung steht, beginnt, abrupt abzunehmen), wird der Benutzer noch die Wiedergabe des Audiosignals gemäß der Personalisierung 22 genießen (es wird die höchste in der Einstufung für die neue geringe Bandbreite sein).
    4. 4. Die Alternative (typisch bei herkömmlichen Streaming-Techniken) wäre, dass der Benutzer die Wiedergabe eines Audiosignals entgegen der Personalisierung 22 erfahren könnte, oder dass die Übertragung an einer Dienstdiskontinuität leiden würde, wodurch dem Benutzer kein Ton bereitgestellt wird.
    5. 5. Sobald die Ressource (beispielsweise die Bandbreite) wieder groß ist, wird die Auswahleinrichtung 30 erneut die bevorzugte Codiertes-Audiosignal-Version bei der neuen momentanen Kapazität (Bandbreite) 73 auswählen. Folglich wird, sobald die Bandbreite 13 wieder in einem guten Zustand ist, der Benutzer erneut einen Ton bei der höchstmöglichen Qualität konform zu der Personalisierung 22 erfahren.
    6. 6. Die Streaming-Clientvorrichtung 100-100e, 400-400e ermöglicht ferner ein transparentes Ändern der Ressource (beispielsweise kann das Kommunikationsnetz geändert werden, ohne dass der Benutzer es sogar weiß). Wenn das Kommunikationsnetz beispielsweise eine Breitband-Verbindung (beispielsweise durch Wi-Fi) für eine Wiedergabe im Smartphone des Benutzers (wobei das Smartphone die Streaming-Clientvorrichtung 100 verkörpert) aufweist, kann der Benutzer den Ton mit der höchsten Qualität, die konform zu der Personalisierung 22 ist, erfahren. Sobald der Benutzer den Bereich, der durch die Breitband-Verbindung abgedeckt ist, verlässt (beispielsweise verlässt der Benutzer sein zuhause und das Smartphone 100 muss sich auf ein Mobil-Telefonnetz mit geringerer Leistung verlassen), wird der Übergang zu einer Codiertes-Audiosignal-Version mit niedrigerer Bitrate durch die Auswahleinrichtung 30 ausgewählt (basierend auf der Personalisierung 22) und wird durch die Kommunikationsschnittstelle 10 angefordert (19).
    7. 7. Überdies können, falls die Bandbreite ausreichend ist, Personalisierungsoptionen latent empfangen, aber nicht aufbereitet werden, beispielsweise basierend auf definierten rezessiven sekundären Auswertungsbedingungen, wobei deren in Gang setzen unmittelbar stattfinden wird, falls sich die Personalisierungseingabe plötzlich ändert.
  • 8 zeigt ein Beispiel von Seiteninformationen 16. In einigen Fällen können die Seiteninformationen 16 zumindest eines von einleitenden Seiteninformationen 16a (die in einer initialen Phase der Übertragung des Bitstroms 12 von der Streaming-Servervorrichtung zu der Streaming-Clientvorrichtung 100-100e übertragen werden können) und Aktualisierungsseiteninformationen 16b (die parallel zur Übertragung des ausgewählten codierten Audiosignals 14 des Bitstroms 12 von der Streaming-Servervorrichtung zu der Streaming-Clientvorrichtung 100-100e übertragen werden können) aufweisen. Die einleitenden Seiteninformationen 16a können ermöglichen, dass die Personalisierungseinheit 20 die erste Instanz der Personalisierung 22 durchführt. Wenn sie implementiert sind, können die Aktualisierungsseiteninformationen 16b ermöglichen, die Personalisierung 22 (und/oder die Auswahl) im laufenden Betrieb zu aktualisieren. Die einleitenden Seiteninformationen 16a können ein Manifest aufweisen, das ein Teil der Seiteninformationen (Konfigurationsinformationen) 16 sein kann. Das Manifest kann eine Datei in einem MPD-Format sein und kann ein DASH-MPD-Format (DASH-MPD = dynamische adaptive Streaming-HTTP-Mediendarstellungsbeschreibung). Die Manifest-Datei kann Informationen über verfügbare Darstellungen (auswählbare Codiertes-Audiosignal-Versionen) enthalten. Die Abbildung auf die spezielle auswählbare Codiertes-Audiosignal-Version kann ebenfalls angezeigt werden, um die Kommunikationsschnittstelle 10 wissen zu lassen, wie die ausgewählte Version 32 in der Anforderung 19 zu adressieren ist. Wie zu sehen ist, können für jede auswählbare Codierte-Audiosignal-Version mehrere Codecs zur Verfügung stehen. Der spezielle Codec kann eine erste Option der auswählbaren Codiertes-Audiosignal-Versionen sein. Für jeden Codec kann es zumindest eine andere Audiodarstellung (auswählbare Codiertes-Audiosignal-Versionen) geben. Für jede Version können die Seiteninformationen (in dem Manifest) Informationen über die momentan ausgewählten Personalisierungsoptionen und verfügbare Personalisierungsoptionen enthalten. Die Aktualisierungsseiteninformationen 16 können Informationen über die momentane Audiodarstellung mit Interaktivitätsoptionen und Informationen über die Personalisierung enthalten. Weitere Seiteninformationen (unabhängig von dem Codec) können Informationen über verfügbare Abwärtsmisch-Varianten und die Abbildung auf einen externen Transportmechanismus, wie DASH, und alle verfügbaren Personalisierungsoptionen enthalten.
  • 9 zeigt ein Beispiel einer Streaming-Servervorrichtung 200, die den Bitstrom 12 wie oben zu der Streaming-Clientvorrichtung (100-100e, 400-400e usw.) übertragen kann. Alle Eigenschaften des Bitstroms (codiertes Audiosignal 14 und/oder Seiteninformationen 16), wie sie durch die Streaming-Servervorrichtung 200 übertragen werden, können daher aus der obigen Beschreibung erhalten werden und werden hier nicht wiederholt. Die Streaming-Servervorrichtung 200 kann eine Kommunikationsschnittstelle 210 aufweisen. Die Kommunikationsschnittstelle 210 kann den Bitstrom 12 zu der Streaming-Clientvorrichtung (100-100e, 400-400e usw.) übertragen. Wie oben erklärt wurde, kann der Bitstrom 12 entsprechend in eine Mehrzahl von Segmenten segmentiert sein und ein codiertes Audiosignal 14 und Seiteninformationen 16 aufweisen. Die Kommunikationsschnittstelle 210 kann eine Anforderung 19 nach einer ausgewählten Audiosignalversion des Bitstroms (12) empfangen, um den Bitstrom (12) gemäß der ausgewählten Codiertes-Audiosignal-Version (32) beginnend mit einem nachfolgenden Segment, das übertragen werden soll, zu übertragen, wobei jede der Codiertes-Audiosignal-Versionen eine vorbestimmte Kapazität erfordert und entsprechend zumindest einer Personalisierungsaudiooption ist (beispielsweise entsprechend einem Satz oder einer Kombination von Personalisierungsaudiooptionen). Mehrere Codiertes-Audiosignal-Versionen 14 können durch den Codierer 220 erzeugt werden, beispielsweise mit verschiedenen Qualitäten (beispielsweise Bitraten, Anzahl von räumlichen Kanälen, usw.). Die Streaming-Servervorrichtung 200 kann eine Inhaltsvorbereitungsvorrichtung 260 aufweisen, die jedes codierte Audiosignal 14 zu Personalisierungsoptionen zuordnen kann. Die Inhaltsvorbereitungsvorrichtung 260 kann Personalisierungsoptionen zu den auswählbaren Codiertes-Audiosignal-Versionen 14 zuordnen und Seiteninformationen 16 für diese einbetten. Für jede codierte Audiosignalversion 14 können die Seiteninformationen 16 erzeugt werden, um Konfigurationsinformationen bezüglich der Personalisierungsoptionen, die durch die momentane Codiertes-Audiosignal-Version 14 und durch die anderen auswählbaren Codiertes-Audiosignal-Versionen 14 angeboten werden, bereitzustellen. Die Personalisierungsoptionen können gelistet sein, beispielsweise zusammen mit der Anzeige, ob dieselben deaktivierbar sind und/oder ob dieselben alternativ zueinander sind. Ferner können die Seiteninformationen Kapazitätsinformationen aufweisen, die die Kapazität anzeigen, die durch das Netz für die Übertragung der momentanen Codiertes-Audiosignal-Version 14 und/oder die anderen Codiertes-Audiosignal-Versionen 14 erforderlich sind.
  • Die Streaming-Servervorrichtung 200 kann gemäß den Techniken des Streamens mit adaptiver Bitrate arbeiten. Die Streaming-Servervorrichtung 200 kann eine Speichereinheit 270 aufweisen, in der mehrere Codiertes-Audiosignal-Versionen gespeichert sind. Die ausgewählte Audiosignalversion 32, wie sie durch die Streaming-Clientvorrichtung (100-100e) angefordert (19) wird, kann daher bereitgestellt werden. Bei jedem Beginn eines neuen Segments der Codiertes-Audiosignal-Version, das zu der Streaming-Clientvorrichtung (100-100e, 400-400e) übertragen werden soll, kann die Kommunikationsschnittstelle erfassen, ob eine aktualisierte ausgewählte Audiosignalversion 32 durch die Streaming-Clientvorrichtung (100-100e, 400-400e) angefordert (19) wird, so dass die aktualisierte ausgewählte Audiosignalversion 32 als momentanes codiertes Audiosignal 14 zumindest für das nachfolgende Segment bereitgestellt wird (im Fall des Fehlens einer Aktualisierungsanforderung 19 kann die Streaming-Servervorrichtung 100 das nachfolgende Segment gemäß der gleichen ausgewählten Audiosignalversion 32, wie sie in der letzten Anforderung 19 angefordert wurde, übertragen). Bei Beispielen kann zumindest ein Codierer 220, der zumindest eine Codiertes-Audiosignal-Version codiert, Teil der Streaming-Servervorrichtung 200 sein. Bei Beispielen kann der zumindest eine Codierer 220 offline arbeiten. Bei einigen anderen Beispielen kann der zumindest eine Codierer 220 auf eine Rückkopplungsweise arbeiten, wodurch die zumindest eine Personalisierungsaudiooption oder ein Satz oder eine Kombination von Personalisierungsaudiooptionen im laufenden Betrieb modifiziert wird, basierend auf der Anforderung 19. Insbesondere muss in diesem Fall die Codiertes-Audiosignal-Version nicht in der Speichereinheit 200 vorab gespeichert sein, sondern kann bei Bedarf basierend auf der Anforderung codiert werden.
  • Die Streaming-Servervorrichtung 200 kann folgende Merkmale aufweisen:
    • Eine Bitstrom- oder Seiteninformations-Schnittstelle, die konfiguriert ist, um:
      • → den vollständigen Satz aller möglichen Personalisierungsoptionen in den Bitstrom jeder Codiertes-Audiosignal-Version einzubetten und/oder
      • → den vollständigen Satz aller möglichen Personalisierungsoptionen als Seiteninformationen jeder Codiertes-Audiosignal-Version zu schreiben.
  • Die Streaming-Servervorrichtung 200 kann eine Bitstrom- oder Seiteninformations-Schnittstelle aufweisen, die konfiguriert ist, um:
    • → einen verfügbaren (Teil-)Satz von möglichen Personalisierungsoptionen oder die Personalisierungsoption, die durch die Codiertes-Audiosignal-Version bereitgestellt wird, in den jeweiligen Bitstrom jeder Codiertes-Audiosignal-Version, in die Konfigurationsinformationen der Seiteninformationen, einzubetten, und/oder
    • → den verfügbaren (Teil-)Satz der möglichen Personalisierungsoptionen oder die Personalisierungsoption, die durch die Codiertes-Audiosignal-Version bereitgestellt wird, als Seiteninformationen jeder Codiertes-Audiosignal-Version zu schreiben.
  • Bei den vorliegenden Beispielen ist es möglich, von einem Codec zu einem anderen zu springen. Beispielsweise kann ein Bitstrom (der das codierte Audiosignal und die Seiteninformationen enthält) gemäß einem ersten Codec sein, und andere auswählbare Audiosignalversionen (die das codierte Audiosignal und die Seiteninformationen enthalten) können gemäß einem anderen Codec codiert sein. Jedenfalls ist es möglich, von einem Codec zu einem anderen zu springen (beispielsweise unter der Anforderung 19, die durch die Streaming-Clientvorrichtung 100-100e, 400-400e gesendet wird). Beispielsweise ist es möglich, von MPEG-H 3D Audio zu MPEG-D USAC zu springen (oder umgekehrt), oder in dem gleichen Codec zu bleiben, entsprechend der Wahlen der Personalisierungseinheit 20, der Auswahlen, die durch die Auswahleinrichtung 30 getroffen werden, und/oder der Personalisierungseingabe 42 oder 42d (beispielsweise durch einen Benutzer angewiesen). Das codierte Audiosignal (16) kann gemäß dem Codec MPEG-H 3D Audio und/oder MPEG-D USAC (Extended HE-AAC) sein, und die momentane Codiertes-Audiosignal-Version kann gemäß dem MPEG-H 3D Audio sein, und die anderen auswählbaren Codiertes-Audiosignal-Versionen können entweder unter Verwendung von MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC codiert sein, wobei der Bitstrom oder Seiteninformationen gemäß MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind (oder umgekehrt). Alternativ kann das codierte Audiosignal (16) gemäß dem Codec MPEG-H 3D Audio sein, und die anderen auswählbaren Codiertes-Audiosignal-Versionen können gemäß dem Codec MPEG-H 3D Audio sein, wobei der Bitstrom und/oder Seiteninformationen gemäß MPEG-H 3D Audio eingebettet sind.
  • Bei obigen Beispielen kann zumindest eine Personalisierungsoption einen Verstärkungspegel enthalten (der in einem speziellen Bereich sein kann, der durch die spezielle auswählbare Codiertes-Audiosignal-Version angeboten wird). Zumindest eine Personalisierungsoption kann Positionsdaten enthalten (beispielsweise die Position des Benutzers oder die Position eines Audioobjekts). Zumindest eine alternative Personalisierungsoption kann eine Audioobjektauswahl enthalten, wie zum Beispiel eine Gruppe von Audioobjekten/Kanälen, wobei nur eines zu einer Zeit aktiv ist (beispielsweise der Hauptdialog eines Films). Zumindest eine aktivierbare oder deaktivierbare Personalisierungsoption kann ein Stummschalten und Lautschalten von spezifischen Audioobjekten enthalten. Zumindest eine Personalisierungsoption kann Mischwerte für Komponenten des codierten Audiosignals enthalten. Zumindest eine aktivierbare oder deaktivierbare Personalisierungsoption kann Informationen bezüglich einer Auswahl und Abwahl von Komponenten des codierten Audiosignals enthalten. Zumindest eine aktivierbare oder deaktivierbare Personalisierungsoption kann Informationen betreffen, die verwendet werden, um die Aufbereitung von Komponenten des Inhalts zu beeinflussen.
  • Es ist anzumerken, dass, insbesondere bei den Beispielen der 10a-10e, es bei einer Änderung (beispielsweise durch die zweite Auswahl 432) zu einer anderen alternativen Option bei einigen Beispielen vorteilhafterweise möglich ist, nahtlos zu migrieren, indem zunächst die momentane Option (beispielsweise in einem Kanal) allmählich deaktiviert wird und die nachfolgende Option (beispielsweise in einem anderen Kanal) allmählich aktiviert wird.
  • Erörterung
  • NGA-Systeme (Next-Generation-Audiosysteme), wie zum Beispiel MPEG-H 3D Audio, ermöglichen verschiedene Personalisierungs- und Inhalts-basierte Interaktivitätsmerkmale. Dies ermöglicht eine bessere Zugänglichkeit zu Inhalt, beispielsweise durch Dialogue Enhancement (Dialogverbesserung), oder eine Anpassung des Inhalts an persönliche Präferenzen, beispielsweise durch eine Auswahl zwischen verschiedenen Inhaltsversionen, einschließlich Optionen für eine Feinabstimmung dieser Auswahlen. Eine Personalisierung kann in den Wiedergabegeräten (beispielsweise einem Mobilgerät, einem Streaming-Client, usw.) ermöglicht werden und ist inhaltsgetrieben, d. h. die Optionen, die in der Wiedergabevorrichtung verfügbar sind, werden durch den Inhalt gesteuert, werden während der Produktion verfasst und können sich möglicherweise von einem Teil des Inhalts zu einem anderen ändern.
  • Zusätzlich ermöglichen moderne Audiocodecs, NGA, sowie herkömmliche Kanal-basierte Codecs, z. B. Extended HE-AAC, ein nahtloses Umschalten der adaptiven Bitrate, das ermöglicht, dass der Client die Version von einem Satz von Darstellungen auswählt, die am besten zu der momentan verfügbaren Netzbandbreite passt. Diese Auswahl kann mit der Zeit geändert werden, um sich an ändernde Netzbedingungen anzupassen. Das Umschalten zwischen Darstellungen geschieht normalerweise an Fragmentgrenzen (Umschaltpunkten), während ein Decodieren des Bitstroms und eine Audioausgabe sich nahtlos fortsetzen.
  • Audiocodecs, wie MPEG-H 3D Audio oder Extended HE-AAC (USAC) ermöglichen ein nahtloses Umschalten zwischen zwei Darstellungen, die mit unterschiedlichen Bitraten codiert sind, durch ein Merkmal, das als „Immediate Playout Frame“ (Unmittelbare-Wiedergabe-Rahmen) (IPF, US 10614824 B2) bezeichnet wird. Ein Umschalten kann bei IPFs durchgeführt werden, vorausgesetzt, das Überblend-Flag ist gesetzt, die IPF-Distanz für beide Ströme ist ausgerichtet, und das System ist in der Lage, ein Überblenden unter Verwendung der geleerten (flushed) Ausgabe des alten Stroms und der IPF-Ausgabe des neuen Stroms durchzuführen. Ferner ist es wichtig, die Ausgabe auf das gleiche Ziellayout (Ausgangskanalkonfiguration) auf Decodiererseite aufzubereiten.
  • Im Prinzip ermöglicht das Konzept von IPFs auch, dass zwei (oder mehr) Darstellungen unter Verwendung unterschiedlicher Codecs codiert sind, wie MPEG-H 3D Audio oder Extended HE-AAC. Wenn einer der Codecs eine andere Ausgangskanalkonfiguration aufweist, könnten leere Audiokanäle eingefügt werden und das Überblenden würde dann in ein Einblenden oder Ausblenden übersetzt werden, abhängig von der Richtung des Umschaltens.
  • Das nahtlose adaptive Umschalten, wie es oben beschrieben ist, arbeitet unter der Bedingung, dass die Inhaltsverfassung (Authoring) für alle Darstellungen, die mit unterschiedlichen Bitraten codiert sind, identisch ist. Dies kann für herkömmlichen Kanal-basierten Inhalt (wie Stereo oder 5.1) erreicht werden, d. h. der Inhalt wird während der Produktion in eine Einzelkanal-Darstellung gemischt. Für Stereo-Inhalt ermöglicht Extended HE-AAC so geringe Bitraten wie 12 oder 16 kbps, so dass ein Client unter schlechten Netzbedingungen auf diese sehr geringen Bitraten herunterschalten kann.
  • Jedoch könnte für komplexen NGA-Inhalt, Autorfassungen, die eine hohe Anzahl von Audioobjekten oder Signalen und viele Personalisierungsoptionen aufweisen, die obige Bedingung bezüglich einer identischen Autorfassung für alle Bedingungen nicht mehr gelten. Beispielsweise erlaubt MPEG-H 3D Audio auf Level 3 zumindest bis zu 16 Audioobjekte/Signale in verschiedenen Kombinationen und eine „Audioszene“, die diese Signale in bis zu 8 „Voreinstellungen“ (Presets) kombiniert, basierend auf der konkreten Autorfassung. Jede dieser Voreinstellungen könnte erweiterte Personalisierungsoptionen anbieten, wiederum basierend auf der konkreten Autorfassung. Alle diese 16 Audiosignale müssten für alle Darstellungen codiert werden, um alle Personalisierungsoptionen und somit die Inhaltsautorfassung identisch über alle Darstellungen zu halten. Die geringste mögliche Bitrate für eine solche 16-Audiosignal-Darstellung könnte beispielsweise 250 kbps betragen, was für bestimmte Netzbedingungen zu hoch wäre. Daher besteht das Risiko, dass das nahtlose Streaming von personalisiertem NGA-Inhalt bei solchen Szenarios nicht mehr möglich ist, und die Wiedergabe müsste angehalten werden, bis sich das Netz erholt.
  • Da die Bitrate von der Anzahl von Audiosignalen abhängt, die codiert werden müssen, wäre für geringere Bitraten, wie diejenigen, die oben genannt sind, ein Heruntermischen eines solchen NGA-Inhalts in Darstellungen mit einer geringeren Anzahl von Audiosignalen notwendig. Jedoch beeinträchtigt ein solches Heruntermischen die Autorfassung und folglich die Personalisierungsoptionen, bis zu dem Extremfall eines Stereo-Heruntermischens (oder sogar eines Mono-Heruntermischens) der Default-Voreinstellung („Default Preset“) ohne jegliche Personalisierungsoptionen.
  • Andererseits könnte der letztgenannte Fall einer Stereodarstellung notwendig sein, um für schlechte Netzbedingungen, wie oben beschrieben wurde, für Kanal-basierten Inhalt die gleichen geringen Bitraten zu erreichen.
  • Folglich ist ein adaptives Streaming unter allen Netzbedingungen, herab bis zu sehr geringen Bitraten, während eine Personalisierung beibehalten wird, momentan nicht möglich. Bereitsteller von Inhalt müssen das Risiko einer beeinträchtigten Benutzererfahrung in Kauf nehmen, entweder aufgrund von Ausfällen während schlechter Netzbedingungen oder aufgrund von unerwarteter Änderungen, die die Personalisierung betreffen.
  • Im Prinzip könnten alle „Voreinstellungen“, die für einen Teil des NGA-Inhalts verfasst sind, auf getrennte neue Inhaltsgegenstände heruntergemischt werden, die dann als Stereodarstellungen codiert werden könnten, entweder mit dem gleichen NGA-Codec, oder einem anderen Kanal-basierten Codec, wie oben beschrieben ist. Jedoch ist momentan keine Lösung verfügbar, die ermöglicht, dass der Streaming-Client die korrekte Version identifiziert, bzw. die am besten passende heruntergemischte Version, die am besten zu der momentanen Benutzerauswahl (Personalisierung) passt.
  • Um dieses Problem zu lösen, müssen zusätzliche Informationen zu dem NGA-Inhalt hinzugefügt werden, ebenso wie zu den heruntergemischten Versionen, die eine eindeutige Identifikation dieser Versionen ermöglichen, spezieller, um dieselben mit der entsprechenden Voreinstellung, oder im Allgemeinen mit einer Personalisierungsoption, des NGA-Inhalts zu verknüpfen.
  • Diese zusätzlichen Informationen in der Form von Metadaten können in die Bitströme eingefügt werden, ebenso wie auf Dateiformat- bzw. Manifest-Ebene (MPD), in den NGA-Inhalt, ebenso wie in die Stereodarstellungen. Diese Informationen, typischerweise die auf Manifest/Dateiformat-Ebene, ermöglichen, dass der Streaming-Client die am besten passende Darstellung auswählt, falls er auf eine geringere Bitrate herunterschalten muss. In dem Fall, dass sich die Netzbedingungen erholen, ermöglichen diese Metadaten auch, dass der Streaming-Client von einer Stereodarstellung zu dem NGA-Inhalt hochschaltet. Diese Metadaten, in diesem Fall typischerweise die auf Bitstrom-Ebene, ermöglichen ferner, dass die Empfangsgeräte, spezieller der Benutzerschnittstellen-Verwalter (UI-Verwalter, Ul = u-ser interface), automatisch die am besten passende Personalisierungsoption des NGA-Inhalts auswählt, bzw. beispielsweise den Decodierer durch „Benutzerinteraktionspakete“ initialisiert.
  • Im Folgenden wird davon ausgegangen, dass die Lösung auf MPEG-H 3D Audio als NGA-Codec zum Liefern von eindringlichem und interaktivem Inhalt und auf Extended HE-AAC als Kanal-basiertem Audio-Codec, der speziell zum Liefern der besten Audioqualität für sehr geringe Bitraten optimiert ist, basiert.
  • Die erfindungsgemäße Lösung hilft dabei, beide Technologien auf eine Weise zu kombinieren, dass ein nahtloser Übergang zwischen dem Codec Extended HE-AAC und dem Codec MPEG-H 3D Audio in beispielsweise einer adaptiven Streaming-Umgebung erfolgen kann.
  • Es sei angemerkt, dass im Prinzip die Lösung auch auf jeden anderen NGA-Codec angewendet werden kann, ebenso wie auf jeden anderen Kanal-basierten Codec.
  • Ein beispielhafter Verwendungsfall wäre wie folgt:
    • Während er zu Hause ist, empfängt ein Benutzer einen 7.1+4 MPEG-H 3D Audio-Bitstrom mit 768 kbps durch eine Breitbandverbindung und WiFi für eine Wiedergabe auf dem Smartphone (unter Verwendung einer binauralen Aufbereitung für eine Kopfhörerwiedergabe). Sobald der Benutzer das Haus verlässt, könnte ein nahtloser Übergang auf einen Stereo 24 kbps Extended HE-AAC-Strom durchgeführt werden (basierend auf der Qualität der mobilen Internetverbindung), so dass die Wiedergabe sich ohne Unterbrechungen fortsetzt.
  • Wie beschrieben wurde, kann die Bitratenanpassung selbst gehandhabt werden, wie es durch die US 10614824 B2 definiert ist. Jedoch definiert MPEG-H 3D Audio mehrere Ebenen von Benutzerinteraktivität, was in einer schlechten Benutzererfahrung resultieren könnte, wenn es nicht richtig gehandhabt wird. Beispielsweise definiert ein MPEG-H 3D Audio-Strom Voreinstellungen (Presets), die als vor-konfigurierte Benutzererfahrungen erklärt werden können. Diese werden als Vorauswahlen (Preselections) (ISO/IEC 23009-1) auf MPD-Ebene signalisiert. Für MPEG-H 3D Audio könnte ein Benutzer eine bestimmte Voreinstellung auswählen, beispielsweise mit einer anderen Hauptdialogsprache. Wenn ein Umschalten auf eine Stereodarstellung, die mit einem Kanal-basierten Codec codiert ist, wie z. B. Extended HE-AAC, ohne spezielle Handhabung durchgeführt wird, wird die Benutzer-ausgewählte Voreinstellung nicht bewahrt, was eine schlechte Benutzererfahrung zur Folge hat.
  • Dies kann adressiert werden, indem jede Voreinstellung des MPEG-H 3D Audio-Stroms (die durch mae_groupPresetlD, ISO/IEC 23008-3 identifiziert ist) mit einem entsprechenden Strom codiert wird, der mit einem Kanal-basierten Codec codiert ist und, wo erforderlich, heruntergemischt wird (z. B. eine erste Ebene von Interaktivität). Beispielsweise wird ein MPEG-H 3D Audio-Strom mit fünf Voreinstellungen fünf verschiedene Ströme, die mit Extended HE-AAC codiert sind, zur Folge haben, was ermöglicht, dass ein Client den richtigen Strom basierend auf der ausgewählten Voreinstellung anfordert.
  • Der gleiche Prozess kann durchgeführt werden, wenn ein Heruntermischen (beispielsweise eine auswählbare Codiertes-Signal-Version) erforderlich ist, jedoch codiert unter Verwendung von MPEG-H 3D Audio, da die Audioszeneninformationen (Audio Scene Information) des heruntergemischten Inhalts nicht länger Benutzerinteraktivitätsinformationen enthalten.
  • Abhängig vom Verwendungsfall könnte dieses Konzept für die zweite Ebene einer Benutzeraktivität mit sogenannten MPEG-H 3D Audio Switch Groups (MPEG-H 3D Audio-Umschaltgruppen) erweitert werden. Eine Umschaltgruppe (identifiziert durch mae_switch-GroupID (es könnte die zweite Interaktivitätsebene sein) enthält mehrere Audioobjekte/Gruppen, von denen exakt eine (die durch mae_swichtGroupMemberlD identifiziert ist) zu einer Zeit aktiv sein kann. Daher könnte es Sinn machen, auch mae_swicht-GroupMemberlD von einer oder mehreren Umschaltgruppen für die Stromauswahl zu berücksichtigen.
  • Strompacker (bei der Servervorrichtung und detaillierter beim Codierer) können die obige Abbildung verstehen müssen, um Manifest-Dateien, die die Abbildung widerspiegeln, zu erzeugen (siehe unten Transportformatsignalisierung). Jeweilige Signalisierungsinformationen sind in dem Bitstrom, der die heruntergemischte Version des Inhalts codiert, erforderlich. Für Extended HE-AAC kann eine USAC-Konfigurationserweiterung (ISO/IEC 23003-3) verwendet werden (siehe unten USAC Configuration Extension (Konfigurationserweiterung)). Für MPEG-H Audio (ISO/IEC 23008-3) kann dies unter Verwendung einer Configuration Extension und/oder eines jeweiligen MHAS-Pakets (siehe unten Configuration Extension und MHAS-Paket) erreicht werden.
  • USAC-Konfigurationserweiterung, um verfügbare Heruntermisch-Personalisierung zu signalisieren
  • Figure DE102021006419A1_0001
    Figure DE102021006419A1_0002
  • Semantik:
    • - mapsToContentFlag (1 Bit, bslbf) soll auf Eins eingestellt werden, wenn der Bitstrom eine Darstellung einer interaktiven MPEG-H 3D Audio-Szene darstellt. Andernfalls soll es auf Null gesetzt werden.
    • - shortUuidPresent (1 Bit, bslbf) soll auf Eins eingestellt werden, wenn die momentane Konfigurationserweiterung ein shortUuid enthält. Andernfalls soll es auf Null gesetzt werden.
    • - uuidPresent (1 Bit, bslbf) soll auf Eins eingestellt werden, wenn die momentane Konfigurationserweiterung ein uuid enthält. Andernfalls soll es auf Null gesetzt werden.
    • - shortUuid (8 Bit, uimsbf) soll auf die Kurz-Inhalt-UUID (Universally Unique Identifier = universell eindeutiger Identifizierer) des kodierten Inhalts eingestellt werden.
    • - uuid (16 Bit, uimsbf) soll auf den UUID des codierten Inhalts eingestellt werden.
    • - mae qroupPresetID (5 Bit, uimsbf) soll der mae_groupPresetID entsprechen, wie sie in ISO/IEC 23008-3 definiert ist, auf die der momentane Strom abbildet, wenn die mapsToContentFlag gesestzt ist. Andernfalls soll sie auf Null eingestellt werden.
    • - numSwitchGroups (5 Bit, uimsbf) soll die Anzahl von Umschaltgruppen mit einer nicht-voreingestellten (non-default) Konfiguration signalisieren. Alle Umschaltgruppen, die hier nicht gelistet sind, aber in dem MPEG-H 3D Audio-Bitstream vorliegen, sollen in dem voreingestellten (default) Zustand sein, wie entweder durch die Umschaltgruppe selbst oder die oben referenzierte Voreinstellung bestimmt wird.
    • - mae switchGrouPID[i] (5 Bit, uimsbf) soll mae_switchGroupID der entsprechenden mae_groupPresetID entsprechen, wie in ISO/IEC 23008-3 definiert ist, auf die der momentane Strom abbildet.
    • - mae_activeSwitchGroupID[i] (7 Bit, uimsbf) soll auf die aktive mae switch-GroupMemberID abbilden (die für die Wiedergabe ausgewählt ist), die Teil der mae_switchGroupID[i] ist.
    • - numGroups (7 Bit,uimsbf) soll die Anzahl von Gruppen mit einer nicht-voreingestellten Konfiguration signalisieren (Eine Umschaltgruppe kann definiert sein, um eine Liste von Gruppen zu enthalten, wobei nur eine Gruppe zu einer Zeit aktiv sein kann, beispielsweise die Sprache des Hauptdialogs). Alle Gruppen, die hier nicht gelistet sind, aber in dem MPEG-H 3D Audio-Bitstream vorliegen, sollen in dem voreingestellten Zustand sein, wie entweder durch die Gruppe selbst oder die referenziere Voreinstellung bestimmt wird.
    • - mae GroupID[i] (7 Bit, uimsbf) soll der mae_groupID entsprechen, wie in ISO/IEC 23008-3 definiert ist, für die wir eine nicht-voreingestellte Konfiguration signalisieren.
    • - isEnabled[i] (1 Bit, bslbf) soll signalisieren, ob die referenzierte Gruppe aktiviert ist oder nicht.
    • - hasDefaultAzimuth[i] (1 Bit, bslbf) soll signalisieren, ob die referenzierte Gruppe ihren voreingestellten Azimuth-Wert hat oder nicht.
    • - hasDefaultElevation[i] (1 Bit, bslbf) soll signalisieren, ob die referenzierte Gruppe ihren voreingestellten Höhenwert hat oder nicht.
    • - hasDefaultGain[i] (1 Bit, bslbf) soll signalisieren, ob die referenzierte Gruppe ihren voreingestellten Verstärkungswert hat oder nicht.
    • - groupAzOffset[i] (8 Bit, uimsbf) soll den Wert der Azimutz-Eigenschaft für die referenzierte Gruppe signalisieren, wenn hasDefaultAzimuth = False (falsch).
    • - groupElOffset[i] (6 Bit, uimsbf) soll den Wert der Höheneigenschaft für die referenzierte Gruppe signalisieren, wenn hasDefaultElevation = False.
    • - groupGain[i] (8 Bit, uimsbf) soll den Wert der Verstärkungseigenschaft für die referenzierte Gruppe signalisieren, wenn hasDefaultGain = False.
  • Konfigurationserweiterung und MHAS-Paket, um verfügbare Abwärtsmisch-Personalisierung für MPEG-H 3D Audio zu signalisieren
  • Abhängig von dem Standardisierungsprozess könnten die Personalisierungsinformationen auf eine der folgenden Arten übertragen werden:
    • - als MHAS-Paket (exklusiv)
    • - als Konfigurationserweiterung (exklusiv)
    • - oder als Konfigurationserweiterung und als MHAS-Paket.
  • Konfigurationserweiterung für MPEG-H 3D Audio
  • Füge „personalizationMapping“ (wie oben beschrieben) zu ISO/IEC 23008-3 hinzu und derweitere Tabelle 27 wie folgt:
    Figure DE102021006419A1_0003
    • MHAS-Paket für MPEG-H 3D Audio
      1. 1. Erweitere Tabelle 223 des ISO/IEC 23008-3 mit einer neuen Zeile:
        • MHASPacketType : PACTYP_ PERSONALIZATION_MAPPING Value: 20
        • zusammen mit einer passenden Beschreibung des nueen PACTYP.
      2. 2. Erweitere Tabelle 220 des ISO/IEC23008-3 mit:
        • case PACTYP_ PERSONALIZATION_MAPPING:
          • personalizationMapping();
          • break;
        • Transportformatsignalisierung (Format der Manifest-Datei gemäß einem Beispiel)
  • Ein Paketbilder (packager) kann die obige Bitstromsignalisierung verwenden, um eine jeweilige Abbildung auf Manifest-Dateien (beispielsweise eine DASH-MPD) hinzuzufügen. Dies ermöglicht, dass der Client beim Umschalten von MPEG-H 3D Audio auf Extended HE-AAC unter Berücksichtigung des momentanen Benutzerinteraktivitätszustands eine sinnvolle Auswahl trifft. Beim Zurück-Umschalten auf MPEG-H 3D Audio kann der Client/Decodierer ferner automatisch User Interaction Packets (Benutzerinteraktionspakete) erzeugen, ein Konzept, das bei MPEG-H 3D Audio bereits verfügbar ist, um die richtige Kombination aus Elementen „Preset“ (Voreinstellung), „Switch Group“ (Umschaltgruppe) und „Group“ (Gruppe) auszuwählen, basierend auf der neuartigen USAC-Erweiterungskonfiguration (USAC Extension Configuration). Eine neue Signalisierung auf MPD-Ebene (MPD = Media Presentation Description = Mediendarstellungsbeschreibung) (Manifest, Teil der Seiteninformationen 16) würde zum Beispiel ein neuartiger Supplementary Property Descriptor (ergänzender Eigenschaft-Descriptor) (schemeldUri=„urn:mpeg:preselection-set-switching:2021“) sein, der signalisieren kann, dass ein Client nahtlos von einem gegebenen Preselection/AdaptationSet (Vorauswahl/Anpassungssatz) zu einem anderen Preselection/AdaptationSet umschalten kann. Beispielsweise kann ein Client nahtlos von einer Preselection „p1“ (MPEG-H 3D Audio) zu einem zweiten AdaptationSet (Extended HE-AAC) „a2“ umschalten, während (ein Teilsatz) der ausgewählten Personalisierungsoptionen bewahrt wird.
  • Ferner könnte zum Beispiel ein neuer optionaler Tag „streamld“ ebenfalls zu den Tag AdaptationSet hinzugefügt werden. Dies könnte durch den Codec referenziert werden, um passende externe Ströme auf Manifest-Datei-Ebene zu signalisieren.
 <Period>
  <AdaptationSet id="a1" codecs="mhm1.0x12" mimeType="audio/mp4" audi-
 oSamplingRate="48000" lang="de" segmentAlignment="true" startsWithSAP="1"
 streamld=" 1 ">
      <Role schemeldUri="urn:mpeg:dash:role:2011" value="main"/>
      <SupplementaryProperty schemeldUri="urn:mpeg:dash:preselection:2016"/>
      <SegmentTemplate timescale="48000" media="mpeghaudio/$Time$.m4s" initiali-
 zation="mpeghaudio/init.mp4">
        <SegmentTimeline> 
            ...
        </SegmentTimeline>
      </SegmentTemplate>
      <Representation id="m1" bandwidth="768000">
        <AudioChannelConfiguration schemeldUri="urn:mpeg:mpegB:cicp:Channel-
 Configuration" value="19"/>
      </Representation>
      <Preselection id="p1" codecs="mhm1.0x12" tag="1" preselectionCompo-
 nents="a1" audioSamplingRate="48000" lang="de"> 
        <Role schemeldUri="urn:mpeg:dash:role:2011" value="main"/>
        <SupplementaryProperty schemeldUri="urn:mpeg:preselection-set-switch-
 ing:2021" value="a2"/>
        <AudioChannelConfiguration schemeldUri="urn:mpeg:mpegB:cicp:Channel-
 Configuration" value="19"/>
      </Preselection>
      <Preselection id="p2" codecs="mhm1.0x12" tag="2" preselectionCompo-
 nents="a1" audioSamplingRate="48000" lang="de">
        <Role schemeldUri="urn:mpeg:dash:role:2011" va)ue="commentary"/>
        <SupplementaryProperty schemeldUri="urn:mpeg:preselection-set-switch-
 ing:2021" value="a3"/>
        <AudioChannelConfiguration schemeldUri="urn:mpeg:mpegB:cicp:Channel-
 Configuration" value="19"/>
      </Preselection>
 </AdaptationSet>
 <AdaptationSet id="a2" codecs="mp4a.40.42" mimeType="audio/mp4" audi-
 oSamplingRate="48000" lang="de" segmentAlignment="true" startsWithSAP="1"
 streamld="2">
   <Role schemeldUri="urn:mpeg:dash:role:2011" value="main"/>
   <SupplementaryProperty schemeldUri="urn:mpeg:preselection-set-switch-
 ing:2021" value="p1"/>
   <SegmentTemplate timescale="48000" media="xheaac_p1/$Time$.m4s" initializa-
 tion="xheaac_p1/init.mp4">
      <SegmentTimeline> 
      ...
      </SegmentTimeline>
   </SegmentTemplate>
   <Representation id="x1" bandwidth="24000">
      <AudioChannelConfiguration schemeldUri="urn:mpeg:mpegB:cicp:ChannelConfig-
 uration" value="2"/>
   </Representation>
 </AdaptationSet>
 <AdaptationSet id="a3" codecs="mp4a.40.42" mimeType="audio/mp4" audi-
 oSamplingRate="48000" lang="de" segmentAlignment="true" startsWithSAP="1"
 streamld="3">
   <Role schemeldUri="urn:mpeg:dash:role:2011" va)ue="commentary"/>
   <SupplementaryProperty schemeldUri="urn:mpeg:preselection-set-switch-
 ing:2021" value="p2"/>
   <SegmentTemplate timescale="48000" media="xheaac_p2/$Time$.m4s" initializa-
 tion="xheaac_p2/init.mp4">
      <SegmentTimeline> 
       ...
      </SegmentTimeline>
   </SegmentTemplate>
   <Representation id="x2" bandwidth="24000">
      <AudioChannelConfiguration schemeldUri="urn:mpeg:mpegB:cicp:ChannelConfig-
 uration" value="2"/>
   </Representation>
 </AdaptationSet>
 </Period>
  • (Übersetzungen: Period = Periode; lang = Sprache; true = wahr; value = Wert; timescale = Zeitskala; initialization = Initialisierung; timeline = Zeitplan; representation = Darstellung; bandwidth = Bandbreite; channel configuration = Kanalkonfiguration;role = Rolle; supplementary = ergänzend; property = Eigenschaft; adaption set = Anpassungssatz)
  • Informationen zum Aufbereiten der Benutzerschnittstelle (UI)
  • Wenn ein Streaming-Client (beispielsweise 100, 100b, 100c, 100d, 100e) beginnt, den NGA MPEG-H 3D Audio-Inhalt zu decodieren, muss er auf die vollständigen MPEG-H 3D Audio Scene Information (Audio-Scene-Informationen) zugreifen, die den vollständigen Satz von verfügbaren Interaktivitätsoptionen enthalten (alle Voreinstellungen, Umschaltgruppen, Positions- und Verstärkungs-Interaktivität). Daher könnte ein Benutzer eine erweiterte Konfiguration auswählen, zum Beispiel die „Dialog+“-Voreinstellung mit einer alternativen Sprache, indem die sogenannten erweiterten Ul-Optionen verwendet werden. Wenn keine Darstellung geringer Bitrate (beispielsweise unter Verwendung von Extended HE-AAC codiert) verfügbar ist, die zu dieser Personalisierungskonfiguration passt, wird dies wieder zu einer beeinträchtigten Benutzererfahrung während eines Stromumschaltens führen. Bei dem obigen Beispiel wird sich die Sprache ändern, wenn auf eine Nieder-Bitraten-Darstellung umgeschaltet wird.
  • Daher führt die vorliegende Erfindung ein neues MHAS-Paket und/oder eine neue Configuration Extension (Konfigurationserweiterung) für MPEG-H 3D Audio ein, um anzuzeigen, welche Konfigurationen auch als Geringe-Bitrate-, Voll-Misch-Versionen, entweder als MPEG-H 3D Audio-Strom oder als Extended HE-AAC-Strom, verfügbar sind. Diese Informationen können durch die Wiedergabevorrichtung zur Anzeige in der Benutzerschnittstelle verwendet werden, oder sogar zum entsprechenden Filtern der verfügbaren UE-Optionen. Sie können durch den Streaming-Client auch verwendet werden, um die am besten passende Option auszuwählen, falls eine exakt Passende nicht verfügbar ist, entweder mit oder ohne den Benutzer zu informieren, oder indem dem Benutzer Optionen zur Auswahlantizipierung des Bedarfs für ein Herunterschalten gegeben werden.
  • Verfügbare Umschaltströme
  • Um die Erfindung zu veranschaulichen, geben die folgenden Seiten ein Beispiel eines neuen MHS-Pakettyps und/oder einer neuen Konfigurationserweiterung, um anzuzeigen, welche Konfigurationen als geringe Bitrate auch verfügbar sind. Abhängig von dem Standardisierungsprozess könnten die Informationen auf eine der folgenden Arten übertragen werden:
    • - als MHAS-Paket (exklusiv),
    • - als Konfigurationserweiterung (exklusiv),
    • - oder als Konfigurationserweiterung und als MHAS-Paket (kombiniert).
  • PACTYP _SWITCHING _STREAMS
  • Um die Informationen über ein neues MHAS-Packet zu übertragen, schlagen wir die folgenden Änderungen vor:
    1. 1. Erweitere Tabelle 223 des ISO/IEC 23008-3 um eine neue Zeile:
      • MHASPacketType : PACTYP_SWITCHING_STREAMS Value: 19
      • zusammen mit einer passenden Beschreibung des neuen PACTYP.
    2. 2. Erweitere Tabelle 220 des ISO/IEC23008-3 um:
      • case PACTYP_SWITCHING_STREAMS:
        • AvailableSwitchingStreams();
        • break;
  • Anmerkung: AvailableSwitchingStreams wird im folgenden Kapitel beschrieben.
  • Konfigurationserweiterung
  • Um die Informationen über eine Konfigurationserweiterung zu übertragen, schlagen wir folgende Änderungen vor:
    1. 1. Erweitere Tabelle 77 des ISO/IEC 23008-3 um eine neue Zeile:
      • usacConfigExtType : ID_CONFIG_EXT_ SWITCHING_STREAMS value : 7
    2. 2. Erweitere Tabelle 24 des ISO/IEC23008-3 um:
      • case ID_CONFIG_EXT_SWITCHING_STREAMS:
        • AvailableSwitchingStreams();
        • break;
  • Anmerkung: AvailableSwitchingStreams wird im folgenden Kapitel beschrieben.
  • (Übersetzungen: available = verfügbar; switching streams = Umschaltströme; break = Pause)
  • AvailableSwitchingStreams
  • Figure DE102021006419A1_0004
    Figure DE102021006419A1_0005
  • Erläuterung von AvailableSwitchingStreams ()
    • • numStreams: Signalisiert die Anzahl von externen Strömen, die für ein Umschalten verfügbar sind. Für jeden verfügbaren Strom folgt eine Beschreibung.
    • • manifestStreamld: Ein eindeutiger Identifizierer für den externen Strom, der in der Manifest-Datei signalisiert wird. Anmerkung: Bei dem obigen Beispiel würde dies den neu eingeführten Tag streamld auf dem adaptationSet referenzieren.
    • • referencesPreset: Dieses Feld spezifiziert, ob als Nächstes eine Voreinstellung referenziert wird oder nicht.
    • • groupPresetld: Wenn referencesPreset wahr ist, soll dies mae_groupPresetld, die in diesem Strom signalisiert wird, entsprechen.
    • • hasDefaultSettings: Eine boolesche Variable, die signalisiert, ob die referenzierte Voreinstellung in dem voreingestellten Zustand (Default-Zustand) ist. Wenn dies der Fall ist, müssen keine weiteren Einzelheiten für diesen Strom signalisiert werden. Andernfalls folgt die abweichende Konfiguration der Umschaltgruppen und Gruppen.
    • • numSwitchGroups: Die Anzahl von Umschaltgruppenkonfigurationen, die folgt. Es sei bemerkt, dass dies nicht mit der Gesamtzahl von Umschaltgruppen, die in diesem Strom signalisiert werden, übereinstimmen muss. Alle Umschaltgruppen, die hier nicht gelistet sind, sollen in dem voreingestellten Zustand sein, wie er entweder durch die Umschaltgruppe selbst oder die oben referenzierte Voreinstellung bestimmt ist.
    • • switchGroupld: Dieses Feld spezifiziert die mae_switchGrouplD, für die die folgende Konfiguration gilt.
    • • activeGroupld: Dieses Feld signalisiert die ausgewählte Gruppe in der referenzierten Umschaltgruppe, die durch switchGroupld bestimmt wird.
    • • numGroups: Die Anzahl von Gruppenkonfigurationen, die folgt. Es sei bemerkt, dass diese nicht mit der Gesamtzahl von Gruppen, die in diesem Strom signalisiert werden, übereinstimmen muss. Alle Gruppen, die hier nicht gelistet sind, sollen in dem voreingestellten Zustand sein, wie er entweder durch die Gruppe selbst oder durch die oben referenzierte Voreinstellung bestimmt ist.
    • • groupld: Dieses Feld spezifiziert mae_groupID, für die die folgende Konfiguration gilt.
    • • isEnabled: Dieses Feld spezifiziert, ob die Gruppe eingeschaltet oder ausgeschaltet ist.
    • • hasDefaultAzimuth: Dieses Feld spezifiziert, ob die Azimuteigenschaft ihren signalisierten voreingestellten Wert aufweist.
    • • hasDefaultElevation: Dieses Feld spezifiziert, ob die Höheneigenschaft ihren signalisierten voreingestellten Wert aufweist.
    • • hasDefaultGain: Dieses Feld spezifiziert, ob die Verstärkungseigenschaft ihren signalisierten voreingestellten Wert aufweist.
    • • groupAzOffset: Wenn hasDefaultAzimuth = False, signalisiert dieses Feld den Wert der Azimuteigenschaft für die referenzierte Gruppe.
    • • groupElOffset: Wenn hasDefaultElevation = False, signalisiert dieses Feld den Wert der Höheneigenschaft für die referenzierte Gruppe.
    • • groupGain: Wenn hasDefaultGain = False, signalisiert dieses Feld den Wert der Verstärkungseigenschaft für die referenzierte Gruppe.
  • Beispiel
  • Bei dem obigen DASH-Beispiel enthält der MPEG-H 3D Audio-Anpassungssatz mit id = „a1“ die Informationen, welche externen Ströme zum Umschalten verfügbar sind (entweder über eine Konfigurationserweiterung oder einen neuen MHAS-Pakettyp, wie oben beschrieben ist). AvailableSwitchingStreams() könnte wie folgt aussehen:
    • numStreams = 2
    • manifestStreamld = 2
    • referencesPreset = True
    • groupPresetld = 1
    • hasDefaultSettings = True
    • manifestStreamld = 3
    • referencesPreset = True
    • groupPresetld = 2
    • hasDefaultSettings = True
  • In diesem Fall wird der Ul-Verwalter in der Lage sein, verfügbare Nieder-Bitraten-Alternativen für die Presets 1 und 2, jede in ihrer voreingestellten Konfiguration, anzuzeigen.
  • Sitzung-Audioszene-Informationen
  • In dem Fall, dass die Streaming-Sitzung unter schlechten Netzbedingungen startet, aber der Streaming-Client erwartet, dass sich die Bedingungen möglicherweise erholen, würde der Client zuerst eine Nieder-Bitraten-Voll-Misch-Version anfordern. Jedoch sind in diesem Fall keine Informationen über die verfügbaren Personalisierungsoptionen verfügbar, da sie nicht Teil der ASI (Audio Scene Information = Audioszeneninformation) des NGA-MPEG-H 3D Audio-Inhalts sind. Daher führt die vorliegende Erfindung auch ein neues MHAS-Paket oder eine neue Configuration Extension für MPEG-H 3D Audio und Extended HE-AAC ein, die die vollständigen Audio-Szene-Informationen des jeweiligen NGA-Inhalts für die gleiche Streaming-Sitzung enthalten. Dies ermöglicht, dass die Wiedergabevorrichtung bereits die Benutzerschnittstelle initialisiert und den Benutzer über alle möglichen verfügbaren Optionen informiert, obwohl keine oder nicht alle derselben momentan auswählbar sein könnten. Entsprechende Informationen müssen auf der Manifest- und/oder Dateiformat-Ebene jeweils hinzugefügt werden, um den Streaming-Client während einer Strom-Auswahl zu informieren.
  • Das letztgenannte Szenario könnte auch für schnelle Einblend-Szenarios gelten. In diesem Fall wählt der Streaming-Client absichtlich die Version mit geringster Bitrate selbst unter guten Netzbedingungen aus, um schnell den Eingangspuffer zu füllen, so dass das Decodieren und die Wiedergabe eher beginnen können. Nach einer bestimmten Zeit schaltet der Client dann zu der vollen Hoch-Bitrate-NGA-Version hoch. Wenn die vollen Audio-Szene-Informationen der jeweiligen NGA-Inhalt-Version bereits bei der Nieder-Bitrate-Voll-Misch-Version verfügbar sind, kann der Client bereits die Benutzerschnittstelle während des Beginns der Wiedergabe initialisieren, und nicht nur später, nachdem er auf die NGA-Version umgeschaltet hat.
  • Sehr komplexe NGA-Szene-Autorfassungen könnten zu großen ASI-Paketen führen. Da die ASI bei jedem Umschaltpunkt in dem Bitstrom wiederholt werden müssen, kann dies zu einem wesentlichen Anteil der Bitrate für Nieder-Bitrate-Strom-Codierungen führen. In diesen Fällen kann es vorteilhaft sein, eine gekürzte Version als Sitzung-ASI zu verwenden, indem beispielsweise Versionen mit alternativem Sprachlabel entfernt werden, um die Größe der ASI zu reduzieren.
  • Konfigurationserweiterung für Extended HE-AAC:
  • Erweitere ISO/IEC 23003-3 Tabelle 27 und füge die Semantik hinzu:
    Figure DE102021006419A1_0006
  • Varianten
  • Einige Varianten und/oder zusätzliche oder alternative Aspekte werden hier erörtert.
  • Die Implementierung in Hardware oder in Software kann unter Verwendung eines digitalen Speichermediums, beispielsweise eines Cloud-Speichers, einer Floppy-Disk, einer DVD, einer Blu-Ray, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines Flash-Speichers durchgeführt werden, das elektronisch lesbare Steuersignale auf demselben gespeichert hat, die mit einem programmierbaren Computersystem derart kooperieren (oder in der Lage sind, zu kooperieren), dass das jeweilige Verfahren durchgeführt wird. Daher kann das digitale Speichermedium computerlesbar sein.
  • Einige Beispiele gemäß der Erfindung weisen einen Datenträger auf, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zu kooperieren, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
  • Allgemein können Beispiele der vorliegenden Erfindung als ein Computerprogrammprodukt mit einem Programmcode implementiert werden, wobei der Programmcode wirksam ist, um eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer läuft. Der Programmcode kann beispielsweise auf einem maschinenlesbaren Träger gespeichert sein.
  • Weitere Beispiele weisen das Computerprogramm zum Durchführen eines der Verfahren, die hierin beschrieben sind, auf, das auf einem maschinenlesbaren Träger gespeichert ist. Mit anderen Worten ist ein Beispiel des Verfahrens daher ein Computerprogramm mit einem Programmcode zum Durchführen von einem der hierin beschriebenen Verfahren, wenn das Computerprogramm auf einem Computer läuft.
  • Ein weiteres Beispiel der Verfahren ist daher ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), das auf demselben aufgezeichnet das Computerprogramm zum Durchführen von einem der hierin beschriebenen Verfahren aufweist. Ein weiteres Beispiel ist daher ein Datenstrom oder eine Sequenz von Signalen, die das Computerprogramm zum Durchführen von einem der hierin beschriebenen Verfahren darstellen. Der Datenstrom oder die Sequenz von Signalen kann beispielsweise konfiguriert sein, um über eine Datenkommunikationsverbindung, beispielsweise über das Internet, übertragen zu werden. Ein weiteres Beispiel weist eine Verarbeitungseinrichtung, beispielsweise einen Computer, oder eine programmierbare Logikvorrichtung auf, die konfiguriert oder angepasst sind, um eines der hierin beschriebenen Verfahren durchzuführen. Ein weiteres Beispiel weist einen Computer auf, auf dem das Computerprogramm zum Durchführen von einem der hierin beschriebenen Verfahren installiert ist.
  • Bei einigen Beispielen kann eine programmierbare Logikvorrichtung (beispielsweise ein feldprogrammierbares Gatterarray) verwendet werden, um einige oder alle der Funktionalitäten, die hierin beschrieben sind, durchzuführen. Bei einigen Beispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenarbeiten, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren vorzugsweise durch irgendeine Hardwarevorrichtung durchgeführt.
  • Die oben beschriebenen Beispiele sind lediglich veranschaulichend für die Grundsätze der vorliegenden Beispiele. Es ist zu verstehen, dass Modifikationen und Variationen der Anordnungen und der Einzelheiten, die hierin beschrieben sind, für andere Fachleute offensichtlich sind. Es ist daher beabsichtigt, dass die Erfindung nur durch den Schutzbereich der beigefügten Patentansprüche und nicht durch spezifische Einzelheiten, die auf dem Wege der Beschreibung und der Erläuterung der Beispiele hierin dargeboten sind, begrenzt ist.
  • Claims (51)

    1. Eine Streaming-Clientvorrichtung (100), mit folgenden Merkmalen: einer Kommunikationsschnittstelle (10), die konfiguriert ist, um einen Bitstrom (12) von einer Streaming-Servervorrichtung zu empfangen, wobei der Bitstrom (12) enthält ein codiertes Audiosignal (14) gemäß einer Codiertes-Audiosignal-Version, die unter einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen aufweist; und Seiteninformationen (16), die folgende Merkmale aufweisen: Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen für jede der auswählbaren Codiertes-Audiosignal-Versionen anzeigen; und Kapazitätsinformationen, die eine Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen für eine externe Ressource (13, 300) zum Übertragen des codierten Audiosignals erforderlich sind; einer Personalisierungseinheit (20), die konfiguriert ist, um eine Personalisierung (22) durch Wählen, für jeden einer Mehrzahl von möglichen Zuständen (73) der externen Ressource (13, 300), einer bevorzugten Codiertes-Audiosignal-Version (16) unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen (16) basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen zu definieren; einer Auswahleinrichtung (30), die konfiguriert ist, um eine Auswahl (32) einer ausgewählten Codiertes-Audiosignal-Version (16) basierend auf einem momentanen Zustand (73) der externen Ressource (13) und der Personalisierung (22) durchzuführen, so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version (32) erforderlich ist, zu dem momentanen Zustand (73) der externen Ressource (13) passt, wobei die Kommunikationsschnittstelle (10) konfiguriert ist, um eine Anforderung (19) zum Bereitstellen des codierten Audiosignals (14) gemäß der ausgewählten Codiertes-Audiosignal-Version (32) zu der Streaming-Servervorrichtung (200) zu senden; und einem Decodierer (60), der konfiguriert ist, um das empfangene codierte Audiosignal (14) zu decodieren, oder einen Transcodierer, der konfiguriert ist, um das empfangene codierte Audiosignal (14) in einem anderen Bitstrom zu transcodieren.
    2. Die Streaming-Clientvorrichtung nach Anspruch 1, bei der zumindest eine auswählbare Codiertes-Audiosignal-Version zumindest eine deaktivierbare Personalisierungsoption aufweist, wobei die Streaming-Clientvorrichtung konfiguriert ist, um eine zweite Auswahl (432) bezüglich der zumindest einen deaktivierbaren Personalisierungsoption durchzuführen, um zwischen einem Aktivieren und einem Deaktivieren der zumindest einen deaktivierbaren Personalisierungsoption auszuwählen, wobei die Seiteninformationen (16) anzeigen, dass die zumindest eine deaktivierbare Personalisierungsoption deaktivierbar ist.
    3. Die Streaming-Clientvorrichtung nach Anspruch 1 oder 2, bei der zumindest eine auswählbare Codiertes-Audiosignal-Version zumindest zwei alternative Personalisierungsoptionen aufweist, die alternativ zueinander sind, wobei die Streaming-Clientvorrichtung konfiguriert ist, um eine zweite Auswahl (432) zwischen den zwei alternativen Personalisierungsoptionen durchzuführen, um selektiv eine der zumindest zwei alternativen Personalisierungsoptionen zu aktivieren, während die andere(n) der zumindest zwei alternativen Personalisierungsoptionen deaktiviert wird, wobei die Seiteninformationen (16) anzeigen, dass die zumindest zwei alternativen Personalisierungsoptionen alternativ zueinander sind.
    4. Die Streaming-Clientvorrichtung nach Anspruch 3, bei der die Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen Folgende aufweisen: eine erste auswählbare Codiertes-Audiosignal-Version mit zumindest einer ersten alternativen Personalisierungsoption und einer zweiten alternativen Personalisierungsoption alternativ zu der ersten Personalisierungsoption, wobei die erste auswählbare Codiertes-Audiosignal-Version eine erste Kapazität bei einem ersten möglichen Zustand der externen Ressource erfordert; und eine zweite auswählbare Codiertes-Audiosignal-Version, die bei einem zweiten möglichen Zustand der externen Ressource eine zweite Kapazität erfordert, wobei die zweite Kapazität geringer als die erste Kapazität ist, wobei die zweite auswählbare Codiertes-Audiosignal-Version die erste alternative Personalisierungsoption, aber nicht die zweite alternative Personalisierungsoption aufweist, wobei die Auswahleinrichtung (30) konfiguriert ist, um, falls die Personalisierung (22) die erste alternative Personalisierungsoption erfordert: falls der momentane Zustand (73) der externen Ressource zu dem ersten möglichen Zustand der externen Ressource passt, die erste auswählbare Codiertes-Audiosignal-Version auszuwählen (32), wobei die erste alternative Personalisierungsoption gewählt (432) und decodiert, aufbereitet oder transcodiert wird, während die zweite alternative Personalisierungsoption deaktiviert wird; falls der momentane Zustand (73) der externen Ressource zu dem zweiten möglichen Zustand der externen Ressource passt, die zweite auswählbare Codiertes-Audiosignal-Version auszuwählen (32).
    5. Die Streaming-Clientvorrichtung nach Anspruch 4, bei der die erste auswählbare Codiertes-Audiosignal-Version mehr alternative Personalisierungsoptionen aufweist als die zweite auswählbare Codiertes-Audiosignal-Version.
    6. Die Streaming-Clientvorrichtung nach Anspruch 4 oder 5, bei der die erste alternative Personalisierungsoption auf einem ersten numerischen Bereich definiert ist, der einen zweiten numerischen Bereich enthält, auf dem die zweite alternative Personalisierungsoption definiert ist.
    7. Die Streaming-Clientvorrichtung nach Anspruch 4 oder 5 oder 6, bei der die erste auswählbare Codiertes-Audiosignal-Version die gleiche alternative Personalisierungsoption(en) der zweiten auswählbaren Codiertes-Audiosignal-Version aufweist, plus zusätzliche alternative Personalisierungsoptionen.
    8. Die Streaming-Clientvorrichtung nach einem beliebigen der vorhergehenden Ansprüche, bei der die Personalisierungseinheit (20) konfiguriert ist, um für jeden möglichen Zustand der externen Ressource (13, 300) die Personalisierung (22) durch eine Auswertung von zumindest einer Auswertungsbedingung von zumindest einer Personalisierungsoption oder einem Satz oder einer Kombination von Personalisierungsoptionen für jede auswählbare Codiertes-Audiosignal-Version zu definieren, wobei die Auswertung zumindest eine Ordnung bereitstellt, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß einer Einstufung zu sortieren, um die höchstrangige auswählbare Codiertes-Audiosignal-Version als die bevorzugte Codiertes-Audiosignal-Version zu wählen.
    9. Die Streaming-Clientvorrichtung nach Anspruch 8, bei der die zumindest eine Auswertungsbedingung zumindest eine erste Auswertungsbedingung bezüglich zumindest einer ersten Personalisierungsoption oder eines ersten Satzes oder einer Kombination von Personalisierungsoptionen und zumindest eine zweite Auswertungsbedingung bezüglich zumindest einer zweiten Personalisierungsoption oder einem zweiten Satz oder einer Kombination von Personalisierungsoptionen aufweist, um zumindest eine erste Ordnung, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß der ersten Auswertungsbedingung zu sortieren, und eine zweite Ordnung, um die auswählbaren Codiertes-Audiosignal-Versionen gemäß der zweiten Auswertungsbedingung zu sortieren, zu definieren, um die bevorzugte Codiertes-Audiosignal-Version basierend auf zumindest der ersten Ordnung und der zweiten Ordnung zu wählen.
    10. Die Streaming-Clientvorrichtung nach Anspruch 9, bei der die erste Auswertungsbedingung dominant ist und die zweite Auswertungsbedingung sekundär ist, um die bevorzugte Codiertes-Audiosignal-Version primär basierend auf der ersten Ordnung zu definieren, wobei, im Fall einer Gleichheit der Einstufung zwischen unterschiedlichen in der ersten Ordnung höchstrangigen auswählbaren Codiertes-Audiosignal-Versionen, die in der ersten Ordnung höchstrangige auswählbare Codiertes-Audiosignal-Version, die in der zweiten Ordnung die höchste Einstufung aufweist, als die bevorzugte Codiertes-Audiosignal-Version definiert wird.
    11. Die Streaming-Clientvorrichtung nach Anspruch 10, bei der die erste Auswertungsbedingung eine Bedingung bezüglich einer Vorauswahl aufweist, und die zweite Auswertungsbedingung eine Bedingung bezüglich zumindest einer Personalisierungsoption, die keine Vorauswahl ist, ist.
    12. Die Streaming-Clientvorrichtung nach Anspruch 10 oder 11, bei der die erste Auswertungsbedingung eine Bedingung bezüglich einer Dialogsprache aufweist, und die zweite Auswertungsbedingung eine Bedingung bezüglich zumindest einer Personalisierungsoption, die keine Sprache ist, ist.
    13. Die Streaming-Clientvorrichtung nach einem beliebigen der Ansprüche 9 bis 12, bei der eine Zuordnung eines ersten Auswertungswerts von einer ersten Auswertungsbedingung und eines zweiten Auswertungswerts von der zweiten Auswertungsbedingung definiert ist, um eine endgültige Ordnung durch die Verwendung sowohl des ersten Auswertungswerts als auch des zweiten Auswertungswerts zu definieren.
    14. Die Streaming-Clientvorrichtung gemäß einem beliebigen der Ansprüche 9 bis 13 in Rückbezug auf einen beliebigen der Ansprüche 3 bis 7, bei der die erste Auswertungsbedingung eine Bedingung bezüglich der ersten alternativen Personalisierungsoption ist, und die zweite Auswertungsbedingung eine Bedingung bezüglich der zweiten alternativen Personalisierungsoption ist.
    15. Die Streaming-Clientvorrichtung nach Anspruch 14, bei der die erste Auswertungsbedingung bezüglich einer ersten Dialogsprache, die aufbereitet werden soll, ist, und die zweite Auswertungsbedingung bezüglich einer zweiten Dialogsprache, die möglicherweise alternativ zu der ersten Dialogsprache aufbereitet werden soll, ist.
    16. Die Streaming-Clientvorrichtung gemäß einem beliebigen der Ansprüche 8 bis 15, die konfiguriert ist, um, falls sich die Personalisierungseingabe (42) auf eine solche Weise ändert, dass zumindest eine Auswertungsbedingung durch eine momentan deaktivierte zumindest eine alternative Personalisierungsoption noch erfüllt ist, die ausgewählte Version (32) beizubehalten, ohne eine Anforderung (19) zu der Streaming-Servervorrichtung zu senden, und um die zweite Auswahl (432) zu ändern, um die zumindest eine Auswertungsbedingung zu erfüllen.
    17. Die Streaming-Clientvorrichtung nach einem beliebigen der vorhergehenden Ansprüche, bei der zumindest eine Personalisierungsoption eine Vorauswahl ist.
    18. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der zumindest eine Personalisierungsoption den Dialog des codierten Audiosignals aufweist.
    19. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die zumindest eine Option einen Verstärkungspegel aufweist.
    20. Die Streaming-Clientvorrichtung nach einem beliebigen der vorhergehenden Ansprüche, bei der die zumindest eine Option Positionsdaten aufweist.
    21. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die zumindest eine Option eine Audioobjektauswahl aufweist.
    22. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die zumindest eine Option einem Stummschalten und Lautschalten spezifischer Audioobjekte unterworfen ist.
    23. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die zumindest eine Option Mischwerte für Komponenten des codierten Audiosignals aufweist.
    24. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die zumindest eine Option Informationen bezüglich einer Aktivierung und Deaktivierung von Komponenten des codierten Audiosignals und/oder Informationen, die verwendet werden, um die Aufbereitung von Komponenten des codierten Audiostroms zu beeinflussen, aufweist.
    25. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die Personalisierung (22) zumindest von einer Personalisierungseingabe (42), die eine Benutzerpersonalisierungseingabe ist, die von einer Benutzerschnittstelle (40) erhalten wird, erhalten wird oder durch dieselbe zumindest konditioniert wird.
    26. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die Personalisierung (22) zumindest von einer Personalisierungseingabe (42d), die eine vordefinierte Einstellung aufweist oder auf derselben basiert, erhalten wird oder zumindest durch dieselbe konditioniert wird.
    27. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, wobei die Personalisierung (22) zumindest von einer Dienstanbietereinstellung (42d) erhalten wird oder durch zumindest dieselbe konditioniert wird.
    28. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die Personalisierung (22) zumindest von einer VoD-Präferenz (VoD = Video nach Bedarf) erhalten wird oder zumindest durch dieselbe konditioniert wird.
    29. Die Streaming-Clientvorrichtung gemäß einem beliebigen der Ansprüche 25 bis 28, bei der die Personalisierungseingabe (42) oder die Einstellung auf einer Wahl der zumindest einen Personalisierungsoption oder eines Satzes oder einer Kombination von Personalisierungsaudiooptionen basiert.
    30. Die Streaming-Clientvorrichtung nach einem beliebigen der Ansprüche 25 bis 29 in Rückbezug auf einen beliebigen der Ansprüche 8 bis 16, bei der die Personalisierungseingabe (42) die Wahl von zumindest einer Auswertungsbedingung beinhaltet.
    31. Die Streaming-Clientvorrichtung gemäß einem beliebigen der Ansprüche 25 bis 30, die konfiguriert ist, um Personalisierungsinformationen bezüglich der auswählbaren Codiertes-Audiosignal-Versionen, wie sie in den Seiteninformationen erhalten werden, zu dem Benutzer hin auszugeben, wobei die Personalisierungsinformationen zumindest eine Personalisierungsaudiooption anzeigen, um den Benutzer zu führen, die zumindest eine Auswertungsbedingung zu definieren.
    32. Die Streaming-Clientvorrichtung gemäß einem beliebigen der Ansprüche 25 bis 31, die konfiguriert ist, um die bevorzugte Audiosignalversion (22) basierend auf der Personalisierungseingabe (42) zu ändern, um die Anforderung (19) der ausgewählten Audiosignalversion (32) während des Empfangs des Bitstroms (12) zu aktualisieren, und um nachfolgend das codierte Audiosignal gemäß der aktualisierten ausgewählten Audiosignalversion (32) zu erhalten.
    33. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die Auswahleinrichtung (30) konfiguriert ist, um die ausgewählte Audiosignalversion (32) basierend auf dem momentanen Zustand (73) der externen Ressource (13) zu ändern, so dass die Anforderung (19) der ausgewählten Audiosignalversion (32) während des Empfangs des Bitstroms (12) aktualisiert wird, und um nachfolgend das codierte Audiosignal (14) gemäß der aktualisierten ausgewählten Audiosignalversion (32) zu erhalten.
    34. Die Streaming-Clientvorrichtung nach Anspruch 33 in Rückbezug auf einen beliebigen der Ansprüche 3 bis 7, die konfiguriert ist, um eine zweite Auswahl (432) durchzuführen, falls eine neue Personalisierung (22) erforderlich ist und falls die neue Personalisierung (22) durch eine alternative Personalisierungsoption, die momentan empfangen wird, erfüllt ist.
    35. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der der Zustand (73) bezüglich der externen Ressource (13) eine Bandbreite ist, die für die Übertragung des Bitstroms (12) zur Verfügung steht.
    36. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die externe Ressource das Kommunikationsnetz (30) zwischen der Streaming-Servervorrichtung und der Streaming-Clientvorrichtung (100) aufweist oder durch dieselbe bereitgestellt ist.
    37. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der die Kapazität, die für jede auswählbare Codiertes-Audiosignal-Version erforderlich ist, eine Bitrate aufweist.
    38. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der das codierte Audiosignal (14) in eine Mehrzahl von Segmenten segmentiert ist, wobei jedes Segment mit einem jeweiligen Segment eines codierten Audiosignals von zumindest einer anderen Codiertes-Audiosignal-Version austauschbar ist.
    39. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, die konfiguriert ist, um die Auswahl (32), die durch die Auswahleinrichtung (30) durchgeführt wird, und/oder die Personalisierung (22), die durch die Personalisierungseinheit (20) definiert wird, durch Kapazitätsanforderungs-Konditionierungsinformationen (76) zu konditionieren, so dass die ausgewählte Audiosignalversion eine Kapazität, die einem vordefinierten Datenplan folgt, erfordert.
    40. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, die konfiguriert ist, um die Auswahl (32), die durch die Auswahleinrichtung (30) durchgeführt wird, und/oder die Personalisierung, die durch die Personalisierungseinheit (20) definiert wird, durch Kapazitätsanforderungs-Konditionierungsinformationen (76) zu konditionieren, so dass die ausgewählte Audiosignalversion eine vordefinierte Schnell-Einstell-Funktion erfordert.
    41. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der das codierte Audiosignal (16) gemäß dem Codec MPEG-H 3D Audio ist, wobei andere auswählbare Codiertes-Audiosignal-Versionen gemäß dem Codec MPEG-H 3D Audio sind, wobei der Bitstrom und/oder Seiteninformationen gemäß MPEG-H 3D Audio eingebettet sind.
    42. Die Streaming-Clientvorrichtung gemäß einem beliebigen der vorhergehenden Ansprüche, bei der das codierte Audiosignal (16) gemäß dem Codec MPEG-H 3D Audio und/oder MPEG-D USAC (Extended HE-AAC) ist, wobei die Codiertes-Audiosignal-Version gemäß MPEG-H 3D Audio ist, und die anderen auswählbaren Codiertes-Audiosignal-Versionen entweder unter Verwendung von MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind, wobei der Bitstrom oder Seiteninformationen gemäß MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind.
    43. Eine Streaming-Servervorrichtung (200), mit folgenden Merkmalen: einer Kommunikationsschnittstelle (210), die konfiguriert ist, um: einen Bitstrom (12) zu einer Streaming-Clientvorrichtung (100-100e, 400-400e) zu übertragen, wobei der Bitstrom (12) gemäß einer Mehrzahl von Segmenten segmentiert ist und ein codiertes Audiosignal (14) und Seiteninformationen (16) aufweist; Anforderungen (19) einer ausgewählten Audiosignalversion des Bitstroms (12) zu empfangen und den Bitstrom (12) gemäß der ausgewählten Codiertes-Audiosignal-Version beginnend mit einem folgenden Segment zu übertragen, wobei jede der Codiertes-Audiosignal-Versionen eine vorbestimmte Kapazität erfordert und zumindest eine Personalisierungsoption anbietet; und einer Inhaltsvorbereitungsvorrichtung (260), um, in jede Codiertes-Audiosignal-Version, Seiteninformationen (16), die Kapazitätsinformationen, die eine Kapazität anzeigen, die zur Übertragung anderer codierter Audiosignalversionen erforderlich ist, anzeigen, und Konfigurationsinformationen, die die zumindest eine Personalisierungsoption, die durch die anderen Codiertes-Audiosignal-Versionen angeboten werden, anzeigen, enthalten, einzubetten.
    44. Die Streaming-Servervorrichtung nach Anspruch 43, bei der die Konfigurationsinformationen einen Satz von Personalisierungsoptionen anzeigen, die durch die anderen Codiertes-Audiosignal-Versionen angeboten werden.
    45. Die Streaming-Servervorrichtung nach Anspruch 43 oder 44, bei der die Konfigurationsinformationen einen Satz von alternativen Personalisierungsoptionen anzeigen, die durch die momentane und/oder durch die anderen Codiertes-Audiosignal-Versionen angeboten werden.
    46. Die Streaming-Servervorrichtung nach einem beliebigen der Ansprüche 43 bis 45, bei der das codierte Audiosignal (16) gemäß dem Codec MPEG-H 3D Audio ist, wobei andere auswählbare Codiertes-Audiosignal-Versionen gemäß dem Codec MPEG-H 3D Audio sind, wobei der Bitstrom und/oder Seiteninformationen gemäß MPEG-H 3D Audio eingebettet sind.
    47. Die Streaming-Servervorrichtung gemäß einem beliebigen der Ansprüche 43 bis 46, bei der das codierte Audiosignal (16) gemäß dem Codec MPEG-H 3D Audio und/oder MPEG-D USAC (Extended HE-AAC) ist, wobei die Codiertes-Audiosignal-Version gemäß MPEG-H 3D Audio ist, und die anderen auswählbaren Codiertes-Audiosignal-Versionen entweder unter Verwendung von MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind, wobei der Bitstrom oder Seiteninformationen gemäß MPEG-H 3D Audio oder MPEG-D USAC, Extended HE-AAC sind.
    48. Ein Streamingverfahren, mit folgenden Merkmalen: Empfangen eines Bitstroms (12) von einer Streaming-Servervorrichtung, wobei der Bitstrom (12) folgende Merkmale aufweist: ein codiertes Audiosignal (14) gemäß einer Codiertes-Audiosignal-Version, die unter einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen aufweist, und Seiteninformationen (16), die umfassen: Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen anzeigen; und Kapazitätsinformationen, die eine Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen von einer externen Ressource (13, 300) erforderlich sind, zum Übertragen des codierten Audiosignals; Definieren einer Personalisierung (22) durch Wählen, für jeden einer Mehrzahl von möglichen Zuständen (73) der externen Ressource (13, 300) einer bevorzugten Codiertes-Audiosignal-Version (16) unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen (16), basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen; Durchführen einer Auswahl (32) einer auswählbaren Codiertes-Audiosignal-Version (16) basierend auf einem momentanen Zustand (73) der externen Ressource (13) und der Personalisierung (22), so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version (32) erforderlich ist, zu dem momentanen Zustand (73) der externen Ressource (13) passt, Senden, an die Streaming-Servervorrichtung (200), eine Anforderung, das codierte Audiosignal (14) gemäß der ausgewählten Codiertes-Audiosignal-Version (32) bereitzustellen; und Bereitstellen des empfangenen codierten Audiosignals (14) für einen Decodierer oder einen Transcodierer.
    49. Eine Nicht-Transitorischer-Speicher-Einheit, die Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor einen Bitstrom (12) verarbeitet, der von einer Streaming-Servervorrichtung empfangen wird, wobei der Bitstrom folgende Merkmale aufweist: ein codiertes Audiosignal (14) gemäß einer Codiertes-Audiosignal-Version, die unter einer Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen ausgewählt ist, wobei jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen zumindest eine Personalisierungsoption unter einer Mehrzahl von Personalisierungsoptionen aufweist, und Seiteninformationen (16), die umfassen: Konfigurationsinformationen, die die Mehrzahl von auswählbaren Personalisierungsoptionen anzeigen; und Kapazitätsinformationen, die eine Kapazität anzeigen, die für jede der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen von einer externen Ressource (13, 300) zum Übertragen des codierten Audiosignals erforderlich ist; wobei die Verarbeitung folgende Merkmale aufweist: Definieren einer Personalisierung (22) durch Wählen, für jeden einer Mehrzahl von möglichen Zuständen (73) der externen Ressource (13, 300), einer bevorzugten Codiertes-Audiosignal-Version (16) unter der Mehrzahl von auswählbaren Codiertes-Audiosignal-Versionen (16), basierend auf sowohl den Kapazitätsinformationen als auch den Konfigurationsinformationen; Durchführen einer Auswahl (32) einer ausgewählten Codiertes-Audiosignal-Version (16) basierend auf einem momentanen Zustand (73) der externen Ressource (13) und der Personalisierung (22), so dass die Kapazität, die für die ausgewählte Codiertes-Audiosignal-Version (32) erforderlich ist, zu dem momentanen Zustand (73) der externen Ressource (13) passt, um die Anforderung des Bereitstellens des codierten Audiosignals (14) zu der Streaming-Servervorrichtung (200) entsprechend der ausgewählten Codiertes-Audiosignal-Version (32) zu steuern; und Steuern des Bereitstellens des empfangenen codierten Audiosignals (14) zu einem Decodierer oder einem Transcodierer.
    50. Ein Streamingverfahren zum Übertragen eines Bitstroms (12) zu einer Streaming-Clientvorrichtung (100-100e, 400-400e), wobei der Bitstrom (12) gemäß einer Mehrzahl von Segmenten segmentiert ist und ein Codiertes-Audiosignal (14) und Seiteninformationen (16) aufweist, mit folgenden Merkmalen: Empfangen von Anforderungen (19) einer ausgewählten Audiosignalversion des Bitstroms (12) und Übertragen des Bitstroms (12) gemäß der ausgewählten Codiertes-Audiosignal-Version beginnend mit einem nachfolgenden Segment, wobei jede der Codiertes-Audiosignal-Versionen eine vorbestimmte Kapazität erfordert und zumindest eine Personalisierungsoption anbietet; und wobei das Verfahren ein Einbetten von Seiteninformationen (16), die Kapazitätsinformationen, die eine Kapazität, die zur Übertragung der anderen Codiertes-Audiosignal-Versionen erforderlich ist, anzeigen, und Konfigurationsinformationen, die die zumindest eine Personalisierungsoption, die durch die anderen Codiertes-Audiosignal-Versionen angeboten werden, anzeigen, enthalten, in jede Codiertes-Audiosignal-Version aufweist.
    51. Eine Nicht-Transitorischer-Speicher-Einheit, die Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor einen Bitstrom (12) verarbeitet, um zu einer Streaming-Clientvorrichtung übertragen zu werden, wobei der Bitstrom (12) gemäß einer Mehrzahl von Segmenten segmentiert ist und ein Codiertes-Audiosignal (14) und Seiteninformationen (16) aufweist, wobei die Verarbeitung folgende Merkmale aufweist: nach einem Empfangen von Anforderungen (19) nach einer ausgewählten Audiosignalversion des Bitstroms (12) Steuern der Übertragung des Bitstroms (12) gemäß der ausgewählten Codiertes-Audiosignal-Version beginnend mit einem nachfolgenden Segment, wobei jede der Codiertes-Audiosignal-Versionen eine vorbestimmte Kapazität erfordert und zumindest eine Personalisierungsoption anbietet; wobei die Verarbeitung ein Einbetten von Seiteninformationen (16), die Kapazitätsinformationen, die eine Kapazität, die für eine Übertragung von anderen Codiertes-Audiosignal-Versionen erforderlich ist, anzeigen, und Konfigurationsinformationen, die die zumindest eine Personalisierungsoption, die durch die anderen Codiertes-Audiosignal-Versionen angeboten werden, anzeigen, aufweisen, in jede Codiertes-Audiosignal-Version aufweist.
    DE102021006419.4A 2021-12-30 2021-12-30 Streaming-Techniken Pending DE102021006419A1 (de)

    Priority Applications (2)

    Application Number Priority Date Filing Date Title
    DE102021006419.4A DE102021006419A1 (de) 2021-12-30 2021-12-30 Streaming-Techniken
    PCT/EP2022/088027 WO2023126489A1 (en) 2021-12-30 2022-12-29 Streaming techniques

    Applications Claiming Priority (1)

    Application Number Priority Date Filing Date Title
    DE102021006419.4A DE102021006419A1 (de) 2021-12-30 2021-12-30 Streaming-Techniken

    Publications (1)

    Publication Number Publication Date
    DE102021006419A1 true DE102021006419A1 (de) 2023-07-06

    Family

    ID=84901220

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    DE102021006419.4A Pending DE102021006419A1 (de) 2021-12-30 2021-12-30 Streaming-Techniken

    Country Status (2)

    Country Link
    DE (1) DE102021006419A1 (de)
    WO (1) WO2023126489A1 (de)

    Citations (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US20180035176A1 (en) 2016-07-28 2018-02-01 Qualcomm Incorporated Retrieving and accessing segment chunks for media streaming

    Family Cites Families (3)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    EP2863386A1 (de) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodecodierer, Vorrichtung zur Erzeugung von codierten Audioausgangsdaten und Verfahren zur Initialisierung eines Decodierers
    US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
    US10674229B2 (en) * 2016-02-01 2020-06-02 Dolby Laboratories Licensing Corporation Enabling personalized audio in adaptive streaming

    Patent Citations (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US20180035176A1 (en) 2016-07-28 2018-02-01 Qualcomm Incorporated Retrieving and accessing segment chunks for media streaming

    Also Published As

    Publication number Publication date
    WO2023126489A1 (en) 2023-07-06

    Similar Documents

    Publication Publication Date Title
    RU2750505C1 (ru) Оптимизация доставки звука для приложений виртуальной реальности
    CA2950197C (en) Data processor and transport of user control data to audio decoders and renderers
    DE102005032952A1 (de) Statistischer Multiplexer mit schützenden Charakteristika vor durch redundante Systemelemente erzeugten äußeren Nachrichten
    DE602004004436T2 (de) Vorrichtung, Verfahren und Verarbeitungsprogramm zum Empfangen und Wiedergeben von Daten
    DE112007003305B4 (de) Verfahren zum Herunterladen einer Multimediadatei aus einem Server an eine Anwendervorrichtung, Anwendervorrichtung und Server
    DE69835211T2 (de) Umschaltung zwischen komprimierten videobitströmen
    US20150073812A1 (en) Server side crossfading for progressive download media
    DE102013221798A1 (de) Parallele Transcodierung
    DE10392598T5 (de) Unterstützung von fortschrittlichen Codierungsformaten in Mediendateien
    WO2007078227A1 (en) Media content management
    CN105516736A (zh) 视频文件处理方法和装置
    DE112013007509T5 (de) Verfahren, Einrichtung und System zum Auswählen von Audio-Video-Daten zum Streamen
    KR20230129569A (ko) 오디오 디코더, 오디오 인코더, 디코딩된 오디오 신호를 제공하기 위한 방법, 인코딩된 오디오 신호를 제공하기 위한 방법, 오디오 스트림, 오디오 스트림 제공기, 및 스트림 식별자를 사용하는 컴퓨터 프로그램
    DE112016004560T5 (de) Gateway Multi-View-Video-Stream-Verarbeitung für Zweitbildschirminhalts-Überlagerung
    EP2938085B1 (de) Verfahren und vorrichtung zur übermittlung von kodierten mediendaten
    DE102021006419A1 (de) Streaming-Techniken
    Kuech et al. Dynamic range and loudness control in MPEG-H 3D Audio
    DE10004829B4 (de) Verfahren und Vorrichtung zum Übertragen von Dateneinheiten eines Datenstroms
    DE10062514B4 (de) Verfahren und Vorrichtung zum Steuern der Übertragung und Wiedergabe von digitalen Signalen
    DE102016209279B3 (de) Verfahren und Vorrichtung zur Fortsetzung einer laufenden Wiedergabe von Audio- und/oder Videoinhalten einer ersten Quelle nach einer vorübergehenden Unterbrechung oder Überlagerung der der laufenden Wiedergabe durch eine Wiedergabe von Audio- und/oder Videoinhalten einer zweiten Quelle
    EP1050186A1 (de) Kommunikationsnetz, verfahren zum übertragen eines signals, netzverbindungseinheit und verfahren zum anpassen der datenrate eines skalierten datenstroms
    DE102012202315A1 (de) Videosystem zur Darstellung von Bilddaten, Verfahren und Computerprogramm
    DE10059362A1 (de) Adaptive Speicherung von Audiosignalen
    RU2801698C2 (ru) Оптимизация доставки звука для приложений виртуальной реальности
    CN115068911B (zh) 健身设备的控制方法、装置、存储介质及处理器

    Legal Events

    Date Code Title Description
    R012 Request for examination validly filed