EP4435781B1

EP4435781B1 - Audiovorrichtung mit unsicherheitsquantifizierung und zugehörige verfahren

Info

Publication number: EP4435781B1
Application number: EP23163841.2A
Authority: EP
Inventors: Clément LAROCHE; Diego Caviedes NOZAL
Original assignee: GN Audio AS
Current assignee: GN Audio AS
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2026-03-18
Anticipated expiration: 2043-03-23
Also published as: EP4435781A1; US20240321281A1; CN118692487A; US12248727B2; EP4435782A1; US20240319955A1; CN118692488A

Claims

Ein Audiogerät (10), das aus Speicher, einer Schnittstelle und einem oder mehreren Prozessoren (10C) besteht, wobei ein oder mehrere Prozessoren (10C) so konfiguriert sind:
Erhalten (S102) Audiodaten;

Ablauf (S106) die Audiodaten zur Bereitstellung eines Audioausgangs;

Ablauf (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter, die auf eine oder mehrere Eigenschaften der Audiodaten hinweisen;

Karte (S110) einen oder mehrere Audioparameter zu einem ersten latenten Raum eines ersten neuronalen Netzwerks zur Bereitstellung eines Abbildungsparameters, der darauf hinweist, ob ein oder mehrere Audioparameter zu einer Trainingsmannigfaltigkeit des ersten latenten Raums gehören; Bestimmen (S112), basierend auf dem Abbildungsparameter, einem Unsicherheitsparameter, der auf eine Unsicherheit der Verarbeitungsqualität hinweist; und

Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs basierend auf dem Unschärfeparameter.
Das Audiogerät (10) gemäß Anspruch 1, wobei zur Verarbeitung (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter zur Kodierung (S108A) der Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter mittels des ersten neuronalen Netzwerks bestehen.
Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, bei dem ein oder mehrere Prozessoren (10C) einen digitalen Signalprozessor (14B) mit einem zweiten neuronalen Netzwerk bilden, und bei dem die Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs die Bereitstellung (S106A) der Audiodaten als Eingang für das zweite neuronale Netzwerk und zur Verarbeitung (S106B) bestehen die Audiodaten verwenden das zweite neuronale Netzwerk zur Bereitstellung eines primären Ausgangs basierend auf dem Unsicherheitsparameter, wobei der Audioausgang auf dem primären Ausgang basiert.
Das Audiogerät (10) gemäß Anspruch 3, wobei das zweite neuronale Netzwerk ein tiefes neuronales Netzwerk bildet.
Das Audiogerät (10) gemäß einem der Ansprüche 3-4, wobei der digitale Signalprozessor (14B) einen Controller (14A) umfasst, der darauf konfiguriert ist, einen Controller-Ausgang basierend auf dem Unsicherheitsparameter zu bestimmen, und wobei die Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs zur Steuerung (S114A) die Verarbeitung der Audiodaten basierend auf dem Controller-Ausgang umfasst.
Das Audiogerät (10) gemäß einem der Ansprüche 3-5, wobei ein oder mehrere Prozessoren (10C) einen sekundären Prozessor (14D) bilden, der sich vom digitalen Signalprozessor (14B) unterscheidet, wobei zur Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs zur Verarbeitung (S106C) bestehen die Audiodaten für die Bereitstellung eines sekundären Ausgangs, der sich vom primären Ausgang unterscheidet, mittels des sekundären Prozessors (14D), wobei der Audioausgang auf dem sekundären Ausgang basiert.
Das Audiogerät (10) gemäß Anspruch 6, bei dem ein oder mehrere Prozessoren (10C) einen Mischer (14C) bilden und bei dem (S106) die Audiodaten zur Bereitstellung eines Audioausgangs zum Mischen (S106D) des primären Ausgangs und des sekundären Ausgangs zur Bereitstellung eines gemischten Ausgangs bestehen, wobei der Audioausgang auf dem gemischten Ausgang basiert.
Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei die Trainingsmannigfaltigkeit (26) eine Wahrscheinlichkeitsverteilung umfasst und bei der die Abbildung (S110) der ein oder mehrere Audioparameter die Abbildung (S110A) eines oder mehrerer Audioparameter auf die Wahrscheinlichkeitsverteilung zur Bereitstellung des Mapping-Parameters umfasst.
Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei die Abbildung (S110) der einen oder mehrerer Audioparameter mit einem ersten latenten Raum (22) eines ersten neuronalen Netzwerks zur Bestimmung (S110B) eines Abstands zwischen einem oder mehreren Audioparametern und der Trainingsmannigfaltigkeit (26) besteht.
Das Audiogerät (10) gemäß einer der vorherigen Ansprüche, wobei ein oder mehrere Prozessoren (10C) konfiguriert sind, um:
Bestimmen (S104) ob der Unschärfeparameter ein erstes Kriterium erfüllt, und gemäß dem Unsicherheitsparameter, der das erste Kriterium erfüllt, wird der Prozess (S106E) die Audiodaten gemäß einem ersten Signalverarbeitungsschema zur Bereitstellung des Audioausgangs.
Das Audiogerät (10) gemäß Anspruch 10, bei dem ein oder mehrere Prozessoren (10C) konfiguriert sind, um: gemäß dem Unsicherheitsparameter, der das erste Kriterium nicht erfüllt, und/oder gemäß dem Unsicherheitsparameter, der ein zweites Kriterium erfüllt, die Audiodaten (S106F) gemäß einem zweiten Signalverarbeitungsverfahren zur Bereitstellung des Audioausgangs zu verarbeiten.
Das Audiogerät (10) gemäß Anspruch 11, bei dem ein oder mehrere Prozessoren (10C) konfiguriert sind, um: gemäß dem Unsicherheitsparameter, der das erste Kriterium nicht erfüllt, und entsprechend dem Unsicherheitsparameter, der das zweite Kriterium nicht erfüllt, die Audiodaten gemäß einem dritten Signalverarbeitungsschema zur Bereitstellung des Audioausgangs zu verarbeiten.
Das Audiogerät (10) gemäß einer der vorherigen Behauptungen, wobei ein oder mehrere Prozessoren (10C) so konfiguriert sind, dass sie den Audioausgang über das Interface (10A) ausgeben.
Methode (100) zum Betrieb eines Audiogeräts, wobei die Methode Folgendes umfasst:
Erwerb (S102) Audiodaten;

Verarbeitung (S106) die Audiodaten zur Bereitstellung eines Audioausgangs;

Verarbeitung (S108) die Audiodaten zur Bereitstellung eines oder mehrerer Audioparameter, die auf eine oder mehrere Eigenschaften der Audiodaten hinweisen;

Kartierung (S110) einen oder mehrere Audioparameter zu einem ersten latenten Raum eines ersten neuronalen Netzwerks zur Bereitstellung eines Abbildungsparameters, der darauf hinweist, ob ein oder mehrere Audioparameter zu einer Trainingsmannigfaltigkeit des ersten latenten Raums gehören;

Bestimmung (S112), basierend auf dem Abbildungsparameter, einem Unsicherheitsparameter, der auf eine Unsicherheit der Verarbeitungsqualität hinweist; und

Steuerung (S114) die Verarbeitung der Audiodaten zur Bereitstellung des Audioausgangs basierend auf dem Unschärfeparameter.