EP4342189B1

EP4342189B1 - Vorrichtung und verfahren zum bestimmen von audio-verarbeitungsparametern

Info

Publication number: EP4342189B1
Application number: EP22729553.2A
Authority: EP
Inventors: Peggy Sylopp; Tobias Bruns
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2021-05-17
Filing date: 2022-05-16
Publication date: 2025-08-27
Anticipated expiration: 2042-05-16
Also published as: DE102021204974A1; US12526590B2; WO2022243257A3; EP4342189C0; WO2022243257A2; JP7721683B2; EP4342189A2; CN117652160A; JP2024521246A; US20240089672A1

Description

Technisches Gebiet

Ausführungsbeispiele gemäß der vorliegenden Erfindung beziehen sich auf eine Vorrichtung und ein Verfahren zum Bestimmen von Audio-Verarbeitungsparametern in Abhängigkeit von zumindest einem Audio-Eingangssignal.
Ausführungsbeispiele gemäß der Erfindung beziehen sich auf eine Vorrichtung und ein Verfahren mit einer künstlichen Intelligenz, beispielsweise in einem Klangwiedergabegerät, die Audiosignale analysieren und mit benutzer-individuellen Einstellungen während des Benutzerbetriebs zuordnen bzw. kombinieren kann.
Ausführungsbeispiele beziehen sich ferner auf Konzepte zum Bestimmen von Audio-Verarbeitungsparametern basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen.

Hintergrund der Erfindung

Die individuelle Wahrnehmung von Klang und damit die individuellen Anforderungen für den Klang bzw. Wohlklang an deren Anpassung von Klangwiedergabegeräten unterscheiden sich unter anderem nach folgenden Kriterien:

Individualität
Situationsbedingte Bedürfnisse
Äußere Rahmenbedingungen

Die Klangwahrnehmung unterscheidet sich von Person zu Person. Beispielsweise ist ein Gespräch mit einer Person in einem Raum mit vielen Menschen für den Einen schwerer zu führen als für den Anderen. Ebenso wird je nach Bedürfnis dieselbe Einstellung einer Klangwiedergabe unterschiedlich wahrgenommen. Auch Umgebungsparameter, wie die auditorische Umgebung, beeinflussen die Steuerungswerte für eine Klanganpassung eines Klangwiedergabegeräts erheblich.
Aktuelle Klangwiedergabegeräte bieten spezifische Klanganpassungen, die nicht automatisiert angewandt werden. Bei Klangwiedergabegeräten, wie beispielsweise tragbaren Geräten zur Hörunterstützung, wie etwa Kopfhörer, Headsets oder Hörgeräte, stehen oft nur Lautstärkeregelung und Equalizer zur Klanganpassung zur Verfügung. Die Klanganpassung, wie beispielsweise die Verstärkung der Lautstärke oder die Anpassung der höheren oder tieferen Töne, wird einmalig von dem Benutzer durchgeführt. Es wurde erkannt, dass zur Erzielung einer durchgängig guten Audioqualität für jede weitere Klangwiedergabe diese Einstellungen erneut durchgeführt werden müssen.
Es wurde erkannt, dass bei herkömmlichen Konzepten nicht nur der Vorgang der Klanganpassung für unterschiedliche Klangwiedergaben wiederholt werden muss, sondern dass auch bei Klangwiedergabegeräten die Veränderungen der auditorischen Umgebung nicht adaptiv, beispielsweise an den Umgebungsgeräuschen angepasst, werden. Es wurde erkannt, dass es dabei vorkommen kann, dass selbst bei einer relativ geringfügigen Änderung von Nebengeräuschen die Höranstrengung für das Sprachverstehen steigt.
Ferner wurde erkannt, dass bei herkömmlichen Konzepten Klanganpassungen zudem auch nur basierend auf den von Herstellern vorgegebenen Klangvoreinstellungen durchgeführt werden können. Es wurde herausgefunden, dass diese nicht immer den individuellen Bedürfnissen der Menschen entsprechen. So gibt es beispielsweise Einstellungen, wie "Musik", wobei der präferierte Musikgeschmack und die persönliche Intention beim Musikhören dabei keine Berücksichtigung findet. So unterscheiden sich beispielsweise die Erwartung an das Klangerlebnis von Operngesang im Vergleich zu Techno grundsätzlich. Bei den Voreinstellungen im Hörprogramm "Musik" werden jedoch von dem Hersteller verallgemeinerte Annahmen zugrunde gelegt, die unter Umständen weder den Erwartungen an das Klangerlebnis von Operngesang noch an Techno genügen und somit dem Benutzer unzureichende Klangwiedergaben zur Verfügung stellen.
Aktuelle Klangwiedergabegeräte zur Hörunterstützung, wie beispielsweise Hörgeräte, können je nach Ausstattung unter anderem mehrere Tausend Euro kosten, so dass die Erwartungen an das Gerät entsprechend hoch ausfallen. Anpassungen von Hörgeräten werden generell unter Laborbedingungen vorgenommen, meist mit nur zwei Lautsprechern und nur einer sehr begrenzten Anzahl von Klängen, wie Sinustöne, Rauschen und Sprache. Komplexe Geräuschsituationen, wie beispielsweise auf Straßenkreuzungen, können im Hörlabor nicht simuliert werden und führen daher zur Frustration der Hörgerätträgern und zu wenig zufriedenstellenden Ergebnissen im Alltag.
Bei lernenden Anwendungen zur Klangwiedergabe, wie beispielsweise der Github-Veröffentlichung "liketohear-ai-pt", werden in einer Datei aufgezeichnete, von Benutzern (Usern) situationsbedingte Parameteränderungen eines Hörgerätealgorithmus und die der Situation zugehörige aufgezeichnete Frequenzspektrumanalyse mit einem selbstlernenden Algorithmus verarbeitet. Der Algorithmus erstellt die für die Entscheidung des Benutzers (Users) maßgebliche Relevanz eines bestimmten Frequenzspektrums und wählt automatisch die zugehörigen Parameter als Grundlage für ein Vorhersagemodell aus. Das Vorhersagemodell wird in einem zweiten Schritt auf die vorher aufgezeichnete Frequenzspektrumanalyse angewandt. Es wurde erkannt, dass mittels dieser lernenden Anwendung zur Klangwiedergabe die Komplexität des Frequenzspektrums nicht abgebildet werden kann, so dass immer wieder weitere Benutzeranpassungen notwendig sind.
Die US 2019/0149929 A1 beschreibt eine Benutzer-Einstellungs-Schnittstelle unter Ver wendung einer entfernten Berechnungs-Ressource. Ein System umfasst ein mobiles Gerät, das mit einem Hör-Unterstützungs-Gerät oder einem entfernten Server kommuniziert. Das mobile Gerät interpretiert eine akustische Umgebung und sendet Information über die Umgebung an einen entfernten Server. Der entfernte Server bestimmt Information und sendet diese zur Verwendung in einer Benutzerschnittstelle an das mobile Gerät. Das mobile Gerät empfängt eine Benutzerauswahl einer Hör-Unterstützungs-Parameter-Information, die an das Hör-Unterstützungs-Gerät geschickt werden soll.
In Anbetracht der obigen Ausführungen besteht ein Bedarf für ein Konzept zur Bestimmung von Audio-Verarbeitungsparametern zur Laufzeit, das einen verbesserten Kompromiss zwischen Benutzerfreundlichkeit, erzielbarer Audioqualität und Implementierungsaufwand mit sich bringt.

Zusammenfassung der Erfindung

Diese Aufgabe wird durch den Gegenstand der unabhängigen Patentansprüche gelöst. Ein Kerngedanke von Ausführungsbeispielen der vorliegenden Erfindung besteht darin, erkannt zu haben, von den Benutzern intuitiv durchgeführte Klanganpassungen in Laufzeit vorzunehmen und in Echtzeit in das lernende System zu integrieren.
Ein Ausführungsbeispiel gemäß der vorliegenden Erfindung umfasst eine Vorrichtung zum Bestimmen von Audio-Verarbeitungsparametern, beispielsweise Parameter für Audio-Verarbeitung, in Abhängigkeit von zumindest einem Audio-Eingangssignal, beispielsweise von einem Audio-Eingang kommend, wobei die Vorrichtung ausgebildet ist, um zumindest einen Koeffizienten einer Verarbeitungsparameter-Bestimmungsvorschrift benutzer-individuell basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen zu bestimmen, und wobei die Vorrichtung ausgelegt ist, um die Audio-Verarbeitungsparameter unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf dem Audio-Eingangssignal zu erhalten. Koeffizienten einer Verarbeitungsparameter-Bestimmungsvorschrift können beispielsweise Koeffizienten eines neuronalen Netzes sein, das als Eingangsgröße das Audio-Eingangssignal, oder davon extrahierte Eingangssignalparameter, erhält, und das als Ausgangsgröße die Audio-Verarbeitungsparameter bereitstellt. In anderen Worten können die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift beispielsweise benutzer-individuell basierend auf beim Benutzerbetrieb erhaltenen Eingangs-Audiosignalen, beispielsweise während des Benutzerbetriebs, bestimmt werden. Ferner kann die Vorrichtung ausgelegt sein, um die Audio-Verarbeitungsparameter, beispielsweise unter Verwendung der durch den zumindest einen Koeffizienten definierten Verarbeitungsparameter-Bestimmungsvorschrift basierend auf dem Audio-Eingangssignal zu erhalten.
Dieses Ausführungsbeispiel basiert auf dem Kerngedanken, dass es durch eine Benutzer-individuelle Einstellung eines oder mehrere Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen möglich wird, die Verarbeitungsparameter-Bestimmungsvorschrift an die individuellen Gewohnheiten und Wünsche des Benutzers anzupassen. Indem während des Benutzerbetriebs erhaltene Audiosignale für die benutzer-Individuelle Einstellung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift herangezogen werden, kann erreicht werden, dass die Koeffizienten gut an diejenigen (konkreten) Hörsituationen anpasst, in denen sich der Benutzer üblicherweise tastsächlich aufhält. Somit ist es beispielsweise nicht länger erforderlich, eine akustische Umgebung vorzuklassifizieren (zum Beispiel in eine allgemeine Kategorie "Musik" und eine allgemeine Kategorie "Sprache"), sondern die Koeffizienten können an die tatsächlichen Hörumgebungen, in der der Benutzer beispielsweise Musik oder Sprache hört, und auch an die individuellen Bedürfnisse des Benutzers angepasst werden. Beispielsweise kann durch geeignete Wahl der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift eine unmittelbare und Benutzer-individuelle Bestimmung von Audio-Verarbeitungsparametern erfolgen, wobei beispielswese die durch Koeffizienten angepasste Verarbeitungsparameter-Bestimmungsvorschrift eine unmittelbare Bestimmung der Audio Verarbeitungsparameter ohne Kategorisierung der akustischen Umgebung in eine von mehreren statisch vorgegebenen Kategorien erfordert. Vielmehr können Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf den bei Benutzerbetrieb erhaltenen Audiosignalen angepasst werden, so dass die für den Benutzer relevanten Hörumgebungen, in denen der Benutzer unterschiedliche Audio-Verarbeitungsparameter wünscht, "hart" oder "weich" (beispielsweise mit fließendem Übergang) unterscheiden werden können.
Somit ermöglicht es das Erfindungskonzept durch die Berücksichtigung der beim Benutzerbetrieb erhaltenen Audiosignale (und durch entsprechende Einstellung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift) beispielsweise, dass bei Vorhandensein von Sprache in verschiedenen akustischen Umgebungen, an denen sich der Benutzer aufhält (zum Beispiel lautes Großraumbüro, Einzelbüro, Straßenkreuzung mit vielen LKWs, Straßenkreuzung mit Straßenbahnverkehr, usw.) ganz verschiedene Audio-Verarbeitungsparameter bereitgestellt werden. Die Bereitgestellten Parameter sind dann typischerweise an durch den Benutzer gewünschten Einstellungen in den jeweiligen Situationen orientiert.
Insofern liefert das Erfindungskonzept mit vertretbarem Aufwand Audio-Verarbeitungsparameter, die an die Lebenswirklichkeit eines individuellen Benutzers und dessen spezifischen Präferenzen angepasst sind.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, um eine Datenbasis in Abhängigkeit von durch den Benutzer eingestellten Nutzerparametern zu bestimmen, so dass Einträge der Datenbasis die durch den Benutzer eingestellten Nutzerparameter beschreiben. Beispielsweise kann die Datenbasis in Echtzeit während des Benutzerbetriebs erstellt und ein Vorhersagemodell bestimmt werden. Ferner kann die Datenbasis zur Bestimmung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift verwendet werden, indem die Datenbasis, die Informationen der Nutzerparameter enthält. Beispielsweise kann die Datenbasis auch personenbezogene Steuerungseinstellungen enthalten, die mit den Nutzerparametern verknüpft werden können. Die von dem Benutzer eingestellten Nutzerparameter können beispielsweise als Ausgangsgröße an die Stelle der Audio-Verarbeitungsparameter treten, oder die Audio-Verarbeitungsparameter verändern, so dass die Einträge der Datenbasis beispielsweise die durch den Benutzer eingestellten Nutzerparameter darstellen. Beispielsweise ist die Datenbasis entsprechend zumindest teilweise in ein Bestärkendes Lernen integriert, das beispielsweise die durch den Benutzer eingestellten Nutzerparameter verwendet.
Durch die Erstellung einer Datenbasis, deren Einträge die durch den Benutzer eingestellten Nutzerparameter beschreiben können die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift beispielsweise sukzessive verbessert oder optimiert werden. Die durch den Benutzer (typsicherweise in verschiedenen akustischen Umgebungen) eingestellten Nutzerparameter, die die Datenbasis bilden und die beispielsweise in einer Datenbank oder einer anderweitigen Speicherstruktur abgelegt werden, können hierbei Sollwerte von Audio-Verarbeitungsparametern darstellen. Besteht beispielsweise eine Zuordnung von Nutzerparametern zu Audiosignalen (oder Audiosignaleigenschaften) der jeweiligen akustischen Umgebung, in der der Benutzer die Nutzerparameter gewählt hat, so kann diese Datenbasis zu Bestimmung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift verwendet werden. Durch Bestimmung einer Datenbasis, die beispielsweise mit zunehmender Dauer der Nutzung durch den Benutzer immer größer wird, kann beispielsweise erreicht werden, dass mit der Zeit eine immer größere Datenbasis zur (automatischen) Bestimmung (bzw. Verbesserung) der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift vorliegt, was eine zunehmende Verfeinerung bzw. Verbesserung der genannten Koeffizienten (z. B. basierend auf einer immer größeren Basis an unterschiedlichen Hörumgebungen, in denen der Benutzer sich aufgehalten hat) ermöglicht. Somit kann durch Erstellung und fortlaufende Erweiterung der Datenbasis das Benutzer-Erlebnis immer weiter verbessert werden.
Erfindungsgemäß ist die Vorrichtung ausgebildet, um eine Datenbasis in Abhängigkeit von dem zumindest einen Audio-Eingangssignal zu bestimmen, so dass Einträge der Datenbasis das Audio-Eingangssignal darstellen bzw. beschreiben Beispielsweise kann die Datenbasis zur Bestimmung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift hinzugezogen werden. In anderen Worten wurden beispielsweise zunächst personenbezogene Steuerungseinstellungen, beispielsweise die durch den Benutzer eingestellten Nutzerparameter gespeichert, die mit Klanginformationen der auditorischen Umgebung als äußere Rahmenbedingung erweitert wird. Dadurch kann eine Datengrundlage geschaffen werden, die beispielsweise unter Verwendung des Bestärkenden Lernens Koeffizienten für die Verarbeitungsparameter-Bestimmungsvorschrift bereitstellt.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die Datenbasis so zu bestimmen, dass die Datenbasis eine Zuordnung zwischen verschiedenen Audio-Eingangssignalen und jeweiligen durch den Benutzer eingestellten Nutzerparametern beschreibt. In anderen Worten kann die Vorrichtung beispielsweise die äußeren Rahmenbedingungen basierend auf dem Audio-Eingangssignal und die personenbezogenen Steuerungseinstellungen, beispielsweise die durch den Benutzer eingestellten Nutzerparameter, einander zuordnen. Hierunter wird verstanden, dass die Zuordnung beispielsweise als Basis für das Vorhersagemodell dienen kann, das durch weitere Klanganpassungen des Benutzers, beispielsweise ad hoc verändert werden kann, etwa indem die jeweiligen durch den Benutzer eingestellten Nutzerparameter mit der Datenbasis integriert werden (und dann beispielsweise eine Neubestimmung oder Verbesserung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift erfolgt). Beispielsweise kann im Hintergrund über den Audio-Eingang die auditorische Szene mittels Mikrofonen kontinuierlich aufgenommen, und/oder analysiert und/oder evaluiert werden, so dass beispielsweise eine Analyse der auditorischen Szene über die Dynamik, und/oder Frequenz und/oder spektrale Eigenschaft generiert wird. Das Analyseergebnis der auditorischen Szene kann beispielsweise als Umgebungsparameter in die Datenbasis integriert und dem Nutzerparameter zugeordnet werden, um eine Verknüpfung des Nutzerparameters und des Audio-Eingangssignals in der auditorischen Umgebung für diesen entsprechenden Zeitpunkt zu erhalten.
Erfindungsgemäß ist die Vorrichtung ausgebildet, eine Datenbasis, beispielsweise zur Bestimmung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift, in Abhängigkeit von einem Audio-Ausgangssignal zu bestimmen, so dass Einträge der Datenbasis das Audio-Ausgangssignal beschreiben beziehungsweise darstellen. Indem die Datenbasis in Abhängigkeit von zumindest einem Audio-Eingangssignal und von einem Audio-Ausgangssignal bestimmt wird, kann die Verarbeitungsparameter-Bestimmungsvorschrift, beispielsweise des Bestärkenden Lernens, die Datenbasis herziehen, um Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift, beispielsweise für ein neuronales Netz, bestimmen zu können. Die Koeffizienten der Verarbeitungsparameter-Bearbeitungsvorschrift können beispielsweise durch gemeinsame Verarbeitung eines Audio-Eingangssignals und eines zugehörigen Ausgangssignals oder durch Vergleich des Audio-Ausgangssignals mit dem Audio-Eingangssignal erhalten werden.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die Datenbasis so zu bestimmen, dass die Datenbasis eine Zuordnung zwischen verschiedenen Audio-Ausgangssignalen und jeweiligen durch den Benutzer eingestellten Nutzerparametern beschreibt. In anderen Worten beschreibt die Datenbasis eine Zuordnung zwischen verschiedenen Audio-Eingangssignalen, zwischen verschiedenen Audio-Ausgangssignalen und jeweiligen durch den Benutzer eingestellten Nutzerparametern, um Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift bestimmen zu können. Mittels der erstellten Datenbasis kann beispielsweise durch Analyse des eingehenden und ausgehenden Audiosignals eine Klangverarbeitung im Training eines selbstbestärkten Lernalgorithmus integriert werden. Beispielsweise kann das eingehende Audiosignal beziehungsweise das Audio-Eingangssignal die Klangumgebung, beispielsweise die auditive Umgebung, enthalten. In anderen Worten, mittels der erstellten Datenbasis kann beispielsweise durch Analyse des eingehenden und ausgehenden Audiosignals können beispielsweise die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift so gewählt werden, dass sich durch die Verarbeitungsparameter-Bestimmungsvorschrift der gewünschte Zusammenhang zwischen Audio-Eingangssignal und Audio Ausgangssignal zumindest näherungsweise ergibt.
Erfindungsgemäß ist die Vorrichtung ausgebildet, den zumindest einen Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf der von der Vorrichtung akquirierten Datenbasis anzupassen, um die Verarbeitungsparameter-Bestimmungsvorschrift benutzer-individuell anzupassen, um benutzer-individuell angepasste Audio-Verarbeitungsparameter zu erhalten. In anderen Worten wird beispielsweise das bestärkende Lernen Nutzermodell-basierend auf einer künstlichen Intelligenz angepasst, um benutzer-individuell angepasste Audio-Verarbeitungsparameter bzw. ein benutzer-individuell angepasstes Audiosignal zu erhalten. Beispielsweise ist es somit möglich, Änderungen der Klangumgebung, beispielsweise der auditiven Umgebung, und der Nutzereinstellungen, beispielsweise den Nutzerparametern, inhärent in Laufzeit zu lernen und anzupassen. Beispielsweise können benutzer-individuell angepasste Audio-Verarbeitungsparameter es ermöglichen, dass bei Verarbeitung des Audio-Eingangssignals unter Verwendung der Audio-Verarbeitungsparameter benutzer-individuell angepasste Audiosignale während des Benutzerbetriebs erhalten werden. Anders gesagt kann aus der Datenbasis ein nutzerspezifischer Parametersatz zur Klangverarbeitung erhalten beziehungsweise entwickelt werden, der einerseits automatisiert unter gleichen äußeren Rahmenbedingungen dieselben Steuerungsparameter anwendet, aber auch in der Situation selbst weitere Nutzer-Anpassungen zulässt, die in die Vorrichtung als lernendes System integriert werden. Beispielsweise kann sich so das Lernsystem und die Anwendung in einem fortwährenden Lernprozess den klanglichen Nutzerpräferenzen anpassen.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die Verarbeitungsparameter-Bestimmungsvorschrift basierend auf der Datenbasis bereitzustellen und/oder anzupassen. Beispielsweise kann die Vorrichtung die Datenbasis, beispielsweise unter Verwendung des bestärkenden Lernens, nutzen, um die Verarbeitungsparameter-Bestimmungsvorschrift bereitzustellen, um unter Verwendung der Audio-Verarbeitungsparameter benutzer-individuell angepasste Audiosignale, zum Beispiel während des Benutzerbetriebs, zu erhalten.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, den zumindest einen Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf zumindest einem von einem Benutzer korrigierten und/oder veränderten Audio-Verarbeitungsparameter zu bestimmen und/oder anzupassen. Wie bereits erwähnt, kann die Vorrichtung ausgebildet sein, Benutzeranpassungen der Nutzerparameter während des Benutzerbetriebs zu berücksichtigen bzw. einzustellen, und beispielsweise zu einem späteren Zeitpunkt und entsprechend gleichen Ort bzw. entsprechend gleicher Klangumgebung weitere Benutzeranpassungen der Nutzerparametern zuzulassen, so dass die vorhergehenden Nutzerparameter mit neu eingestellten Nutzerparameter eingestellt und/oder überschrieben werden. In anderen Worten können Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift von einem Benutzer korrigiert werden und/oder es können beispielsweise veränderte Audio-Verarbeitungsparametern bestimmt werden, beispielsweise abhängig von der Klangumgebung zum jeweiligen Zeitpunkt, in der sich der Benutzer befindet.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, eine Audio-Verarbeitung, beispielsweise eine parametrisierte Audio-Verarbeitungsvorschrift, basierend auf dem Audio-Eingangssignal und basierend auf dem Audio-Verarbeitungsparameter auszuführen, um die benutzer-individuell angepassten Audiosignale, beispielsweise unter Berücksichtigung von Benutzermodifikationen der Audio-Verarbeitungsparameter, zu erhalten. Anders gesagt kann die Vorrichtung mittels einer optionalen Audio-Verarbeitung des Audio-Eingangssignals und der Audio-Verarbeitungsparameter ein benutzer-individuell angepasstes Audiosignal für den Audio-Ausgang bereitstellen. Es kann also beispielsweise die Audioverarbeitung in die Vorrichtung integriert werden, wodurch ein effizientes System erhalten wird. Die Audioverarbeitung kann optional auch bei der Bestimmung der Audio-Verarbeitungsparameter mit einbezogen werden.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift unter Verwendung eines Vergleichs des Audio-Eingangssignals und eines unter Verwendung des Audio-Verarbeitungsparameter-gelieferten Audio-Eingangssignals, beispielsweise unter Berücksichtigung von Benutzermodifikationen der Audio-Verarbeitungsparameter, zu bestimmen. Anders gesagt kann die Bestimmung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift auf einem Vergleich zwischen dem Audio-Eingangssignal und dem direkten Audio-Ausgangssignal oder dem durch die Audio-Verarbeitung gelieferten Audio-Ausgangssignal basieren. Beispielsweise kann optional vor oder nach Verwendung des Vergleichs eine Audio-Analyse des Audio-Eingangssignals oder eine Audio-Analyse des Audio-Ausgangssignals erfolgen, um die Koeffizienten der Vergleichsparameter-Bestimmungsvorschrift basierend auf einem Audio-Analyseergebnis der Audiosignale zu bestimmen. Eine Bestimmung der Koeffizienten der Parameter-Bestimmungsvorschrift unter Verwendung eines solchen Vergleich liefert besonders zuverlässige bzw. robuste Ergebnisse, da das tatsächlich an den Benutzer ausgegebene Audiosignal als Kriterium für die Bestimmung der Koeffizienten der Parameter-Bestimmungsvorschrift gemacht werden kann. Das Kriterium, dass das Audio-Ausgangssignal dem vom Benutzer gewünschten entsprechen soll, ist nämlich aussagekräftiger und robuster als die reine Optimierung der Audio-Verarbeitungsparameter an sich.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die von dem Benutzer eingestellten Nutzerparameter als Ausgangsgröße an Stelle der Audio-Verarbeitungsparameter bereitzustellen, wobei die von dem Benutzer eingestellten Nutzerparameter Lautstärkeparameter und/oder Klangparameter und/oder Equalizer-Parameter umfassen. Anders gesagt können Nutzerparameter beispielsweise Filterparameter zur Tongestaltung und/oder zur Entzerrung von Tonfrequenzen aufweisen. Indem die von dem Benutzer eingestellten Nutzerparameter als Ausgangsgröße bereitgestellt werden, wird beispielsweise ein kurzfristiger Benutzereingriff ermöglicht, was ein besonders gutes Nutzererlebnis zur Folge hat. Ein Nutzereingriff kann dann zusätzlich zur Verbesserung der Koeffizienten verwendet werden, um so zukünftige Nutzereingriffe nach Möglichkeit zu vermeiden (und stattdessen automatisch eine an den Nutzerwunsch angepasste Einstellung zu erreichen).
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgelegt, die Nutzerparameter mit den Audio-Verarbeitungsparametern zu kombinieren, beispielsweise durch Addition, um dadurch kombinierte Parameter der Audio-Verarbeitung zu erhalten und als Ausgangsgröße bereitzustellen. Kombinierte Parameter können beispielsweise Nutzerparameter und Audio-Verarbeitungsparameter aufweisen, die kombiniert der Audio-Verarbeitung bereitgestellt oder unter Verwendung der Audio-Verarbeitung kombiniert werden und als Ausgangsgröße beispielsweise dem bestärkenden Lernen bereitgestellt werden. Entsprechend ist ein schneller Nutzereingriff möglich, und es kann somit die Audioverarbeitung an die Benutzerwünsche angepasst werden.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, eine Audio-Analyse des Audio-Eingangssignals durchzuführen, um ein Audio-Eingangssignalanalyseergebnis für eine Bestimmung des zumindest einen Koeffizienten einer Verarbeitungsparameter-Bestimmungsvorschrift, beispielsweise unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift, bereitzustellen. Beispielsweise kann die Verarbeitungsparameter-Bestimmungsvorschrift eine Ableitungsvorschrift zur Ableitung der Audio-Verarbeitungsparameter von dem Audio-Eingangssignalanalyseergebnis definieren. Die Audio-Analyse des Audio-Eingangssignals kann Audio-Eingangssignalanalyseergebnisse bereitstellen, beispielsweise in Form von Informationen über spektrale Eigenschaften und/oder Dynamik und/oder Frequenz des Audio-Eingangssignals, oder auch Informationen über Intensitätswerte pro Band. Die Audio-Eingangssignalanalyseergebnisse können beispielsweise als Eingangsgrößen für eine Bestimmung des einen oder der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift, zum Beispiel unter Verwendung des bestärkenden Lernens, bereitgestellt werden. Ausführungsbeispiele sehen dabei ferner vor, dass die Audio-Analyse das von dem Audio-Eingang kommende Audio-Eingangssignal im Vorhinein analysiert und evaluiert, um es der Verarbeitungsparameter-Bestimmungsvorschrift bereitzustellen, wobei das nicht zwingend erforderlich ist. So ist es beispielsweise möglich, zusätzlichen Informationen über spektrale Eigenschaften des Audio-Eingangssignals als Audio-Eingangssignalanalyseergebnis zu gewinnen. Weiterhin kann durch Verwendung eines Audio-Eingangssignalanalyseergebnisses die Verarbeitungsparameter-Bestimmungsvorschrift einfacher gestaltet werden als wenn beispielsweise das komplette Audio Eingangs-signal zur Bestimmung von Audio-Verarbeitungsparametern herangezogen würde. So können Parameter bzw. Werte des Audio-Eingangssignalanalyseergebnisses beispielsweise die wesentlichen Charakteristika des Audio-Eingangssignals in effizienter Weise beschreiben, so dass der Verarbeitungsparameter-Bestimmungsvorschrift eine vergleichsweise geringe Zahl an Eingangsvariablen (nämlich beispielsweise die) Parameter bzw. Werte des Audio-Eingangssignalanalyseergebnisses aufweist und daher vergleichsweise einfach implementierbar ist. Somit können gute Ergebnisse mit geringem Aufwand erzielt werden.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, eine Audio-Analyse des Audio-Ausgangssignals durchzuführen, um ein Audio-Ausgangssignalanalyseergebnis, beispielsweise in Form einer Information über spektrale Eigenschaften des Audio-Eingangssignals, für eine Bestimmung des zumindest einen Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift, zum Beispiel unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift, bereitzustellen. In anderen Worten ist die Vorrichtung ausgebildet, eine Audio-Analyse vor der Verarbeitungsparameter-Bestimmungsvorschrift oder nach der Verarbeitungsparameter-Bestimmungsvorschrift durchzuführen, um entweder ein Audio-Eingangssignalanalyseergebnis oder ein Audio-Ausgangssignalanalyseergebnis oder beides für eine Bestimmung des Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift bereitzustellen. Beispielsweise ist es durch Bestimmung des Audio-Ausgangssignalanalyseergebnisses besonders einfach, das Audio Eingangssignal und das Audio-Ausgangssignal zu vergleichen, wobei beispielswiese Werte oder Parameter des Audio-Ausgangssignalanalyseergebnisses die charakteristischen Eigenschaften des Audio-Ausgangssignals besonders effizient (bzw. in besonders kompakter Form) beschreiben können. Somit ist eine Bestimmung bzw. Optimierung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift besonders effizient möglich, wobei die Erzielung einer von dem Benutzer gewünschten Verarbeitung beispielsweise durch Auswertung des Audio-Ausgangssignalanalyseergebnis in effizienter Weise erfolgen kann bzw. wobei ein Vergleich zwischen Audio-Eingangssignalanalyseergebnis und Audio-Ausgangssignalanalyseergebnis einen Rückschluss auf Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift erlauben kann.
Gemäß einem weiteren Ausführungsbeispiel umfasst der Audio-Verarbeitungsparameter beziehungsweise umfassen die Audio-Verarbeitungsparameter zumindest einen Multiband-kompressionsparameter R, und/oder zumindest einen Hörschwellenanpassungsparameter T, und/oder zumindest einen bandabhängigen Verstärkungsparameter G, und/oder zumindest einen Störgeräuschreduktionsparameter und/oder zumindest einen blinden Quelltrennungsparameter. Ferner können die Audio-Verarbeitungsparameter zumindest einen Schallrichtungsparameter, und/oder binaurale Parameter, und/oder Parameter über die Anzahl unterschiedlicher Sprecher, und/oder Parameter von adaptiven Filtern im Allgemeinen, zum Beispiel Hallunterdrückung, Feedback, Echo-Cancellation, Active-Noise-Cancellation (ANC), umfassen. Beispielsweise kann mittels einem Schallrichtungsparameter die Direktivität der Schallquelle ausgewählt beziehungsweise eingestellt werden, so dass der Schall nur aus der gewünschten Richtung, beispielsweise dem Gesprächspartner einer Konversation für die Kombination der Audio-Verarbeitungsparameter verarbeitet wird. Es wurde erkannt, dass derartige Audioverarbeitungsparameter eine Audiosignalverarbeitung in effizienter Weise beeinflussen können, wobei bereits mit einer geringen Zahl an Parametern, die ohne größere Schwierigkeiten durch eine Verarbeitungsparameter-Bestimmungsvorschrift bestimmte werden können, eine Beeinflussung der Audiosignalverarbeitung über einen weiten Einstellbereich hinweg möglich ist.
Gemäß einem weiteren Ausführungsbeispiel kann die Vorrichtung ein neuronales Netz umfassen, das zum Beispiel die Verarbeitungsparameter-Bestimmungsvorschrift implementiert, so dass der zumindest eine Koeffizient definiert wird, oder bevorzugt eine Mehrzahl von Koeffizienten definiert werden, die ausgelegt sind, um die Audio-Verarbeitungsparameter unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift zu erhalten. Ferner kann das neuronale Netz ausgelegt sein, die Audio-Verarbeitungsparameter basierend auf dem Audio-Eingangssignal direkt von dem Audio-Eingang oder mittels der zwischengeschalteten Audio-Analyse als analysiertes Audio-Eingangssignal zu erhalten. Es wurde erkannt, dass ein neuronales Netz sich gut zur Bestimmung der Audio-Verarbeitungsparameter eignet und durch die Koeffizienten gut an die persönliche Wahrnehmung des einzelnen Nutzers anpassbar ist. Das neuronale Netz, dessen Kantengewichte beispielsweise durch die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift definiert werden können, kann durch die Wahl der Koeffizienten (die beispielsweise durch eine Trainingsvorschrift erfolgen kann) an die Bedürfnisse des Benutzers anpassbar. Die Koeffizienten können beispielsweise sukzessive verbessert werden, wenn weitere Benutzereinstellungen vorliegen. Somit können Ergebnisse erzielt werden, die ein sehr gutes Benutzererlebnis bieten.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die Verarbeitungsparameter-Bestimmungsvorschrift basierend auf einer Methode des bestärkenden Lernens, und/oder basierend auf einer Methode des verstärkenden Lernens, und/oder basierend auf einer Methode des unbeaufsichtigten Lernens, und/oder basierend auf einer Methode der multivariaten Vorhersage, und/oder basierend auf einem mit multivariabler Regression festgelegten multidimensionalen Parameter bereitzustellen und/oder anzupassen, um den Audio-Verarbeitungsparameter zu bestimmen. Die Verarbeitungsparameter-Bestimmungsvorschrift kann beispielsweise Koeffizienten für das neuronale Netz bereitstellen, die beispielsweise auf der Methode des bestärkenden Lernens basieren. Die Methode der multivariaten Vorhersage kann beispielsweise eine Vorhersage von Frequenzbändern und/oder eine Vorhersage von Eingangs/Ausgangs-Kennlinien bzw. Input/Output-Kennlinien entsprechend der Nutzerparameter umfassen. Ferner kann die Methode mit multivariabler Regression beispielsweise alle vorhandenen Frequenzbänder analysieren, um einen multidimensionalen Parameterraum festzulegen. Als multidimensionaler Parameterraum kann beispielsweise eine zweidimensionale Parametereinstellung verstanden werden, die eine graphische Oberfläche aufweist, in der die Nutzerparameter zum Beispiel mittels Schieberegler oder einem Punkt auf einem Koordinatensystem, dessen Achsen Lautstärkeeinstellungen und Klangeinstellungen aufweisen bzw. zugeordnet sind, durch den Benutzer eingestellt und kontinuierlich angepasst werden können. Mittels der oben aufgeführten Methoden kann die Vorrichtung den Audio-Verarbeitungsparameter bestimmen, so dass zum Beispiel ein lernender Algorithmus benutzer-individuelle Audio-Verarbeitungsparameter einstellt, beziehungsweise, so dass sich durch Anwendung der Verarbeitungsparameter-Bestimmungsvorschrift gelieferte Audio-Verarbeitungsparameter mit zunehmendem Lernfortschritt an durch den Benutzer korrigierte Audio-Verarbeitungsparameter annähern, beziehungsweise, so dass sich die Verarbeitungsparameter-Bestimmungsvorschrift in einem fortwährenden Lernprozess anpasst, zum Beispiel in Abhängigkeit von Benutzer-Anpassungen der Audio-Verarbeitungsparameter. Erwartungsgemäß ist beispielsweise ein Zugriff der Methoden auf die Datenbasis bzw. den Datenspeicher uneingeschränkt (so dass beispielsweise mit zunehmender Größe der Datenbasis immer bessere Koeffizienten unter Verwendung der genannten Lernverfahren bestimmt werden können).
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgebildet, die durch den Benutzer eingestellten Nutzerparameter, beispielsweise über oder mittels einer Schnittstelle, beispielsweise von einer Benutzerschnittstelle, einer intuitiven und/oder ergonomischen Benutzersteuerung, wie beispielsweise einem 2D-Raum auf einem Display eines Smartphones, zu erhalten. In anderen Worten kann die Vorrichtung eine Schnittstelle (beispielsweise eine elektrische Schnittstelle oder auch eine Mensch-Maschine-Schnittstelle) umfassen, um die Nutzerparameter einstellen zu können. Vorzugsweise kann eine visuelle Nutzersteuerung eine Lautstärkeeinstellung, beispielsweise mittels eines Schiebereglers für lauter und leiser und/oder eine Höhen- und Tiefenregelung, umfassen. Auf diese Weise kann die Einstellung des Parameter für den Menschen sehr einfach gemacht werden, wobei erkannt wurde, dass diese einfache Klangeinstellung in vielen Fällen bereits einen guten Höreindruck zur Folge hat.
Gemäß einem weiteren Ausführungsbeispiel umfasst das Audio-Eingangssignal ein Mehrkanal-Audiosignal, zum Beispiel mit mindestens vier Kanälen oder zumindest zwei Audio-Kanälen. Beispielsweise kann das Audio-Eingangssignal von dem Audio-Eingang, zum Beispiel von, über oder mittels einem Mikrofon, bereitgestellt werden. Ferner kann das Audio-Eingangssignal Informationen enthalten, wie beispielsweise die Anzahl der Kanäle und/oder die Anzahl der Frequenzbänder. Die Verwendung von Mehrkanalsignalen erlaubt beispielsweise eine Lokalisierung von gewünschten und/oder störenden Schallquellen sowie eine Berücksichtigung von Richtungen der gewünschten oder störenden Schalquellen bei der Bestimmung der Audio-Verarbeitungsparameter bzw. der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgelegt, eine Audio-Verarbeitung separat für zumindest vier Frequenzbänder des Audio-Eingangssignals durchzuführen. So kann sichergestellt werden, dass eine Frequenzselektivität bereitgestellt wird, um jede einzelne Frequenz analysieren zu können, beispielsweise falls das Audio-Eingangssignal ein Mehrkanal-Audiosignal umfasst. Die Berücksichtigung der unterschiedlichen Intensitäten in unterschiedlichen Frequenzbändern ermöglicht es, verschiedene akustische Umgebungen zu berücksichtigen und auch die spezifischen Wünsche des Benutzers im Hinblick auf den Frequenzgang in effizienter Weise zu berücksichtigen.
Gemäß einem weiteren Ausführungsbeispiel ist die Vorrichtung ausgelegt, den zumindest einen Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift benutzer-individuell, beispielsweise kontinuierlich, fortlaufend, während des Benutzerbetriebs, zum Beispiel in Echtzeit, zu bestimmen, um die Audio-Verarbeitungsparameter in Echtzeit, zum Beispiel in Laufzeit während des Benutzerbetriebs, zu erhalten und/oder die veränderten Audio-Verarbeitungsparameter in Echtzeit zu bestimmen und/oder anzupassen. In anderen Worten ist die Vorrichtung beispielsweise ausgelegt, die Audio-Verarbeitungsparameter in Echtzeit zu bestimmen und/oder anzupassen, so dass die Vorrichtung als lernendes System diesen Lernprozess in Echtzeit durchführt, beispielsweise während des Benutzerbetriebs. Anders gesagt wird bei der vorliegenden Erfindung beispielsweise die Klangverarbeitung auf Basis von in Echtzeit gemessenen äußeren Rahmenbedingungen gesteuert. Somit erfolgt auch eine Analyse aller vorhandenen Frequenzbänder in Echtzeit, so dass das Vorhersagemodell basierend auf einer multidimensionalen Optimierung in Echtzeit bereitgestellt werden kann, das bedeutet, beispielsweise eine Optimierung, in der anhand der analysierten Frequenzbänder und der Nutzerparameter im Datenspeicher gespeichert, die Audio-Verarbeitungsparameter bestimmt werden.
Gemäß einem weiteren Ausführungsbeispiel umfasst die vorliegende Erfindung ein Hörgerät, wobei das Hörgerät eine Audio-Verarbeitung aufweist und wobei das Hörgerät eine Vorrichtung zum Bestimmen von Audio-Verarbeitungsparametern aufweist, wobei die Audio-Verarbeitung ausgelegt ist, um ein Audio-Eingangssignal abhängig von den Audio-Verarbeitungsparametern zu verarbeiten. Beispielsweise kann das Hörgerät die Vorrichtung implementieren bzw. integrieren, um die individuelle Wahrnehmung von Klang bzw. Tönen in Form von Audiosignalen für den Benutzer zu verbessern. Es hat sich gezeigt, dass die hierin beschriebene Vorrichtung besonders gut für einen Einsatz in einem Hörgerät geeignet ist, und dass der Höreindruck durch den Einsatz des Erfindungskonzepts deutlich verbessert werden kann.
Ein Ausführungsbeispiel gemäß der vorliegenden Erfindung umfasst ein Verfahren zum Bestimmen von Audio-Verarbeitungsparametern in Abhängigkeit von zumindest einem Audio-Eingangssignal, wobei das Verfahren ein benutzer-individuelles Bestimmen von zumindest einem Koeffizienten einer Verarbeitungsparameter-Bestimmungsvorschrift, basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen, und ein Erhalten von Audio-Verarbeitungsparametern unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift, basierend auf dem Audio-Eingangssignal, aufweist. Das Verfahren basiert auf den selben Überlegungen wie die oben beschriebene Vorrichtung und kann optional um alle Merkmale, Funktionalitäten und Details ergänzt werden, die hierin auch im Hinblick auf die erfindungsgemäße Vorrichtung beschrieben sind. Das Verfahren kann um die genannten Merkmale, Funktionalitäten und Details sowohl einzeln auch in Kombination ergänzt werden.
Ein weiteres Ausführungsbeispiel gemäß der vorliegenden Erfindung umfasst ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens, wenn das Programm auf dem Computer läuft.

Kurzbeschreibung der Figuren

Ausführungsbeispiele werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen erläutert. Es zeigen:

Fig. 1: ein schematisches Blockschaltbild einer Vorrichtung, die Audio-Verarbeitungsparameter in Abhängigkeit von zumindest einem Audio-Eingangssignal bestimmt;
Fig. 2: ein schematisches Blockschaltbild einer Vorrichtung gemäß einem Ausführungsbeispiel, die Audio-Verarbeitungsparameter in Abhängigkeit von zumindest einem Audio-Eingangssignal und mittels bestärkenden Lernens bestimmt, basierend auf einem Audio-Eingangssignal und einem Audio-Ausgangssignal;
Fig. 3: ein schematisches Blockschaltbild einer Vorrichtung gemäß einem Ausführungsbeispiel, die Audio-Verarbeitungsparameter in Abhängigkeit von zumindest einem Audio-Eingangssignal und mittels bestärkenden Lernens bestimmt, basierend auf einer Audio-Analyse des Audio-Eingangssignals und einer Audio-Analyse des Audio-Ausgangssignals;
Fig. 4: ein schematisches Blockschaltbild einer Vorrichtung, die Audio-Verarbeitungsparameter in Abhängigkeit von zumindest einem Audio-Eingangssignal und mittels bestärkenden Lernens bestimmt, basierend auf einer Audio-Analyse des Audio-Eingangssignals und auf durch den Benutzer eingestellte Nutzerparameter;
Fig. 5: ein schematisches Blockschaltbild einer Vorrichtung, die Audio-Verarbeitungsparameter in Abhängigkeit von zumindest einem Audio-Eingangssignal und mittels bestärkenden Lernens bestimmt, basierend auf einem Audio-Eingangssignal und auf durch den Benutzer eingestellte Nutzerparameter; und
Fig. 6: ein schematisches Ablaufdiagramm eines Verfahrens zum Bestimmen von Audio-Verarbeitungsparametern.

Detaillierte Beschreibung von Ausführungsbeispielen der Erfindung

Bevor nachfolgend Ausführungsbeispiele der vorliegenden Erfindung im Detail anhand der Zeichnungen näher erläutert werden, wird darauf hingewiesen, dass identische, funktionsgleiche oder gleichwirkende Elemente, Objekte und/oder Strukturen in den unterschiedlichen Figuren mit den gleichen Bezugszeichen versehen sind, so dass die in unterschiedlichen Ausführungsbeispielen dargestellte Beschreibung dieser Elemente untereinander austauschbar ist bzw. aufeinander angewendet werden kann.
Nachfolgend beschriebene Ausführungsbeispiele werden im Zusammenhang mit einer Vielzahl von Details beschrieben. Ausführungsbeispiele können jedoch auch ohne diese detaillierten Merkmale implementiert werden. Des Weiteren werden Ausführungsbeispiele der Verständlichkeit wegen unter Verwendung von Blockschaltbildern als Ersatz einer Detaildarstellung beschrieben. Ferner können Details und/oder Merkmale einzelner Ausführungsbeispiele ohne Weiteres miteinander kombiniert werden, solange es nicht explizit gegenteilig beschrieben ist.
Fig. 1 zeigt ein schematisches Blockschaltbild einer Vorrichtung 100 zum Bestimmen von Audio-Verarbeitungsparametern 120, die ausgangsseitig der Vorrichtung 100 dargestellt sind, in Abhängigkeit von zumindest einem Audio-Eingangssignal 110, das eingangsseitig der Vorrichtung 100 dargestellt ist. Die beispielhafte schematische Darstellung der Vorrichtung 100 umfasst beispielsweise ein Bestimmen von Koeffizienten, das mit dem Block Koeffizienten-Bestimmung 130 dargestellt ist, so dass Koeffizienten 132 der Koeffizienten-Bestimmung 130 der Verarbeitungsparameter-Bestimmungsvorschrift 140 bereitgestellt werden können. Das Audio-Eingangssignal 110 kann beispielsweise direkt von der Verarbeitungsparameter-Bestimmungsvorschrift 140 verwendet werden, um die Koeffizienten 142 der Verarbeitungsparameter-Bestimmungsvorschrift 140 zu erhalten, und/oder als beim Benutzerbetrieb erhaltenes Audiosignal 112 von der Koeffizienten-Bestimmung 130 verwendet werden, um die Koeffizienten 132 der Koeffizienten-Bestimmung 130 bereitzustellen. Beispielsweise kann die Koeffizienten-Bestimmung 130 während des Benutzerbetriebs benutzer-individuell erfolgen, so dass die Koeffizienten 132 der Koeffizienten-Bestimmung 130 der Verarbeitungsparameter-Bestimmungsvorschrift 140 bereitgestellt werden, um die Audio-Verarbeitungsparameter 120 unter Verwendung der Verarbeitungs-Bestimmungsvorschrift 140 basierend auf dem Audio-Eingangssignal 110 zu erhalten.
Somit können die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift beispielsweise so eingestellt werden, dass die Verarbeitungsparameter-Bestimmungsvorschrift basierend auf den Audio-Eingangssignal und unter Verwendung der Koeffizienten als Ausgabe Audio-Verarbeitungsparameter liefert, die bei Verwendung in einer Audio-Verarbeitung zu einem Audio-Ausgangssignal führen, das den Benutzer-Erwartungen entspricht.
Fig. 2 zeigt ein schematisches Blockschaltbild einer Vorrichtung 200 gemäß einem Ausführungsbeispiel. Die dargestellte Vorrichtung 200 zum Bestimmen von Audio-Verarbeitungsparametern umfasst beispielsweise einen Audio-Eingang 210, eine Audio-Verarbeitung 220, eine Nutzersteuerung 230, einen Audio-Ausgang 240, eine Verarbeitungsbestimmungs-Vorschrift (bzw. Verarbeitungsparameter-Bestimmungseinrichtung) in Form eines bestärkenden Lernens 250 und ein neuronales Netz 260.
Der Audio-Eingang 210 kann beispielsweise ein Mikrofon oder ein anderes Audioerfassungsgerät umfassen und beispielsweise Informationen über die Anzahl von Kanälen, zum Beispiel "C" und/oder Informationen über die Anzahl von Frequenzbändern, zum Beispiel "B", enthalten. Beispielsweise kann ein Ton, ein Klang oder eine Schallwelle, bzw. ganz allgemein ein Audiosignal, über den Audio-Eingang 210 empfangen und als Audio-Eingangssignal 212, 214 und 216 beispielsweise für die Audio-Verarbeitung 220, und/oder für das bestärkende Lernen 250, und/oder für das neuronale Netz 260 bereitgestellt werden. Beispielsweise kann das Audiosignal 212 für das neuronale Netz 260, das Audiosignal 214 für das bestärkende Lernen 250 und das Audiosignal 216 für die Audio-Verarbeitung 220 bereitgestellt werden (wobei die Audiosignale 212,214,216 gleich sein können, oder sich beispielsweise im Detail (zum Beispiel in der Abtastrate, der Frequenzauflösung, der Bandbreite, etc.) unterscheiden können. Dabei kann das Audiosignal 212 dem Audiosignal 214 und/oder dem Audiosignal 216 entsprechend gleichen (oder zumindest den gleichen Audioinhalt beschreiben) und die entsprechend gleichen Informationen über die Anzahl der Frequenzkanäle und Frequenzbänder aufweisen, so dass das Audio-Eingangssignal von dem Audio-Eingang 210 direkt, beispielsweise ohne weitere Audio-Analysen, aufgeteilt wird und, zum Beispiel über mehrere Ausgänge oder Datenpfade des Audio-Eingangs 210, bereitgestellt werden kann.
Die Audio-Verarbeitung 220 kann beispielsweise eine und/oder mehrere parametrisierte Audio-Verarbeitungsvorschriften aufweisen, die ein oder mehrere Audio-Signale 216 beispielsweise so verarbeitet/verarbeiten, dass auf Basis des eingehenden Audiosignals 216 (bzw. der eingehenden Audiosignale) unter Verwendung der parametrisierten Audio-Verarbeitungsvorschrift, die beispielsweise durch die kombinierten Parameter 272 parametrisiert wird, ein benutzer-individuell angepasstes Audiosignal 217 bereitgestellt wird (oder mehrere Benutzer-individuell angepasste Audiosignale bereitgestellt werden). Die Audio-Verarbeitung 220 ermöglicht es, das Audio-Eingangssignal 216, das auf dem Audio-Eingang 210 basiert, unter Verwendung der kombinierten Parameter 272 zu verarbeiten, beispielsweise unter Verwendung der parametrisierten Audio-Verarbeitungsvorschrift, um das benutzer-individuell angepasste Audiosignal 217 zu erhalten. Optionale Details und Ausführungsbeispiele zu den kombinierten Parametern 272 werden im weiteren Verlauf der vorliegenden Patentanmeldung näher erläutert. Zuvor folgen weitere Details und Ausführungsbeispiele zu den Komponenten der Vorrichtung 200.
Der Audio-Ausgang 240 kann beispielsweise das von der Audio-Verarbeitung 220 veränderte, neu zugeordnete, benutzer-individuell angepasste Audiosignal 217 empfangen und als ein verändertes beziehungsweise verarbeitetes Audiosignal 218 für eine Bestimmung von Parametern bzw. Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift (beispielsweise des neuronalen Netzes 260) einem Koeffizienten-Bestimmer 250 (der beispielsweise unter Verwendung eines bestärkenden Lernens realisiert ist) bereitstellen. Alternativ oder zusätzlich kann der Audio-Ausgang beispielsweise das von der Audio-Verarbeitung 220 veränderte, neu zugeordnete, benutzer-individuell angepasste Audiosignal 217 als ein verändertes beziehungsweise verarbeitetes Audiosignal 219 für eine Schnittstelle, beispielsweise für Kopfhörer oder Lautsprecher bereitstellen, wobei das nicht zwingend erforderlich ist.
Ferner ermöglichen es Ausführungsbeispiele, dass zusätzliche Informationen des Audiosignals 218 über den Audio-Ausgang 240 an das bestärkende Lernen 250 (oder eine andere Einrichtung zur Bestimmung von Koeffizienten oder Parametern der Verarbeitungsparameter-Bestimmungsvorschrift ) bereitgestellt werden, um beispielsweise einen Datenspeicher 252 (dessen Inhalt Teil einer Datenbasis sein kann) mit Informationen über Audiosignale zu versorgen.
Das Audio-Ausgangssignal 218 kann, beispielsweise wie das Audio-Eingangssignal 214, dem bestärkenden Lernen 250 zur Bestimmung von Koeffizienten oder Parametern der Verarbeitungsparameter-Bestimmungsvorschrift 260 bereitgestellt werden, so dass beispielsweise die Informationen des Audio-Eingangssignals 214 und des Audio-Ausgangssignals 218 in einem Datenspeicher 252 als eine entsprechende Datenbasis der Vorrichtung 200 gespeichert werden.
In anderen Worten kann beispielsweise mittels der Audiosignale 218 und 214 das bestärkende Lernen 250 Koeffizienten oder Parameter der Verarbeitungsparameter-Bestimmungsvorschrift 260 bestimmen. Ferner kann das bestärkende Lernen 250beispielsweise basierend auf den Audiosignalen 214,218 die Datenbasis vergrößern beziehungsweise und/oder die Audiosignale 214,218 in den Datenspeicher 252 aufnehmen. Alternativ oder zusätzlich kann das bestärkende Lernen zumindest einen nutzerangepassten Koeffizienten 254 bestimmen oder in die Datenbasis einspeichern.
Es sei allerdings darauf hingewiesen, dass die Nutzung des Ausgangs-Audiosignals 218 durch das bestärkende Lernen 250 (oder durch eine andere Vorrichtung zur Bestimmung der Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift, die an die Stelle des bestärkenden Lernens 250 treten kann) als optional anzusehen ist.
Die Datenbasis beziehungsweise der Datenspeicher 252 kann eine Vielzahl von Informationen umfassen, zum Beispiel Informationen über den Audio-Eingang 210 (bzw. über ein Audio-Eingangssignal) und/oder über eines oder mehrere der Audiosignale 212 und 214 von dem Audio-Eingang 210 kommend, und/oder Informationen über den Audio-Ausgang 240 und/oder über das Audiosignal 218 von dem Audio-Ausgang 240 kommend, und/oder Informationen über und für die Audio-Verarbeitung 220 und zum Beispiel auch zumindest einen nutzerangepassten Koeffizienten 254. Als nutzerangepasste Koeffizienten 254 können Koeffizienten verstanden werden, die beispielsweise für eine Verwendung durch die Verarbeitungsparameter-Bestimmungsvorschrift 250 basierend auf der Datenbasis 252 und/oder basierend auf einem eingestellten Nutzerparameter 232 bestimmt werden. Als nutzerangepasste Koeffizienten können aber auch durch den Benutzer eingestellte Parameter der Audio-Verarbeitung verstanden werden.
Die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift, also beispielsweise Kantengewichte des Neuronalen Netzes, können unter anderem auf einer Methode des bestärkenden Lernens basieren, die in der Fig. 2 mit dem Bezugszeichen 250 als "Bestärkendes Lernen" gekennzeichnet ist.
Beispielsweise kann das bestärkende Lernen 250 (zum Beispiel als eine Teilfunktion) die Datenbasis beziehungsweise den Inhalt des Datenspeichers 252 so bestimmen, dass der Datenspeicher 252 eine Zuordnung zwischen verschiedenen Audio-Eingangssignalen 212, 214 und jeweiligen durch den Benutzer eingestellten Nutzerparametern 232, beispielsweise einen nutzerangepassten Koeffizienten 254, beschreibt.
Indem beispielsweise das bestärkende Lernen 250 die Datenbasis beziehungsweise den Inhalt des Datenspeichers 252 so bestimmt, dass der Datenspeicher 252 (beispielsweise zusätzlich) eine Zuordnung zwischen dem Audio-Ausgangssignal 218 und jeweiligen durch den Benutzer eingestellten Nutzerparametern, beispielsweise einen nutzerangepassten Koeffizienten 254, beschreibt, können Koeffizienten 256 des neuronalen Netzes durch das bestärkende Lernens 250 in Vorteilhafter Weise bereitgestellt werden.
Darüber hinaus kann die Verarbeitungsparameter-Bestimmungsvorschrift als ein neuronales Netz 260 ausgelegt sein, oder kann integriert in ein neuronales Netzt vorgesehen sein, um Audio-Verarbeitungsparameter 262 unter Verwendung des beispielsweise durch das bestärkende Lernen 250 bestimmten Koeffizienten 256 zu erhalten. Anders gesagt, es kann beispielsweise das neuronale Netz 260 basierend auf dem Audiosignal 212 und dem durch das bestärkende Lernen 250 erhaltenen Koeffizienten 256 die Audio-Verarbeitungsparameter 262 bestimmen, so dass im Ergebnis beispielsweise ein lernender Algorithmus benutzer-individuelle Audio-Verarbeitungsparameter 262 einstellt.
Der zumindest eine Audio-Verarbeitungsparameter 262, der von dem neuronalen Netz 260 geliefert wird, kann eine ein einziger Parameter sein, oder kann mehrere Parameter umfassen. Das Neuronale Netz 260 kann als Audio Verarbeitungsparameter 262 beispielsweise einen oder mehrere der folgenden Parameter liefern: einen Parameter des Nutzerprofils N, und/oder einen Multiband-Kompressionsparameter R, und/oder einen Hörschwellen-Anpassungsparameter T, und/oder Glättungen (bzw. einen oder mehrere Glättungsparameter) und/oder Kompressionseinstellungen (bzw. einen oder mehrere Kompressionsparameter). Ferner können zur Klanganpassung (alternativ oder zusätzlich) ein oder mehrere Parameter verwendet (bzw. durch das neuronale Netz als Audioverarbeitungsparameter 262 geliefert) werden, wie beispielsweise eine bandabhängige Verstärkung G, eine Störgeräuschreduktion (bzw. ein oder mehrere Störgeräuschreduktionsparameter) und/oder eine blinde Quellentrennung (bzw. ein oder mehrere Parameter einer blinden Quellentrennung).
Beispielsweise kann die Anzahl der Eingangsparameter (zum Beispiel des bestärkenden Lernens 250 und/oder des neuronalen Netzes 260) sich in Abhängigkeit von einer Anzahl C an Kanälen eines Mehrkanal-Audiosignals ergeben, und auch in Abhängigkeit von einer Anzahl B der Verarbeitungsbänder, bzw. in Abhängigkeit von einer Anzahl P der Nutzerparameter. Beispielsweise kann die Anzahl der Nutzerparameter P sich als das Produkt aus der Anzahl der Frequenzbänder B und der Anzahl der Audiosignale bzw. Audiokanäle C ergeben.
Alternativ oder zusätzlich können die Eingangsparameter (zum Beispiel des bestärkenden Lernens oder des neuronalen Netzes) Audiomerkmale ("Audio Features") N umfassen, beispielsweise F=2048 Fourierkoeffizienten pro Kanal für jeweils Eingang (z. B. das Audio-Eingangssignal) und Ausgang (z. B. das Audio-Ausgangssignal), beispielsweise alle 10ms.
Beispielsweise kann die Anzahl der Ausgangsparameter (beispielsweise der Ausgangsparameter des neuronalen Netzes 260 bzw. der Eingangsparameter der Audio-Verarbeitung) in einem erlernten Nutzerprofil M sich aus der Anzahl der Audiokanäle (zum Beispiel C), der Hörschwellenanpassung T, der Multibandkompression mit Rate R, der bandabhängigen Verstärkung G und zwei weiteren Zeitkonstanten zusammensetzen, wobei die Anzahl der Werte von G, R, T beispielsweise der Anzahl der Bänder B entspricht. Ferner kann der Wert des erlernten Nutzerprofils M (bzw. die Werte des erlernten Nutzerprofils M) den nutzerangepassten Koeffizienten (oder Parameter) 254 (bzw. einen Satz von Nutzerangepassten Koeffizienten bzw. Parametern) bilden.
Die Nutzersteuerung 230 stellt zumindest einen Nutzerparameter 232 bereit, der beispielsweise Parameter der Lautstärke, und/oder Parameter der Klangregelung umfassen kann. Die Nutzersteuerung kann beispielsweise eine Schnittstelle zur Visualisierung der ein oder mehreren Nutzerparameter umfassen kann.
Eine Lautstärkesteuerung bzw. eine Lautstärkeregelung, die durch die Nutzersteuerung 230 erfolgen kann, kann beispielsweise Parameter liefern, die eine Verstärkung oder Dämpfung des Audiosignals bewirken. Mittels einem Tiefenregler, einem Höhenregler und/oder einem Equalizer kann der Benutzer über die Nutzersteuerung 230 beispielsweise Parameter der Klangregelung einstellen, die beispielsweise als Teil der Nutzerparameter 232 mit den (durch das neuronale Netz 260 gelieferten) Audio-Verarbeitungsparametern 262 unter Verwendung einer Kombination 270 zusammengeführt werden können.
Anders gesagt, können die von der Nutzersteuerung 230 gelieferten Nutzerparameter 232 mit dem Audio-Verarbeitungsparameter 262 kombiniert werden, beispielsweise durch Addition, Multiplikation, Division oder Subtraktion. Durch die Kombination 270 der Nutzerparameter 232 mit den Audio-Verarbeitungsparametern 262 können zum Beispiel dadurch kombinierte Parameter 272, der Audio-Verarbeitung 220 bereitgestellt werden. Alternativ können die Benutzerparameter 232 die Parameter 262 auch ersetzen, beispielsweise wenn der Benutzer eine deutlich andere Einstellung wünscht als diese durch die Parameter 262 vorgegeben wird.
Zusammenfassend ist festzuhalten, dass die Vorrichtung 200 ein Audio-Eingangssignal, das über den Audio-Eingang 210 erhalten wird, in der Audio-Verarbeitung 220 verarbeitet, um Klangeigenschaften an die Wünsche bzw. Bedürfnisse eines Benutzers anzupassen. Eine Verarbeitungscharakteristik der Audio-Verarbeitung 220 wird durch die Parameter 272 eingestellt, wobei die Parameter 272 einerseits durch das neuronale Netz 260 beeinflusst werden und andererseits durch den Nutzer über die Nutzersteuerung 230 modifiziert werden können. Das bestärkende Lernen 250 erfüllt allgemein gesprochen die Funktion, einen oder mehrere Koeffizienten (z. B. Kantengewichte) des neuronalen Netzes so anzupassen, dass die durch das neuronale Netz gelieferten Parameter im Wesentlichen den Benutzererwartungen entsprechen, also im Rahmen von akzeptablen Toleranzen die Parameterwerte aufweisen, die die der Benutzer über die Nutzersteuerung 230 in jeweiligen verschiedenen akustischen Umgebungen einstellt.
Somit kann erreicht werden, dass die Vorrichtung nach einem ausreichenden Training in vielen verschiedenen akustischen Umgebungen eine für den Benutzer angenehme automatische Einstellung der Audio-Verarbeitung erreicht.
Fig. 3 zeigt eine schematische Darstellung beziehungsweise ein schematisches Blockschaltbild einer Vorrichtung 300 zum Bestimmen von Audio-Verarbeitungsparametern in Abhängigkeit von einem Audio-Eingangssignal und einen Audio-Ausgangssignal, das auf der Vorrichtung 200 aus der Fig. 2 basiert.
Es sei darauf hingewiesen, dass bei der Vorrichtung 300 gemäß Fig. 3 Funktionsblöcke, die auch in der Fig. 2 gezeigt sind, beispielsweise eine ähnliche oder gleiche Funktionalität aufweisen können wie entsprechende Funktionsblöcke in der Vorrichtung 200 (aber nicht notwendigerweise aufweisen müssen). Es sei ferner darauf hingewiesen, dass die Vorrichtung 300 optional um alle Merkmale, Funktionalitäten und Details ergänzt werden kann, die hierin beschrieben sind, und zwar sowohl einzeln als auch in Kombination.
Die Vorrichtung 300 verfügt, ebenso wie die Vorrichtung 200, über einen Audio-Eingang 310 (der dem Audio-Eingang 200 entsprechen kann), eine Audio-Verarbeitung 320 (die der Audio-Verarbeitung 220 entsprechen kann), eine Nutzersteuerung 330 (die der Nutzersteuerung 230 entsprechen kann), einen Audio-Ausgang 340 (der dem Audio-Ausgang 240 entsprechen kann), ein bestärkendes Lernen 350 (das beispielsweise von seiner Grundfunktion dem bestärkenden Lernen 250 entsprechen kann), ein neuronales Netz 360 (das beispielsweise von seiner Grundfunktion her dem neuronalen Netz 260 entsprechen kann) und die Kombination 370 der benutzer-individuell eingestellten Nutzerparameter 332 und der Audio-Verarbeitungsparameter 362 (die beispielsweise der Kombination 270 entsprechen kann).
Ausgehend von der Vorrichtung 200 aus der Fig. 2 beinhaltet beziehungsweise umfasst die Vorrichtung 300 der Fig. 3 zusätzlich eine Audio-Analyse 380-1 zwischen dem Audio-Eingang 310 und dem neuronalen Netz 360 sowie eine Audio-Analyse 380-2 zwischen dem Audio-Ausgang 340 und dem bestärkenden Lernen 350.
Insbesondere diese Anordnung ermöglicht es der Audio-Analyse 380-1 beispielsweise das von dem Audio-Eingang 310 ausgehende Audio-Eingangssignal 311 zu empfangen und zu analysieren, um ein Audio-Eingangssignalanalyseergebnis, beispielsweise eine Information über spektrale Eigenschaften und/oder Dynamik und/oder Frequenz des Audio-Eingangssignals 311, in Form des Audio-Analysesignals 312 und/oder 314 bereitzustellen. Die Information des Audio-Analyse-Ergebnisses der Audio-Analyse 380-1 kann beispielsweise dem neuronalen Netz 360 und dem bestärkenden Lernen 350 (beispielsweise zeitgleich) über die analysierten Audiosignale 312, 314 bereitgestellt werden.
Die Verarbeitungsparameter-Bestimmungsvorschrift, die beispielsweise ein Teil des neuronalen Netzes 360 (oder ein Teil des bestärkenden Lernens 350) umfassen kann, bzw. die durch das neuronale Netz 360 implementiert wird, kann beispielsweise eine Ableitungsvorschrift zur Ableitung der Audio-Verarbeitungsparameter 362 von dem Audio-Eingangsanalyseergebnis definieren. Mittels der Audio-Analyse 380-1 können zusätzliche (bzw. kompakte) Informationen über spektrale Eigenschaften, zum Beispiel ein Intensitätswert pro Frequenzband und Kanal, erhalten werden, um beispielsweise bei Audiosignalen (zum Beispiel bei Mehrkanal-Audiosignalen) eine Frequenzselektivität bereitzustellen. Die Frequenzselektivität ist erforderlich, um die wahrnehmbaren klanglichen Aspekte des Signals analysieren und darstellen zu können. Allgemein gesprochen kann durch die Audio-Analyse 380-1 eine Eingangs-Datenmenge des neuronalen Netzes deutlich verringert werden, beispielsweise im Vergleich zu einem Konzept, bei dem Zeitbereichs-Abtastwerte in das neuronale Netz eingegeben werden. Indem beispielsweise die analysierten Audiosignale 312, 314 Parameter enthalten, die Eigenschaften des Audio-Eingangssignals in kompakter Form beschreiben (wobei eine Anzahl von Parametern pro Zeitabschnitt beispielsweise um zumindest einen Faktor 10 oder um zumindest einen Faktor 20 oder um zumindest einen Faktor 50 geringer ist als eine Anzahl an Abtastwerten pro Zeiteinheit) kann die Komplexität des neuronalen Netzes 360 vergleichsweise gering gehalten werden. Dementsprechend kann die Anzahl an Koeffizienten des neuronalen Netzes vergleichsweise gering gehalten werden, was einen Lernvorgang (beispielsweise durch das bestärkende Lernen 350) erleichtert. Dies gilt umso mehr, je besser die Parameter der analysierten Audiosignale geeignet sind, um unterschiedliche akustische Umgebungen zu unterscheiden.
Zusätzlich wird eine Audio-Analyse 380-2 des Audio-Ausgangssignals 342 durchgeführt, um ein Audio-Ausgangssignalanalyseergebnis für eine Bestimmung des zumindest einen Koeffizienten der Verarbeitungs-Parametervorschrift, beispielsweise zumindest einen Koeffizienten des bestärkenden Lernens 350 bereitzustellen.
Möglich ist auch eine "gemeinsame" Audio-Analyse des Audio-Eingangssignals 311 und des Audio-Ausgangssignals 342 (also beispielswiese eine Audio-Analyse sowohl des Audio-Eingangssignals als auch des Audio-Ausgangssignals), wobei separate Audio-Signalanalyseergebnisse bereitgestellt werden können. Separat heißt in diesem Zusammenhang, dass das Audio-Eingangssignalanalyseergebnis beispielsweise anderen Komponenten bereitgestellt werden kann, verglichen mit dem Audio-Ausgangssignalanalyseergebnis. Beispielsweise können die Informationen der Audio-Analyse 380-1, 380-2 des Eingangsbeziehungsweise Ausgangssignals unterschiedlich zueinander oder entsprechend gleich sein.
Ausführungsbeispiele sehen dabei ferner vor, dass der Audio-Ausgang 340 ein verändertes beziehungsweise verarbeitetes Audiosignal 319 für eine Schnittstelle, beispielsweise für Kopfhörer oder Lautsprecher, bereitstellen, wobei das nicht zwingend erforderlich ist. Ferner ermöglichen es Ausführungsbeispiele, dass die Audio-Analyse 380-2 das Audio-Signal 313 für die Schnittstelle oder für eine weitere Schnittstelle bereitstellt. Hierdurch kann die Vorrichtung 300 das Audiosignal 319 und 313 beispielsweise über zumindest eine Schnittstelle externen Komponenten bereitstellen, wobei das nicht zwingend erforderlich ist.
Zusammenfassend ist somit festzuhalten, dass bei der Vorrichtung 300 nicht das Eingangs-Audiosignal oder das Ausgangs-Audiosignal selbst dem neuronalen Netz 360 oder dem bestärkenden Lernen 350 zugeführt werden, sondern ein oder mehrere entsprechende Audio-Analyseergebnisse. Somit kann durch geeignete Vorab-Analyse des Eingangs-Audiosignals und/oder des Ausgangs-Audiosignals eine Komplexität des neuronalen Netzes und damit auch eine Komplexität des bestärkenden Lernens niedrig gehalten werden, was den Implementierungsaufwand deutlich senkt.
Fig. 4 zeigt ein schematisches Blockschaltbild einer Vorrichtung 400 zum Bestimmen von Audio-Verarbeitungsparametern in Abhängigkeit von zumindest einem Eingangs-Signal, die teilweise auf der Vorrichtung 200 aus der Fig. 2 basiert.
Es sei darauf hingewiesen, dass bei der Vorrichtung 400 gemäß Fig. 4 Funktionsblöcke, die auch in der Fig. 2 gezeigt sind, beispielsweise eine ähnliche oder gleiche Funktionalität aufweisen können wie entsprechende Funktionsblöcke in der Vorrichtung 200 (aber nicht notwendigerweise aufweisen müssen). Es sei ferner darauf hingewiesen, dass die Vorrichtung 400 optional um alle Merkmale, Funktionalitäten und Details ergänzt werden kann, die hierin beschrieben sind, und zwar sowohl einzeln als auch in Kombination.
Die Vorrichtung 400 umfasst einen Audio-Eingang 410 (der beispielsweise dem Audio-Eingang 210 entsprechen kann), eine Audio-Verarbeitung 420 (die beispielsweise der Audio-Verarbeitung 220 entsprechen kann), eine Nutzer-Steuerung 430 (die beispielsweise der Nutzer-Steuerung 230 entsprechen kann), einen Audio-Ausgang 440 (der beispielswiese dem Audio-Ausgang 240 entsprechen kann), ein bestärkendes Lernen 450 (das beispielsweise von seiner grundsätzlichen Funktion her dem bestärkenden lernen 250 entsprechen kann), ein neuronales Netz 460 (das beispielsweise von seiner grundsätzlichen Funktion her dem neuronalen netz 260 entsprechen kann), eine Kombination 470 )die beispielsweise der Kombination 270 entsprechen kann) und eine Audio-Analyse 480 (die beispielsweise der Audio-Analyse 380-1 entsprechen kann) zwischen dem Audio-Eingang 410 und dem neuronalen Netz 460 und dem bestärkenden Lernen 450.
Verglichen mit der Vorrichtung 300 umfasst die Vorrichtung 400 keine Audio-Analyse des Audio-Ausgangs 440 und verglichen mit der Vorrichtung 200 wird kein Audio-Ausgangssignal von dem Audio-Ausgang 440 kommend dem bestärkenden Lernen 450 bereitgestellt. Anders gesagt, erhält das bestärkende Lernen 450 keine Informationen über das Audio-Ausgangssignal.
Stattdessen basiert das bestärkende Lernen 450 auf den kombinierten Parametern 472, 473 beziehungsweise auf einer Information 433, die Änderungen bzw. Anpassungen der durch das neuronale Netz 460 gelieferten Audioverarbeitungsparameter 462 durch den Benutzer beschreibt. Ferner verwendet das bestärkende Lernen das Audio-Eingangssignalanalyseergebnis 414.
In anderen Worten kann das bestärkende Lernen 450 eine Datenbasis 452 in Abhängigkeit von durch den Benutzer eingestellten Nutzerparametern beziehungsweise den kombinierten Parameter 472, 473 bestimmen, so dass Einträge der Datenbasis 452 die durch den Benutzer eingestellten Nutzerparameter 472, 473 darstellen. Die Datenbasis 452 kann zur Bestimmung der Koeffizienten 456 der Verarbeitungsparameter-Bestimmungsvorschrift, beziehungsweise des neuronalen Netzes 460, bereitgestellt bzw. verwendet werden. Dadurch kann ein Vorhersagemodell bestimmt werden, das direkt auf Nutzerparametern (bzw. den durch den Nutzer angepassten Audiosignal-Verarbeitungsparametern 472) basiert, die direkt in das bestärkende Lernen 450 zugeordnet werden.
Optional können die ein oder mehreren kombinierten Parameter 472, 473 beziehungsweise Nutzerparameter auch im Betrieb direkt, mittels dem kombinierten Parameter 474 in das neuronale Netz 460 eingehen, so dass als Ausgabe beispielsweise die Kompressoreinstellungen und/oder andere Parameter für die Audio-Verarbeitungsparameter 462 bereitgestellt werden können.
Alternativ oder optional können die jeweiligen durch den Benutzer eingestellten Nutzerparameter 432 direkt dem bestärkenden Lernen 450 bereitgestellt werden (wie bei Bezugszeichen 433 gezeigt), wobei das nicht zwingend erforderlich ist. Es kann also beispielsweise eine Information darüber, wie sehr der Benutzer die durch das neuronale Netz 460 gelieferten Parameter 462 verändert, für das bestärkende Lernen verwendet werden. Ändert der Benutzer die durch das neuronale Netz 460 gelieferten Parameter 462 gar nicht oder nur wenig, so kann davon ausgegangen werden, dass der Benutzer mit der aktuellen Funktionalität des neuronalen Netzes völlig oder zumindest in sehr hohem Maße zufrieden ist, so dass Koeffizienten des neuronalen Netzes gar nicht oder nur geringfügig geändert werden müssen. Nimmt der Benutzer hingegen deutliche Veränderungen der Parameter 462 vor, so kann durch das bestärkende lernen davon ausgegangen werden, dass eine deutliche Veränderung der Koeffizienten des neuronalen Netzes erforderlich ist, um zu erreichen, dass die durch das neuronale Netz gelieferten Parameter 462 den Benutzererwartungen entsprechen. Insofern kann beispielswiese die Information 433, die einen Benutzereingriff beschreibt, durch das bestärkende Lernen verwendet werden, um ein Lernen auszulösen und/oder einen Umfang der Veränderungen der Koeffizienten des neuronalen Netzes zu bestimmen.
Insgesamt ermöglicht es die Vorrichtung gemäß der Fig. 4, die Koeffizienten 456 des neuronalen Netzes 460 in effizienter Weise zu lernen und/oder (z. B. kontinuierlich) zu verbessern.
Fig. 5 zeigt eine Vorrichtung 500, die ähnliche Eigenschaften aufweist, wie die Vorrichtungen 200, 300 und 400. Es sei darauf hingewiesen, dass bei der Vorrichtung 500 gemäß Fig. 5 Funktionsblöcke, die auch in den Fig. 2, Fig. 3 und Fig. 4 gezeigt sind, beispielsweise eine ähnliche oder gleiche Funktionalität aufweisen können wie entsprechende Funktionsblöcke in der Vorrichtung 200, der Vorrichtung 300 und der Vorrichtung 400 (aber nicht notwendigerweise aufweisen müssen). Es sei ferner darauf hingewiesen, dass die Vorrichtung 500 optional um alle Merkmale, Funktionalitäten und Details ergänzt werden kann, die hierin beschrieben sind, und zwar sowohl einzeln als auch in Kombination.
Das schematische Blockschaltbild der Fig. 5 zeigt die Vorrichtung 500, umfassend einen Audio-Eingang 510 (der beispielsweise dem Audio-Eingang 210 entsprechen kann), eine Audio-Verarbeitung 520 (die beispielsweise der Audio-verarbeitung 220 entsprechen kann), eine Nutzersteuerung 530 (die beispielsweise der Nutzersteuerung 230 entsprechen kann), einen Audio-Ausgang 540 (der beispielsweise dem Audio-Ausgang 240 entsprechen kann), ein bestärkendes Lernen 550 (das beispielsweise von seiner grundsätzlichen Funktion her dem bestärkenden lernen 250 entsprechen kann), ein neuronales Netz 560 (das beispielsweise von seiner grundsätzlichen Funktion her dem neuronalen Netz 260 entsprechen kann) und eine Kombination 570 (die beispielsweise der Kombination 270 entsprechen kann).
Die Vorrichtung 500 umfasst beispielsweise keine Audio-Analyse des Audioeingangssignals und keine Audio-Analyse des Audio-Ausgangssignals, so dass die Audiosignale 512 und 514 direkt von dem Audio-Eingang 510 in das bestärkende Lernen 550 bzw. in das neuronale Netz 560 geleitet werden können. Optional kann bei der Vorrichtung 500 aber auch eine Audio-Analyse des Audio-Eingangssignals erfolgen.
Wie bereits in der Fig. 2 der Vorrichtung 200 erwähnt, kann ein Audio-Eingangssignal 512 für das neuronale Netz 560 und ein Audio-Eingangssignal 514 für das bestärkende Lernen 550 breitgestellt werden. Im Gegensatz zur Vorrichtung 400 kann das bestärkende Lernen 550 der Vorrichtung 500 auf dem Audio-Eingangssignal 514 und den der Audio-Verarbeitung 520 bereitgestellten (bzw. durch die Audioverarbeitung 520 tatsächlich verwendeten) einen oder mehreren Audioverarbeitungsparametern 572 basieren.
Optional kann der Nutzerparameter, beziehungsweise der kombinierte Parameter 572, dem neuronalen Netz 560 bereitgestellt werden, so dass als Eingangsgrößen des neuronalen Netzes 560 der Nutzerparameter 572 und der beziehungsweise die von dem bestärkenden Lernen 550 gelieferten Koeffizienten eingehen beziehungsweise bereitgestellt werden.
Die Vorrichtung 500 erlaub eine besonders effiziente Einstellung der Koeffizienten des neuronalen Netzes, da das bestärkende Lernen 550 die durch die Audiosignalverarbeitung 520 tatsächlich verwendeten Parameter berücksichtigt und somit die Koeffizienten des neuronalen Netzes sehr präzise ermitteln bzw. optimieren kann.
Fig. 6 zeigt ein schematisches Ablaufdiagramm eines Verfahrens 600 zum Betrieb einer Vorrichtung, etwa der Vorrichtung 100, 200, 300, 400 oder 500, bzw. ganz allgemein zum Erhalten von Audio-Verarbeitungsparametern. Ein erster Schritt 610 umfasst ein benutzer-individuelles Bestimmen von zumindest einem Koeffizienten einer Verarbeitungsparameter-Bestimmungsvorschrift basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen. Ein zweiter Schritt 620 umfasst ein Erhalten von Audio-Verarbeitungsparametern unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf dem Audio-Eingangssignal.
Das Verfahren 600 wird dabei beispielsweise so ausgeführt, dass Audio-Verarbeitungsparameter in Abhängigkeit von zumindest einem Audio-Eingangssignal bestimmt werden. Das Verfahren 600 kann dabei so ausgeführt werden, dass eine Klangverarbeitung bzw. Audioverarbeitung auf Basis von unmittelbar aufgezeichneten Umgebungsgeräuschen (wobei beispielsweise ein Audio-Eingangssignal zu einer Anpassung von Audio-Verarbeitungsparametern führt) zu einer Verbesserung der individuellen Wahrnehmung von Klang führt. Beispielsweise kann erreich werden, dass die Koeffizienten der Verarbeitungsparameter-Bestimmungsvorschrift auf beim Benutzerbetrieb erhaltenen Audio-Eingangssignale basieren und benutzer-individuell (beispielweise in Echtzeit) bestimmt werden, so dass Audio-Verarbeitungsparameter unter Verwendung eines neuronalen Netzes, dessen Koeffizienten durch ein bestärkendes Lernen bestimmt oder sogar kontinuierlich angepasst werden, basierend auf dem Audio-Eingangssignal erhalten werden.
Das Verfahren 600 kann optional um alle hierin beschriebenen Merkmale, Funktionalitäten und Details ergänzt werden, auch wenn diese im Hinblick auf Vorrichtungen beschrieben wurden. Das Verfahren kann um diese Merkmale, Funktionalitäten und Details sowohl einzeln als auch in Kombination ergänzt werden.

Weitere Ausführungsbeispiele

Im Folgenden werden einige Aspekte der vorliegenden Erfindung beschrieben, die einzeln oder in Kombination in Ausführungsbeispielen angewendet werden können.
Durch den Nutzer einstellbare situationsabhängige Steuerungsparameter, beziehungsweise durch den Benutzer eingestellte Nutzerparameter, kann beispielsweise durch Analyse des eingehenden und ausgehenden Audiosignals, so wie beispielsweise in der Fig. 3 dargestellt, der Klangverarbeitung im Training eines selbstbestärkenden Lernalgorithmus integriert werden.
Das eingehende Audiosignal kann die Klangumgebung enthalten. Dadurch können Änderungen der Klangumgebung und der Nutzereinstellungen inhärent beispielsweise in Laufzeit gelernt werden.
Der selbstbestärkende Lernalgorithmus kann aus diesen Daten beispielsweise einen nutzerspezifischen Parametersatz zur Klangverarbeitung entwickeln, der einerseits automatisiert unter gleichen äußeren Rahmenbedingungen dieselben Steuerungsparameter anwendet, aber auch in der Situation selbst weitere Nutzer-Anpassungen zulässt, die in das lernende System integriert werden (beispielsweise basierend auf einem Prinzip des bestärkenden Lernens). So kann sich beispielsweise das maschinelle Lernsystem und die Anwendung in einem fortwährenden Lernprozess den klanglichen Nutzerpräferenzen anpassen. Zur Klanganpassung können Algorithmen integriert und gesteuert werden, wie sie beispielsweise in Hörgeräten verwendet werden. Dazu können beispielsweise Multibandkompression mit Rate R und Hörschwellen-Anpassung T und bandabhängiger Verstärkung G, Störgeräuschreduktion oder Blinde Quellentrennung dazugehören.
Das eingehende Audiosignal, die Klangverarbeitungsparameter und/oder das mit dem Klangverarbeitungsparametern verarbeitete Audiosignal können beispielsweise zum Training des Nutzerprofils in einer Cloud (z. B. einem zentralen Datenspeicher) gespeichert werden. Gleichzeitig können die vom Nutzer gewählten Klangverarbeitungsparameter, beziehungsweise Nutzerparameter auf das eingehende Audiosignal angewandt werden. Die Anzahl der Eingangsparameter für das bestärkende Lernen z. B. eines CNNs (Convolutional Neural Network bzw. faltendes neuronales Netz) kann sich beispielsweise zusammensetzen aus Mehrkanal-Audioeingang (z. B. mit C=4 Kanäle) und Audioausgang (z. B. mit C=2 Kanäle). Die Anzahl der Ausgangsparameter im erlernten Parametersatz M kann sich z. B. aus M = C * (T + R + G) + 2 Zeitkonstanten zusammensetzen, wobei die Anzahl der Werte von G, R, T beispielsweise der Anzahl der Verarbeitungsbänder B (z. B. B = 8) entsprechen kann.
Im Folgenden werden einige Aspekte der vorliegenden Erfindung beschrieben, die einzeln oder in Kombination in Ausführungsbeispielen angewendet werden können.
Eine mögliche Umsetzung des Verfahrens, beziehungsweise der Vorrichtung, in dem Bereich Klangsteuerung ist beispielsweise, dass ein Anwender ein Klangwiedergabegerät (z. B. ein Hearable bzw. einen Ohrhörer mit Zusatzfunktion) trägt, das mit einem System mit integrierter Klangverstärkung und einer Audioanalyse, beispielsweise wie in der Fig. 3 oder der Fig. 4 aufgezeigt, ausgestattet ist. Die Parameter der Klangverstärkung kann der Anwender beispielsweise mit einer App (bzw. mit einer Applikationssoftware) steuern, beispielsweise unter Verwendung der oben beschriebenen Nutzersteuerung. Im Hintergrund kann die Audioanalyse beispielsweise die auditorische Szene mittels Mikrophonie ständig aufnehmen und analysieren und sie beispielsweise in Dynamik und/oder Frequenz und/oder spektralen Eigenschaften evaluieren (beispielsweise in der Audioanalyse). In einer bestimmten auditorischen Szene, z. B. beim Fahren im Auto auf der Autobahn, kann der Anwender mittels einer App eine Klanganpassung durchführen und ändert somit die Parameter der Klangverstärkung (Beispielsweise die Parameter 272). Das System (beispielsweise das bestärkende Lernen 250) kann einen algorithmischen Zusammenhang zwischen den Parameteränderungen durch den Anwender und der Analyse der auditorischen Szene erstellen und daraus ein Vorhersagemodell, das durch künstliche Intelligenz (KI) weitere Klanganpassungen des Users ad hoc integriert, entwickeln (und beispielsweise durch Koeffizienten 256 beschreiben). Hierunter wird verstanden, dass eine individualisierte KI-Steuerung (KI bedeutet hier zum Beispiel künstliche Intelligenz), beziehungsweise eine individualisierte Al-Steuerung (engl. Artificial Intelligence, AI, künstliche Intelligenz) ermöglicht bzw. durch die Vorrichtung bereitgestellt wird.
Befindet sich der Anwender beispielsweise zu einem anderen Zeitpunkt wieder in derselben auditorischen Szene, in diesem Fall im fahrenden Auto auf der Autobahn, wird das Vorhersagemodell angewandt und die Parameter der Klangverstärkung (Beispielsweise die Parameter 262) automatisiert vom System (z. B. von dem durch Koeffizienten 256 definierten neuronalen Netz 260) vorgenommen bzw. geliefert. Nimmt der Benutzer (User) gegebenenfalls wieder Klanganpassungen vor (Beispielsweise über die Schnittstelle 230), können diese beispielsweise ad hoc in das selbstlernende System integriert werden.
Im Folgenden werden einige Aspekte der vorliegenden Erfindung beschrieben, die einzeln oder in Kombination in Ausführungsbeispielen angewendet werden können, und die beispielswiese Unterschiede zur Github-Veröffentlichung "liketohear-ai-pt" darstellen.

Gemäß einem (optionalen) Aspekt der Erfindung basiert das Vorhersagemodell auf einer multidimensionalen Optimierung in Echtzeit, die alle vorhandenen Frequenzbänder analysiert.
Gemäß einem (optionalen) Aspekt der Erfindung werden beispielsweise Methoden des Bestärkenden Lernens und Methoden des Unbeaufsichtigten Lernens genutzt (beziehungsweise verwendet).
Gemäß einem (optionalen) Aspekt der Erfindung kann die Anpassung (beziehungsweise können die Anpassungen), beispielsweise der Verarbeitungsparameter-Bestimmungsvorschrift und/oder der Audio-Verarbeitungsparameter, kontinuierlich in Laufzeit stattfinden.

Im Folgenden werden einige Aspekte der vorliegenden Erfindung beschrieben, die einzeln oder in Kombination in Ausführungsbeispielen angewendet werden können, die beispielswiese Unterschiede zur Offenlegungsschrift US 2015 195641 A1 darstellen.
Ausführungsbeispiele gemäß der Erfindung beziehen sich beispielsweise primär auf eine intuitive und ergonomische Benutzersteuerung von Klängen in alltagsakustischen Umgebungen und präferieren daher generalisierende Einstellungsmöglichkeiten, aus folgenden Gründen:

Eine Aufteilung der Signale in einzelne "types of sounds" in Echtzeit ist in alltagsakustischen Situationen kaum zu realisieren. Daher wendet die vorliegende Erfindung dieses Verfahren nicht an, sondern deckt vielmehr mit einem 2-dimensionalen Parameterraum eine Vielzahl von klanglichen Möglichkeiten.
Benutzereinstellungen müssten bei einer Signaltrennung jeweils getrennt für jedes Objekt und jeder Kontextsituation getroffen werden. In alltagsakustischen Umgebungen mit schnell wechselnden Hörsituation wird die Benutzersteuerung bzw. Usersteuerung zu komplex und daher nicht ergonomisch anwendbar. Mit der vorliegenden Erfindung kann der Benutzer mit einer einfachen und intuitiv bedienbaren Schnittstelle wie beispielsweise eine 2d-Touchoberfläche eines Smartphones komplexe Klanganpassungen durchführen (beispielsweise in der Einrichtung 230).
Klangliche Eigenschaften von einzelnen Klängen, könnten sich im Zusammenklang unterschiedlich als in der Präferenz anhören. z. B. Klänge wie Musik als vordergründiges oder als hintergründiges Geräusch. Daher wird bei der vorliegenden Erfindung beispielsweise die Komplexität der auditorischen Szene an eine für den Benutzer optimierte Wahrnehmung aller vorhanden Klänge angepasst.
Einstellungen für einzelne Signale adaptieren sich nicht dynamisch an wechselnde Umgebungsbedingungen. So kann beispielsweise bei leise gesprochener Sprache oder nur leise abgespielter Musik schon eine leichte Lautstärkeerhöhung der Hintergrundgeräusche Sprache unverständlich bzw. Musik nicht mehr hörbar werden.

Im Folgenden werden einige Aspekte der vorliegenden Erfindung beschrieben, die einzeln oder in Kombination in Ausführungsbeispielen angewendet werden können, die beispielswiese Unterschiede zur Offenlegungsschrift US 2020 0066264 A1 darstellen.
Bei der Offenlegungsschrift US 2020 0066264 A1 steuert ein Prozessor die Klangverarbeitung des Hörgeräts aufgrund von "user preferences and interests" (Benutzerpräferenzen und Interessen) und "historical activity patterns" (früheren Aktivitätsmustern).
Bei Ausführungsbeispielen der vorliegenden Erfindung wird die Klangverarbeitung des Hörgeräts hingegen beispielswese auf Basis von in Echtzeit-gemessenen äußeren Rahmenbedingungen, beispielsweise so wie in der Fig. 2 dargestellt, gesteuert.
Zusammenfassend ist festzuhalten, dass gemäß einem Aspekt der Erfindung die oben genannten Kriterien bzw. Anforderungen in ein lernendes Verfahren beziehungsweise einer Vorrichtung integriert werden, das in Echtzeit aus Benutzereinstellungen lernt und diese automatisiert anwendet, um die individuelle Wahrnehmung von Klang bzw. Tönen in Form von Audiosignalen für den Benutzer zu verbessern. Mittels der vorliegenden Erfindung kann eine auf die Benutzerpräferenzen optimierte Signalwiedergabe bzw. Audiowiedergabe realisiert werden.
Somit kann gemäß einem Aspekt der vorliegenden Erfindung berücksichtigt werden, dass sich die individuelle Wahrnehmung von Klang und damit die individuellen Anforderungen für den Klang bzw. Wohlklang an deren Anpassung von Klangwiedergabegeräten unter anderem nach folgenden Kriterien unterscheiden:

Individualität
Situationsbedingte Bedürfnisse
Äußere Rahmenbedingungen

Gemäß einem Aspekt der Erfindung können Ausführungsbeispiele gemäß der Erfindung berücksichtigen, dass die Klangwahrnehmung sich von Person zu Person unterscheidet.
Beispielsweise ist ein Gespräch mit einer Person in einem Raum mit vielen Menschen mitunter einer lauten Klangkulisse für den Einen schwerer zu führen als für den Anderen. Ebenso wird je nach Bedürfnis dieselbe Einstellung einer Klangwiedergabe unterschiedlich wahrgenommen.
Gemäß einem Aspekt der Erfindung können Ausführungsbeispiele gemäß der Erfindung berücksichtigen, dass auch Umgebungsparameter, wie die auditorische Umgebung, die Steuerungswerte für eine Klanganpassung eines Klangwiedergabegeräts erheblich beeinflussen.
Zusammenfassend ist weiterhin zu sagen, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung eine Vorrichtung und ein Verfahren schaffen, die eine Klangverarbeitung auf Basis von Umgebungsgeräuschen, die unmittelbar aufgezeichnet beziehungsweise gemessen werden, durchführen. Basierend auf diesen Aufzeichnungen und den durch den Benutzer eingestellten Nutzerparametern generiert beispielsweise ein lernender Algorithmus ein Vorhersagemodell, der in der Situation selbst weitere Anpassungen zulässt, die in das lernende System integriert werden, um die individuelle Wahrnehmung von Klang bzw. Tönen in Form von Audiosignalen für den Benutzer zu verbessern.
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein. Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
In anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.

Claims

Eine Vorrichtung (100;200;300;400;500) zum Bestimmen von Audio-Verarbeitungsparametern (120;262;362;462;562) in Abhängigkeit von zumindest einem Audio-Eingangssignal (110,112;212,214,216; 311,316;411,416;512,514,516);
wobei die Vorrichtung (100;200;300;400;500) ausgebildet ist, um zumindest einen Koeffizienten (142;256;356;456;556) einer Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450;550) benutzer-individuell basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen (217,218,219;313,317,318,319,342;417;517) zu bestimmen;

wobei die Vorrichtung (100;200;300;400;500) ausgelegt ist, um die Audio-Verarbeitungsparameter (120;262;362;462;562) unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450; 550) basierend auf dem Audio-Eingangssignal (110,112;212,214,216;311,316; 411,416;512,514,516) zu erhalten;

wobei die Vorrichtung ausgebildet ist, um eine Datenbasis (252;352;452;552) in Abhängigkeit von dem zumindest einen Audio-Eingangssignal (110,112;212,214,216; 311,316;411,416;512,514,516) zu bestimmen, so dass Einträge der Datenbasis (252;352;452;552) das Audio-Eingangssignal (110,112;212,214,216;311,316; 411,416;512,514,516) beschreiben;

wobei die Vorrichtung ausgebildet ist, um die Datenbasis (252;352;452;552) in Abhängigkeit von einem Audio-Ausgangssignal (218,219,313,318,319,342), das abhängig von einem Nutzerparameter erhalten wird, zu bestimmen, so dass Einträge der Datenbasis (252;352;452;552) das Audio-Ausgangssignal (218,219,313,318,319,342) beschreiben;

wobei die Vorrichtung ausgebildet ist, um den zumindest einen Koeffizienten (142;256;356;456;556) der Verarbeitungsparameter-Bestimmungsvorschrift (140; 250;350;450;550) basierend auf der von der Vorrichtung akquirierten Datenbasis (252;352;452;552) anzupassen, um die Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350; 450;550) benutzer-individuell anzupassen, um benutzer-individuell angepasste Audio-Verarbeitungsparameter (120;262;362;462;562) zu erhalten.
Vorrichtung (100;200;300;400;500) gemäß Anspruch 1, wobei die Vorrichtung ausgebildet ist, um die Datenbasis (252;352;452;552) in Abhängigkeit von durch den Benutzer eingestellten Nutzerparametern (232;332;432,433;532) zu bestimmen, so dass Einträge der Datenbasis (252;352;452;552) die durch den Benutzer eingestellten Nutzerparameter (232;332;432,433;532) beschreiben.
Vorrichtung (100;200;300;400;500) gemäß Anspruch 1 oder Anspruch 2,
wobei die Vorrichtung ausgebildet ist, die Datenbasis (252;352;452;552) so zu bestimmen, dass die Datenbasis (252;352;452;552) eine Zuordnung zwischen verschiedenen Audio-Eingangssignalen (110,112;212,214,216;311,316; 411,416;512,514,516) und jeweiligen durch den Benutzer eingestellten Nutzerparametern (232;332;432,433;532) beschreibt; und/oder

wobei die Vorrichtung ausgebildet ist, die Datenbasis (252;352;452;552) so zu bestimmen, dass die Datenbasis (252;352;452;552) eine Zuordnung zwischen verschiedenen Audio-Ausgangssignalen (218,219,313,318,319,342) und jeweiligen durch den Benutzer eingestellten Nutzerparametern (232;332;432,433;532) beschreibt.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ausgebildet ist, den zumindest einen Koeffizienten (142;256;356;456;556) der Verarbeitungsparameter-Bestimmungsvorschrift (140; 250;350;450;550) basierend auf zumindest einem von einem Benutzer korrigierten und/oder veränderten Audio-Verarbeitungsparameter (120;262;362;462;562) zu bestimmen und/oder anzupassen.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ausgebildet ist, um eine Audio-Verarbeitung (220;320;420; 520) basierend auf dem Audio-Eingangssignal (110,112;212,214,216; 311,316;411,416;512,514,516) und basierend auf dem Audio-Verarbeitungsparameter (120;262;362;462;562) auszuführen, um die benutzer-individuell angepassten Audiosignale (217,218,219;313,317,318,319,342) zu erhalten.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ausgebildet ist, um die Koeffizienten (142;256;356;456;556) der Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450;550) unter Verwendung eines Vergleichs des Audio-Eingangssignals (110,112;212,214,216; 311,316;411,416;512,514,516) und eines durch die Audio-Verarbeitung (220;320; 420;520) unter Verwendung der Audio-Verarbeitungsparameter (120;262;362;462; 562) gelieferten Audio-Ausgangssignals (218,219,313,318,319,342) zu bestimmen.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ausgebildet ist, um die von dem Benutzer eingestellten Nutzerparameter (232;332;432,433;532) als Ausgangsgröße an Stelle der Audio-Verarbeitungsparameter (120;262;362;462;562) bereitzustellen, und wobei die von dem Benutzer eingestellten Nutzerparameter (232;332;432,433;532) Lautstärkeparameter und/oder Klangparameter und/oder Equalizer-Parameter umfassen; oder
wobei die Vorrichtung ausgelegt ist, um die Nutzerparameter (232;332;432,433;532) mit den Audio-Verarbeitungsparametern (120;262;362;462;562) zu kombinieren, um kombinierte Parameter (272;372;472,473,474;572,573) der Audio-Verarbeitung (220;320;420;520) zu erhalten und als Ausgangsgröße bereitzustellen.
Vorrichtung (100;300;400) gemäß einem der vorhergehenden Ansprüche,
wobei die Vorrichtung ausgebildet ist, eine Audio-Analyse des Audio-Eingangssignals (110,112;212,214,216;311,316;411,416;512,514,516) durchzuführen, um ein Audio-Eingangssignalanalyseergebnis für eine Bestimmung des zumindest einen Koeffizienten (142;256;356;456;556) einer Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450;550) bereitzustellen; und/oder

wobei die Vorrichtung ausgebildet ist, eine Audio-Analyse des Audio-Ausgangssignals (342) durchzuführen, um ein Audio-Ausgangssignalanalyseergebnis für eine Bestimmung des zumindest einen Koeffizienten (142;256;356;456;556) der Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450;550) bereitzustellen.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Audio-Verarbeitungsparameter (120;262;362;462;562) zumindest einen Multibandkompressionsparameter R, und/oder zumindest einen Hörschwellenanpassungsparameter T, und/oder zumindest einen bandabhängigen Verstärkungsparameter G, und/oder zumindest einen Störgeräuschreduktionsparameter, und/oder zumindest einen blinden Quellentrennungsparameter, und/oder zumindest einen Schallrichtungsparameter, und/oder zumindest einen binauralen Parameter und/oder zumindest einen Parameter von adaptiven Filtern umfassen.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ein neuronales Netz (260;360;460;560) umfasst, das ausgelegt ist, um die Audio-Verarbeitungsparameter (120;262;362;462;562) unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450;550) zu erhalten.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ausgebildet ist, um die Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350;450;550) basierend auf einer Methode des bestärkenden Lernens und/oder basierend auf einer Methode des verstärkenden Lernens und/oder basierend auf einer Methode des unbeaufsichtigten Lernens und/oder basierend auf einer Methode der multivariaten Vorhersage und/oder basierend auf einem mit multivariabler Regression festgelegten multidimensionalen Parameterraum bereitzustellen und/oder anzupassen, um den Audio-Verarbeitungsparameter (120;262;362;462;562) zu bestimmen.
Vorrichtung (100;200;300;400;500) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung ausgelegt ist, um den zumindest einen Koeffizienten (142;256;356;456;556) der Verarbeitungsparameter-Bestimmungsvorschrift (140; 250;350;450;550) benutzer-individuell während des Benutzerbetriebs zu bestimmen, um die Audio-Verarbeitungsparameter (120;262;362;462;562) in Echtzeit zu erhalten und/oder die veränderten Audio-Verarbeitungsparameter (120;262;362;462;562) in Echtzeit zu bestimmen und/oder anzupassen.
Hörgerät,
wobei das Hörgerät eine Audioverarbeitung aufweist; und

wobei das Hörgerät eine Vorrichtung zum Bestimmen von Audio-Verarbeitungsparametern gemäß einem der Ansprüche 1 bis 12 aufweist,

wobei die Audioverarbeitung ausgelegt ist, um ein Audio-Eingangssignal abhängig von den Audio-Verarbeitungsparametern zu verarbeiten.
Verfahren (600) zum Bestimmen von Audio-Verarbeitungsparametern in Abhängigkeit von zumindest einem Audio-Eingangssignal, wobei das Verfahren aufweist:
benutzer-individuelles Bestimmen von zumindest einem Koeffizienten einer Verarbeitungsparameter-Bestimmungsvorschrift basierend auf beim Benutzerbetrieb erhaltenen Audiosignalen; und

Erhalten von Audio-Verarbeitungsparametern unter Verwendung der Verarbeitungsparameter-Bestimmungsvorschrift basierend auf dem Audio-Eingangssignal;

wobei eine Datenbasis (252;352;452;552) in Abhängigkeit von dem zumindest einen Audio-Eingangssignal (110,112;212,214,216; 311,316;411,416;512,514,516) bestimmt wird, so dass Einträge der Datenbasis (252;352;452;552) das Audio-Eingangssignal (110,112;212,214,216;311,316; 411,416;512,514,516) beschreiben;

wobei die Datenbasis (252;352;452;552) in Abhängigkeit von einem Audio-Ausgangssignal (218,219,313,318,319,342), das abhängig von einem Nutzerparameter erhalten wird, bestimmt wird, so dass Einträge der Datenbasis (252;352;452;552) das Audio-Ausgangssignal (218,219,313,318,319,342) beschreiben;

wobei der zumindest eine Koeffizienten (142;256;356;456;556) der Verarbeitungsparameter-Bestimmungsvorschrift (140; 250;350;450;550) basierend auf der von der Vorrichtung akquirierten Datenbasis (252;352;452;552) angepasst wird, um die Verarbeitungsparameter-Bestimmungsvorschrift (140;250;350; 450;550) benutzer-individuell anzupassen, um benutzer-individuell angepasste Audio-Verarbeitungsparameter (120;262;362;462;562) zu erhalten.
Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 14, wenn das Programm auf einem Computer läuft.