-
Die vorliegende Erfindung betrifft ein Verfahren zum automatischen Einstellen eines Geräts. Darüber hinaus betrifft die vorliegende Erfindung einen Klassifikator für ein automatisch einstellbares Gerät. Bei dem Gerät handelt es sich beispielsweise um einen zu regelnden Transformator, eine zu regelnde Industrieanlage oder eine Hörvorrichtung. Unter einer Hörvorrichtung wird hier jedes im oder am Ohr tragbare, einen Schallreiz erzeugende Gerät verstanden, wie ein Hörgerät, ein Headset, Kopfhörer und dergleichen.
-
Hörgeräte sind tragbare Hörvorrichtungen, die zur Versorgung von Schwerhörenden dienen. Um den zahlreichen individuellen Bedürfnissen entgegenzukommen, werden unterschiedliche Bauformen von Hörgeräten wie Hinter-dem-Ohr-Hörgeräte (HdO), Hörgerät mit externem Hörer (RIC: receiver in the canal) und In-dem-Ohr-Hörgeräte (IdO), z.B. auch Concha-Hörgeräte oder Kanal-Hörgeräte (ITE, CIC), bereitgestellt. Die beispielhaft aufgeführten Hörgeräte werden am Außenohr oder im Gehörgang getragen. Darüber hinaus stehen auf dem Markt aber auch Knochenleitungshörhilfen, implantierbare oder vibrotaktile Hörhilfen zur Verfügung. Dabei erfolgt die Stimulation des geschädigten Gehörs entweder mechanisch oder elektrisch.
-
Hörgeräte besitzen prinzipiell als wesentliche Komponenten einen Eingangswandler, einen Verstärker und einen Ausgangswandler. Der Eingangswandler ist in der Regel ein Schallempfänger, z. B. ein Mikrofon, und/oder ein elektromagnetischer Empfänger, z. B. eine Induktionsspule. Der Ausgangswandler ist meist als elektroakustischer Wandler, z. B. Miniaturlautsprecher, oder als elektromechanischer Wandler, z. B. Knochenleitungshörer, realisiert. Der Verstärker ist üblicherweise in eine Signalverarbeitungseinheit integriert. Dieser prinzipielle Aufbau ist in 1 am Beispiel eines Hinterdem-Ohr-Hörgeräts dargestellt. In ein Hörgerätegehäuse 1 zum Tragen hinter dem Ohr sind ein oder mehrere Mikrofone 2 zur Aufnahme des Schalls aus der Umgebung eingebaut. Eine Signalverarbeitungseinheit 3, die ebenfalls in das Hörgerätegehäuse 1 integriert ist, verarbeitet die Mikrofonsignale und verstärkt sie. Das Ausgangssignal der Signalverarbeitungseinheit 3 wird an einen Lautsprecher bzw. Hörer 4 übertragen, der ein akustisches Signal ausgibt. Der Schall wird gegebenenfalls über einen Schallschlauch, der mit einer Otoplastik im Gehörgang fixiert ist, zum Trommelfell des Geräteträgers übertragen. Die Energieversorgung des Hörgeräts und insbesondere die der Signalverarbeitungseinheit 3 erfolgt durch eine ebenfalls ins Hörgerätegehäuse 1 integrierte Batterie 5.
-
Hörgeräte sind in der Lage, bestimmte Geräteeinstellungen selbstständig entsprechend der jeweiligen Hörsituation vorzunehmen. Eine solche Geräteeinstellung kann z. B. das Aktivieren einer Rauschunterdrückung oder eines Richtmikrofons sein. Die momentane Hörsituation wird hierbei durch einen Eingangsvektor (input feature vector) beschrieben. Dieser Eingangsvektor wird auf Parameter abgebildet, die die entsprechende Geräteeinstellung beschreiben (nachfolgend auch Einstellgrößen genannt). Die Abbildungsvorschrift, die Eingangsvektoren auf Parameter abbildet, wird zunächst vom Hersteller festgelegt, wobei diese meist mittels maschineller Lernverfahren auf einer Datenbank mit bekannten Hörsituationen trainiert wird. Im späteren Betrieb können Anpassungen aufgrund von Benutzereingaben erfolgen. Benutzereingaben können das Ändern einer bestimmten Einstellung (z. B. „lauter“), das Zuweisen zu einer bestimmten Klasse (z. B. „dies ist Musik“) sein oder auch indirekt erfolgen, indem lediglich die Modifikation der jeweiligen Einstellung signalisiert wird. Hierbei treten folgende Probleme auf:
P1: Die Hörsituationen beim jeweiligen Benutzer können unterschiedlich zu denen sein, die zum Training beim Hersteller verwendet werden. Konkret bedeutet dies, dass sich die Eingangsvektoren im Merkmalsraum anders verteilen als vom Hersteller angenommen. Ein Grund kann das Auftreten einer gänzlich neuen Hörsituation sein. Ein anderer Grund kann sein, dass sich der Benutzer häufig in bestimmten Situationen aufhält (z. B. Mischsituation „Sprache mit Hintergrundmusik und Störgeräuschen“), die in der Datenbank wenig repräsentiert sind, sodass die entsprechenden Übergänge im Merkmalsraum nur relativ grob modelliert sind. Das Problem ließe sich zwar durch bessere Datenbanken verringern, diese existieren jedoch nur eingeschränkt und prinzipbedingt können niemals alle möglichen Hörsituationen hinterlegt sein.
P2: Die Abweichungen zwischen den Eingangsvektoren beim Benutzer und denen beim Hersteller können zu einem unerwünschten Verhalten des Hörgeräts führen. Insbesondere kann in Mischsituationen der ausgegebene Parameterwert zeitig instabil sein, z. B. mehrfach zwischen stark unterschiedlichen Werten springen, was vom Benutzer als sehr störend empfunden wird.
P3: Üblicherweise ändert das Hörgerät sein Verhalten im späteren Betrieb nur aufgrund von Benutzereingaben. Das heißt, ohne Eingriff durch den Benutzer bleibt auch ein instabiles Verhalten in Mischsituationen bestehen, obwohl es eigentlich unerwünscht wäre.
P4: Fehlerhafte (z. B. unkonsistente/sinnlose) Benutzereingaben oder das Nichtauftreten einer bestimmten Situation über einen längeren Zeitraum dürfen das Systemverhalten für bestimmte Situationen nicht wesentlich verschlechtern. Das heißt, die notwendige Adaptivität des Hörgeräts muss abgewogen werden gegen das Bewahren eines bestimmten Grundverhaltens, z. B. gute Sprachverständlichkeit in Ruhe.
-
Für die obigen Probleme gibt es gewisse bekannte Lösungsansätze. So wird beispielsweise in dem Artikel Lamarche et al.: „Adaptive environment classification system for hearing aids", J. Acoust. Soz. und Am. 127 (5), Mai 2010, Seiten 3125 bis 3135 ein adaptiver Klassifikator beschrieben, der es erlaubt, bestehende Klassen zu teilen und/oder zu verschmelzen je nach Verteilung der Eingangsvektoren. Das Problem P1 ist damit zwar prinzipiell lösbar, jedoch mit folgenden Nachteilen: (a) das Festlegen entsprechender Kriterien, wann geteilt/verschmolzen werden soll, ist schwierig. (b) für eine neue abgespaltete Subklasse können statistische Größen wie Mittelwertvektor und optional Kovarianzmatrix geschätzt werden, was ungenau ist, sofern nicht bereits viele Eingangsvektoren der Subklasse angehören.
-
Die Probleme P2 und P3 sind damit schlecht lösbar, da eine abgespaltene Klasse zunächst die Parameterwerte der Klasse erbt, aus der sie hervorgeht. Regionen des Eingaberaums, die Mischsituationen präsentieren, können benachbarte Subklassen mit gegebenenfalls stark unterschiedlichen Parameterwerten enthalten, was zu einem instabilen Ausgabeverlauf führen kann. Problem P4 wird von dem Ansatz nicht adressiert.
-
In der Druckschrift
WO2008/084116 A2 („Method for operating a hearing device“) wird eine adaptive Kombination mehrerer einzelner Klassifikatoren betrachtet. Bei einer neuen Hörsituation, die von den bisherigen Klassifikatoren nicht korrekt behandelt wird (erkennbar durch eine Benutzereingabe in dieser Situation), wird ein neuer Klassifikator für die neue Situation hinzugefügt. Das Verfahren nutzt halbüberwachtes Lernen, um die Gewichtungsfunktion zur Kombination der Einzelklassifikatoren zu bestimmen. Nachteilig ist hier eine hohe Komplexität (Rechenaufwand) des Verfahrens. Grundlage für die obige Patentanmeldung ist die Dissertation
Tser Ling Yvonne Moh, „Semi-supervised online learning for accoustic data mining", DISS. ETH NO. 19395, ETH ZÜRICH, 2010 (http://e-collection.library.ethz.ch/eserv/eth:2801/eth-2801-01.pdf). In der genannten Arbeit werden Klassifikationsaufgaben betrachtet. Die Verwendung als Regressionsfunktion, d.h. als direkte Abbildung von Eingangsvektoren auf Parameterwerte ist nicht enthalten. Eine Clusterung der Eingangsvektoren wird nicht durchgeführt; stattdessen werden die Eingangsvektoren eines zu definierenden Zeitfensters betrachtet.
-
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zum automatischen Einstellen eines Geräts bereitzustellen, mit dem eine verbesserte Einstellung erzielt werden kann, wenn sich Eingangssignale in einem unvorhergesehenen Bereich des Eingangsraums befinden.
-
Erfindungsgemäß wird diese Aufgabe nach Patentanspruch 1 gelöst durch ein Verfahren zum automatischen Einstellen eines Geräts durch
- – Ermitteln eines Merkmalsvektors aus einem Eingangssignal des Geräts,
- – Bereitstellen (mindestens) eines bewegbaren und (mindestens) eines festen Clusters in einem mehrdimensionalen Raum, wobei sich das feste Cluster an einer festen ersten Clusterposition in dem mehrdimensionalen Raum befindet,
- – Verschieben des bewegbaren Clusters in Richtung auf den Merkmalsvektor zu einer zweiten Clusterposition,
- – Zuordnen je einer Einstellgröße, mit der das Gerät einstellbar ist, zu dem bewegbaren Cluster und dem festen Cluster ist, und
- – Einstellen des Geräts auf der Basis der ersten Clusterposition, der zweiten Clusterposition und der Einstellgrößen.
-
Darüber hinaus wird erfindungsgemäß bereitgestellt ein Klassifikator für ein automatisch einstellbares Gerät mit
- – einer Signaleingangseinrichtung zum Bereitstellen eines elektrischen Eingangssignals,
- – einer Merkmalsextraktionseinrichtung zum Ermitteln eines Merkmalsvektors aus dem Eingangssignal,
- – einer Positionszuordnungseinrichtung, in der ein bewegbares und ein festes Cluster in einem mehrdimensionalen Raum bereitgestellt sind, wobei sich das feste Cluster an einer festen ersten Clusterposition in dem mehrdimensionalen Raum befindet,
- – einer Adaptionseinrichtung zum Verschieben des bewegbaren Clusters in Richtung auf den Merkmalsvektor zu einer zweiten Clusterposition,
- – wobei je eine Einstellgröße, mit der das Gerät einstellbar ist, zu dem bewegbaren Cluster und dem festen Cluster zugeordnet ist, und
- – einer Ausgabeeinrichtung zum Ausgeben einer Ausgabegröße zum Einstellen des Geräts auf der Basis der ersten Clusterposition, der zweiten Clusterposition und der Einstellgrößen.
-
In vorteilhafter Weise werden für das automatische Einstellen des Geräts sowohl mindestens ein bewegbares Cluster als auch mindestens ein festes Cluster verwendet. Jedem der Cluster ist eine Einstellgröße (im vorliegenden Dokument auch „Label“ genannt) zugeordnet, die einen oder mehrere Werte beinhalten kann, mittels welchen sich das Gerät einstellen lässt. Außerdem besitzen die Cluster jeweils eine Clusterposition. Die Position des bewegbaren Clusters wird anhand des Merkmalsvektors des Eingangssignals verschoben, während die Position des festen Clusters unverändert bleibt. Das Verschieben der beweglichen Cluster wird im Folgenden Eingangsadaption (input adaptation) genannt. Die Wirkung dieser Eingangsadaption besteht darin, dass die Einstellung des Geräts auch dann sanft verändert werden kann, wenn das Eingangssignal außerhalb der ursprünglich vorgegebenen Signalklassen liegt.
-
Vorzugsweise erfolgt das Verschieben des beweglichen Clusters in Abhängigkeit von einem Triggersignal, das von dem Eingangssignal verschieden ist. Damit ist es nicht notwendig, dass das bewegliche Cluster mit jedem Einganssignal verschoben wird. Vielmehr kann das Verschieben gezielt auf andere Weise angestoßen werden.
-
Beispielsweise handelt es sich bei dem Triggersignal um ein Einschaltsignal, ein Zeitsignal oder ein Nutzereingabesignal. So kann es unter Umständen günstig sein, eine Verschiebung der Cluster nur zu Beginn des Betriebs des jeweiligen Geräts vorzunehmen. Alternativ kann es von Vorteil sein, das Verschieben der Cluster zeitlich mit einem Zeitsignal zu steuern, und so beispielsweise periodisch eine Adaption herbeizuführen. Eine weitere Alternative besteht darin, dass die Adaption bzw. das Verschieben der beweglichen Cluster durch ein Nutzereingabesignal, also auf eine manuelle Eingabe hin, erfolgt.
-
In einer Ausgestaltung des erfindungsgemäßen Verfahrens liegt eine Vielzahl bewegbarer Cluster vor, und der Merkmalsvektor wird demjenigen der bewegbaren Cluster zugeordnet, zu dem er den geringsten räumlichen Abstand besitzt, und dieses Cluster wird schließlich verschoben. Dies hat den Vorteil, dass in dem Eingaberaum sehr spezifisch eines oder ein paar wenige Cluster gezielt verschoben werden können. Darüber hinaus können eine oder mehrere Einstellgrößen (Label) zumindest teilweise durch eine Nutzereingabe verändert werden. Dies hat den Vorteil, dass das betreffende Gerät sehr individuell an den jeweiligen Nutzer angepasst werden kann.
-
Günstigerweise ist jede der Einstellgrößen der festen und/oder bewegbaren Cluster nur in einem jeweils spezifisch vorgegebenen Bereich veränderbar. Dadurch kann gewährleistet werden, dass eine Grundcharakteristik des einzustellenden Geräts erhalten bleibt.
-
Vorteilhafterweise wird die Einstellgröße des verschobenen Clusters bzw. der Cluster über nachbarschaftsbasierte Regression oder rekursives Fortschreiben ermittelt. Dadurch ergibt sich ein verminderter Rechenaufwand gegenüber dem Prinzip des halbüberwachten Lernens.
-
Die Einstellgröße (Label) kann ein Parameterwert, ein Parametervektor oder ein vorgegebener oder gradueller Klassenwert sein. Somit kann die Einstellgröße also einen eindimensionalen oder mehrdimensionalen Wert, aber auch eine Zwischengröße (Klassenwert) zur Ermittlung von Parameterwerten oder Parametervektoren verkörpern.
-
In einem bevorzugten Ausführungsbeispiel wird eine Hörvorrichtung und insbesondere ein Hörgerät mit dem oben genannten Klassifikator ausgestattet, wobei das Eingangssignal ein Audiosignal ist. Damit kann die Hörvorrichtung auch dann eine sanfte Veränderung ihrer Einstellung vornehmen, wenn das Eingangssignal nicht direkt einer der vorgegebenen Cluster (Klassen) zugeordnet werden kann.
-
Der erfindungsgemäße Klassifikator bzw. das erfindungsgemäße Verfahren können auch allgemein für Industrieanlagen verwendet werden, bei denen Aktionsauswahlregeln für den Betrieb notwendig sind. Die beweglichen Cluster sorgen auch hier für eine Eingangsadaption, während die festen Cluster dafür garantieren, dass ein Grundverhalten des Systems erhalten bleibt. Durch Nutzereingaben können dann seitens des Anwenders Korrekturen in das System eingegebene werden. Der Begriff Nutzereingabe kann in einer industriellen Anwendung auch abstrahiert werden zu einem externen Mess- oder Fehlersignal. Anhand dieses externen Signals werden die Label-Werte der Cluster so verändert, dass die Einstellung des zugrundeliegenden Gerätes stärker dem gewünschten Verhalten entspricht.
-
Ein konkretes Beispiel für eine zu regelnde Industrieanlage wäre beispielsweise ein Transformator, der eine Mittelspannung auf eine Niederspannung transformiert. Dabei wird einerseits gefordert, dass die Ausgangsspannung konstant bleibt, und andererseits, dass die Einstellung nicht zu oft verändert wird. Die Einstellungen des Systems können mit den Eingangssignalen nachgeführt werden, wobei die festen Cluster wieder dafür sorgen, dass ein Grundverhalten des Systems gewährleistet bleibt. Als Nutzerinteraktion könnte hier die Eingabe einer Zentrale gedeutet werden, die sich nur dann einschaltet, wenn eine grobe Abweichung von Sollvorgaben stattfindet.
-
Speziell könnte das erfindungsgemäße Verfahren bzw. der erfindungsgemäße Klassifikator auch für die Kopplung von Industrieprozessen verwendet werden.
-
Die obigen Verfahrensmerkmale lassen sich auch auf den genannten Klassifikator übertragen, wodurch sich entsprechende Funktionen der jeweiligen Einrichtungen des Klassifikators ergeben.
-
Die vorliegende Erfindung wird anhand der beigefügten Zeichnungen näher erläutert, in denen zeigen:
-
1 eine Skizze eines Hörgeräts gemäß dem Stand der Technik;
-
2 ein Signalflussdiagramm für ein Online-Training;
-
3 ein Signalflussdiagramm für den Betrieb eines Geräts nach dem Training;
-
4 eine zweidimensionale Projektion von Clustern in einem Eingangsmerkmalsraum vor einer Eingabeadaption;
-
5 eine zweidimensionale Projektion der Cluster in dem Eingangsmerkmalsraum nach der Eingabeadaption;
-
6 das zeitliche Verhalten mehrerer Klassifikatoren;
-
7 eine Ausgangssituation von Clusterlabeln mit einer Benutzerinteraktion; und
-
8 die aufgrund der Benutzerinteraktion angepassten Clusterlabel.
-
Die nachfolgend näher geschilderten Ausführungsbeispiele stellen bevorzugte Ausführungsformen der vorliegenden Erfindung dar.
-
Die Beispiele können sich insbesondere auf Hörvorrichtungen und speziell Hörgeräte der eingangsgenannten Art beziehen.
-
Dementsprechend können die nachfolgend geschilderten Verfahren in einer Hörvorrichtung bzw. einem Hörgerät ausgeführt werden. Ebenso kann der erfindungsgemäße Klassifikator in einer Hörvorrichtung eingesetzt werden, die die eingangserwähnten weiteren Komponenten besitzt. Die Beispiele lassen sich auch auf Transformatoren z. B. für sogenannte „Smart Grids“ oder andere zu steuernde bzw. zu regelnde Industrieanlagen übertragen.
-
Gemäß 2 wird bei einem Online-Training beispielsweise in einem Hörgerät nach dem Mikrofon oder in einem Klassifikator von einer Signaleingangseinrichtung ein Audiosignal 10 bereitgestellt. Bei einem anderen Gerät handelt es sich dabei um ein entsprechend anderes Eingangssignal. Das Eingangssignal 10 wird einer Merkmalsextraktionseinrichtung 11 zugeführt. Dort werden etwaige Merkmale wie für ein Hörgerät „Sprache in Störgeräusch“, „Sprache in Ruhe“, „Störgeräusch“, „Musik“ oder „Autogeräusch“ von dem Eingangssignal 10 gewonnen und ein entsprechender Eingangsmerkmalsvektor e gebildet. Die Menge aller Eingangsmerkmalsvektoren bildet den Eingangsraum. Jeder Eingangsmerkmalsvektor lässt sich einer Klasse bzw. einem Cluster zuordnen.
-
Cluster (vorzugsweise definiert durch ihre Mittelwertsvektoren, optional auch Kovarianzmatritzen) werden im Eingangsraum (z. B. durch eine Positionszuordnungseinrichtung) positioniert. Eine Teilmenge der Cluster ist fest positioniert, wird hier FC (Factory Cluster) genannt und repräsentiert die Einstellungen des Herstellers. Die Positionen der fest positionierten Cluster FC im mehrdimensionalen Raum werden mit FC Pos 12 bezeichnet. Eine andere Teilmenge der Cluster ist beweglich, wird hier als MC (Movable Cluster) bezeichnet und folgt den dynamischen Hörsituationen des jeweiligen Benutzers im Eingangsraum. Die entsprechende Position der MCs wird hier mit MC Pos 13 bezeichnet.
-
Die beweglichen Cluster MC können mit jedem Eingangsmerkmalsvektor e im Raum durch eine Adaptionseinrichtung verschoben werden. Das Nachführen der beweglichen Cluster MC im Eingangsraum wird im Folgenden Eingangsadaption IA (Input Adaption) genannt. Von dem Nachführen ist entweder eines, mehrere oder alle beweglichen Cluster betroffen. Während des Online-Trainings ist es in der Regel nicht notwendig, dass die Position MC Pos eines, mehrerer oder aller beweglichen Cluster ständig aktualisiert wird. Vielmehr genügt es, abhängig von einem vorgegebenen Ereignis aktuelle Positionen der beweglichen Cluster MC zu verwenden. So kann beispielsweise ein Triggersignal dazu verwendet werden, die aktuellen Positionen MC Pos 13 in einen speziellen Speicher des Geräts zu schreiben und für das weitere Online-Training einzusetzen. Diese tatsächlich verwendeten Clusterpositionen werden hier mit MC Pos_dep 14 bezeichnet. Als Triggersignal kann beispielsweise das Einschaltsignal, ein Zeitsignal oder ein Nutzereingabesignal verwendet werden.
-
Bei der Eingangsadaption erfolgt also eine kontinuierliche Anpassung der Position im Eingangsraum für eines oder mehrere Cluster, die beweglich sind, während die festen Cluster nicht angepasst werden. Es werden deshalb keine Kriterien für das Aufspalten und Verschmelzen von Clustern benötigt.
-
Die genannten Probleme P1 und P2 werden dadurch insoweit gelöst, als die beweglichen Cluster vermehrt in den Regionen des Eingaberaums bereitgestellt werden, die beim jeweiligen Benutzer häufig bzw. aktuell angesprochen werden. Damit ist es möglich, beispielsweise Übergangszonen zwischen Klassen feiner zu repräsentieren und/oder ein glattes zeitliches Ausgabeverhalten zu erreichen (vgl. 6). Darüber hinaus ist das Problem P3 lösbar, sofern die Label der beweglichen Cluster MC auch ohne Benutzereingabe periodisch neu berechnet werden, z. B. beim Systemstart.
-
Jedes Cluster besitzt eine Einstellgröße bzw. ein Label, das die Werte eines oder mehrerer Parameter zum Einstellen des Geräts (z. B. Hörvorrichtung oder Transformator) beschreibt. Ein Label bezeichnet beispielsweise eine Einstellung für die Lautstärke in mehreren Einstellschritten. Sie kann aber auch eine kontinuierliche Größe für die Einstellung, d. h. im Ausgangsraum, bezeichnen. Somit ließe sich beispielsweise mit einem Label eine graduelle (z. B. probabilistische) Klassenzugehörigkeit beschreiben. Ein veränderbares Label eines beweglichen Clusters wird hier als MC L 15 bezeichnet. Ein ebenfalls veränderbares Label eines festen Clusters FC wird hier als FC L 16 dargestellt. Außerdem verfügt das System über nicht veränderbare Label FC L_ini 17, die fest vom Hersteller vorgegeben sind. Natürlich ist die Verwendung von festen und veränderbaren Labels an die jeweilige Situation anpassbar. So können bei einem Online-Training auch nur feste oder nur veränderbare Labels für feste Cluster verwendet werden.
-
Die Label für verschobene Cluster müssen neu berechnet werden. Dazu eignen sich verschiedene Methoden. Gemeinsam ist allen Methoden, dass Cluster, die im Eingaberaum der Benutzereingabe benachbart sind, ähnliche Label wie die Benutzereingabe bekommen. Mögliche Methoden zur Berechnung der Clusterlabel sind:
- – halbüberwachtes Lernen wie es beispielsweise in der Druckschrift WO2008/084116 A2 verwendet wird.
- – nachbarschaftsbasierte Regression:
Das Label eines bei der Eingangsadaption verschobenen Clusters wird mit Hilfe der Label der Nachbarcluster ermittelt. Sei hierbei L die Menge der Cluster mit bekanntem Label, so umfasst L die vom Hersteller vorbelegten festen Cluster FC sowie eine Anzahl von gespeicherten Benutzereingaben 18 (UI; User Input). Sei darüber hinaus M die Menge aller Cluster, mit L als Teilmenge aus M. Für jedes Cluster aus M werden mittels einer geeigneten Metrik die lokalen Nachbarn in L berechnet, dann deren Label gemittelt und dem Cluster als neues Label zugewiesen.
-
Die lokalen Nachbarn können alle Nachbarn mit einem Abstand innerhalb eines festen Radius sein oder die k-nächsten Nachbarn sein (k fest oder auch variabel).
-
Statt einer gewichteten Mittelung kann alternativ ein gewichteter Median verwendet werden.
-
Als Metrik kann beispielsweise der Abstand der Cluster in einem Nachbarschafts-Graph benutzt werden. Der Graph verbindet ähnliche Cluster, sodass die Metrik die Abstände der Cluster in einer sogenannten Mannigfaltigkeit des Eingaberaums widerspiegelt. Der Graph selbst kann durch halbüberwachtes Lernen ermittelt werden.
-
Der Hauptunterschied zum halbüberwachten Lernen ist, dass die nachbarschaftsbasierte Regression einfacher zu berechnen ist als das halbüberwachte Lernen (letzteres erfordert unter anderem eine Matrixinversion).
- – rekursives Fortschreiben der Clusterlabel:
Die zur Benutzereingabe benachbarten Cluster werden ermittelt und deren Label wird jeweils rekursiv aktualisiert, y_new = f(y_old, d, u) mit y_new als das neue Label, y_old als das alte Label, d als der Abstand zwischen der Benutzereingabe und dem Cluster in einer geeigneten Metrik, u als das Label der Benutzereingabe und f als geeignete Funktion, bei der der Einfluss von u auf y_new mit zunehmendem Abstand d kleiner wird (vgl. 7 und 8).
-
Neben dem Label besitzt jedes Cluster vorzugsweise eine Angabe, wie weit sich der aktuelle Labelwert von einem initial vorgegebenen Wert verändern darf. Es kann also eine clusterspezifische Limitierung der Label-Veränderungen vorgegeben werden. Hierdurch kann sichergestellt werden, dass eine bestimmte Grundfunktionalität des Hörgeräts, insbesondere ein bestimmtes Systemverhalten in bestimmten Hörsituationen, immer gegeben ist, während für andere Hörsituationen (z. B. überlappende Regionen im Eingaberaum bei Musik und Sprachein-Rauschen) der Benutzer mehr Veränderungsmöglichkeiten erhält. Die Grenzen der erlaubten Veränderung können clusterspezifisch sein, sie müssen es aber nicht. Beispielsweise kann ein festes Cluster FC, das Merkmalsvektoren der Klasse „Sprache in Ruhe“ umfasst, sehr enge Grenzen haben, während für ein festes Cluster FC der Klasse „Musik“ oder einer Mischsituation stärkere Änderungen durch Benutzereingaben erlaubt sind.
-
Die Grenzen können beispielsweise während des Trainings beim Hersteller aufgrund der Klassenreinheit des jeweiligen Clusters automatisch festgelegt werden. Dies kann z. B. in der Form erfolgen, dass gut separierte Cluster, denen nur Eingangsvektoren einer einzigen Klasse zugeordnet sind, engere Grenzen bekommen als Cluster, die Eingangsvektoren mehrerer Klassen enthalten, d.h. in einem Randgebiet liegen und deren Label damit eher durch den Benutzer veränderbar sein soll. Auf diese Weise kann ein Schutz gegen inkonsistente Benutzereingaben im Hinblick auf Problem P4 erreicht werden.
-
Die Label MC L 15 der beweglichen Cluster und die Label FC L 16 der festen Cluster werden mit Hilfe einer Recheneinheit 19 zusammen zu bestimmten Zeitpunkten berechnet. Dabei werden gegebenenfalls neben den ursprünglichen Labeln MC L und FC L auch feste Label FC L_ini sowie die variablen Clusterpositionen MC Pos_dep und die festen Clusterpositionen FC Pos verwendet. Außerdem können natürlich Labelwerte L von Benutzereingaben 18 für die Ermittlung der neuen Label berücksichtigt werden. Der jeweilige Zeitpunkt für die Berechnung der Label kann durch eine Benutzereingabe, periodisch oder z. B. beim Systemstart erfolgen.
-
Bei der Eingangs- bzw. Inputadaption wird also ein bewegliches Cluster an einen Eingangsvektor angepasst. Dazu wird beispielsweise das nächstgelegene bewegliche Cluster bestimmt. Dieses bewegliche Cluster wird ein kleines Stück in die Richtung des Eingangsvektors verschoben. Dabei kann die Schrittweite beispielsweise 1 % oder 1 ‰ des Abstands zwischen dem beweglichen Cluster und dem Eingangsvektor für eine Abtastrate von 10 Hz betragen.
-
Nach dem Online-Training gemäß 2 können die gelernten Cluster und Label während des Betriebs des Geräts verwendet werden. Dabei wird wieder aus dem Eingangssignal 10 durch die Merkmalsextraktionseinheit 11 ein Eingangsmerkmalsvektor e gewonnen, wie dies in 3 dargestellt ist. Aus den Clusterpositionen MC Pos_dep 14 und FC Pos 12 sowie den Labeln MC L 15 und FC L 16 gegebenenfalls auch FC L_ini 17 werden mit Hilfe beispielsweise eines k-nächster-Nachbar-Algorithmus 20 eine Ausgabegröße 21, insbesondere ein Parametervektor berechnet. Dieser Parametervektor dient zum automatischen Einstellen des Geräts. Durch die bei der Eingangsadaption veränderten Cluster können vorteilhafterweise insbesondere weichere Übergänge in Grenzsituationen erreicht werden, bei denen das Eingangssignal nicht eindeutig den ursprünglichen Clustern zugeordnet werden könnte. Es können damit benachbarte Eingangswerte eher benachbarten Ausgangswerten zugeordnet werden.
-
Die 4 und 5 zeigen ein konkretes Beispiel für eine Eingangsadaption. 4 zeigt eine zweidimensionale Projektion von Clustern im Eingangsmerkmalsraum vor einer Adaption. Bewegbare Cluster sind als Dreiecke dargestellt, während fest vorgegebene Cluster als Punkte dargestellt sind. Insbesondere sind Cluster der Klasse „Sprache in Störgeräusch“ SiN (Speach in Noise), der Klasse „Störgeräusch“ N (Noise), der Klasse „Musik“ M (Music) und der Klasse „Autogeräusch“ C (Car) mit unterschiedlichen Symbolen eingezeichnet. Die festen Cluster und die beweglichen Cluster sind vor der Adaption deckungsgleich. Das Hörgerät wurde hier ohne die Klasse „Sprache in Ruhe“ SiQ (Speach in Quiet) trainiert. Das so trainierte Hörgerät kann also Audiosignale der Klasse „Sprache in Ruhe“ vor dem Training nicht eindeutig klassifizieren.
-
Zum Training wird dem Hörgerät beispielsweise eine Zufallsmischung von 90 Minuten Sprache in Ruhe und 45 Minuten von Schallbeispielen anderer Klassen präsentiert. Durch das Training bewegen sich einige der beweglichen Cluster (Dreiecke) in eine neue Region 22, die als SiQ-Region bezeichnet werden kann. Zukünftig kann damit das Hörgerät auch Schallbeispiele der Klasse Sprache in Ruhe besser klassifizieren.
-
6 zeigt, dass die Eingangsadaption die zeitliche Stabilität des Ausgangssignals verbessert. Insbesondere ist das Ausgangssignal von drei verschiedenen Verfahren dargestellt, mit denen eine Testaudiodatei, die aus einer Mischung von Sprache und Störgeräusch besteht, klassifiziert wird. Die Kurven stellen die Ausgabe eines Störgeräuschparameters über der Zeit t dar. Die Kurve 23 zeigt das Ausgangssignal eines Klassifikators, der nur binäre Ausgangssignale (0, 1) ausgeben kann. Das Ausgangssignal zeigt unerwünscht hohe Sprünge. Die Kurve 24 zeigt das Ausgangssignal eines Systems, mit dem auch Zwischenwerte zwischen 0 und 1 produziert werden können. Das Ausgangssignal zeigt aber immer noch deutliche Sprünge, da die Testeingangssignale verschiedenen Clustern mit unterschiedlichen Parameter-Label (z. B. 0.8, 0.12, 0.05) zugeordnet werden. Die Kurve 25 gibt das Ausgangssignal des gleichen Systems wie dasjenige von Kurve 24 jedoch mit Eingangsadaption wieder. Die Ausgangsvariation verschwindet komplett, da die Testeingangssignale bewegbaren Clustern zugeordnet werden, die hier die gleichen Parameter-Label besitzen. Die Eingangsadaption führt also zu einem deutlich verbesserten Höreindruck. 6 zeigt damit an, wie stark die jeweils jetzige Situation eine Störgeräusch- bzw. Rauschsituation ist.
-
Die 7 und 8 zeigen ein konkretes Beispiel zur Berechnung der Clusterlabel über rekursives Fortschreiben. Die Kreise in den beiden Figuren stellen Cluster dar. Die Werte in den Kreisen repräsentieren Cluster-Label. Die Verbindungslinien zwischen den Clustern repräsentieren die jeweiligen Clusterabstände. In einem Iterationsschritt n ergeben sich die in 7 dargestellten Werte im Graphen. Es erfolgt zusätzlich an der Clusterposition 26 eine Nutzereingabe mit dem Label-Wert „2“.
-
In dem in 8 dargestellten Iterationsschritt n + 1 sind die Clusterlabel neu berechnet. Das der Clusterposition 26 nächstliegende Cluster erhält den Label-Wert „2“. Die Label für den Iterationsschritt n+1 werden nach folgender Formel berechnet:
yc (n+1)=(1 – λc)yc(n) + λcyl, für alle Cluster c. Dabei bezeichnet y den jeweiligen Label-Wert, n den diskreten Zeitschritt. λc, das Werte zwischen 0 und 1 annehmen kann, stellt den Einfluss der Nutzereingabe auf das jeweilige Cluster-Label dar und kann beispielsweise eine monotone Funktion der jeweiligen Distanz auf dem Graphen sein.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- WO 2008/084116 A2 [0007, 0041]
-
Zitierte Nicht-Patentliteratur
-
- Lamarche et al.: „Adaptive environment classification system for hearing aids“, J. Acoust. Soz. und Am. 127 (5), Mai 2010, Seiten 3125 bis 3135 [0005]
- Tser Ling Yvonne Moh, „Semi-supervised online learning for accoustic data mining“, DISS. ETH NO. 19395, ETH ZÜRICH, 2010 (http://e-collection.library.ethz.ch/eserv/eth:2801/eth-2801-01.pdf) [0007]