DE102011087984A1

DE102011087984A1 - Hörvorrichtung mit Sprecheraktivitätserkennung und Verfahren zum Betreiben einer Hörvorrichtung

Info

Publication number: DE102011087984A1
Application number: DE102011087984A
Authority: DE
Inventors: Marko Lugger
Original assignee: Siemens Medical Instruments Pte Ltd
Current assignee: Sivantos Pte Ltd
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2013-06-13
Also published as: US8873779B2; EP2603018A1; US20130148829A1; DK2603018T3; EP2603018B1

Abstract

Eine Aufgabe der vorliegenden Erfindung besteht darin, eine zuverlässige Eigenstimmerkennung des Trägers einer Hörvorrichtung bereitzustellen. Die erfindungsgemäße Hörvorrichtung (10) umfasst wenigstens zwei unabhängige Analyseeinrichtungen (32 bis 38), von denen jede dazu ausgelegt ist, auf der Grundlage eines von der Hörvorrichtung (10) empfangenen Audiosignals (12) Sprachaktivitätsdaten (40 bis 46) zu gewinnen, welche von der Sprecheraktivität eines Trägers der Hörvorrichtung (10) abhängig sind. Eine Fusionseinrichtung (48) ist dazu ausgelegt, die Sprachaktivitätsdaten (40 bis 46) von den Analyseeinrichtungen (32 bis 38) zu empfangen und auf der Grundlage dieser Sprachaktivitätsdaten (40 bis 46) dann zu erkennen, ob der Träger gerade spricht oder nicht.

Description

Die Erfindung betrifft eine Hörvorrichtung, welche dazu ausgelegt ist, selbsttätig zu erkennen, ob ein Träger der Hörvorrichtung gerade spricht oder nicht. Zu der Erfindung gehört auch ein Verfahren zum Betreiben einer Hörvorrichtung, mittels welchem ebenfalls automatisch erkannt werden kann, ob der Träger der Hörvorrichtung selbst spricht. Unter einer Hörvorrichtung wird hier jedes im oder am Ohr tragbare, schallausgebende Gerät verstanden, insbesondere ein Hörgerät, ein Headset, Kopfhörer.
Hörgeräte sind tragbare Hörvorrichtungen, die zur Versorgung von Schwerhörenden dienen. Um den zahlreichen individuellen Bedürfnissen entgegenzukommen, werden unterschiedliche Bauformen von Hörgeräten wie Hinter-dem-Ohr-Hörgeräte (HdO), Hörgerät mit externem Hörer (RIC: receiver in the canal) und In-dem-Ohr-Hörgeräte (IdO), z.B. auch Concha-Hörgeräte oder Kanal-Hörgeräte (ITE, CIC), bereitgestellt. Die beispielhaft aufgeführten Hörgeräte werden am Außenohr oder im Gehörgang getragen. Darüber hinaus stehen auf dem Markt aber auch Knochenleitungshörhilfen, implantierbare oder vibrotaktile Hörhilfen zur Verfügung. Dabei erfolgt die Stimulation des geschädigten Gehörs entweder mechanisch oder elektrisch.
Hörgeräte besitzen prinzipiell als wesentliche Komponenten einen Eingangswandler, einen Verstärker und einen Ausgangswandler. Der Eingangswandler ist in der Regel ein Schallempfänger, z. B. ein Mikrofon, und/oder ein elektromagnetischer Empfänger, z. B. eine Induktionsspule. Der Ausgangswandler ist meist als elektroakustischer Wandler, z. B. Miniaturlautsprecher, oder als elektromechanischer Wandler, z. B. Knochenleitungshörer, realisiert. Der Verstärker ist üblicherweise in eine Signalverarbeitungseinheit integriert. Dieser prinzipielle Aufbau ist in 1 am Beispiel eines Hinter-dem-Ohr-Hörgeräts dargestellt. In ein Hörgerätegehäuse 1 zum Tragen hinter dem Ohr sind ein oder mehrere Mikrofone 2 zur Aufnahme des Schalls aus der Umgebung eingebaut. Eine Signalverarbeitungseinheit 3, die ebenfalls in das Hörgerätegehäuse 1 integriert ist, verarbeitet die Mikrofonsignale und verstärkt sie. Das Ausgangssignal der Signalverarbeitungseinheit 3 wird an einen Lautsprecher bzw. Hörer 4 übertragen, der ein akustisches Signal ausgibt. Der Schall wird gegebenenfalls über einen Schallschlauch, der mit einer Otoplastik im Gehörgang fixiert ist, zum Trommelfell des Geräteträgers übertragen. Die Energieversorgung des Hörgeräts und insbesondere die der Signalverarbeitungseinheit 3 erfolgt durch eine ebenfalls ins Hörgerätegehäuse 1 integrierte Batterie 5.
Bei vielen Hörvorrichtungen und insbesondere bei Hörgeräten ist man bemüht, die Höranstrengung so gering wie möglich zu halten, wenn Umgebungsschall über die Hörvorrichtung wahrgenommen wird. Hierzu kann vorgesehen sein, ein Sprachsignal in denjenigen spektralen Bändern, in welchen der Träger der Hörvorrichtung nur schlecht hört, zu verstärken. Eine andere Möglichkeit besteht darin, einen Beamformer bereitzustellen, welcher sein Richtverhalten in der Weise anpasst, dass eine Hauptkeule des Beamformers stets in diejenige Richtung weist, aus welcher beispielsweise die Stimme eines Gesprächspartners des Trägers der Hörvorrichtung kommt. Solche Algorithmen müssen ihr Verhalten prinzipiell nicht ändern, wenn der Träger der Hörvorrichtung Stimmen unterschiedlicher Sprecher aus verschiedenen Richtungen wahrnehmen möchte. Die Verstärkung der unterschiedlichen Frequenzbänder in Abhängigkeit von dem Hörvermögen des Trägers der Hörvorrichtung kann in der Regel stets dieselbe bleiben, also unabhängig von den wechselnden Sprechern. Ein Beamformer muss lediglich schnell genug zwischen den Richtungen wechseln können, aus welchen die Stimmen der Sprecher abwechselnd kommen.
Anders sieht es in dem Fall aus, wenn der Träger der Hörvorrichtung selbst spricht. Der Träger nimmt seine eigene Stimme beispielsweise aufgrund einer Knochenschallübertragung stets anders wahr als die Stimme von Personen in seiner Umgebung. Wird nun durch die Hörvorrichtung die eigene Stimme des Trägers von einem Mikrofon als Luftschall erfasst und in der gleichen Weise prozessiert wie die Stimmen anderer Sprecher, so nimmt der Träger der Hörvorrichtung seine eigene Stimme verfremdet wahr. Im Falle eines Beamforming ist bei einer Sprachaktivität des Trägers der Hörvorrichtung nicht klar, wohin die Hauptkeule des Beamformers eigentlich zeigen soll. Diese Beispiele verdeutlichen, dass es bei einer Hörvorrichtung für viele Algorithmen von Vorteil ist, wenn bei der Verarbeitung des Audiosignals bekannt ist, ob gerade der Träger der Hörvorrichtung selbst spricht oder ob ein erfasster Schall aus einer Umgebung des Trägers von einer externen Schallquelle auf die Hörvorrichtung getroffen ist.
Im Zusammenhang mit Hörgeräten ist als heutige Lösung für eine solche Eigenstimmerkennung (OVD – Own Voice Detection) bekannt, in einem Ohrstück eines Hörgeräts ein zusätzliches Mikrofon vorzusehen, dessen Schalleintrittsöffnung in das Innere des Ohrkanals weist. Durch Vergleichen des Signal des äußeren, regulären Mikrofon mit dem Signal des zusätzlichen Mikrofons kann erkannt werden, ob der Träger der Hörvorrichtung das Audiosignal selbst mit seiner Stimme erzeugt hat oder ob es sich um ein Audiosignal einer externen Schallquelle handelt. Nachteilig bei dieser Lösung ist, dass das Hörgerät sowohl mit einem zusätzlichen Mikrofon als auch mit der benötigten Schaltung zum Verarbeiten von dessen Mikrofonsignal ausgestattet sein muss, was die Herstellungskosten des Hörgeräts entsprechend erhöht. Zudem führt der Vergleich der beiden Mikrofonsignale nur dann zu verlässlichen Ergebnissen, wenn das Ohrstück des Hörgeräts fest im Gehörgang sitzt, so dass das innere Mikrofon ausreichend vom Umgebungsschall abgeschirmt ist.
Eine Aufgabe der vorliegenden Erfindung besteht darin, eine zuverlässige Eigenstimmerkennung für eine Hörvorrichtung bereitzustellen.
Die Aufgabe wird durch eine Hörvorrichtung gemäß Patentanspruch 1 sowie durch ein Verfahren gemäß Patentanspruch 4 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Unteransprüche gegeben.
Die erfindungsgemäße Hörvorrichtung und das erfindungsgemäße Verfahren sind nicht auf einen Vergleich zweier unabhängig voneinander erfasster Audiosignale angewiesen. Stattdessen wird eine zuverlässige und robuste Eigensprechererkennung erzielt, indem von der Hörvorrichtung empfangene Audiosignale auf mehr als eine Analyseart darauf hin untersucht werden, ob sie auf eine Eigensprecheraktivität hindeuten. Die unterschiedlichen Analyseergebnisse werden dann in einem zweiten Schritt zusammengeführt, um aus den zusammengeführten Informationen eine zuverlässige Aussage darüber zu treffen, ob der Träger der Hörvorrichtung gerade spricht oder nicht. Das Risiko einer falschen Eigensprecherdetektion wird durch diese Fusion der unterschiedlichen Informationsquellen deutlich reduziert, da falsche Detektionsergebnisse, wie sie sich aufgrund lediglich einer einzelnen Analyse ergeben können, durch die Ergebnisse anderer Analysen kompensiert werden, die für eine spezielle Situation evtl. besser geeignet sind.
Um diese Erkenntnis der Erfindung umzusetzen, weist die erfindungsgemäße Hörvorrichtung wenigstens zwei unabhängige Analyseeinrichtungen auf, von denen jede dazu ausgelegt ist, auf der Grundlage eines von der Hörvorrichtung empfangenen Audiosignals Daten zu gewinnen, die hier als Sprachaktivitätsdaten bezeichnet werden und von denen ausgegangen wird, dass sie von einer Sprecheraktivität des Trägers der Hörvorrichtung abhängig sind. Im Zusammenhang mit der Erfindung ist unter einem Audiosignal hierbei ein elektrisches oder digitales Signal zu verstehen, welches Signalanteile im Audiofrequenzbereich aufweist. Jeder der Analyseeinrichtungen kann ein Audiosignal aus einer anderen Signalquelle zugeführt werden. Es kann aber auch ein und dasselbe Audiosignal mehreren Analyseeinrichtungen zugeführt werden. Beispiele für Quellen eines Audiosignals sind ein Mikrofon, ein Beamformer oder ein Körperschallsensor.
Durch die Analyseeinrichtung werden die Sprachaktivitätsdaten jeweils auf Grundlage eines anderen Analysekriteriums gewonnen, also beispielsweise in Abhängigkeit von einer Einfallsrichtung eines Umgebungsschalls, in Abhängigkeit von spektralen Werten eines Frequenzspektrums des Audiosignals, auf der Grundlage einer sprecherunabhängigen Sprachaktivitätserkennung oder in Abhängigkeit von einer binauralen Information, wie sie gewonnen werden kann, wenn an unterschiedlichen Seiten eines Kopfes des Trägers Audiodaten erfasst werden.
Um nun aus den Sprachaktivitätsdaten der einzelnen Analyseeinrichtung eine zuverlässige Aussage darüber treffen zu können, ob der Träger gerade spricht oder nicht, weist die erfindungsgemäße Hörvorrichtung eine Fusionseinrichtung auf, welche dazu ausgelegt ist, die Sprachaktivitätsdaten von den Analyseeinrichtungen zu empfangen und auf der Grundlage der Sprachaktivitätsdaten die Eigensprechererkennung durchzuführen. Es kann hierbei ausreichend sein, dass die Fusionseinrichtung dazu ausgelegt ist zu erkennen, ob die Stimme des Trägers aktiv ist oder nicht. Es muss nur in wenigen Fällen die Identität des Trägers erkannt werden, z. B. bei der Verwendung spektraler Merkmale.
Wie bereits beschrieben, können mehrere Audioquellen zum Bereitstellen von unterschiedlichen Audiosignalen verwendet werden. Besonders günstig lässt sich die erfindungsgemäße Hörvorrichtung jedoch herstellen, wenn nur diejenige Mikrofoneinrichtung benutzt wird, mittels welcher auch der auf den Träger treffende Umgebungsschall in das Nutzsignal umgewandelt wird, welches dem Träger der Hörvorrichtung in prozessierter Form dargeboten werden soll. Mit einer Mikrofoneinrichtung ist hierbei nicht unbedingt ein einzelnes Mikrofon gemeint. Es kann auch ein Mikrofonarray oder eine andere Anordnung aus mehreren Mikrofonen verwendet werden.
Um auf eine durch die Fusionseinrichtung erkannte Sprecheraktivität des Trägers angemessen reagieren zu können, weist eine besonders zweckmäßige Weiterbildung der erfindungsgemäßen Hörvorrichtung eine Anpassungseinrichtung auf, welche dazu ausgelegt ist, eine Betriebsweise der Hörvorrichtung zu verändern, falls der Träger spricht. Insbesondere kann hier vorgesehen sein, dass ein Übertragungsverhalten der Hörvorrichtung angepasst wird, um dem Träger der Hörvorrichtung einen neutralen Klangeindruck von seiner eigenen Stimme zu vermitteln. Hierbei hat es sich als besonders zweckmäßig erwiesen, einen niederfrequenten Anteil des Nutzsignals zu dämpfen, um die als Okklusionseffekt bekannte verzerrte Wahrnehmung der eigenen Stimme zu vermeiden. Im Zusammenhang mit einer ausrichtbaren Beamformingeinrichtung wird zweckmäßigerweise deren Richtverhalten angepasst. So ist es insbesondere günstig, das selbsttätige Ausrichten der Richtcharakteristik zu blockieren, während die Stimme des Trägers aktiv ist.
Durch die Erfindung wird auch ein Verfahren zum Betreiben einer Hörvorrichtung bereitgestellt. Gemäß dem Verfahren werden mittels wenigstens zweier Analyseeinrichtungen unabhängig voneinander jeweils Sprachaktivitätsdaten gewonnen, d.h. Daten, die von einer Sprecheraktivität eines Trägers der Hörvorrichtung abhängig sind. Die Sprachaktivitätsdaten der Analyseeinrichtung werden mittels einer Fusionseinrichtung kombiniert. Auf der Grundlage dieser kombinierten Sprachaktivitäten dann zusammenfassend überprüft, ob der Träger spricht oder nicht.
Die Analyse des Audiosignals durch die einzelnen Analyseeinrichtungen und die Sprachaktivitätserkennung durch die Fusionseinrichtung können dabei auf zahlreiche unterschiedliche Weisen geschehen. Das erfindungsgemäße Verfahren ermöglicht es dabei in vorteilhafter Weise, die unterschiedlichsten Analysemethoden frei zu kombinieren und sie für eine zuverlässige und robuste Gesamtaussage über die Sprachaktivität zu kombinieren.
So kann vorgesehen sein, dass durch wenigstens eine der Analyseeinrichtungen eine Merkmalsextraktion durchgeführt wird. Dies bedeutet, dass in Abhängigkeit von dem Audiosignal Merkmalswerte ermittelt werden, wie etwa eine Einfallsrichtung eines Schalls, welcher das Audiosignal hervorgerufen hat, oder eine Halligkeit des Audiosignals. Bei den Merkmalen kann es sich auch um eine bestimmte Repräsentation einzelner Segmente des Audiosignals handeln, wie etwa spektrale oder cepstrale Koeffizienten, Koeffizienten eine linearen Prädiktion (LPC – Linear Prediction Coefficients). Als abstraktere Merkmale sind beispielsweise das Geschlecht des Sprechers (männliche oder weibliche Stimme) oder das Ergebnis einer Phonemanalyse (Vokal, Frikativ, Plosiv) denkbar.
Genauso kann es zweckmäßig sein, durch die Analyseeinrichtung bereits eine vorläufige Aussage darüber zu treffen, ob der Träger der Hörvorrichtung gerade spricht. Dies kann in Form eines Wahrscheinlichkeitswertes geschehen (Werte zwischen null und eins) oder aber auch bereits als so genannte harte oder binäre Entscheidung (spricht oder spricht nicht). Letzteres kann durch eine Analyseeinrichtung ermöglicht sein, die als Klassifikator fungiert und hierzu auf der Grundlage eines Klassifikationskriteriums überprüft, ob der Träger spricht oder nicht. Solche Klassifikationskriterien sind aus dem Stand der Technik beispielsweise im Zusammenhang mit einer so genannten sprecherunabhängigen Voice-Activity-Detection (VAD) an sich bekannt und verfügbar.
Liegen nun Sprachaktivitätsdaten mehrerer Analyseeinrichtungen vor, so kann, je nach Art der Sprachaktivitätsdaten, zweckmäßigerweise durch die Fusionseinrichtung eine Gewichtung der einzelnen Sprachaktivitätsdaten durchgeführt werden. Diese Gewichtung ist dann dabei davon abhängig, von welcher Analyseeinrichtung die jeweiligen Sprachaktivitätsdaten stammen. Durch die Gewichtung wird hier in vorteilhafter Weise erreicht, dass je nach aktueller Situation eine Analyseeinrichtung, von der bekannt ist, dass sie in dieser Situation erwartungsgemäß nur unzuverlässige Daten liefert, weniger Einfluss auf das Entscheidungsergebnis erhält als eine bekanntermaßen in der Situation zuverlässig arbeitende Analyseeinrichtung. Dabei sind für diese Gewichtungen entweder trainierbare oder untrainierbare Ausführungsformen realisierbar. Die gewichteten Sprachaktivitätsdaten lassen sich schließlich miteinander verknüpfen, wodurch sich die bereits beschriebene Informationsfusion ergibt.
Besonders einfach lassen sich Sprachaktivitätsdaten unterschiedlicher Analyseeinrichtungen kombinieren, wenn durch die Sprachaktivitätsdaten bereits eine Vorentscheidung über die Sprecheraktivität vorliegt. Dann kann beispielsweise durch die Fusionseinrichtung eine Mehrheitsentscheidung getroffen werden, die etwas darüber aussagt, ob durch die Analyseeinrichtungen zusammen die Sprecheraktivität angezeigt wird.
Eine andere zweckmäßige Form der Datenfusion besteht darin, aus den so genannten Softentscheidungen von Sprachaktivitätsdetektoren einen Mittelwert zu berechnen. Solche Sprachaktivitätsdetektoren können dazu in wenigstens zwei Analyseeinrichtungen z.B. mit unterschiedlicher Parametrierung bereitgestellt sein.
Die vorangehend beschriebenen Weiterbildungen der Analyseeinrichtungen und der Fusionseinrichtung beziehen sich sowohl auf die erfindungsgemäße Hörvorrichtung als auch auf das erfindungsgemäße Verfahren.
Im Folgenden wird die Erfindung noch einmal genauer anhand von Ausführungsbeispielen beschrieben. Es zeigt:
1 eine schematische Darstellung eines Hörgeräts gemäß dem Stand der Technik und
2 eine schematische Darstellung einer Hörvorrichtung gemäß einer Ausführungsform der erfindungsgemäßen Hörvorrichtung.
Die Beispiele stellen bevorzugte Ausführungsformen der Erfindung dar.
In 2 ist eine Hörvorrichtung 10 gezeigt, welche einen Schall 12 aus einer Umgebung eines Trägers der Hörvorrichtung erfasst. Das Audiosignal des Schalls 12 wird durch die Hörvorrichtung 10 verarbeitet und als Ausgabeschallsignal 14 in einem Gehörgang 16 des Trägers der Vorrichtung wiedergegeben. Bei der Hörvorrichtung 10 kann es sich beispielsweise um ein Hörgerät, wie etwa ein Hinter-dem-Ohr-Hörgerät oder ein In-dem-Ohr-Hörgerät handeln. Die Hörvorrichtung 10 erfasst den Umgebungsschall 12 mittels einer Mikrofoneinrichtung 18, auf die der Umgebungsschall 12 aus der Umgebung trifft und die das Audiosignal des Schalls 12 in ein digitales Nutzsignal umwandelt. Das Nutzsignal wird durch eine Verarbeitungseinrichtung 20 der Hörvorrichtung 10 verarbeitet und anschließend in verarbeiteter Form durch einen Hörer 22 der Hörvorrichtung 10 in dem Gehörgang 16 als der Ausgangsschall 14 abgestrahlt.
Die Mikrofoneinrichtung 18 kann ein oder mehrere Mikrofone aufweisen. In 2 ist beispielhaft eine Mikrofoneinrichtung 18 mit drei Mikrofonen 24, 26, 28 dargestellt. Die Mikrofone 24 bis 28 können ein Mikrofonarray bilden; sie können aber auch unabhängig voneinander beispielsweise an gegenüberliegenden Seiten des Kopfes des Trägers der Hörvorrichtung angebracht sein. Bei der Verarbeitungseinrichtung 20 kann es sich beispielsweise um einen digitalen Signalprozessor handeln. Die Verarbeitungseinrichtung 20 kann aber auch durch separate oder integrierte Schaltkreise realisiert sein. Der Hörer 22 kann beispielsweise ein Kopfhörer sein oder ein RIC (Receiver in the Canal) oder auch ein externer Hörgerätehörer, dessen Schall über einen Schallschlauch in den Gehörgang 16 geleitet wird.
Bei der Hörvorrichtung 10 ist vorgesehen, dass für den Fall, dass der Schall 12 von einer externen Schallquelle, beispielsweise einem Gesprächspartner des Geräteträgers oder einer Musikquelle stammt, die das Nutzsignal durch eine Signalverarbeitung 30 in der Weise verarbeitet wird, dass der Geräteträger ein an sein Hörvermögen angepasstes Ausgangsschallsignal 14 wahrnimmt.
Für den Fall, dass der Träger der Hörvorrichtung 10 selbst spricht, singt oder andere Geräusche mit seiner Stimme erzeugt, die er nicht nur über die Hörvorrichtung 10, sondern auch z.B. durch Knochenschall mit seinem Gehör wahrnimmt, wird die Signalverarbeitung 30 in einen Modus umgeschaltet, durch welchen dem Träger ein neutraler Klangeindruck der eigenen Stimme vermittelt wird, wenn er diese zusätzlich auch über die Hörvorrichtung 10 wahrnimmt. Die hierzu durch die Signalverarbeitung 30 durchzuführenden Maßnahmen sind an sich aus dem Stand der Technik bekannt.
Um die Signalverarbeitung 30 zwischen den beiden Modi umzuschalten, wird durch die Verarbeitungseinrichtung 20 das im Folgenden näher erläuterte Verfahren durchgeführt. Das Verfahren ermöglicht es, zuverlässig auf der Grundlage des Umgebungsschalls 12 zu erkennen, ob es sich bei dem Umgebungsschall 12 um die eigene Stimme des Trägers der Hörvorrichtung 10 handelt oder nicht. Das Verfahren verlässt sich dabei nicht auf akustische Merkmale einer einzelnen Informationsquelle. Ein Signal einer solchen einzelnen Quelle wäre mit einer zu großen Varianz behaftet, so dass eine verlässliche Aussage über die Sprecheraktivität nur durch eine Glättung des Signals über einen langen Zeitraum hin erreicht werden könnte. Damit könnte die Verarbeitungseinrichtung 20 nicht auf schnelle Wechsel zwischen der Stimme des Trägers der Hörvorrichtung 10 einerseits und der Stimme einer anderen Person reagieren. In anderen akustischen Szenarien, in welchen der Umgebungsschall 12 mit wechselnden Anteilen sowohl die Stimme des Trägers als auch Umgebungsgeräusche enthält, könnte auf der Grundlage einer einzigen Quelle für akustische Merkmale überhaupt keine zuverlässige Entscheidung getroffen werden.
Aus diesem Grund sind bei der Verarbeitungseinrichtung 20 mehrere Analyseeinrichtungen 32, 34, 36, 38 bereitgestellt, die unabhängige Informationsquellen betreffend die Sprecheraktivität des Trägers der Hörvorrichtung darstellen. Die hier gezeigten vier Analyseeinrichtungen 32 bis 38 stellen nur eine beispielhafte Konfiguration einer Verarbeitungseinrichtung dar. Die Analyseeinrichtungen 32 bis 38 können beispielsweise durch ein oder mehrere Analyseprogramme für einen digitalen Signalprozessor bereitgestellt sein.
Die Analyseeinrichtungen 32 bis 38 erzeugen in Abhängigkeit von dem Nutzsignal der Mikrofoneinrichtung 18 Ausgangssignale, welche Daten bzgl. der Sprachaktivität des Hörgeräteträgers d. h. Sprachaktivitätsdaten 40, 42, 44, 46 enthalten. Die Sprachaktivitätsdaten 40 bis 46 werden von einer Fusionseinrichtung 48 fusioniert (FUS – Fusion), das heißt sie werden zu einem einzigen Signal kombiniert, welches anzeigt, ob die Stimme des Trägers aktiv ist (OVA – Own Voice Active), oder ob sie nicht aktiv ist (OVNA – Own Voice not Active). Das Ausgangssignal der Fusionseinrichtung 48 bildet ein Steuersignal der Signalverarbeitung 30, durch welches die Signalverarbeitung 30 zwischen den beiden beschriebenen Modi hart umgeschaltet oder weich umgeblendet wird.
Generell ist zu den Analysekriterien der Auswerteeinrichtung 32 bis 38 anzumerken, dass der Fachmann auf der Grundlage einfacher Versuche zu einem konkreten Modell einer Hörvorrichtung auf einfache Weise geeignete Analysekriterien finden kann, um zwischen einem Umgebungsschall 12, der von der Stimme des Trägers der Hörvorrichtung 10 selbst erzeugt wird, und einen Umgebungsschall 12, der von Schallquellen aus der Umgebung des Trägers stammt, unterscheiden zu können. Im Folgenden sind beispielhafte mögliche Ausgestaltungen der Analyseeinrichtungen 32 bis 38 beschrieben, die sich als besonders zweckmäßig erwiesen hat.
Durch die Analyseeinrichtung 32 kann beispielsweise eine Auswertung einer räumlichen Information durchgeführt werden, wie sie auf der Grundlage mehrerer Mikrofonkanäle (MC – Multi Channel) in an sich bekannter Weise gewonnen werden können. Hierdurch kann beispielsweise eine Einfallrichtung 50 ermittelt werden, aus welcher der Umgebungsschall 12 auf die Mikrofoneinrichtung 18 oder zumindest einige von deren Mikrofone 24 bis 28 trifft.
Durch die Auswerteeinrichtung 34 kann beispielsweise eine spektrale Auswertung auf der Grundlage eines einzelnen Mikrofonkanals (SC – Single Channel) erfolgen. Solche Analysen sind ebenfalls an sich aus dem Stand der Technik bekannt und beruhen beispielsweise auf der Auswertung einer Signalleistung in einzelen spektralen Bändern des Audiosignals. Eine mögliche spektrale Information besteht in einer Sprecherverifikation. Durch eine solche Sprecherverifikation wird eine „Eins aus N“ Sprechererkennung durchgeführt, d. h. es wird ein ganz bestimmter Sprecher aus mehreren möglichen Sprechern erkannt. Sie kann beispielsweise anhand einer spektralen Charakteristik des zu erkennenden Sprechers, also hier des Trägers der Hörvorrichtung 10, durchgeführt werden.
Durch die Analyseeinrichtung 36 kann beispielsweise eine sprecherunabhängige Sprachaktivitätsdetektion (VAD) auf der Grundlage eines einzelnen Mikrofonkanals durchgeführt werden. Durch die Analyseeinrichtung 38 kann aus mehreren Mikrofonkanälen eine binaurale Information gewonnen werden, wie sie im Unterschied zu einem Mikrofonarray auch mit weiter beabstandeten Mikrofonen gewonnen werden kann.
Die Ausgabesignale der einzelnen Analyseeinrichtungen 32 bis 38, d.h. die Sprachaktivitätsdaten 40 bis 46, können je nach Analyseart die extrahierte Information in unterschiedlicher Weise repräsentieren. Zweckmäßige Formen sind die Ausgabe von Merkmalen in Form von diskreten realen Zahlen, die Ausgabe von Wahrscheinlichkeiten (also etwa realen Zahlen zwischen null und eins) oder sogar die Ausgabe von konkreten Entscheidungen zur Sprecheraktivität (also evtl. binäre Ausgaben von null oder eins). Bei den Wahrscheinlichkeiten kann es sich beispielsweise um Likelihoodwerte handeln. In 2 ist jede dieser Ausgabeform durch entsprechende Hinweise auf Merkmale X, Wahrscheinlichkeiten P (Probability) oder Entscheidungen D (Decision) veranschaulicht.
Durch die Fusionseinrichtung 48 wird eine Auswertung der Sprachaktivitätsdaten 40 bis 46 durchgeführt, die letztlich für die Steuerung der Signalverarbeitung 30 entscheidend ist. Bei der Fusionseinrichtung 48 kann es sich beispielsweise um ein Programm oder einen Programmabschnitt eines digitalen Signalprozessors handeln.
Die Art der „Fusion“ der Aktivitätsdaten 40 bis 46 hängt dabei ebenfalls in hohem Maß von den verwendeten Analyseeinrichtungen 32 bis 38 sowie von der verwendeten Form der Sprachaktivitätsdaten 40 bis 46 (Merkmale, Wahrscheinlichkeiten oder Einzelentscheidungen) ab. Durch die Fusionseinrichtung 48 können die Sprachaktivitätsdaten beispielsweise parallel verarbeitet werden oder seriell oder auch in einem hybriden Ansatz.
Die Sprachaktivitätsdaten 40 bis 46 können dabei durch die Fusionseinrichtung 48 einer eingangsseitigen Gewichtung unterzogen werden. Geeignete Gewichte lassen sich beispielsweise mittels eines Trainingsprozesses auf der Grundlage von Trainingsdaten ermitteln, die zum Beispiel mittels eines Lautsprechers als Umgebungsschall 12 auf die Hörvorrichtung 10 abgestrahlt werden können. Mittels des Trainingsprozesses lassen sich die Gewichte dann beispielsweise in Form einer Kovarianzmatrix ermitteln, durch welche ein Zusammenhang zwischen den Sprachaktivitätsdaten 40 bis 46 einerseits und der zu treffenden, wahren Entscheidung (Träger spricht oder spricht nicht) beschrieben ist. Bei Verwendung einer Kovarianzmatix werden die Sprachaktivitätsdaten 40 bis 46 zweckmäßigerweise in Form eines Vektors an die Fusionseinrichtung 48 übertragen, in welchem die Zahlenwerte der Analyseergebnisse, beispielsweise die Wahrscheinlichkeiten, zusammengefasst sind. Über die Kovarianzmatrix können für den Fall, dass zwei oder mehr der Analyseeinrichtungen 32 bis 38 Merkmale X1, X2, X3, X4 als Sprachaktivitätsdaten 40 bis 46 erzeugen, daraus zusammengefasste Merkmale X gebildet werden, die dann in Bezug auf die Sprachaktivität des Trägers ausgewertet werden. Die Auswertung der Merkmale bzgl. der Sprecheraktivität kann beispielsweise auf der Grundlage einer an sich bekannten Methode aus dem Gebiet der Mustererkennung erfolgen.
Eine weitere mögliche Auswertemethode der Fusionseinrichtung 48 ist eine Mehrheitsentscheidung, die beispielsweise auf der Grundlage von Einzelentscheidungen D1, D2, D3, D4 Analyseeinrichtungen 32 bis 38 geführt werden kann. Das Ergebnis ist dann eine Gesamtentscheidung D.
Für den Fall, dass zwei oder mehr der Analyseeinrichtung 32 bis 38 Wahrscheinlichkeitswerte P1, P2, P3, P4 als Sprachaktivitätsdaten 40 bis 46 erzeugen, können diese Wahrscheinlichkeiten beispielsweise durch Berechnen eines Mittelwerts dieser Wahrscheinlichkeitswerte P1 bis P4 zu einer Gesamtwahrscheinlichkeit P zusammengefasst werden. Die Gesamtwahrscheinlichkeit P kann dann beispielsweise mit einem Schwellwert verglichen werden, um die abschließende Gesamtentscheidung D zu gewinnen.
In Abhängigkeit von dem Ausgabesignal der Fusionseinrichtung 48 (OVA/OVNA) kann durch die Signalverarbeitung 30 beispielsweise ein Frequenzgang des Signalpfads eingestellt werden, wie er durch die Mikrofoneinrichtung 18, die Verarbeitungseinrichtung 20, die Signalverarbeitungseinrichtung 30 und den Hörer 22 gebildet wird. Beispielsweise können zur Vermeidung eines Okklusionseffekts tiefe Frequenzen des Audiosignals gedämpft werden. Genauso kann vorgesehen sein, dass ein Richtmikrofon bei Einsetzen der Stimme des Trägers nicht adaptiert wird, da es keinen Sinn macht, die Hauptkeule eines Beamformers von einer externen Quelle weg zu schwenken, wenn der Träger der Hörvorrichtung 10 spricht.
Insgesamt ist durch Beispiele gezeigt, wie eine robuste und zuverlässige Eigensprechererkennung in einer Hörvorrichtung bereitgestellt werden kann, ohne dass hierzu ein zusätzliches Mikrofon in dem Gehörgang 16 des Trägers der Hörvorrichtung 10 benötigt wird.

Claims

Hörvorrichtung, umfassend – wenigstens zwei Analyseeinrichtungen (32 bis 38), von denen jede dazu ausgelegt ist, auf der Grundlage eines von der Hörvorrichtung (10) empfangenen Audiosignals (12) Sprachaktivitätsdaten (40 bis 46) zu gewinnen, welche von einer Sprecheraktivität eines Trägers der Hörvorrichtung (10) abhängig sind, und – eine Fusionseinrichtung (48), welche dazu ausgelegt ist, die Sprachaktivitätsdaten (40 bis 46) von den Analyseeinrichtungen (32 bis 38) zu empfangen und auf der Grundlage der Sprachaktivitätsdaten (40 bis 46) zu erkennen, ob der Träger gerade spricht oder nicht.
Hörvorrichtung (10) nach Anspruch 1, gekennzeichnet durch eine Mikrofoneinrichtung (18), die wenigstens ein Mikrofon (24 bis 28) umfasst und die dazu ausgelegt ist, einen auf den Träger treffenden Umgebungsschall (12) in ein Nutzsignal umzuwandeln, wobei die Analyseeinrichtungen (32 bis 38) dazu ausgelegt sind, das Nutzsignal als das Audiosignal zu verarbeiten.
Hörvorrichtung (10) nach Anspruch 1 oder 2, gekennzeichnet durch eine Anpassungseinrichtung (30), welche dazu ausgelegt ist, eine Betriebsweise der Hörvorrichtung (10), insbesondere ein Übertragungsverhalten der Hörvorrichtung (10) und/oder ein Richtverhalten einer adaptiven Beamformingeinrichtung der Hörvorrichtung (10), zu verändern, falls die Fusionseinrichtung (48) erkennt, dass der Träger spricht.
Verfahren zum Betreiben einer Hörvorrichtung (10), indem mittels wenigstens zweier Analyseeinrichtungen (32 bis 38) unabhängig voneinander Sprachaktivitätsdaten (40 bis 46) aus einem Audiosignal gewonnen werden, welche von einer Sprecheraktivität eines Trägers der Hörvorrichtung (10) abhängig sind, und mittels einer Fusionseinrichtung (48) die Sprachaktivitätsdaten (40 bis 46) kombiniert werden und auf der Grundlage der kombinierten Sprachaktivitätsdaten (40 bis 46) überprüft wird, ob der Träger spricht oder nicht.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (32 bis 38) eine Merkmalsextraktion durchgeführt wird und hierzu in Abhängigkeit von dem Audiosignal Merkmalswerte (X1 bis X4) ermittelt werden, insbesondere eine Einfallsrichtung (50) eines Umgebungsschalls (12), ein Geschlecht eines Sprechers, eine Halligkeit des Audiosignals oder spektrale Charakteristika, wie spektrale oder cepstrale Koeffizienten.
Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (32 bis 38) in Abhängigkeit von dem Audiosignal Werte (P1 bis P4) für eine Softentscheidung oder für eine Wahrscheinlichkeit dafür ermittelt werden, dass der Träger gerade spricht.
Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (32 bis 38) eine Klassifikation durchgeführt wird und hierzu in Abhängigkeit von dem Audiosignal bereits durch die Analyseeinrichtung (32 bis 38) auf der Grundlage eines Klassifikationskriteriums eine Einzelentscheidung (D1 bis D4) dazu erzeugt wird, ob der Träger spricht oder nicht.
Verfahren nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (32) die Sprachaktivitätsdaten (40) in Abhängigkeit von einer Einfallsrichtung (50) eines Umgebungsschalls (12) erzeugt werden.
Verfahren nach einem der Ansprüche 4 bis 8, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (34) die Sprachaktivitätsdaten (42) in Abhängigkeit von spektralen Werten eines Frequenzspektrums des Audiosignals erzeugt werden.
Verfahren nach einem der Ansprüche 4 bis 9, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (36) eine sprecherunabhängige Sprachaktivitätserkennung durchgeführt wird.
Verfahren nach einem der Ansprüche 4 bis 10, dadurch gekennzeichnet, dass durch wenigstens eine Analyseeinrichtung (38) die Sprachaktivitätsdaten (46) in Abhängigkeit von einer binauralen Information erzeugt werden, welche aus an unterschiedlichen Seiten eines Kopfes des Trägers gewonnenen Audiodaten gebildet wird.
Verfahren nach einem der Ansprüche 4 bis 11, dadurch gekennzeichnet, dass durch die Fusionseinrichtung (48) die Sprachaktivitätsdaten (40 bis 46) wenigstens zweier Analyseeinrichtungen (32 bis 38) in Abhängigkeit davon, von welcher Analyseeinrichtung (32 bis 38) sie stammen, durch trainierte oder untrainierte Gewichtsfaktoren gewichtet werden und die gewichteten Sprachaktivitätsdaten (40 bis 46) miteinander verknüpft werden.
Verfahren nach einem der Ansprüche 4 bis 12, dadurch gekennzeichnet, dass durch die Fusionseinrichtung (48) auf der Grundlage von Einzelentscheidungen (40 bis 46) wenigstens zweier Analyseeinrichtungen eine Mehrheitsentscheidung dahingehend getroffen wird, ob durch diese Analyseeinrichtungen (32 bis 38) zusammen eine Sprecheraktivität angezeigt wird.
Verfahren nach einem der Ansprüche 4 bis 13, dadurch gekennzeichnet, dass durch die Fusionseinrichtung (48) aus Softentscheidungen von Sprachaktivitätsdetektoren wenigstens zweier Analyseeinrichtungen (40 bis 46) ein Mittelwert berechnet wird.
Verfahren nach einem der Ansprüche 4 bis 14, dadurch gekennzeichnet, dass durch eine Anpassungseinrichtung (30) bei durch die Fusionseinrichtung (48) erkannter Sprachaktivität des Trägers ein Frequenzgang der Hörvorrichtung (10) angepasst und hierzu insbesondere ein niederfrequenter Anteil eines Nutzsignals gedämpft wird und/oder die Adaption einer Richtcharakteristik einer Richtmikrofoneinrichtung der Hörvorrichtung (10) unterbrochen oder angehalten wird.