DE102008063207A1

DE102008063207A1 - Verfahren zum Betreiben einer Hörvorrichtung mit Sprachsynthese und Hörvorrichtung

Info

Publication number: DE102008063207A1
Application number: DE102008063207A
Authority: DE
Inventors: Roland Barthel; Stefan Dr. Petrausch; Wolfgang Sörgel
Original assignee: Siemens Medical Instruments Pte Ltd
Current assignee: Sivantos Pte Ltd
Priority date: 2008-12-29
Filing date: 2008-12-29
Publication date: 2010-07-08

Abstract

Die Sprachverständlichkeit bei Hörvorrichtungen und insbesondere bei Hörgeräten soll verbessert werden. Dazu wird ein Verfahren zum Betreiben einer am Kopf tragbaren Hörvorrichtung vorgeschlagen, gemäß dem ein Eingangssignal zu einem Ausgangssignal verarbeitet wird. Zunächst wird das Eingangssignal durch einen Spracherkennungsalgorithmus (11 bis 18) analysiert. Die resultierenden Analysedaten des Eingangssignals werden gespeichert (20). Anschließend wird ein Sprachsignal auf der Basis der Analysedaten synthetisiert (22) und entsprechend ausgegeben. Hierdurch besteht die Möglichkeit, bei Bedarf ein entstörtes Sprachsingal wiederzugeben. Durch die Speicherung von ausschließlich Sprachelementen kann in vorteilhafter Weise Speicherplatz eingespart werden.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben einer am Kopf tragbaren Hörvorrichtung, bei dem ein Eingangssignal in ein Ausgangssignal verarbeitet wird. Darüber hinaus betrifft die vorliegende Erfindung eine Hörvorrichtung, die am Kopf tragbar ist, mit einer Signalverarbeitungseinrichtung zum Verarbeiten eines Eingangssignals zu einem Ausgangssignal, einer Speichereinrichtung und einer Wiedergabeeinrichtung zur Wiedergabe des Ausgangssignals. Unter dem Begriff „Hörvorrichtung” wird hier jedes am Kopf oder am Ohr bzw. im Ohr tragbare, schallausgebende Gerät verstanden, insbesondere ein Hörgerät, ein Headset, Kopfhörer und dergleichen.
Hörgeräte sind tragbare Hörvorrichtungen, die zur Versorgung von Schwerhörenden dienen. Um den zahlreichen individuellen Bedürfnissen entgegenzukommen, werden unterschiedliche Bauformen von Hörgeräten wie Hinter-dem-Ohr-Hörgeräte (HdO), Hörgerät mit externem Hörer (RIC: receiver in the canal) und In-dem-Ohr-Hörgeräte (Ido), z. B. auch Concha-Hörgeräte oder Kanal-Hörgeräte (ITE, CIC), bereitgestellt. Die beispielhaft aufgeführten Hörgeräte werden am Außenohr oder im Gehörgang getragen. Darüber hinaus stehen auf dem Markt aber auch Knochenleitungshörhilfen, implantierbare oder vibrotaktile Hörhilfen zur Verfügung. Dabei erfolgt die Stimulation des geschädigten Gehörs entweder mechanisch oder elektrisch.
Hörgeräte besitzen prinzipiell als wesentliche Komponenten einen Eingangswandler, einen Verstärker und einen Ausgangswandler. Der Eingangswandler ist in der Regel ein Schallempfänger, z. B. ein Mikrofon, und/oder ein elektromagnetischer Empfänger, z. B. eine Induktionsspule. Der Ausgangswandler ist meist als elektroakustischer Wandler, z. B. Miniaturlautsprecher, oder als elektromechanischer Wandler, z. B. Kno chenleitungshörer, realisiert. Der Verstärker ist üblicherweise in eine Signalverarbeitungseinheit integriert. Dieser prinzipielle Aufbau ist in 1 am Beispiel eines Hinter-dem-Ohr-Hörgeräts dargestellt. In ein Hörgerätegehäuse 1 zum Tragen hinter dem Ohr sind ein oder mehrere Mikrofone 2 zur Aufnahme des Schalls aus der Umgebung eingebaut. Eine Signalverarbeitungseinheit 3, die ebenfalls in das Hörgerätegehäuse 1 integriert ist, verarbeitet die Mikrofonsignale und ver stärkt sie. Das Ausgangssignal der Signalverarbeitungseinheit 3 wird an einen Lautsprecher bzw. Hörer 4 übertragen, der ein akustisches Signal ausgibt. Der Schall wird gegebenenfalls über einen Schallschlauch, der mit einer Otoplastik im Gehörgang fixiert ist, zum Trommelfell des Geräteträgers übertragen. Die Energieversorgung des Hörgeräts und insbesondere die der Signalverarbeitungseinheit 3 erfolgt durch eine ebenfalls ins Hörgerätegehäuse 1 integrierte Batterie 5.
Hörgeräte unterstützen ihre Träger in allen akustischen Bereichen des täglichen Lebens. Insbesondere dienen sie aber der Kommunikation und der Interaktion mit den Mitmenschen, also zum Verstehen von gesprochener Sprache. Dabei können sie aber nicht garantieren, dass auch jedes Wort verstanden wird. Schwierig ist das Sprachverstehen insbesondere bei sehr starken Hörverlusten mit Defiziten gerade in den hohen Frequenzen. Die Ursache kann aber auch der Sprecher selbst sein, der beispielsweise durch Alter oder Krankheit nicht mehr deutlich artikulieren kann oder der einfach zu schnell redet. Verwechslungsgefahr besteht dabei insbesondere bei Zahlenfolgen, wie Telefonnummern, oder auch bei Adressen und Namen. In beiden Fällen kann es dem Hörgeräteträger peinlich und unangenehm sein, wenn er den Sprecher bitten muss, das Gesagte noch einmal und deutlicher zu wiederholen. Oft ist eine Wiederholung aber auch gar nicht möglich, beispielsweise bei automatischen Ansagen.
Bislang werden solche Probleme meist ignoriert. Es wird angenommen, dass die Anpassung des Hörgeräts ausreichend ist, und im Zweifelsfall muss der Hörgeräteträger darum bitten, das Gesprochene zu wiederholen und dies eventuell auch deutlicher zu machen.
Darüber hinaus ist aus der Druckschrift EP 1 841 284 A1 bekannt, bei einem Hörgerät eine Schallausgabe auf Knopfdruck zu wiederholen. Die dort vorgestellte Lösung hilft aber nicht bei undeutlicher Sprache und bei starken Störgeräuschen und benötigt überdies sehr viel Speicherplatz im Hörgerät, da das Audiosignal der letzten Sekunden immer auf Vorrat gespeichert werden muss, auch wenn dies in audio-codierter Form z. B. im MP3-Format erfolgt.
Weiterhin ist aus der Druckschrift DE 197 21 982 A1 ein Kommunikationssystem für Benutzer tragbarer Hörhilfen bekannt. Durch die Kombination einer Hörhilfe mit einem Übersetzungssystem können dem Hörhilfeträger fremdsprachige Sprachsignale in Simultanübersetzung in einer wählbaren Zielsprache angeboten werden.
Ferner offenbart die Druckschrift 44 19 901 A1 ein Hörhilfegerät, bei dem die Bedienung, Steuerung oder Programmwahl erleichtert bzw. manuelle Eingriffe und Betätigungsmittel überflüssig gemacht werden. Dies erfolgt durch Bedienung oder Steuerung eines die Übertragungscharakteristik des Verstärkers beeinflussenden Teils mittels Erkennen und Auswerten eines vom Hörgerätebenutzer gesprochenen Codeworts.
Die Aufgabe der vorliegenden Erfindung besteht somit darin, die Sprachverständlichkeit bei einer Hörvorrichtung zu verbessern.
Erfindungsgemäß wird diese Aufgabe gelöst durch ein Verfahren zum Betreiben einer am Kopf tragbaren Hörvorrichtung durch Ausführen folgender Schritte in der Hörvorrichtung:

– Verarbeiten des Eingangssignals zu einem Ausgangssignal,
– Analysieren des Eingangssignals durch einen Spracherkennungsalgorithmus,
– Speichern von Analysedaten des Eingangssignals,
– Synthetisieren eines Sprachsignals auf der Basis der Analysedaten und
– Wiedergeben des Sprachsignals.

Darüber hinaus wird erfindungsgemäß bereitgestellt eine Hörvorrichtung, die am Kopf tragbar ist, mit

– einer Signalverarbeitungseinrichtung zum Verarbeiten eines Eingangssignals zu einem Ausgangssignal,
– einer Speichereinrichtung und
– einer Wiedergabeeinrichtung zur Wiedergabe des Ausgangssignals, wobei
– mit der Signalverarbeitungseinrichtung das Eingangssignal durch einen Spracherkennungsalgorithmus analysierbar ist,
– durch die Speichereinrichtung Analysedaten des Eingangssignals speicherbar sind,
– mit der Signalverarbeitungseinrichtung ein Sprachsignal auf der Basis der Analysedaten synthetisierbar ist, und
– mit der Wiedergabeeinrichtung das synthetisierte Sprachsignal wiedergebbar ist.

In vorteilhafter Weise wird dem Nutzer der Hörvorrichtung die Möglichkeit gegeben, ein gegebenenfalls entstörtes Sprachsignal zu wiederholen. Dabei kann die Speicherung auf Analysedaten reduziert werden, so dass insgesamt weniger Speicherplatz für die Wiederholung des Sprachsignals zur Verfügung gestellt werden muss.
Vorzugsweise wird das Eingangssignal kontinuierlich analysiert. Dadurch erhält der Nutzer der Hörvorrichtung fortlaufend die Möglichkeit, ein bereits gehörtes Sprachsignal nochmals zu wiederholen.
Die Analysedaten können ein Sprachsignal mit reduzierten oder eliminierten Nebengeräuschen darstellen. Durch die Wiedergabe des reinen Sprachsignals wird dem Nutzer der Hörvorrichtung das Sprachverstehen weiter erleichtert.
Weiterhin können die Analysedaten ganz oder teilweise aus Phonemen bestehen. Werden nur die Phoneme gespeichert, so lässt sich der Speicheraufwand deutlich reduzieren.
In einer speziellen Ausführungsform kann die Synthetisierung und Wiedergabe auf manuelle Betätigung einer Eingabeeinheit der Hörvorrichtung oder auf Zuruf erfolgen. Damit kann der Nutzer der Hörvorrichtung auf sehr einfache Weise eine Wiederholung eines Sprachsignals erreichen.
Gemäß einer weiteren Ausführungsform kann das Wiedergeben des Sprachsignals verlangsamt erfolgen. Dies ist für viele Nutzer von Hörvorrichtungen ein wirksames Hilfsmittel zur Verbesserung der Sprachverständlichkeit.
Außerdem kann das Wiedergeben des Sprachsignals mit veränderter Artikulation, verändertem Frequenzgang und/oder veränderter Stimmlage erfolgen. Dies lässt sich gegebenenfalls individuell für den Nutzer der Hörvorrichtung einstellen, um die Sprachverständlichkeit spezifisch zu fördern.
Während des Wiedergebens kann ein aktuelles Eingangssignal ausgeblendet oder gedämpft sein. Dadurch wird einerseits das interessierende Sprachsignal hervorgehoben und andererseits, wenn das aktuelle Eingangssignal nur gedämpft ist, die Gefahr reduziert, dass wichtige akustische Information einer aktuellen Situation verloren geht.
Vorteilhafterweise erfolgt das Speichern der Analysedaten für einen vorgegebenen Zeitraum. Dadurch muss nur ein begrenzter Speicherplatz zur Verfügung gestellt werden.
Ferner kann der Spracherkennungsalgorithmus hinsichtlich Zahlenerkennung optimiert sein. Damit kann das erfindungsgemäße Verfahren insbesondere bei der Mitteilung von Telefonnummern Vorteile bringen.
Die vorliegende Erfindung ist anhand der beigefügten Zeichnungen näher erläutert, in denen zeigen:
1 eine Prinzipskizze zum Aufbau eines Hörgeräts gemäß dem Stand der Technik und
2 ein Blockschaltdiagramm eines Teils der Signalverarbeitung eines erfindungsgemäßen Hörgeräts.
Die nachfolgend näher geschilderten Ausführungsbeispiele stellen bevorzugte Ausführungsformen der vorliegenden Erfindung dar.
Zur Verbesserung der Sprachverständlichkeit wird nicht wie in dem eingangs erwähnten Dokument EP 1 841 284 A1 nur ein Mikrofonsignal einfach gespeichert und bei Bedarf wiedergegeben. Bei dem nachfolgend näher geschilderten Beispiel wird vielmehr das Mikrofonsignal kontinuierlich mit Methoden der Spracherkennung analysiert und verarbeitet, um entweder die gesprochene Sprache oder zumindest deren Phoneme aus dem Audiosignal zu extrahieren. Daraufhin wird nur die Sprache (oder andere Merkmale aus den Vorstufen der Spracherkennung) gespeichert, was im Gegensatz zu einer direkten Speicherung des Audiosignals schon an sich einen deutlichen Vorteil bezüglich des benötigten Speicherplatzes bedeutet. Auf Knopfdruck oder Zuruf (also üblicherweise gesteuert durch den Hörgeräteträger) kann die erkannte Sprache dann durch einen Sprachsynthesizer gegebenenfalls verlangsamt und/oder mit an den Hörgeräteträger angepasster Artikulation, Frequenzgang oder Stimmlage deutlich wiederholt werden, wodurch ein Verstehen erheblich erleichtert wird. Während dieser Wiederholung kann überdies das aktuelle Umgebungsgeräusch ausgeblendet oder gedämpft werden, was das Verstehen nochmals deutlich erleichtert.
Das vorliegende Beispiel bezieht sich auf ein Hörgerät. Es erfolgt also in vorteilhafter Weise parallel zur üblichen Signalverarbeitung im Hörgerät eine Spracherkennung, Speicherung und schließlich auch eine Sprachsynthese.
Anstelle der bislang bekannten Speicherung des gesamten Audiodatenstroms werden also erfindungsgemäß nur die detektierte Sprache bzw. Merkmale der Sprache, die zur Spracherkennung genutzt werden, gespeichert. Dies führt zu einer deutlichen Speicherplatzersparnis. Außerdem kann durch die Spracherkennung eine inhaltliche Erkennung erfolgen, welche auch anderweitig genutzt werden kann. So kann beispielsweise mit der Erkennung des Bedeutungsinhalts eine Sprachsteuerung durchgeführt werden. Außerdem kann der Inhalt der erkannten Sprache zur Übersetzung in andere Sprachen genutzt werden.
Die Synthetisierung der gespeicherten Sprache kann in wesentlich deutlicher und leichter verständlicher Form durchgeführt werden. Beispielsweise lässt sich eine ursprünglich sehr hohe Stimme in einer tieferen Stimmlage wiedergeben. Gegebenfalls kann das Sprachsignal auch mit einer vollkommen anderen Stimme wiedergegeben werden. Diese zusätzliche Verarbeitung kann das Sprachverstehen deutlich erleichtern.
Nachfolgend wird anhand von 2 ein konkretes Ausführungsbeispiel dargestellt. Das Blockdiagramm zeigt allerdings nur die für die Erfindung wesentlichen Verarbeitungsblöcke. Auf die Darstellung der üblichen Signalverarbeitungskomponenten, wie sie in einem Hörgerät oder einer anderen Hörvorrichtung üblich sind, wurde bewusst verzichtet.
Ein Mikrofon 10 nimmt ein akustisches Signal mit Sprachanteilen auf. Das Mikrofonsignal wird innerhalb des Hörgeräts einer üblichen Spracherkennungseinheit mit seinen typischen Stufen zugeführt. Speziell wird das Mikrofonsignal zunächst in einer Vorverarbeitungseinheit 11 vorverarbeitet. Hier findet beispielsweise eine Filterung insbesondere für eine Enthallung statt. Aus dem vorverarbeiteten Signal werden in einer anschließenden Extraktionseinheit 12 Merkmalsvektoren mv extrahiert. Typischerweise erfolgt die Extraktion bei Signal blöcken einer Länge von mehreren Millisekunden. Hierbei lassen sich beispielsweise so genannte Cepstrum-Koeffizienten wie beispielsweise Pegel und dergleichen gewinnen. Mit Hilfe eines Hidden Markov-Modells (HMM) 13 oder eines neuronalen Netzes werden aus den Merkmalsvektoren mv Phoneme ph gebildet. Hierzu werden Trainingsdaten bzw. ein akustisches Modell 14 für einen Vergleich mit den Merkmalsvektoren herangezogen. Als Ausgabe des HMM 13 kann eine ganze Liste an Phonemen mit den zugehörigen Wahrscheinlichkeiten erzeugt werden. Aus diesen Phonemen ph einschließlich Phonemwahrscheinlichkeiten werden mit Hilfe eines Wörterbuchs 15 und eines weiteren HMM eine Wortdetektion 16 durchgeführt. Anhand gewisser Wortwahrscheinlichkeiten werden Wörter w detektiert. Danach können mit einem Sprachmodell 17 in einer Satzdetektionseinheit 18 aus den detektierten Wörtern noch ganze Sätze s gebildet werden. Gegebenfalls kann die Spracherkennung so weitergeführt werden.
Je nach Bedarf können die verschiedenen Ausgänge der Spracherkenner-Stufen genutzt werden. In 2 ist diese Wahlmöglichkeit durch einen Schalter 19 angedeutet. In der Realität wird in der Hörvorrichtung bzw. dem Hörgerät jedoch nicht ein Schalter, sondern eine feste Verdrahtung vorgesehen sein. Je nach Ausführungsform werden für die weitere Verarbeitung dann entweder Merkmalsvektoren, Phoneme, Wörter oder Sätze genutzt. Der jeweils nicht genutzte Teil der Spracherkennung wird in der Hörvorrichtung in der Regel nicht implementiert sein. Dennoch sei an dieser Stelle offen gehalten, ob in einem einzigen Hörgerät auch unterschiedliche Spracherkenner-Stufen genutzt und über den Schalter 19 wählbar sind.
Das Analyseergebnis bzw. die Analysedaten a können also Merkmalsvektoren mv, Phoneme ph, Wörter w oder Sätze s sein. Sie werden eine bestimmte Zeit lang in einem First-In-First-Out-Speicher 20 gespeichert und auf manuellen Befehl bzw. ein entsprechendes Triggersignal t durch eine Steuerlogik 21 einem Sprachsynthesizer 22 weitergereicht. Der Sprachsynthesizer 22 erzeugt einen Audiodatenstrom au, der gegebenenfalls zusammen mit dem Mikrofonsignal des Mikrofons 10 bzw. dem Ausgangssignal der Vorverarbeitungseinheit 11 weiterverarbeitet und über einen Hörer als Wiedergabeeinrichtung ausgegeben wird. Hörer und Weiterverarbeitungseinheit sind in 2 der Übersichtlichkeit halber nicht dargestellt.
Technisch einfach und dennoch für die Anwendung sehr relevant ist beispielsweise die Erkennung von Zahlen. Es kann dabei ein vereinfachter Spracherkenner zum Einsatz kommen, der oft aufgrund einer Sprachsteuerung ohnehin bereits implementiert ist. Gerade bei Zahlenfolgen (wie beispielsweise Telefonnummern) besteht der Bedarf, diese noch einmal besonders deutlich zu hören, um Verwechslungen zu vermeiden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- EP 1841284 A1 [0006, 0026]
- DE 19721982 A1 [0007]
- DE 4419901 A1 [0008]

Claims

Verfahren zum Betreiben einer am Kopf tragbaren Hörvorrichtung durch Ausführen folgender Schritte in der Hörvorrichtung: – Verarbeiten des Eingangssignals zu einem Ausgangssignal, gekennzeichnet durch – Analysieren des Eingangssignals durch einen Spracherkennungsalgorithmus (11 bis 18), – Speichern (20) von Analysedaten des Eingangssignals, – Synthetisieren (22) eines Sprachsignals auf der Basis der Analysedaten und – Wiedergeben des Sprachsignals.
Verfahren nach Anspruch 1, wobei das Eingangssignal kontinuierlich analysiert wird.
Verfahren nach Anspruch 1 oder 2, wobei die Analysedaten ein Sprachsignal mit reduzierten oder eliminierten Nebengeräuschen darstellen.
Verfahren nach Anspruch 1 oder 2, wobei die Analysedaten ganz oder teilweise aus Phonemen bestehen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Synthetisieren (22) und Wiedergeben auf manuelle Betätigung einer Eingabeeinheit (21) der Hörvorrichtung oder auf Zuruf erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Wiedergeben des Sprachsignals verlangsamt erfolgt.
Verfahren nach einem der vorgehenden Ansprüche, wobei das Wiedergeben des Sprachsignals mit veränderter Artikulation, verändertem Frequenzgang und/oder veränderter Stimmlage erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei während des Wiedergebens ein aktuelles Eingangssignal ausgeblendet oder gedämpft wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Speichern (20) der Analysedaten für einen vorgegebenen Zeitraum erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Spracherkennungsalgorithmus hinsichtlich Zahlenerkennung optimiert ist.
Hörvorrichtung, die am Kopf tragbar ist, mit – einer Signalverarbeitungseinrichtung (3) zum Verarbeiten eines Eingangssignals zu einem Ausgangssignal, – einer Speichereinrichtung (20) und – einer Wiedergabeeinrichtung (4) zur Wiedergabe des Ausgangssignals, dadurch gekennzeichnet, dass – mit der Signalverarbeitungseinrichtung (3) das Eingangssignal durch einen Spracherkennungsalgorithmus (11 bis 18) analysierbar ist, – durch die Speichereinrichtung (20) Analysedaten des Eingangssignals speicherbar sind, – mit der Signalverarbeitungseinrichtung (3) ein Sprachsignal auf der Basis der Analysedaten synthetisierbar ist, und – mit der Wiedergabeeinrichtung (4) das synthetisierte Sprachsignal wiedergebbar ist.