EP2434781A1

EP2434781A1 - Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung

Info

Publication number: EP2434781A1
Application number: EP11182407A
Authority: EP
Inventors: Ulrich Giese; Alexander Grafenberg
Original assignee: Siemens Medical Instruments Pte Ltd
Current assignee: Sivantos Pte Ltd
Priority date: 2010-09-27
Filing date: 2011-09-22
Publication date: 2012-03-28
Also published as: US20120076331A1; DE102010041435A1

Abstract

Die Sprachverständlichkeit bei Hörvorrichtungen und insbesondere bei Hörgeräten soll verbessert werden. Daher wird ein Verfahren zum Rekonstruieren eines Sprachsignals vorgeschlagen, bei dem ein vorgegebenes Amplitudenspektrum eines Sprachbestandteils abgespeichert wird. Das Amplitudenspektrum (15) eines Eingangssignals, das das Sprachsignal enthält, wird erfasst. Mindestens ein übereinstimmender Teil (s) und ein nicht übereinstimmender Teil (n) des vorgegebenen Amplitudenspektrums mit dem Amplitudenspektrum des Eingangssignals wird detektiert. Schließlich wird die Verstärkung des Eingangssignals in dem nicht übereinstimmenden Teil (n) des Amplitudenspektrums (15) derart geändert, dass eine gegenüber der ursprünglichen Verstärkung weitergehende Übereinstimmung mit dem vorgegebenen Amplitudenspektrum erreicht wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Rekonstruieren eines Sprachsignals. Darüber hinaus betrifft die vorliegende Erfindung eine Hörvorrichtung, mit der ein Sprachsignal rekonstruierbar ist. Unter dem Begriff "Hörvorrichtung" wird hier jedes am oder im Ohr tragbare, schallausgebende Gerät verstanden, insbesondere ein Hörgerät, ein Headset, Kopfhörer und dergleichen.
Hörgeräte sind tragbare Hörvorrichtungen, die zur Versorgung von Schwerhörenden dienen. Um den zahlreichen individuellen Bedürfnissen entgegenzukommen, werden unterschiedliche Bauformen von Hörgeräten wie Hinter-dem-Ohr-Hörgeräte (HdO), Hörgerät mit externem Hörer (RIC: receiver in the canal) und In-dem-Ohr-Hörgeräte (IdO), z.B. auch Concha-Hörgeräte oder Kanal-Hörgeräte (ITE, CIC), bereitgestellt. Die beispielhaft aufgeführten Hörgeräte werden am Außenohr oder im Gehörgang getragen. Darüber hinaus stehen auf dem Markt aber auch Knochenleitungshörhilfen, implantierbare oder vibrotaktile Hörhilfen zur Verfügung. Dabei erfolgt die Stimulation des geschädigten Gehörs entweder mechanisch oder elektrisch.
Hörgeräte besitzen prinzipiell als wesentliche Komponenten einen Eingangswandler, einen Verstärker und einen Ausgangswandler. Der Eingangswandler ist in der Regel ein Schallempfänger, z. B. ein Mikrofon, und/oder ein elektromagnetischer Empfänger, z. B. eine Induktionsspule. Der Ausgangswandler ist meist als elektroakustischer Wandler, z. B. Miniaturlautsprecher, oder als elektromechanischer Wandler, z. B. Knochenleitungshörer, realisiert. Der Verstärker ist üblicherweise in eine Signalverarbeitungseinheit integriert. Dieser prinzipielle Aufbau ist in FIG 1 am Beispiel eines Hinter-dem-Ohr-Hörgeräts dargestellt. In ein Hörgerätegehäuse 1 zum Tragen hinter dem Ohr sind ein oder mehrere Mikrofone 2 zur Aufnahme des Schalls aus der Umgebung eingebaut. Eine Signalverarbeitungseinheit 3, die ebenfalls in das Hörgerätegehäuse 1 integriert ist, verarbeitet die Mikrofonsignale und verstärkt sie. Das Ausgangssignal der Signalverarbeitungseinheit 3 wird an einen Lautsprecher bzw. Hörer 4 übertragen, der ein akustisches Signal ausgibt. Der Schall wird gegebenenfalls über einen Schallschlauch, der mit einer Otoplastik im Gehörgang fixiert ist, zum Trommelfell des Geräteträgers übertragen. Die Energieversorgung des Hörgeräts und insbesondere die der Signalverarbeitungseinheit 3 erfolgt durch eine ebenfalls ins Hörgerätegehäuse 1 integrierte Batterie 5.
Ein wesentlicher Aspekt bei der Versorgung von Hörgeschädigten mit Hörgeräten ist die Sprachverständlichkeit. Dies bedeutet, dass ein Wort oder ein Wortbestandteil auch als solches bzw. als solcher vom Hörgeräteträger erkannt werden sollte. Eine wesentliche Rolle bei der Sprachverständlichkeit spielen die Konsonanten, insbesondere beispielsweise das "S". In der Hörsituation "Sprache in Störgeräusch" sind Konsonanten oft nicht eindeutig hörbar oder werden als andere Konsonanten gehört. So kann beispielsweise das Wort "Sachbuch" als "Fachbuch" gehört werden.
Um die Sprachverständlichkeit zu verbessern, werden meist Störgeräuschreduktionsalgorithmen oder Sprachverstärkungsalgorithmen eingesetzt. In der Hörsituation "Sprache in breitbandigem Rauschen" erhöht nur ein Richtmikrofon die Sprachverständlichkeit. Richtmikrofone arbeiten aber nur dann sinnvoll, wenn das Störgeräusch und die Sprache aus unterschiedlichen Richtungen kommen. Andere Störgeräuschunterdrückungsalgorithmen, z.B. Wiener-Filter, erhöhen die Sprachverständlichkeit in Störgeräusch nicht. Sie vermindern allenfalls die Höranstrengungen.
Die Aufgabe der vorliegenden Erfindung besteht somit darin, ein Verfahren und eine Hörvorrichtung vorzuschlagen, mit denen eine erhöhte Sprachverständlichkeit gewährleistet werden kann.
Erfindungsgemäß wird diese Aufgabe gelöst durch ein Verfahren zum Rekonstruieren eines Sprachsignals durch Speichern eines vorgegebenen Amplitudenspektrums eines Sprachbestandteils, Erfassen eines Amplitudenspektrums eines Eingangssignals, das das Sprachsignal enthält, Detektieren zumindest eines übereinstimmenden Teils und eines nicht übereinstimmenden Teils des vorgegebenen Amplitudenspektrums mit dem Amplitudenspektrum des Eingangssignals und Ändern einer Verstärkung des Eingangssignals in dem nicht übereinstimmenden Teil des Amplitudenspektrums derart, dass eine gegenüber der ursprünglichen Verstärkung weitergehende Übereinstimmung mit dem vorgegebenen Amplitudenspektrum erreicht wird.
Darüber hinaus wird erfindungsgemäß bereitgestellt eine Hörvorrichtung, mit der ein Sprachsignal rekonstruierbar ist, umfassend eine Speichereinrichtung zum Speichern eines vorgegebenen Amplitudenspektrums eines Sprachbestandteils, eine Erfassungseinrichtung zum Erfassen eines Amplitudenspektrums eines Eingangssignals, das das Sprachsignal enthält, eine Detektionseinrichtung zum Detektieren zumindest eines übereinstimmenden Teils und eines nicht übereinstimmenden Teils des vorgegebenen Amplitudenspektrums mit dem Amplitudenspektrum des Eingangssignals und eine Verstärkungseinrichtung, mit der eine Verstärkung des Sprachsignals in dem nicht übereinstimmenden Teil des Amplitudenspektrums derart veränderbar ist, dass eine gegenüber einer ursprünglichen Verstärkung weitergehende Übereinstimmung mit dem vorgegebenen Amplitudenspektrum erreicht ist.
In vorteilhafter Weise wird das Eingangssignal, das das Sprachsignal und etwaige Störgeräusche enthält, nach vorgegebenen Mustern im Amplitudenspektrum untersucht. Werden bestimmte Muster oder Musterteile im Amplitudenspektrum des Eingangssignals erkannt, so kann das übrige Amplitudenspektrum an das vorgegebene Muster durch Verändern der Verstärkung angepasst werden. Damit kann beispielsweise ein vorgegebener Sprachbestandteil aus einem Amplitudenspektrum "herausgearbeitet" werden.
Vorzugsweise erfolgt die Verarbeitung des Eingangssignals in mehreren Frequenzkanälen, und jedes Amplitudenspektrum zeichnet sich durch jeweils einen Amplitudenwert pro Frequenzkanal aus. Dem ist gleichbedeutend, wenn die Verarbeitung in digitalen Frequenzwerten erfolgt und in einem bestimmten Amplitudenspektrum jedem Frequenzwert ein Amplitudenwert zugeordnet ist.
Besonders vorteilhaft ist, wenn der Sprachbestandteil ein Konsonant ist. Konsonanten haben bei der Sprachverständlichkeit eine größere Bedeutung als Vokale.
In einer weiteren Ausführungsform wird jeweils ein vorgegebenes Amplitudenspektrum von mehreren Sprachbestandteilen gespeichert, das Amplitudenspektrum des Eingangssignals wird hinsichtlich einer zumindest teilweisen Übereinstimmung mit jedem der vorgegebenen Amplitudenspektren überprüft, und die Verstärkung wird in Abhängigkeit von dem zumindest teilweise übereinstimmenden, vorgegebenen Amplitudenspektrum geändert. Damit kann zielgerichtet beispielsweise die Rekonstruktion von mehreren unterschiedlichen Konsonanten in einem Eingangssignal erreicht werden, falls entsprechende Teile von Amplitudenspektren detektiert werden.
Das Detektieren hinsichtlich Übereinstimmungen kann auf Formanten beschränkt werden. Formanten sind in einem Spektrum rasch detektierbar und sie tragen die wesentlichen Informationen für die Unterscheidbarkeit von Sprachbestandteilen.
In einer weiteren Ausführungsform kann die Verstärkung so geändert werden, dass eine vollständige Übereinstimmung mit dem vorgegebenen Amplitudenspektrum erreicht wird. Auf diese Weise können bestimmte Sprachanteile sehr deutlich hörbar gemacht werden.
Das Detektieren zumindest eines übereinstimmenden Teils und eines nicht übereinstimmenden Teils des vorgegebenen Amplitudenspektrums mit dem Amplitudenspektrum des Eingangssignals kann einen Abgleich der Absolutwerte des vorgegebenen Amplitudenspektrums mit den Absolutwerten des Amplitudenspektrums des Eingangssignals beinhalten. Damit ist es nicht notwendig, dass das Amplitudenspektrum des Eingangssignals mit dem gespeicherten Amplitudenspektrum absolut übereinstimmt. Vielmehr genügt auch eine relative Übereinstimmung der Spektralwerte.
Weiterhin kann das Eingangssignal nach dem Ändern der Verstärkung zusätzlich insgesamt verstärkt werden oder in einen anderen Frequenzbereich transferiert werden. Dadurch lässt sich die Hörbarkeit des rekonstruierten Sprachbestandteils weiter erhöhen.
Besonders vorteilhaft lässt sich das erfindungsgemäße Verfahren zum Rekonstruieren eines Sprachsignals bei der Signalverarbeitung in einem Hörgerät einsetzen.
Die vorliegende Erfindung wird nun anhand der beigefügten Zeichnungen näher erläutert, in denen zeigen:

FIG 1: den prinzipiellen Aufbau eines Hörgeräts gemäß dem Stand der Technik;
FIG 2: ein schematisches Zeitsignal eines Konsonanten;
FIG 3: das Spektrum des Zeitsignals von FIG 2;
FIG 4: eine Detektion und Rekonstruktion eines Spektrums in einem ersten Ausführungsbeispiel; und
FIG 5: eine Detektion und Rekonstruktion eines Spektrums in einem zweiten Ausführungsbeispiel.

Die nachfolgend näher geschilderten Ausführungsbeispiele stellen bevorzugte Ausführungsformen der vorliegenden Erfindung dar.
Wenn ein Konsonant ausgesprochen wird, lässt sich ein entsprechendes Zeitsignal gewinnen, wie dies in FIG 2 symbolisch angedeutet ist. Aus diesem Zeitsignal lässt sich ein Sample oder Schnappschuss sa mit einer bestimmten zeitlichen Breite gewinnen.
In üblicher Weise kann aus dem zeitlichen Schnappschuss sa ein Kurzzeitspektrum gewonnen werden, das exemplarisch in FIG 3 dargestellt ist. Das Kurzzeitspektrum eines Konsonanten besitzt eine typische Form. Insbesondere kann ein Konsonant anhand seiner spezifischen Lage der Formanten 10, 11 identifiziert werden.
Zur Durchführung des erfindungsgemäßen Verfahrens bzw. zur Realisierung der erfindungsgemäßen Hörvorrichtung werden nun einer oder mehrere Konsonanten in einer ungestörten Umgebung aufgenommen. Das Spektrum jedes Konsonanten wird beispielsweise digital abgetastet und die einzelnen Abtastwerte 12 des Kurzzeitspektrums 13 werden in einer Speichereinrichtung der Hörvorrichtung und insbesondere des Hörgeräts gespeichert. Auf diese Weise lässt sich für jeden Konsonanten, der aufgenommen wird, ein Kurzzeitspektrum in der Hörvorrichtung abspeichern.
Während des Betriebs analysiert nun die Hörvorrichtung permanent das Eingangssignal und sucht nach dem spektralen Muster des Konsonanten bzw. den Mustern der gespeicherten Konsonanten. Üblicherweise wird dann der Konsonant (nachfolgend wird das Verfahren anhand eines einzelnen Konsonanten geschildert) vor einem Hintergrundgeräusch gesprochen. In dem Ausführungsbeispiel von FIG 4 besitzt das Hintergrundgeräusch das Störgeräuschspektrum 14, während der Konsonant, also das Nutzsignal, das Spektrum 15 besitzt. In einem Abschnitt n des Spektrums überwiegt das Störgeräuschspektrum 14, während in einem anderen Abschnitt s das Signalspektrum 15, nämlich das des gesprochenen Konsonanten, überwiegt. In dem Bereich s wird beim Abtasten des Gesamtspektrums tatsächlich das Konsonantenspektrum 15 durch die Signalverarbeitung abgetastet. Das abgetastete Spektrum 15 wird mit dem abgespeicherten Spektrum 13 verglichen. Falls dieser Teil des Spektrums 15 beispielsweise eine sehr charakteristische Form besitzt, kann daraus geschlossen werden, dass der abgespeicherte Konsonant gesprochen wurde. Es wird dann davon ausgegangen, dass das Signal im Spektralbereich n durch ein Störgeräusch überlagert ist. Die Verstärkung wird dann beispielsweise kanalweise so abgesenkt, dass das abgespeicherte Spektrum 13 des Konsonanten auch in dem Spektralbereich n gegeben ist. Diese Absenkung der Verstärkung ist in FIG 4 durch die Pfeile 16 symbolisiert. Das Spektrum wird also in dem Bereich n rekonstruiert bzw. ausgehend von dem gemessenen Konsonantenspektrum 15 mithilfe des abgespeicherten Spektrums 13 extrapoliert. Das resultierende Spektrum entspricht demjenigen des abgespeicherten Spektrums, das ohne Hintergrundrauschen aufgenommen wurde. Wird nun dem Hörgeräteträger das rekonstruierte Spektrum wiedergegeben, so hört er den Konsonanten deutlicher, da ja das Hintergrundrauschen gedämpft wurde. Er hört den Konsonanten praktisch so, als ob er in Ruhe gesprochen wäre.
In dem Beispiel von FIG 4 wird nur ein sehr geringer Teil des Kurzzeitspektrums (Bereich s) als markanter Bereich detektiert. Ob dieser kleine Bereich alleine reicht, den entsprechenden Konsonanten zu identifizieren, hängt von der Leistungsfähigkeit der Detektionseinrichtung in der Hörvorrichtung ab. In aller Regel wird ein einzelner Peak bzw. Formant 10 nicht ausreichen, um einen Konsonanten einwandfrei identifizieren zu können. Daher sei mit FIG 5 ein zweites Ausführungsbeispiel erläutert, bei dem eine Identifizierung leichter durchführbar ist. Das gleiche Konsonantenspektrum 15 ist hier mit einem Störspektrum 14' geringerer Amplitude überlagert. Nur in einem sehr kleinen Bereich n' dominiert das Störgeräusch. In dem weitaus größeren Bereich s' dominiert das Konsonantenspektrum 15. Insbesondere ragen die Formanten 10 und 11 über das Störspektrum 14'. Anhand der Formanten 10, 11 und gegebenenfalls zusätzlich anhand der spektralen Verläufe in den Bereichen s' lässt sich der gesprochene Konsonant durch Vergleich mit dem abgespeicherten Spektrum 13 leichter identifizieren als in dem Fall von FIG 4. Zur Rekonstruktion des gesamten Spektrums muss auch nur die Verstärkung in dem Bereich n' gemäß den Pfeilen 16' reduziert werden. Das rekonstruierte Spektrum weist dann auch keine Störkomponenten mehr auf. Der Hörgeräteträger nimmt den gesprochenen Konsonanten dann so wahr, als wäre er in Ruhe gesprochen.
Die rekonstruierten Konsonanten können dann weiterverarbeitet werden, z.B. durch spezifische Verstärkung. Ebenso können die rekonstruierten Konsonanten beispielsweise durch Frequenzverschiebung/-kompression in einen für den Hörgeräteträger hörbaren Bereich geschoben werden.
Die obigen Beispiele beziehen sich immer auf Konsonanten. Das Verfahren lässt sich aber auch auf andere Sprachbestandteile wie ganze Wörter oder Logatome anwenden.
Analog zu dem Reduzieren von Störgeräuschanteilen können auch die Nutzsignalanteile des Sprachbestandteils im Sinne höherer Verstärkung angehoben werden. Das gesamte Spektrum wird dann beispielsweise in den Bereichen s' gleichmäßig angehoben, während es in dem Bereich n' kanalspezifisch nur so angehoben wird, dass letztlich das Muster des abgespeicherten Spektrums 13 entsteht.
In vorteilhafter Weise ist es durch die vorliegende Erfindung möglich, mit statistischen Methoden ein spektrales Muster eines Sprachbestandteils in einem Hintergrundgeräusch zu detektieren. Das verrauschte Muster ist dann anhand eines bekannten Musters durch spezifische Reduktion der Verstärkung (in den relevanten Kanälen) rekonstruiert. Anschließend kann der rekonstruierte Sprachbestandteil weiterverarbeitet werden. Insgesamt wird damit der jeweilige Sprachbestandteil entstört, wodurch eine erhöhte Sprachverständlichkeit in Störgeräusch erzielt werden kann.

Claims

Verfahren zum Rekonstruieren eines Sprachsignals, gekennzeichnet durch
- Speichern eines vorgegebenen Amplitudenspektrums (13) eines Sprachbestandteils,

- Erfassen eines Amplitudenspektrums (15) eines Eingangssignals, das das Sprachsignal enthält,

- Detektieren zumindest eines übereinstimmenden Teils (s) und eines nicht übereinstimmenden Teils (n) des vorgegebenen Amplitudenspektrums (13) mit dem Amplitudenspektrum (15) des Eingangssignals und

- Ändern einer Verstärkung des Eingangssignals in dem nicht übereinstimmenden Teil (n) des Amplitudenspektrums (15) derart, dass eine gegenüber der ursprünglichen Verstärkung weitergehende Übereinstimmung mit dem vorgegebenen Amplitudenspektrum (13) erreicht wird.
Verfahren nach Anspruch 1, wobei die Verarbeitung des Eingangssignals in mehreren Frequenzkanälen erfolgt, und jedes Amplitudenspektrum sich durch jeweils einen Amplitudenwert pro Frequenzkanal auszeichnet.
Verfahren nach Anspruch 1 oder 2, wobei der Sprachbestandteil ein Konsonant ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei jeweils ein vorgegebenes Amplitudenspektrum (13) von mehreren Sprachbestandteilen gespeichert wird, und das Amplitudenspektrum (15) des Eingangssignals hinsichtlich einer zumindest teilweisen Übereinstimmung mit jedem der vorgegebenen Amplitudenspektren (13) überprüft wird, und die Verstärkung in Abhängigkeit von dem zumindest teilweise übereinstimmenden, vorgegebenen Amplitudenspektrum (13) geändert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Detektieren hinsichtlich Übereinstimmungen auf Formanten (10, 11) beschränkt ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Verstärkung so geändert wird, dass eine vollständige Übereinstimmung mit dem vorgegebenen Amplitudenspektrum (13) erreicht wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Detektieren einen Abgleich der Absolutwerte des vorgegebenen Amplitudenspektrums (13) mit den Absolutwerten des Amplitudenspektrums (15) des Eingangssignals beinhaltet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Eingangssignal nach dem Ändern der Verstärkung zusätzlich verstärkt oder in einen anderen Frequenzbereich transferiert wird.
Verfahren zum Verarbeiten eines Sprachsignals in einem Hörgerät mit einer Rekonstruktion des Sprachsignals entsprechend einem der Verfahren gemäß einem der vorhergehenden Ansprüche.
Hörvorrichtung, mit der ein Sprachsignal rekonstruierbar ist,
gekennzeichnet durch
- eine Speichereinrichtung zum Speichern eines vorgegebenen Amplitudenspektrums (13) eines Sprachbestandteils,

- eine Erfassungseinrichtung zum Erfassen eines Amplitudenspektrums (15) eines Eingangssignals, das das Sprachsignal enthält,

- eine Detektionseinrichtung zum Detektieren zumindest eines übereinstimmenden Teils (s) und eines nicht übereinstimmenden Teils (n) des vorgegebenen Amplitudenspektrums (13) mit dem Amplitudenspektrum (15) des Eingangssignals und

- eine Verstärkungseinrichtung, mit der eine Verstärkung des Sprachsignals in dem nicht übereinstimmenden Teil (n) des Amplitudenspektrums derart veränderbar ist, dass eine gegenüber einer ursprünglichen Verstärkung weitergehende Übereinstimmung mit dem vorgegebenen Amplitudenspektrum (13) erreicht ist.