DE102009018470A1

DE102009018470A1 - Verfahren und Vorrichtung zum Verarbeiten von akustischen Sprachsignalen

Info

Publication number: DE102009018470A1
Application number: DE102009018470A
Authority: DE
Inventors: Hans-Dieter Dr. Bauer; Axel Plinge
Original assignee: Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV
Current assignee: Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV
Priority date: 2008-12-18
Filing date: 2009-04-22
Publication date: 2010-06-24

Abstract

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung (1) zum Verarbeiten von akustischen Sprachsignalen (3) unter Verwendung einer elektronischen Verarbeitungseinrichtung. Um eine gegenüber dem Stand der Technik verbesserte Verarbeitung von akustischen Sprachsignalen (3) zur Verfügung zu stellen, wird mit der Erfindung vorgeschlagen, dass eine lautklassenspezifische Verarbeitung der Sprachsignale (3) erfolgt, wobei schwach artikulierte Laute zeitlich verlängert werden.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Verarbeiten von akustischen Sprachsignalen sowie eine hierzu geeignete Vorrichtung.
Entsprechende Verfahren und Vorrichtungen finden beispielsweise Anwendung in der Hörgerätetechnik, um für Personen mit Hörschäden eine Verbesserung der Verständlichkeit menschlicher Sprache herbeizuführen. Derartige herkömmliche elektro-akustische Anlagen weisen in der Regel Anordnungen von linear verstärkenden Baugruppen auf. Eine solche Baugruppe kann beispielsweise ein Mikrophoneingang, eine Filterbank, ein Kompressor oder ein Ausgangsverstärker sein. Dabei werden die akustische Sprachsignale zunächst über ein Mikrofon in elektrische Sprachsignale umgewandelt, welche in den Mikrophoneingang eingegeben werden. Mittels der Filterbank, welche meist mehrere Bandpassfilter aufweist, erfolgt eine Aufteilung des elektrischen Sprachsignals in mehrere Frequenzbänder, welche von dem Kompressor individuell komprimiert werden, wozu dieser mehrere Kompressoruntereinheiten aufweist. Anschließend werden die komprimierten Frequenzbänder zu einem komprimierten Sprachsignal miteinander kombiniert, welches mittels des Ausgangsverstärkers verstärkt wird.
Bei ungestörter Hörumgebung oder ungestörtem Hörvermögen besitzen Sprachelemente starke Redundanzen. Deren physiologische Wirkungen gehen bei sensorischen Hördefiziten und auch bei zunehmenden Pegeln von Umgebungslärm verloren. Speziell sensorische Hördefizite erzeugen Erhöhungen der Hörschwelle, die mit Recruitment und damit mit Einengungen der nutzbaren Hördynamikweite verbunden sind. Sie fallen besonders stark bei den häufig vorkommenden Hochtonverlusten aus, bei denen der für die Übertragung sehr wichtige Bereich der hoch liegenden, zweiten Formanten zum Teil sehr stark eingeschränkt wird, was schwerwiegende Folgen für die Sprachverständlichkeit hat.
Bei herkömmlichen Hörgeräten ist es meist nicht möglich, artikulativ schwache Laute mit ausreichender Stärke in das cortikale Restgehör oder die cortikale Restdynamik zu übertragen, weil der obere Hörbereich begrenzt ist oder weil die hierfür erforderliche Verstärkung nicht erreicht werden kann. Letzteres tritt häufig wegen einer einsetzenden akustischen Rückkopplung bei noch nicht ausreichender Verstärkung der schwach artikulierten Laute ein. Umgebungslärm wirkt dann besonders erschwerend und kann die Sprachverständlichkeit zusätzlich stark reduzieren. Bei starken Hörverlusten ist der hiervon Betroffene im Grenzfall gezwungen, auf eine akustische Sprachkommunikation zu verzichten und auf Lippenlesen auszuweichen. Dies trifft auch zu bei Personen, die nur Hörverluste geringen Grades aufweisen, und zwar dann, wenn die Umgebung mehr oder weniger lärmerfüllt ist. Dies ist zum Beispiel der Fall bei Ansagen in laufenden Fahrzeugen, auf Bahnhöfen oder in der „round-table” Diskussions-Situation.
Außerdem kann festgestellt werden, dass bei üblichen Hörgerätekonstruktionen der zur Verfügung stehende, pegelgesteuerte Kompressor das Sprachsignal deutlich verschlechtert, wenn der verfügbare Dynamikbereich schmaler wird als der Abstand der Pegel von schwachen und starken Lauten. Wenn dann die artikulativ schwachen Laute gut überschwellig gemacht werden, führt dies dazu, dass die artikulativ starken Laute in den Begrenzungskennlinienast des Kompressors hineingesteuert werden, was zu einer Verzerrung des Rhythmus und der Co-Modulation dieser Laute führt.
Ausgehend von diesem Stand der Technik ist es die Aufgabe der Erfindung, ein Verfahren sowie eine Vorrichtung zum Verarbeiten von akustischen Sprachsignalen bereitzustellen, welche gegenüber dem Stand der Technik eine deutlich bessere Verarbeitung der akustischen Sprachsignale ermöglichen.
Diese Aufgabe wird durch ein Verfahren der eingangs genannten Art dadurch gelöst, dass eine lautklassenspezifische Verarbeitung der Sprachsignale erfolgt, wobei schwach artikulierte Laute zeitlich verlängert werden.
Eine Lautklasse umfasst erfindungsgemäß alle klanglichen Variationen eines Lautes, welche sich von einem anderen Laut unterscheiden lassen. Beispielsweise kann ein „i” hoch, tief oder lang ausgesprochen werden, ohne die Grenzen der Lautklasse „i” zu verlassen.
Erfindungsgemäß erfolgt eine Be-, Ver- und/oder Aufarbeitung von schwach artikulierten Lauten der menschlichen Sprache selektiv oder in anderer spezifischer Weise. Durch diese individuelle Verarbeitung von Lauten kommt es nicht zu einer einfachen und für alle Sprachmerkmale einheitlichen Pegelsteuerung, welche mit den oben beschriebenen Nachteilen verbunden ist. Auch bei größerem Umgebungslärm kann eine Verarbeitung der akustischen Sprachsignale derart erfolgen, dass eine sehr gute Sprachverständlichkeit gegeben ist. Zur Verbesserung der Sprachverständlichkeit werden erfindungsgemäß schwach artikulierte Laute zeitlich verlängert. Da nicht wie beim Stand der Technik eine Verdeutlichung der schwach artikulierten Laute nur mittels einer ausreichenden Verstärkung derselben erzeugt wird, kommt es nicht zu einer störenden, verstärkungsbedingten Schwingneigung. Die Verarbeitung der akustischen Sprachsignale kann insgesamt sehr viel genauer an den jeweils vorliegenden Hörschaden angepasst werden.
Nach einer vorteilhaften Ausgestaltung der Erfindung werden die Sprachsignale in mehrere Frequenzbänder aufgeteilt. Dieses ermöglicht neben der lautklassenspezifischen Verarbeitung der Sprachsignale eine weitere Möglichkeit der individuellen Verarbeitung der Sprachsignale, so dass die Verarbeitung auch hierdurch an das jeweils vorliegende Hördefizit höchst genau angepasst werden kann.
Vorzugsweise erfolgt eine Aufspaltung der Sprachsignale in hochfrequente Frequenzbänder, die oberhalb einer oberen Grenzfrequenz liegen, und Frequenzbändern, die unterhalb der oberen Grenzfrequenz liegen. Die Grenzfrequenz entspricht vorzugsweise dem oberen Rand des Hörbereichs und kann individuell an das Ausmaß des jeweils vorliegenden Hochtonverlustes angepasst werden.
Mit der Erfindung wird weiter vorgeschlagen, dass die hochfrequenten Frequenzbänder zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz und oberhalb einer unteren Grenzfrequenz verschoben werden. Hierdurch können Laute, die am oberen Rand des Hörbereichs oder jenseits der Grenze der Hörbarkeit, liegen, spektral in einen besser nutzbaren niederfrequenten Hörbereich verschoben werden, so dass die Wirksamkeit dieser Laute gesteigert wird. Die Verschiebung der hochfrequenten Frequenzbänder zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz muss jedoch die physiologische Klassenbildung der Sprachlaute vollständig in Takt belassen. Die Verschiebung darf also nur soweit oder nur auf eine solche Art geschehen, dass die natürlichen Klassengrenzen, die im physiologischen Klassifizierungsraum natürlicherweise zu finden sind, nicht überschritten werden. Insbesondere sind Inter-Laut-Transformationen auszuschließen. Beispielsweise darf durch die Frequenzverschiebung nicht ein „i” zu einem „ü” werden. Die Frequenzverschiebung darf nur in Form von Intra-Laut-Transformationen erfolgen, bei denen keine Umwandlung von Lauten erfolgt und bei denen beispielsweise aus einem hoch und spitz wahrnehmbaren „i” ein dumpf wahrnehmbares „i” wird. Um Überschreitungen von physiologischen Laut-Klassengrenzen zu verhindern, erfolgt des Weiteren die Verschiebung der hochfrequenten Frequenzbänder zu niedrigeren Frequenzen oberhalb einer unteren Grenzfrequenz.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die Verschiebung der hochfrequenten Frequenzbänder individuell in Abhängigkeit der jeweiligen Frequenzlage des hochfrequenten Frequenzbandes erfolgt. Auch durch diese Ausgestaltung ist eine sehr individuelle Verarbeitung der akustischen Sprachsignale möglich, indem keine einheitliche Verschiebung von hochfrequenten Frequenzbändern erfolgt, welche beispielsweise auch zu den oben beschriebenen Inter-Laut-Transformationen führen kann, sondern die Frequenzbänder werden individuell in Abhängigkeit ihrer jeweiligen Frequenzlage unter ausschließlich Intra-Laut-Transformationen in einen geeigneten Frequenzbereich verschoben.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung werden die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder mit unterschiedlicher Pre-Emphasis moduliert. Diese Ausgestaltung der Erfindung dient insbesondere der Verbesserung des Signal-Rausch-Verhältnisses. Da die unterhalb der oberen Grenzfrequenz liegenden einzelnen Frequenzbänder in unterschiedlichen Frequenzbereichen angeordnet sind, ist es sinnvoll, jedes dieser Frequenzbänder mit einer unterschiedlichen Pre-Emphasis zu modulieren. Auch diese Vorgehensweise kommt der individuellen Anpassbarkeit des Verfahrens an das jeweils vorliegende Hördefizit zugute.
Zweckmäßigerweise werden die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder unterschiedlich komprimiert. Auch hierdurch kann den jeweiligen Anforderungen an die Verarbeitung der akustischen Sprachsignale genüge getan werden, indem diese sehr individuell verarbeitet werden.
Es wird weiter vorgeschlagen, dass den Sprachsignalen jeweils eine bestimmte Lautklasse zugeordnet wird. Hierzu kann beispielsweise ein Lautklassenselektor eingesetzt werden, mit dem ein Abgleich der Sprachsignale mit vorgegebenen Charakteristika der einzelnen Lautklassen erfolgen kann, so dass feststellbar ist, zu welcher Lautklasse der mit dem jeweiligen Sprachsignal erhaltene Laut gehört. Vorzugsweise erfolgt auf Basis dieses Abgleichs eine individuelle Steuerung der einzelnen Verarbeitungsmaßnahmen der Sprachsignale gemäß der Erfindung.
Vorzugweise werden die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder in Abhängigkeit der den Sprachsignalen jeweilig zugeordneten Lautklasse zu einem Zwischensprachsignal miteinander kombiniert. Ob und in welcher Form diese Kombination durchgeführt wird, kann ebenfalls individuell an die jeweiligen Anforderungen angepasst werden.
Es wird des Weiteren als vorteilhaft erachtet, wenn die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder mit einem oberen Frequenzband, welches unterhalb der oberen Grenzfrequenz am nächsten zu dieser angeordnet ist, zu einem Hochtonzwischensprachsignal kombiniert werden. Durch diese Zuführung des oberen Spektralbandbereiches zu den zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbändern erfolgt eine Mischung von Signalenergien, die hörschadenspezifisch beispielsweise oberhalb von 2,3 KHz liegen, und den zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbändern, wodurch diese Mischung perzeptiv verstärkt wird, was einer Pegelanhebung von etwa 3 bis 6 dB entspricht. Diese neuartige Hochtonband-Mischung wird im Anschluss individuell komprimiert und mit den übrigen individuell komprimierten Frequenzbändern zu einem Ausgangssprachsignal kombiniert.
Es wird weiter vorgeschlagen, dass das Zwischensprachsignal bzw. das Hochtonzwischensprachsignal in Abhängigkeit von der den Sprachsignalen jeweils zugeordneten Lautklasse gespeichert, in vorgebbaren Zeitabständen abgerufen, individuell komprimiert und zur Erzeugung eines Ausgangssprachsignals mit den übrigen individuell komprimierten Frequenzbändern, die unterhalb der oberen Grenzfrequenz liegen, kombiniert wird. Bei stimmhafter Sprache ist die natürliche Dämpfung der oberen Formantresonanzen so stark, dass die Umhüllenden relativ schmale Spitzen und breite Täler aufweisen. In diesem Fall können durch die gemäß dieser Ausgestaltung der Erfindung erfolgende Wiederholung der jeweiligen Wellenform mit einer zeitlichen Verzögerung die Täler störungsfrei aufgefüllt werden, wodurch der Formant-Energieinhalt der Gesamtschwingung wesentlich, beispielsweise bis zu 6 dB, erhöht wird. Bei intakter Energiesummation des Ohres über Segmente von 10 ms kann hierdurch ein erheblicher physiologischer Wirkungszuwachs beispielsweise bezüglich der Lautheit und der Klarheit erzeugt werden. Ein schwach artikulierter Laut wird durch diese Verarbeitungsmaßnahmen zeitlich verlängert.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung wird das Ausgangssprachsignal zur Kompensation von ungewünschten spektralen Eigenschaften von an die Verarbeitungseinrichtung anschließbaren Sprachsignalausgabeeinheiten mittels eines Equalizers moduliert. Vorzugsweise weist der Equalizer ein programmierbares FIR-Filter auf.
Nach einer zweckmäßigen Ausgestaltung der Erfindung erfolgt eine Vorverstärkung der Frequenzbänder vor ihrer Kompression in Abhängigkeit von der den Sprachsignalen jeweils zugeordneten Lautklasse und/oder der Lautstärke von Umgebungsgeräuschen. Bei stärkeren Umgebungsgeräuschen wird die Verstärkung pro Band adaptiv wahlweise so gesenkt, dass ein mittlerer Pegel entsteht, der individuell entweder gerade gut wahrnehmbar oder gerade nicht mehr wahrnehmbar ist. Je nach Situation kann der schwerhörende Mensch die Voreinstellung der gerade guten, permanenten Wahrnehmbarkeit des Umgebungslärms wählen, wenn eine Kontrollmöglichkeit bestehen bleiben soll, oder die Voreinstellung „gerade nicht mehr wahrnehmbar”, wenn jeglicher Umgebungslärm als störend aufzufassen ist.
Nach einer vorteilhaften Ausgestaltung der Erfindung umfasst die lautklassenspezifische Verarbeitung der Sprachsignale für jede Lautklasse eigene oder wenigstens zwei lautklassenübergreifende Verarbeitungsmaßnahmen. Bei den lautklassenspezifischen, wenigstens zwei lautklassenübergreifenden Verarbeitungsmaßnahmen sind insbesondere solche zu wählen, die für mehrere Lautklassen gleichermaßen anwendbar sind und einen Wahrnehmungsgewinn ohne Störungen erzeugen.
Ferner wird es als vorteilhaft erachtet, wenn das niedrigste, zu niedrigen Frequenzen verschobene, hochfrequente Frequenzband immer Signale liefert, wohingegen die frequenzmäßig höher liegenden, zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder lautklassenspezifisch zugeschaltet werden.
Mit dem erfindungsgemäßen Verfahren erfolgt somit eine nichtlineare Zeitbereichsmodifikation und eine nichtlineare Frequenzbereichsmodifikation der eingehenden akustischen Sprachsignale, wobei diese Frequenzbereichsmodifikationen eng aufeinander abgestimmt sind. Die Signalmodifikation im Zeitbereich in Form einer zeitlichen Verlängerung eines Sprachsignals erfolgt vorzugsweise nur bei einem spektral vorselektierten Teil des Sprachsignals, insbesondere dort, wo eine solche Modifikation sinnvoll ist und keine Störungen hervorruft. Das betrifft insbesondere alle impulshaltigen Sprachanteile, die so kurz sind, dass sie von quasi Pausen ständig umgeben sind. Dies sind insbesondere Plosive und solche Teile von stimmhaft angeregten Lauten, deren höhere Formanten deutlich oberhalb von 1,2 KHz liegen. Bei diesen ist eine kompatible Verarbeitung möglich. Durch die erfindungsgemäße Auffüllung der breiten Täler der Umhüllenden der oberen Formantresonanzen wird der Formant-Energieinhalt der Gesamtschwingung wesentlich erhöht. Im Fall der Plosive kann man durch Speicherung, Verzögerung und Wiederaufaddieren bestimmter schwach artikulierter Laute den Explosionsbereich mit seiner Spitze, ohne Störungen oder Klassenänderungen zu erzeugen, mit der identischen Frequenzbereichsvorfilterung bis zu 10 ms ausdehnen und erreicht auch bei diesen Einmalereignissen durch die oben genannte Verzögerung und Summation einen deutlichen Wirkungszuwachs relativ zu den nicht impulshaltigen Merkmalssignalen. Da auch Formant-Übergänge von Vokalen, die bekanntermaßen auch für kontextgebundene Plosive merkmalstragend sind, nach dem beschriebenen Verfahren wesentlich mehr Energie erhalten, ist auch deren Wirkung in Verbindung mit vokalhaften Lauten, die hochliegende zweite Formanten etwa oberhalb von 1,3 KHz enthalten, verstärkt. Dadurch können kontextuelle Plosive in Verbindung mit den Lauten „ö”, „ü”, „i” und „e” an Klarheit oder Prägnanz gewinnen. Wesentlich für die Erfindung ist, dass die Hervorhebung von schwach artikulierten Lauten nicht durch Erhöhung der Verstärkung erfolgt und daher auch keine verstärkungsbedingte zusätzliche Schwingneigung hervorruft. Jedoch kann ein erfindungsgemäß hervorgehobener Laut auch verstärkt werden, wenn dieses zweckdienlich ist und nicht zu den im Zusammenhang mit dem Stand der Technik genannten Nachteilen führt.
Im unteren Frequenzbereich von 2,5 bis 4 KHz wird der zweite Formant des „i” durch Frequenzverschiebung des dritten Formanten um einen Faktor von ca. 0,8 und Überlagerung wesentlich robuster gemacht, also hervorgehoben. Da die Merkmalgrenze des „i” bei Lagen der zweiten Formanten bei 2,1 KHz gefunden wird, ist durch die Begrenzung der Frequenzverschiebung durch die untere Grenzfrequenz eine feste Beschneidung der niederfrequenten Energien bei 2,3 KHz durchzuführen. Die Merkmalsenergien der anderen frikativischen Laute werden kompatibel konzentriert und frequenzbegrenzt. Dies bewirkt vor allem bei Menschen mit Hochtonhörverlusten eine bessere Wirkung der Merkmalsenergien bei „ch” und auch bei „f”. Die untere Frequenzbegrenzung sorgt immer dafür, dass eine Anregung der physiologischen „sch”-Kanäle, also eine Inter-Laut-Klassenüberschreitung, unterbleibt.
Der obere Frequenzbereich von 5 bis 9 kHz enthält vor allem Merkmalsenergien des „s” aber auch des „t” und des „ch”. Um in den Nutzhörbereich zu gelangen, ist eine andersgeartete mittlere Frequenzverschiebung um einen individuellen Faktor erforderlich. Hierdurch kann eine der natürlichen Schärfe-Wahrnehmung im hochliegenden Frequenzbereich äquivalente Wahrnehmung von Schärfe bei der verschobenen Merkmalsenergie und somit für eine physiologisch Naturlaut-adäquate Wahrnehmung erfolgen. Die Frequenzverschiebungsfaktoren der einzelnen Frequenzbandverschiebeeinheiten werden bei Hörgerätanwendungen programmierbar gemacht, um Anpassungen an den individuellen Hörverlust zu ermöglichen. Die Vermeidung von Artefakten bei stimmtonangeregten Lauten, also insbesondere bei den genannten Vokalen einschließlich ihrer Formant-Übergänge, verlangt allerdings eine Synchronisierung der Rechen-Verarbeitungsfenster mit den Realzeit-Pitch-Perioden. Daher ist ein Pitch-Synchronisierer unverzichtbar. Bei Segmenten mit Frikativen kann die Merkmalsburstverlängerung keine Pausen auffüllen, da es keine gibt. Allerdings ist eine Überlagerung nach Verzögerung auch nicht schädlich. Eine spezielle Unterdrückung der Verzögerung ist daher nicht erforderlich.
Die obige Aufgabe wird des Weiteren erfindungsgemäß durch eine Vorrichtung zum Verarbeiten von akustischen Sprachsignalen, mit einer elektronischen Verarbeitungseinrichtung dadurch gelöst, dass die Verarbeitungseinrichtung zum lautklassenspezifischen Verarbeiten der Sprachsignale eingerichtet ist und Mittel aufweist, mit denen eine zeitliche Verlängerung von schwach artikulierten Lauten durchführbar ist.
Die erfindungsgemäße Vorrichtung ermöglicht die Realisierung des vorbeschriebenen Verfahrens, nach dem eine individuelle Hervorhebung von schwach artikulierten Lauten erfolgen kann, wobei diese Hervorhebung nicht auf einer Verstärkung der Laute sondern auf einer zeitlichen Verlängerung derselben beruht. Dadurch werden die im Zusammenhang mit dem Stand der Technik beschriebenen Nachteile vermieden.
Vorteilhafterweise weist die Vorrichtung eine Filtereinrichtung auf, mittels der die Sprachsignale in oberhalb einer oberen Grenzfrequenz liegende, hochfrequente Frequenzbänder und in unterhalb der oberen Grenzfrequenz liegende Frequenzbänder aufspaltbar sind. Die hochfrequenten Frequenzbänder können anschließend mittels Frequenzbandverschiebeeinheiten in den Nutzhörbereich unterhalb der oberen Grenzfrequenz individuell verschoben werden. Die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder können mittels Filtereinheiten der Filtereinrichtung individuell mit einer Pre-Emphasis moduliert werden.
Die Vorrichtung weist zweckmäßigerweise einen Lautklassenselektor auf, mit dem einem Sprachsignal eine bestimmte Lautklasse zugeordnet werden kann. Auf Basis der jeweils vorgenommenen Zuordnung einer Lautklasse zu einem Sprachsignal erfolgt vorzugsweise die zeitliche Verlängerung der schwach artikulierten Laute. Mittels einer Kompressoreinheit der Vorrichtung sind die Frequenzbänder individuell komprimierbar, wobei auch diese Komprimierung in Abhängigkeit der jeweils einem Sprachsignal zugeordneten Lautklasse gesteuert werden.
Weitere Vorteile und Merkmale der vorliegenden Erfindung werden im Folgenden anhand des in der Zeichnung gezeigten Ausführungsbeispiels erläutert. Dabei zeigt
1: eine schematische Darstellung eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung.
Die in 1 gezeigte Ausführungsform der Vorrichtung 1 weist eine Filtereinrichtung 2 auf, mittels der die eingehenden akustischen Sprachsignale 3 in oberhalb der oberen Grenzfrequenz liegende, hochfrequente Frequenzbänder FB1, FB2 und FB3 und in unterhalb der oberen Grenzfrequenz liegende Frequenzbänder FB4 und FB5 aufgespaltet werden. Der dargestellte obere Bereich 4 der Filtereinrichtung 2 dient der Verarbeitung von nicht zu verschiebenden, unterhalb der oberen Grenzfrequenz liegenden Frequenzbändern FB1, FB2 und FB3 der Sprachsignale 3, wohingegen der dargestellte untere Bereich 5 der Filtereinrichtung 2 die hochfrequenten Frequenzbänder FB4 und FB5 aus den eingehenden Sprachsignalen 3 herausfiltert, welche oberhalb der oberen Grenzfrequenz liegen und in den Nutzhörbereich unterhalb der oberen Grenzfrequenz verschoben werden sollen. Die Vorrichtung 1 weist weiter einen Pitch-Synchronisator 6 auf, welcher zur Synchronisation der Fensterung der Frequenzbandverschiebeeinheiten 7 unter Berücksichtigung der Phase der Umhüllenden der Sprachsignale 3 über die Steuerleitung 8 dient. Des Weiteren weist die Vorrichtung 1 einen Lautklassenselektor 9 auf, welcher einem empfangenen Sprachsignal 3 eine vorgegebene Lautklasse zuordnet. Das Ergebnis dieser Zuordnung wird zur Steuerung weiterer Komponenten der Vorrichtung 1 über Steuerleitungen 10, 11 und 12 verwendet, die im Folgenden beschrieben werden.
Eine dieser Komponenten der Vorrichtung 1 ist ein Frequenzschiebemodul 13, welches in dieser Ausführungsform zwei programmierbare Frequenzbandverschiebeeinheiten 7 aufweist. Mittels dieser Frequenzbandverschiebeeinheiten 7 kann eine individuelle Anpassung der Vorrichtung 1 an die jeweiligen Anforderungen erfolgen. Die Frequenzbandverschiebeeinheiten 7 arbeiten vorzugsweise mit Abtast-Modifikation. Das Spektrum, das jede Frequenzbandverschiebeeinheit 7 erzeugt, wird durch ein nachgeschaltetes Postfilter 14, 15 begrenzt. Diese sind als Bandpassfilter ausgebildet, welche das verschobene Signal im spektralen Bereich begrenzen und ein Überschreiten physiologischer Lautklassengrenzen verhindern. Das Ausgangssignal der Postfilter 14, 15 wird jeweils durch einen Kombinator 16, aufweisend eine angepassten Soft-Switch, durchgeschaltet oder abgeschaltet. Dieses Durch- oder Abschalten wird durch den Lautklassenselektor 9 in Abhängigkeit der jeweils einem Sprachsignal 3 zugeordneten Lautklasse über die Steuerleitung 10 gesteuert.
Die Vorrichtung 1 weist weiter ein Mittel 17 zum lautklassenspezifischen zeitlichen Verlängern von schwach artikulierten Lauten auf. Dieses tastet den Signalstrom, der aus dem Verknüpfer 18 zu ihm gelangt, mit überlappenden Fenstern ab, speichert den Fensterinhalt ab und gibt ihn nach vorgebbarer Zeit, etwa zwischen 2 und 10 ms, wieder aus und addiert ihn zum Eingangssignalstrom. Die Operationen „Verzögern” und „Addition” können parallel mit mehreren Verschiebe-Hall-Zeiten erfolgen. Im gezeigten Ausführungsbeispiel wird einmal um 4 ms verzögert und jeweils addiert. Für verschiedene Lautklassen können verschiedene Arbeitsweisen angewandt werden. Auch dieses wird durch den Lautklassenselektor 9 über die Steuerleitung 11 gesteuert.
Die Kompressoreinheit 19 ist ein 3-Band-Kompressor mit einer Kompressoreinheit K1, K2 beziehungsweise K3 und mit drei unterschiedlichen Zeitkonstanten je Band, wobei jeweils eine Zeitkonstante pro Bandlage an die Sprachmerkmale angepasst sind. Es gibt eine in allen Bändern identische langsame Verstärkungseinstellung, eine mittel-schnelle Silbenkompression und eine schnelle Limitierung mit unterschiedlichen Geschwindigkeitscharakteristiken. Alle arbeiten mit „look-ahead” Technik und vermeiden so Einschwingspitzen. Eine geschwächte Rückwärtskopplung des zweiten auf das erste Band und des dritten auf das zweite Band wirkt dem physiologischen „upward spread of masking” entgegen. Im Frequenzbereich oberhalb von 1,5 kHz wird speziell durch die Art der Steuerung der schnellsten Kompressionskomponente eine Reduzierung des Spitzen-zu-Mittelwert Verhältnisses bei Formanten erreicht, so dass die Stärke der Formantinformation relativ zur Stärke der Stimmtonhöheninformation anwachsen kann und so für eine klarere Wahrnehmung des Vokalcharakters sorgen kann.
Über die Regeleinrichtung 20 erfolgt eine Vorverstärkung der zu komprimierenden Frequenzbänder vor ihrer Kompression, wozu die Kompressoreinheiten K1, K2 und K3 individuell von der Regeleinrichtung 20 über die Steuerleitungen 21 geregelt werden. Die Regeleinrichtung 20 selber wird über die Steuerleitung 12 in Abhängigkeit von der jeweils einem Sprachsignal 3 mittels des Lautklassenselektors 9 zugeordneten Lautklasse gesteuert. Die Ausgangssignale der einzelnen Kompressoreinheiten K1, K2 und K3 werden mittels des Verknüpfers 22 miteinander kombiniert und einem Equalizer 23 zugeführt. Dieser erzeugt das Ausgangssprachsignal 24 der Vorrichtung 1.

Claims

Verfahren zum Verarbeiten von akustischen Sprachsignalen mittels einer elektronischen Verarbeitungseinrichtung, dadurch gekennzeichnet, dass eine lautklassenspezifische Verarbeitung der Sprachsignale erfolgt, wobei schwach artikulierte Laute zeitlich verlängert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Sprachsignale zu Beginn in mehrere Frequenzbänder aufgeteilt werden.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass hochfrequente Frequenzbänder, die oberhalb einer oberen Grenzfrequenz liegen, zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz und oberhalb einer unteren Grenzfrequenz verschoben werden.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Verschiebung der hochfrequenten Frequenzbänder individuell in Abhängigkeit der jeweiligen Frequenzlage eines hochfrequenten Frequenzbandes erfolgt.
Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder mit unterschiedlicher Pre-Emphasis moduliert werden.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass die unterhalb der oberen Grenzfrequenz liegenden Frequenzbänder individuell komprimiert werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass den Sprachsignalen vorgegebene Lautklassen zugeordnet werden.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder in Abhängigkeit der ihnen jeweilig zugeordneten Lautklasse zu einem Zwischensprachsignal miteinander kombiniert werden.
Verfahren nach einem der Ansprüche 3 bis 8, dadurch gekennzeichnet, dass die zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder mit einem oberen Frequenzband, welches unterhalb der oberen Grenzfrequenz am nächsten zu dieser angeordnet ist, zu einem Hochtonzwischensprachsignal kombiniert werden.
Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass das Zwischensprachsignal beziehungsweise das Hochtonzwischensprachsignal in Abhängigkeit der den Sprachsignalen jeweilig zugeordneten Lautklasse gespeichert, in vorgebbaren Zeitabständen abgerufen, individuell komprimiert und zur Erzeugung eines Ausgangssprachsignals mit den übrigen individuell komprimierten Frequenzbändern, die unterhalb der oberen Grenzfrequenz liegen, kombiniert wird.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass Ausgangssprachsignal zur Kompensation von ungewünschten spektralen Eigenschaften von an die Verarbeitungseinrichtung anschließbaren Sprachsignalausgabeeinheiten mittels eines Equalizers moduliert werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Vorverstärkung der Frequenzbänder vor ihrer Kompression in Abhängigkeit der den Sprachsignalen jeweilig zugeordneten Lautklasse und/oder der Lautstärke von Umgebungsgeräuschen erfolgt.
Verfahren nach einem der Ansprüche 3 bis 12, dadurch gekennzeichnet, dass die Frequenzverschiebungen ausschließlich über Intra-Laut-Transformationen erfolgen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die lautspezifische Verarbeitung der Sprachsignale für jede Lautklasse eigene oder wenigstens zwei Lautklassen übergreifende Verarbeitungsmaßnahmen umfasst.
Verfahren nach einem der Ansprüche 3 bis 14, dadurch gekennzeichnet, dass die Frequenzverschiebungen mittels individuell programmierbarer Frequenzverschieber erfolgt.
Verfahren nach einem der Ansprüche 3 bis 15, dadurch gekennzeichnet, dass das niedrigste, zu niedrigen Frequenzen verschobene, hochfrequente Frequenzband immer Signale liefert, wohingegen die frequenzmäßig höher liegenden, zu niedrigen Frequenzen verschobenen, hochfrequenten Frequenzbänder lautklassenspezifisch zugeschaltet werden.
Vorrichtung (1) zum Verarbeiten von akustischen Sprachsignalen (3), mit einer elektronischen Verarbeitungseinrichtung, dadurch gekennzeichnet, dass die Verarbeitungseinrichtung zum lautklassenspezifischen Verarbeiten der Sprachsignale (3) eingerichtet ist und Mittel aufweist, mit denen eine zeitliche Verlängerung von schwach artikulierten Lauten durchführbar ist.
Vorrichtung (1) nach Anspruch 17, gekennzeichnet durch eine Filtereinrichtung (2), mittels der die Sprachsignale (3) in oberhalb einer oberen Grenzfrequenz liegende, hochfrequente Frequenzbänder (FB4, FB5) und in unterhalb der oberen Grenzfrequenz liegende Frequenzbänder (FB1, FB2, FB3) aufspaltbar sind.
Vorrichtung (1) nach Anspruch 18, dadurch gekennzeichnet, dass die Filtereinrichtung (2) mehrere Filtereinheiten aufweist, mit denen jeweils ein bestimmtes unter der oberen Grenzfrequenz liegendes Frequenzband (FB1, FB2, FB3) individuell mit einer Pre-Emphasis modulierbar ist.
Vorrichtung (1) nach einem der Ansprüche 17 bis 19, gekennzeichnet durch einen Lautklassenselektor (9), mit dem einem Sprachsignal (3) eine bestimmte Lautklasse zugeordnet werden kann.
Vorrichtung (1) nach einem der Ansprüche 18 bis 20, gekennzeichnet durch wenigstens eine Frequenzbandverschiebeeinheit (7), mit der ein hochfrequentes Frequenzband (FB4, FB5) individuell zu niedrigeren Frequenzen unterhalb der oberen Grenzfrequenz verschiebbar ist.
Vorrichtung (1) nach einem der Ansprüche 18 bis 21, gekennzeichnet durch eine Kompressoreinheit (19), mittels der die Frequenzbänder individuell komprimierbar sind.
Vorrichtung (1) nach einem der Ansprüche 17 bis 22, gekennzeichnet durch einen Equalizer (23), mit dem eine Kompensation von ungewünschten spektralen Eigenschaften von an die Verarbeitungseinrichtung anschließbaren Sprachsignalausgabeeinheiten durchführbar ist.
Vorrichtung (1) nach Anspruch 22 oder 23, dadurch gekennzeichnet, dass die zeitliche Verlängerung der schwach artikulierten Laute, die Verschiebung der hochfrequenten Frequenzbänder (FB4, FB5) und/oder die individuelle Kompression der Frequenzbänder mittels des Lautklassenselektors (9) steuerbar sind.