DE102016200637B3

DE102016200637B3 - Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals sowie Verfahren zum latenzarmen Betrieb eines Hörsystems

Info

Publication number: DE102016200637B3
Application number: DE102016200637.1A
Authority: DE
Inventors: Marc Aubreville; Oliver Dressler
Original assignee: Sivantos Pte Ltd
Current assignee: Sivantos Pte Ltd
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2017-04-27
Anticipated expiration: 2036-01-20
Also published as: EP3197181A1; DK3197181T3; CN106982409A; EP3197181B1; US20170208397A1; CN106982409B; US10142741B2

Abstract

Die Erfindung nennt ein Verfahren zur Reduktion der Latenzzeit einer Filterbank (26, 32) zur Filterung eines Audiosignals (10, 16), wobei aus dem Audiosignal (10, 16) eine Vielzahl von Signal-Blöcken (50a–f) in der Zeitdomäne gebildet wird, wobei für wenigstens eine Mehrzahl der Signal-Blöcke (50a–f) jeweils eine Filterfunktion (56c) vorgegeben wird, wenigstens ein Teilintervall (58c) des Signal-Blocks (50a–f) als ein Prädiktionszeitraum (60c) vorgegeben wird, Signalanteile (66b) des Signal-Blocks (50a–f) im wenigstens einen Teilintervall (58c) für den Prädiktionszeitraum (60c) geschätzt werden, und aus den für den Prädiktionszeitraum (60c) geschätzten Signalanteilen (66b) und den Signalanteilen (52a) des Signal-Blocks (50a–f) außerhalb des Prädiktionszeitraums (60c) ein prädizierter Signal-Block (68c) erzeugt wird, und der prädizierte Signal-Block (68c) mit der vorgegebenen Filterfunktion (56c) gefiltert in die Frequenz-Domäne transformiert wird, und hierdurch ein transformierter Signal-Block gebildet wird, und Signalanteile des transformierten Signal-Blocks zur Weiterverarbeitung ausgegeben werden.

Description

Die Erfindung betrifft ein Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals, wobei aus dem Audiosignal eine Vielzahl von Signal-Blöcken in der Zeitdomäne gebildet wird, wobei für wenigstens eine Mehrzahl der Signal-Blöcke jeweils eine Filterfunktion vorgegeben wird, der Signal-Block mit der vorgegebenen Filterfunktion gefiltert in die Frequenz-Domäne transformiert wird, und hierdurch ein transformierter Signal-Block gebildet wird, und Signalanteile des transformierten Signal-Blocks zur Weiterverarbeitung ausgegeben werden. Die Erfindung betrifft weiter ein Verfahren zum latenzarmen Betrieb eines Hörsystems, wobei aus einem Schallsignal durch einen ersten Eingangswandler ein erstes Audiosignal erzeugt wird, wobei das erste Audiosignal in einer Signalverarbeitungseinheit mittels einer ersten Filterbank gefiltert wird, wobei Signalanteile des gefilterten ersten Audiosignals in der Signalverarbeitungseinheit weiterverarbeitet und zur Erzeugung eines Ausgabesignals verwendet werden, und wobei aus dem Ausgabesignal durch einen Ausgangswandler ein Ausgabe-Schallsignal erzeugt wird.
In einem Hörgerät wird ein von einem Mikrofon erzeugte Audiosignal nach einer Digitalisierung meist von der Zeitdomäne in die Frequenzdomäne transformiert, d. h., das Audiosignal liegt nach der Digitalisierung zunächst in Form zeitaufgelöster Samples vor, welche, ggf. zu einzelnen Signal-Blöcken (sog. „Frames”) gruppiert, durch eine Fourier-Transformation wie z. B. FFT in einzelne spektrale Signalanteile des erzeugten Audiosignals zerlegt werden. Dies hat den Vorteil, dass frequenzselektiv Algorithmen wie Störgeräuschreduktion, Richtmikrofonie oder Dynamikkompression angewandt werden können. Die erwähnte Transformation hat jedoch den Nachteil, dass ein nach entsprechender, frequenzselektiver Bearbeitung in die Zeitdomäne zurückgewandeltes Audiosignal eine Verzögerung gegenüber dem Eingangssignal aufweist, die typischerweise in der Größenordnung von mehreren ms liegt. Diese Verzögerung, auch Latenz genannt, ist umso größer, je höher die Auflösung in der Frequenz-Domäne gewählt wird.
Viele Schwerhörige leiden vorrangig unter einem Verlust des Hörvermögens bei hohen Frequenzen, beispielsweise einer merklich abgeschwächten Wahrnehmung ab 5–10 kHz, während sie für niedrige Frequenzen kaum eine Abweichung im Vergleich zu einer normal hörenden Person zeigen. In diesen Fällen werden hauptsächlich hohe Frequenzen erheblich verstärkt.
Überdies wird hierbei wird auch häufig eine offene Anpassung des Hörgeräts gewählt, in welcher das von einem Lautsprecher des Hörgeräts Ausgabe-Schallsignal über einen Schallschlauch mit Schirmchen oder einen über einen Hörer mit Schirmchen im Gehörgang zum Trommelfell geleitet wird. Am Trommelfell selbst kommt somit eine Mischung aus einem frequenzselektiv gedämpften Direktschall der Umgebung sowie dem vom Hörgerät erzeugten Ausgabe-Schallsignal an. Je nach Hörverlust und Anpassungsart, welche wiederum frequenzabhängig die Dämpfung des Direktschalls von der Umgebung zum Gehör beeinflusst, findet man deshalb unterschiedliche Mischverhältnisse in Abhängigkeit der Frequenz vor.
Bei der Überlagerung korrelierter Signale mit Zeitversatz, wie sie im eben beschriebenen Fall am Trommelfell durch den Direktschall der Umgebung und das Ausgangs-Schallsignal des Hörgeräts vorliegen, treten oftmals Kammfiltereffekte auf. Diese erzeugen charakteristische Amplitudenminima („Notches”) mit gleichem Abstand über der Frequenz, bei welcher eine fast völlige Auslöschung des Signalanteils entsprechender Frequenz stattfindet. Je größer der zeitliche Abstand zwischen beiden überlagerten Signalen, desto geringer ist in der Frequenz-Domäne Abstand dieser Amplitudenminima. Dadurch wird das aus der Überlagerung resultierende Signal verzerrt, es tritt ein röhriger Klang auf. Gerade im Fall der binauralen Audiosignalverarbeitung, wie sie in binauralen Hörsystemen Anwendung findet, ist die Latenz besonders groß und daher die Anfälligkeit für Kammfiltereffekte besonders groß.
Um diese Kammfiltereffekte möglichst zu vermeiden, ist es also sinnvoll, die gesamte Latenz im binauralen Hörsystem zu reduzieren. Die beschriebenen Probleme mit Kammfiltereffekten sind jedoch nicht an ein binaurales Hörsystem gebunden, sondern können auch in einem monauralen Hörsystem mit nur einem Hörgerät auftreten, in welchem ein Direktschall der Umgebung und ein Ausgangs-Schallsignal eines Hörgeräts mit zeitlichem Versatz überlagert an das Trommelfell des Benutzers gelangen.
Der zeitliche Versatz ist hierbei vorrangig bedingt durch die interne Latenz des Hörsystems zur Signalverarbeitung und hierbei insbesondere in der Filterung.
In der DE 10 2014 204 557 A1 ist beschrieben, wie insbesondere zur Anwendung in einem binauralen Hörgerät in einem Eingangssignal ein Windrauschen anhand des typischen Frequenzspektrums des Windrauschens reduziert wird. Für eine möglichst geringe Latenzzeit wird hierbei vorgeschlagen, das Eingangssignal in zwei Teilsignale aufzuteilen, und die Teilsignale jeweils mit unterschiedlicher Frequenzauflösung und somit Latenz zu filtern. Im höher aufgelösten Signalzweig werden nun Filterparameter ermittelt, welche auf das mit geringerer Latenz gefilterte Teilsignal angewandt werden.
In der DE 693 32 975 T2 wird ein Verfahren zur Filterung eines Eingangssignals mittels einer gewünschten Impulsantwort genannt, in welchem die Impulsantwort in der Zeitdomäne in einzelne Segmente zerlegt wird, welche in die Frequenzdomäne transformiert werden, und daraus jeweils Koeffizientenblöcke für die Filterung der einzelnen zueinander zeitverzögerten Frames in der Frequenzdomäne gebildet werden. Die so mit den Koeffizientenblöcken gefilterten Frames werden mit ihrer entsprechenden Zeitverzögerung aufsummiert, und daraus durch Rücktransformation ein Signal in der Zeitdomäne erzeugt, von welchem in vorbestimmter Weise noch einzelne Signalanteile verworfen werden, um das fertige, gefilterte Ausgangssignal zu erhalten.
Die US 7,251,271 B1 nennt ein Verfahren, um bei einer Filterung eines diskretisierten Eingangssignals mit einer diskreten Impulsantwort sog. Aliasing-Effekte zu vermeiden. Diese können bei der Transformation der einzelnen Frames des Eingangssignals von der Zeit – in die Frequenzdomäne und der Rücktransformation des Produktes aus Impulsantwort und Frequenzsprektrum des Eingangssignals in die Zeitdomäne auftreten. Zur Vermeidung der Aliasing-Effekte werden einzelne Frames vor der jeweiligen Transformation durch Hinzufügen von Nullen verlängert, um mit der jeweiligen Filterlänge zu korrespondieren.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren für eine möglichst latenzarme spektrale Filterung eines Audiosignals bei möglichst hoher spektraler Auflösung anzugeben. Der Erfindung liegt weiter die Aufgabe zugrunde, ein Verfahren zum möglichst latenzarmen Betrieb eines Hörsystems anzugeben.
Die erstgenannte Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals, wobei aus dem Audiosignal eine Vielzahl von Signal-Blöcken in der Zeitdomäne gebildet wird. Hierbei ist vorgesehen, dass für wenigstens eine Mehrzahl der Signal-Blöcke jeweils eine Filterfunktion vorgegeben wird, wenigstens ein Teilintervall des Signal-Blocks als ein Prädiktionszeitraum vorgegeben wird, Signalanteile des Signal-Blocks im wenigstens einen Teilintervall für den Prädiktionszeitraum geschätzt werden, und aus den für den Prädiktionszeitraum geschätzten Signalanteilen und den Signalanteilen des Signal-Blocks außerhalb des Prädiktionszeitraums ein prädizierter Signal-Block erzeugt wird. Weiter ist vorgesehen, dass der prädizierte Signal-Block mit der vorgegebenen Filterfunktion gefiltert in die Frequenz-Domäne transformiert wird, und hierdurch ein transformierter Signal-Block gebildet wird, und Signalanteile des transformierten Signal-Blocks zur Weiterverarbeitung ausgegeben werden.
Die zweitgenannte Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zum latenzarmen Betrieb eines Hörsystems, wobei aus einem Schallsignal durch einen ersten Eingangswandler ein erstes Audiosignal erzeugt wird, wobei das erste Audiosignal unmittelbar zu einer Signalverarbeitungseinheit übertragen wird, und in der Signalverarbeitungseinheit unmittelbar mittels einer ersten Filterbank gemäß dem vorbeschriebenen Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals gefiltert wird, wobei Signalanteile des gefilterten ersten Audiosignals in der Signalverarbeitungseinheit weiterverarbeitet und zur Erzeugung eines Ausgabesignals verwendet werden, und wobei aus dem Ausgabesignal unmittelbar durch einen Ausgangswandler ein Ausgabe-Schallsignal erzeugt wird. Vorteilhafte und teils für sich gesehen erfinderische Ausgestaltungen sind in den Unteransprüchen und in der nachfolgenden Beschreibung dargelegt.
Bevorzugt wird aus dem Audiosignal ein Signal-Block („Frame”) in der Zeitdomäne gebildet, indem das Audiosignal durch Zeit- und Amplitudendiskretisierung in eine Vielzahl von jeweils aufeinander folgenden Zeitpunkten zugeordneten Amplitudenkennwerten („Samples”) umgewandelt wird, und jeweils eine Vielzahl von aufeinander folgenden Samples zu einem Signal-Block zusammengefasst wird. Die Weiterverarbeitung der Signalanteile des transformierten Signal-Blocks umfasst insbesondere eine frequenzband-abhängige Verstärkung, eine frequenzband-abhängige Richtcharakteristik, eine frequenzband-abhängige Rauschunterdrückung sowie eine Rücktransformation frequenzband-abhängig behandelter Signalanteile in die Zeit-Domäne.
Das Schätzen der Signalanteile für den Prädiktionszeitraum eines jeweiligen Signal-Blocks erfolgt bevorzugt über einen Prädiktionsalgorithmus, wie z. B. durch ein lineares Prädiktionsfilter. Insbesondere ist auch eine adaptive Anpassung von zur Schätzung verwendeter, zeitkorrelierter Koeffizienten derart möglich, dass ein Schätzkoeffizient, welcher als Koordinate im Signal-Block jeweils einem Sample mit einer bestimmten Zeitverzögerung zuzuordnen ist, in Abhängigkeit des Fehlers zwischen einem geschätzten Sample und einem real aus dem Audiosignal gewonnenen Sample korrigiert wird, wobei die Korrektor in periodischen Abständen erneuert wird. Insbesondere wird ein für einen Signal-Block geschätzter Signalanteil auch für einen später folgenden Signal-Block verwendet, falls der dem Signalanteil entsprechende Zeitraum auch dann noch in den Prädiktionszeitraum des später folgenden Signal-Blocks fällt. Bevorzugt umfasst der Prädiktionszeitraum das jeweils erste und/oder das jeweils letzte Sample eines Signal-Blocks. Insbesondere bildet jeweils in einem Signal-Block der außerhalb des Prädiktionszeitraums liegende Zeitraum ein zusammenhängendes Intervall. Insbesondere umfasst der Prädiktionszeitraum die ersten n Samples und/oder die letzten m Samples, wobei n und m natürliche Zahlen kleiner der Anzahl an Samples im jeweiligen Signal-Block sind.
Unter einem Eingangswandler bzw. einem Ausgangswandler des Hörsystems ist jede Form eines akusto-elektrischen bzw. eines elektro-akustischen Wandlers umfasst, beispielsweise ein Mikrofon bzw. ein Lautsprecher. Unter einer unmittelbaren Übertragung des ersten Audiosignals zur Signalverarbeitungseinheit ist zu verstehen, dass die Übertragung des ersten Audiosignals unmittelbar nach dessen Erzeugung stattfindet, also insbesondere ohne eine weitere, über eine Signal-Vorverarbeitung wie z. B. A/D-Wandlung und/oder Datenkompression hinaus gehende Zeitverzögerung stattfindet, wie sie z. B. durch eine langfristige physische Speicherung, welche nicht auf dem FIFO-Prinzip basiert („first-in-first-out”), eintreten würde. Die Übertragung erfolgt dabei insbesondere dabei lokal innerhalb eines Hörgerätes, beispielsweise auf dem durch die Signalleitungen vorgegebenen Signalweg. Insbesondere erfolgt die Übertragung aber auch drahtlos, beispielsweise von einem ersten Hörgerät eines binauralen Hörsystems zu einem zweiten Hörgerät des binauralen Hörsystems.
Unter einer unmittelbaren Filterung des ersten Audiosignals in der Signalverarbeitungseinheit ist hierzu analog zu verstehen, dass der Filterprozess für das Audiosignal unmittelbar nach dessen Eingang in der Signalverarbeitungseinheit stattfindet, also insbesondere ohne eine weitere, über die direkte Signalübertragung hinaus gehende Zeitverzögerung, wie sie z. B. durch eine langfristige Speicherung, welche nicht auf dem FIFO-Prinzip basiert („first-in-first-out”), eintreten würde. Ebenso ist unter einer unmittelbaren Erzeugung des Ausgabe-Schallsignals aus dem Ausgabesignal zu verstehen, dass unmittelbar nach der Erzeugung des Ausgabesignals durch die Weiterverarbeitung das Ausgabesignal zum Ausgangswandler zur Ausgabe weitergegeben wird, also insbesondere ohne eine weitere, über die direkte Signalübertragung hinaus gehende Zeitverzögerung, z. B. durch eine langfristige Speicherung.
In Hörsystemen fällt ein wichtiger Anteil der Latenz auf die Filterbänke, welche zur Transformation der von den Eingangswandlern erzeugten Audiosignale in die Frequenz-Domäne eingesetzt werden (Analyse-Filterbänke), sowie den Filterbänken für die Rücktransformation der frequenzaufgelösten, weiterverarbeiteten Audiosignale in die Zeit-Domäne (Synthese-Filterbänke), wobei erstere meistens einen größeren Anteil aufweisen. Weiter ist bei einem binauralen Hörsystem auch die Übertragung eines Audiosignals von einem Hörgerät zum anderen für die Erzeugung eines binauralen Ausgabesignals mit einer gewissen Verzögerung verbunden. Letztere ist jedoch angesichts der Restriktionen bei der Kodierung zur Übertragung nur schwer zu verringern. Somit ist es auch im Falle eines binauralen Hörsystems vorteilhaft, für einen möglichst latenzarmen Betrieb des Hörsystems die Latenzzeit für die frequenzbandweise Filterung des Audiosignals, also streng genommen des Analyse-Filters für die Transformation in die Frequenz-Domäne, zu reduzieren.
Um die Latenzzeit des Analyse-Filters zu reduzieren, wäre es nun zunächst möglich, die einzelnen Signal-Blöcke, welche jeweils für einen Filterprozess herangezogen werden, kurzer zu wählen, d. h., weniger Samples in einem Signal-Block zu verarbeiten, da für die Verarbeitung eines Signal-Blocks bevorzugt immer erst alle benötigten Samples des Signal-Blocks vorliegen sollten. Da jedoch die Verringerung der Samples in einem Signal-Block eine Verringerung der zu insgesamt im Signal-Block zur Verfügung stehenden Information über die Signalanteile bedeutet, führt diese ohne die Durchführung von korrigierenden Maßnahmen auch zu einer verringerten Frequenzauflösung im transformierten Signal-Block. Dies ist jedoch unerwünscht, da viele Algorithmen zur Signalverarbeitung, welche in Hörsystemen Verwendung finden, für einen im Endergebnis zufrieden stellenden Klangcharakter eine besonders frequenzselektive Anwendung erfordern.
Dadurch, dass nun zur Filterung die Signalanteile für den Prädiktionszeitraum eines Signal-Blocks geschätzt werden, anstatt die entsprechenden, real aus dem Audiosignal erzeugten Signalanteile zu verwenden, kann bei einer geeigneten Wahl des Prädiktionszeitraumes die effektive Länge des Signal-Blocks verringert werden, ohne dass hierdurch die Frequenzauflösung der Filterbank beeinträchtigt wird. Die Frequenzauflösung der Filterbank hängt ab vom zeitlichen Informationsgehalt der für den Filterprozess zu verwenden Signal-Blöcke, also von deren Länge. Dadurch, dass nun in einem Signal-Block für einen Zeitraum die Signalanteile geschätzt werden, kann die Latenz der Filterbank um die dem zugehörigen Prädiktionszeitraum entsprechende Dauer verringert werden.
Vorzugsweise überlappen sich dabei je zwei zeitlich aufeinander folgende Signal-Blöcke teilweise. Die Definition der zeitlichen Abfolge erfolgt hierbei bevorzugt über ein Referenz-Sample für den jeweiligen Signal-Block, z. B. das erste Sample. Die Folge des beschriebenen Überlapps ist, dass die betreffenden, aufeinander folgenden Signal-Blöcke mehrere, bevorzugt aufeinander folgende Samples gemeinsam haben. Dies verbessert einerseits die zeitliche Auflösung in der Frequenz-Domäne, da hierdurch ein häufiges Aktualisieren der frequenzbandweisen Information ermöglicht wird, andererseits kann hierdurch auch der Aufwand beim Schätzen der Signalanteile verringert werden, da bereits geschätzte Signalanteile für einen nachfolgenden Block ohne einen erneuten Schätzvorgang zur Verfügung stehen.
Zweckmäßigerweise werden jeweils Signalanteile des transformierten Signal-Blocks nach verschiedenen Frequenzbändern getrennt zur Weiterverarbeitung ausgegeben. Für eine derartige Weitergabe ist die durch das Schätzen der Signalanteile der Prädiktionzeiträume reduzierte Latenz der Filterbank bei gleichbleibender hoher Frequenzauflösung besonders vorteilhaft.
Bevorzugt weist jeweils die Filterfunktion im Prädiktionszeitraum eine im Mittel geringere Transmissionsamplitude auf als außerhalb des Prädiktionszeitraumes. Dies soll bedeuten, dass der über den ganzen Prädiktionszeitraum gemittelte Wert der Transmissionsamplitude der Filterfunktion geringer ist als der über den restlichen Zeitraum des Signal-Blocks außerhalb des Prädiktionszeitraums gemittelte Wert der Transmissionsamplitude der Filterfunktion. In diesem Fall ist nämlich davon auszugehen, dass bei einer entsprechenden Filterung in die Frequenz-Domäne mittels der Filterfunktion Fehler, welche für den Prädiktionszeitraum durch Abweichungen der Schätzung der Signalanteile von den realen Signalanteilen auftreten können, infolge der im Mittel geringeren Transmissionsamplitude der Filterfunktion weitgehend unterdrückt werden, und somit nicht nennenswert in den transformierten Signal-Block eingehen.
In einer vorteilhaften Ausgestaltung wird die Transmissionsamplitude der Filterfunktion jeweils durch eine logarithmisch konkave Funktion gebildet, wobei der Prädiktionszeitraum das Maximum der Transmissionsamplitude der Filterfunktion ausspart. Eine logarithmisch konkave Funktion ist definiert als eine Funktion, deren Logarithmus im Definitionsbereich – welcher hier durch die einzelnen Samples des jeweiligen Signal-Blocks gegeben ist – konkav ist. Eine derartige Funktion kann beispielsweise gegeben sein durch eine Approximation einer Gaußschen Glockenkurve über einem endlichen, diskretisierten Definitionsbereich. Der Vorteil des logarithmisch konkaven Verhaltens der Transmissionsamplitude ist, dass diese maximal zwei Wendepunkte im Definitionsbereich aufweist, und somit keinerlei Oszillationen unterworfen ist. Dies hat ein vorteilhaftes Filterverhalten zur Folge, da somit keine an sich relevanten Signalanteile mit einem Minimumswert einer Oszillation der Filterfunktion gefiltert werden.
Als besonders zweckmäßig erweist es sich, wenn jeweils der Prädiktionszeitraum nur konvexe Bereiche der Transmissionsamplitude der Filterfunktion beinhaltet. Eine logarithmisch konkave Funktion lässt sich darstellen als eine zu einer bestimmten logarithmisch konvexen Funktion reziproke Funktion. Eine logarithmisch konvexe Funktion ist ihrerseits wiederum konvex. Dies bedeutet, dass die hierzu reziproke, logarithmisch konkave Funktion infolge der Reziprozitätseigenschaft maximal zwei Wendepunkte aufweist.
Bei einer geeigneten Wahl der Filterfunktion, beispielsweise einer Approximation einer Gaußschen Glockenkurve, liegt das Maximum der Transmissionsamplitude in einem konvexen Bereich, so dass jenseits der Wendepunkte die Transmissionsamplitude konkav ausläuft. In diesen beiden Bereichen weist die Transmissionsamplitude üblicherweise bereits hinreichend geringe Werte auf, so dass mit der Wahl des Prädiktionszeitraums in wenigstens einem der beiden Bereiche sicher gestellt werden kann, dass Fehler, welche aufgrund der Abweichungen der Schätzung der Signalanteile von den realen Signalanteilen auftreten können, infolge der hinreichend geringeren Transmissionsamplitude der Filterfunktion weitgehend unterdrückt werden, und somit nicht nennenswert in den transformierten Signal-Block eingehen.
Als weiter vorteilhaft erweist es sich, wenn für den Prädiktionszeitraum wenigstens eines Signal-Blocks als Signalanteile jeweils ein leeres Signal geschätzt wird. Ein leeres Signal ist hierbei dasjenige Signal, welches für den betreffenden Zeitraum keinerlei Amplitude aufweist. Das Schätzen eines leeren Signals erfolgt insbesondere für den Fall, dass die Signalanteile des Audiosignals, welche für das Schätzverfahren der Signalanteile des Prädiktionszeitraumes verwendet werden, infolge mangelhafter Korrelationen keine qualitativ hinreichend hochwertige Schätzung der Signalanteile zulassen. Dies kann beispielsweise auftreten, wenn im Audiosignal ein hoher Anteil an weißem Rauschen vorliegt, was die Korrelation aufeinander folgender Samples verringert und damit eine Prädiktion erschwert.
Insbesondere sind mittels einer Prädiktion geschätzte, vom leeren Signal verschiedene Signalanteile auf die Qualität der Schätzung hin mit den entsprechenden realen Signalanteilen des Audiosignals zu vergleichen, um die Qualität der Prädiktion bewerten zu können. Im Fall einer zu hohen Abweichung – definiert über ein Abweichungsmaß wie z. B. einen über mehrere Samples gemittelten Differenzbetrag und eine zugehörige Oberschranke für das Abweichungsmaß – wird statt der prädizierten Signalanteile ein leeres Signal als für den Prädiktionszeitraum geschätzter Signalanteil festgelegt. Ebenso ist es möglich, die Signalanteile des Audiosignals noch vor der Prädiktion auf Korrelationen hin zu überprüfen, und bei einer zu geringen Korrelation direkt ein leeres Signal als Signalanteil für den Prädiktionszeitraum festzulegen.
In einer weiter vorteilhaften Ausgestaltung des Verfahrens zum latenzarmen Betrieb eines Hörsystems wird aus dem Schallsignal durch einen vom ersten Eingangswandler räumlich getrennten zweiten Eingangswandler ein zweites Audiosignal erzeugt, wobei das zweite Audiosignal unmittelbar zur Signalverarbeitungseinheit übertragen und mittels einer zweiten Filterbank gefiltert wird, und wobei Signalanteile des gefilterten zweiten Audiosignals in der Signalverarbeitungseinheit weiterverarbeitet und zur Erzeugung des Ausgabesignals verwendet werden.
Insbesondere erfolgt die Filterung des zweiten Audiosignals mittels der zweiten Filterbank gemäß dem vorbeschriebenen Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals. Unter einer unmittelbaren Übertragung des zweiten Audiosignals zur Signalverarbeitungseinheit ist zu verstehen, dass die Übertragung des zweiten Audiosignals ohne eine weitere, über eine Signal-Vorverarbeitung wie z. B. A/D-Wandlung und/oder Datenkompression sowie die direkte Signalübertragung hinaus gehende Zeitverzögerung stattfindet, wie sie z. B. durch eine langfristige physikalische Speicherung, welche nicht auf dem FIFO-Prinzip basiert („first-in-first-out”), eintreten würde.
Diese genannte Ausgestaltung ermöglicht durch das Verfahren insbesondere einen latenzarmen Betrieb eines binauralen Hörsystems unter Berücksichtigung der in einem solchen Hörsystem infolge der für die Erzeugung des binauralen Hörempfindens stattfindenden Signalübertragung von einem Hörgerät zum anderen auftretenden Besonderheiten. Da oftmals bei einem binauralen Hörsystem zur Kompression der reale Informationsgehalt von Signalanteilen des Audiosignals, welches vom jeweils anderen Hörgerät für die Erzeugung des binauralen Hörempfindens empfangen wird, zur bessren Übertragung reduziert wird, beispielsweise durch Datenkompression, ist der durch die Schätzung der Signalanteile im Prädiktionszeitraum mögliche induzierte Fehler in seiner Bedeutung reduziert. Bei diesem Audiosignal findet durch die Übertragung bereits ein Informationsverlust statt, so dass die Abweichungen durch die Schätzung für den Prädiktionszeitraum keine zusätzliche kumulative, sondern nur eine als alternativ zu betrachtende Fehlerquelle darstellen. Kurz gesagt macht es wenig aus, ob ein Fehler statistisch durch die Datenkompression oder die Schätzung erfolgt.
Ein weiterer Vorteil der Anwendung des Verfahrens zum latenzarmen Betrieb eines binauralen Hörsystems ist, dass durch die beschriebene Übertragung der Audiosignale bereits eine gewisse Latenz von mehreren ms ins Hörsystem eingeführt wird. Die Reduktion weitere möglicher Latenzen, wie z. B. im vorliegenden Fall durch die Filterbänke, hilft hier, die Verluste der Klangqualität durch Kammfiltereffekte möglichst gering zu halten.
Die Erfindung nennt weiter ein Hörgerät, umfassend wenigstens einen Eingangswandler zur Erzeugung eines Audiosignals, einen Ausgangswandler zur Erzeugung eines Ausgangs-Schallsignals, sowie eine lokalen Signalverarbeitungseinheit mit einer ersten Filterbank, welches zur Durchführung des vorbeschriebenen Verfahrens zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals eingerichtet ist. Die für das Verfahren und seine Weiterbildungen angegebenen Vorteile können dabei sinngemäß auf das Hörgerät übertragen werden.
Die Erfindung nennt zudem ein binaurales Hörsystem mit zwei vorbeschriebenen Hörgeräten, welches zur Durchführung des Verfahrens zum latenzarmen Betrieb eines Hörsystems mit wenigstens zwei Eingangswandlern eingerichtet ist. Die für das Verfahren und seine Weiterbildungen angegebenen Vorteile können dabei sinngemäß auf das binaurale Hörsystem übertragen werden.
Nachfolgend wird ein Ausführungsbeispiel der Erfindung anhand einer Zeichnung näher erläutert. Hierbei zeigen jeweils schematisch:
1 in einem Blockdiagram ein binaurales Hörsystem mit zwei Hörgeräten, und
2 in einer Zeitdarstellung ein von einem Hörgerät nach 1 erzeugtes Audiosignal und in einer Ausschnittdarstellung ein Signal-Block des Audiosignals mit einer Filterfunktion und einem Prädiktionszeitraum.
Einander entsprechende Teile und Größen sind in allen Figuren jeweils mit gleichen Bezugszeichen versehen.
In 1 ist schematisch in einem Blockdiagramm ein binaurales Hörsystem 1 dargestellt. Das binaurale Hörsystem 1 wird hierbei gebildet durch ein erstes Hörgerät 2 und ein zweites Hörgerät 4. Das erste Hörgerät 2 weist einen als Mikrofon 6 ausgestalteten ersten Eingangswandler 8 auf, welcher aus einem Schallsignal 9 ein erstes Audiosignal 10 erzeugt. Das zweite Hörgerät 4 weist einen als Mikrofon 12 ausgestalteten zweiten Eingangswandler 14 auf, welcher aus dem Schallsignal 9 ein zweites Audiosignal 16 erzeugt. Das erste Audiosignal 10 bzw. das zweite Audiosignal 16 werden im jeweiligen Hörgerät 2, 4 jeweils durch eine lokale Signal-Vorverarbeitung 18, 20, welche jeweils insbesondere eine A/D-Wandlung umfasst, für die weiteren Signalverarbeitungsprozesse vorbereitet. Die lokale Signal-Vorverarbeitung 18, 20 umfasst hierbei insbesondere nur Laufzeit-Prozesse, d. h., solche Prozesse, welche über die Zeitdauer der stattfindenden Signalverarbeitung selbst hinaus keine weitere Verzögerung, insbesondere keine längerfristigen Speicher- und Ladevorgänge der Signalanteile beinhalten.
Das erste Audiosignal 10 wird unmittelbar nach der lokalen Signal-Vorverarbeitung 18 zunächst in einem binauralen Übertragungsprozess 22 vom ersten Hörgerät 2 zum zweiten Hörgerät 4 übertragen, wo es in einer Signalverarbeitungseinheit 24 in einer ersten Filterbank 26 in noch zu beschreibenden Weise gefiltert wird. Der binaurale Übertragungsprozess 22 erfolgt dabei unmittelbar nach der lokalen-Signal-Vorverarbeitung 18, also insbesondere ohne weitere Verzögerung, insbesondere ohne längerfristige Speicher- und erneute Ladevorgänge der betreffenden Signalanteile über einen FIFO-Speicher hinaus. Auf das gefilterte erste Audiosignal 28 werden nun frequenzbandweise Signalverarbeitungsalgorithmen 30 wie z. B. Rauschunterdrückung, Richtmikrofonie oder Dynamikkompression angewandt.
Das zweite Audiosignal 16 wird unmittelbar nach der lokalen Signal-Vorverarbeitung 20 der Signalverarbeitungseinheit 24 zugeführt, wo es zunächst in einer zweiten Filterbank 32 in noch zu beschreibenden Weise gefiltert wird, wobei als ein gefiltertes zweites Audiosignal 34 die jeweiligen Signalanteile in einzelnen Frequenzbändern getrennt weitergegeben werden. Im aus der zweiten Filterbank 32 resultierenden gefilterten zweiten Audiosignal 34 sind die jeweiligen Signalanteile in einzelnen Frequenzbändern getrennt ausgegeben. Auch auf das gefilterte zweite Audiosignal 34 werden nun frequenzbandweise Signalverarbeitungsalgorithmen 28 wie z. B. Rauschunterdrückung, Richtmikrofonie oder Dynamikkompression angewandt. Aus dem gefilterten ersten Audiosignal 28 und dem gefilterten zweiten Audiosignal 34 wird nach der frequenzbandweisen Signalverarbeitung 30 ein Ausgangsignal 36 erzeugt, welches lokal das binaurale Hörempfinden am Ort des zweiten Hörgeräts 4 wiederspiegelt.
Das Ausgangssignal 36 wird unmittelbar, also insbesondere ohne weitere längerfristige Speicher- und erneute Ladevorgänge der Signalanteile, von einem als Lautsprecher 38 ausgestalteten Ausgangswandler 40 in ein Ausgabe-Schallsignal 42 umgewandelt.
In 2 ist gegen eine Zeitachse t das erste Audiosignal 10 nach 1 aufgetragen, welches in einzelne, sich teilweise überlappende Signal-Blöcke 50a–f aufgeteilt wird. Die einzelnen Signal-Blöcke 50a–f werden hierbei gebildet aus einer Vielzahl an aufeinander folgenden Samples des ersten Audiosignals 10, wobei einzelne Samples infolge des Überlapps der aufeinander folgenden Signal-Blöcke 50a–f jeweils in wenigstens zwei Signal-Blöcken auftreten. Die einzelnen Signalblöcke 50a–f werden nun jeweils in noch zu beschreibender Weise die Frequenz-Domäne transformiert. Durch den kurzen zeitlichen Abstand je zweier aufeinander folgender Signal-Blöcke 50a–f können somit in der Frequenz-Domäne die spektralen Signalanteile des ersten Audiosignals 10 in kurzen Zeitabständen aktualisiert werden. Infolge der relativ hohen Anzahl an einzelnen Samples und somit des hohen zeitaufgelösten Informationsgehaltes je Signal-Block 50a–f liegt zudem auch eine hohe spektrale Auflösung des ersten Audiosignals 10 nach Transformation in die Frequenz-Domäne vor. Um die bei einer hohen zeitlichen Auflösung auftretende hohe Latenz beim Filterprozess und der Transformation in die Frequenz-Domäne zu reduzieren, werden für die einzelnen Signal-Blöcke 50a–f bestimmte Signalanteile geschätzt, was für den Signal-Block 50c anhand einer Ausschnittdarstellung gezeigt wird.
Für den Signal-Block 50c sind gegen eine Zeitachse t' die einzelnen realen Signalanteile 52a, 52b gezeigt. Die realen Signalanteile 52a, 52b sind dabei jeweils gegeben durch die Amplitude des entsprechenden Samples. Weiter ist für den Signal-Block 50c die Transmissionsamplitude 54c der Filterfunktion 56c gezeigt, welche im vorliegenden Fall näherungsweise gegeben ist durch eine Gaußsche Glockenkurve.
Die Filterfunktion 56c stellt hierbei eine Fensterfunktion dar, mit der die Ränder des Signal-Blocks 50c für die Transformation in die Frequenz-Domäne geglättet „ausgeblendet” werden sollen. Dies erfolgt, da ohne eine derartige Fensterfunktion die Fourier-Transformation der Signalanteile des Signal-Blocks 50c de facto eine Fourier-Transformation der Signalanteile des ersten Audiosignals 10 ist, welche mit einer Rechteckfunktion entsprechend der Dauer des Signal-Blocks multipliziert werden. Infolge des Faltungstheorems bedeutet diese Multiplikation in der Zeit-Domäne eine Faltung der Frequenzanteile des ersten Audiosignals 10 mit der Fourier-Transformierten der Rechteckfunktion, welche gegeben ist durch eine stark oszillierende sin(x)/x- bzw. Sinc-Funktion. Um derartige Oszillationen zu vermeiden, werden die Ränder des Signal-Blocks 50c für die Transformation in die Frequenz-Domäne mittels einer geeigneten Filterfunktion 56c „ausgeblendet”. Dies geschieht, indem die Transmissionsamplitude 54c der Filterfunktion 56c an den Rändern des Signal-Blocks 50c möglichst oszillationsfrei, also insbesondere mit möglichst wenigen Wendepunkten, gegen Null konvergiert. Eine Funktion mit derartigen Eigenschaften ist insbesondere gegeben durch eine logarithmisch konkave Funktion wie z. B. die approximierte Gaußsche Glockenkurve des vorliegenden Falls.
Der beschriebene Verlauf der Transmissionsamplitude 54c der Filterfunktion 56c kann nun dazu ausgenutzt werden, die Latenz der ersten Filterbank 24 zu verringern, ohne dabei an Auflösungsvermögen in der Frequenz-Domäne einzubüßen. Hierfür wird ein Teilintervall 58c am zeitlichen Ende des Signal-Blocks 50c als ein Prädiktionszeitraum 60c definiert. Das Teilintervall 58c liegt jenseits des Wendepunktes 62c der Transmissionsamplitude 54c, also insbesondere weit abseits des Maximums 64c der Transmissionsamplitude 54c, so dass im Teilintervall 58c, welches den Prädiktionszeitraum 60c definiert, die Transmissionsamplitude 54c nur noch geringe Werte aufweist. Für den Prädiktionszeitraum 60c werden nun mittels eines Prädiktionsalgorithmus, z. B. eines linearen Prädiktionsfilters, statt der realen Signalanteile 52b dort die für die Transformation zu verwendenden Signalanteile geschätzt. Die im Prädiktionszeitraum 60c geschätzten Signalanteile 66b und die Signalanteile 52a des Signal-Blocks 50c außerhalb des Prädiktionszeitraums 60c bilden nun einen prädizierten Signal-Block 68c.
Dieser prädizierte Signal-Block 68c wird nun mit der Filterfunktion 56c multipliziert, und mittels einer schnellen Fourier-Transformation in die Frequenz-Domäne transformiert, so dass dort die frequenzaufgelöste Information des transformierten Signal-Blocks 50c für eine Weiterverarbeitung mittels Frequenzband-abhängiger Signalverarbeitungsalgorithmen zur Verfügung steht. Auch für die anderen Signal-Blöcke 50a, 50b, 50d–f erfolgt das beschriebene Vorgehen, Signalanteile für einen anhand der jeweils zu verwendenden Filterfunktion günstig zu wählenden Prädiktionszeitraum zu schätzen, um so die Latenz für die Transformation in die Frequenz-Domäne zu verringern, da dann die jeweils letzten Samples eines Signal-Blocks noch gar nicht vorzuliegen brauchen, so dass mit der Transformation infolge der Schätzung mehrere ms früher begonnen werden kann.
Eine wichtige Rolle spielt hierbei der Verlauf der Transmissionsamplitude 54c der Filterfunktion 56c. Ein möglicher Fehler, welcher durch die Abweichung der für den Prädiktionszeitraum 60c geschätzten Signalanteile 66b von den realen Signalanteilen 52b ergeben könnte, wird dadurch unterdrückt, dass für den Prädiktionszeitraum 60c die Transmissionsamplitude 54c bezogen auf ihr Maximum 64c nur noch vergleichsweise geringe Werte aufweist, und somit durch die entsprechende Multiplikation mit der Filterfunktion 56c die geschätzten Signalanteile 66b ohnehin nur einen geringen Beitrag zum transformierten Signal-Block leisten. Dieser Beitrag ist jedoch für die spektrale Auflösung wichtig. Insbesondere tonale Signalanteile lassen sich ohnehin mittels üblicher Prädiktionsmethoden relativ gut schätzen. Selbst bei einem weißen Rauschen, welches infolge seiner statischen Eigenschaften ungünstig zu schätzen ist, liefert infolge der genannten Unterdrückung der Fehler durch eventuelle Abweichungen das beschriebene Verfahren gute Resultate.
Im binauralen Hörsystem 1 der 1 wird das erste Audiosignal 10 in der ersten Filterbank 26 gemäß des anhand der 2 beschriebenen Verfahrens gefiltert. Die Filterung des zweiten Audiosignals 16 in der zweiten Filterbank 32 kann auf die gleiche Art erfolgen; ebenso kann hierfür jedoch auch ein konventionelles Filterverfahren – also ohne Schätzung von Signalanteilen für einen jeweiligen Prädiktionszeitraum der einzelnen Signal-Blöcke – verwendet werden. Die Entscheidung hierüber wird insbesondere in Abhängigkeit der zu tolerierenden Gesamtlatenz des binauralen Hörsystems 1 und der Verzögerung getroffen, welche durch den binauralen Übertragungsprozess verursacht wird.
Obwohl die Erfindung im Detail durch das bevorzugte Ausführungsbeispiel näher illustriert und beschrieben wurde, ist die Erfindung nicht durch dieses Ausführungsbeispiel eingeschränkt. Andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.
Bezugszeichenliste

1: Binaurales Hörsystem
2: erstes Hörgerät
4: zweites Hörgerät
6: Mikrofon
8: erster Eingangswandler
9: Schallsignal
10: erstes Audiosignal
12: Mikrofon
14: zweiter Eingangswandler
16: zweites Audiosignal
18: lokale Signal-Vorverarbeitung
20: lokale Signal-Vorverarbeitung
22: binauraler Übertragungsprozess
24: Signalverarbeitungseinheit
26: erste Filterbank
28: gefiltertes erstes Audiosignal
30: frequenzbandweise Signalverarbeitung
32: zweite Filterbank
34: gefiltertes zweites Audiosignal
36: Ausgangssignal
38: Lautsprecher
40: Ausgangswandler
42: Ausgabe-Schallsignal
50a–f: Signal-Block
52a, b: reale Signalanteile
54c: Transmissionsamplitude
56c: Filterfunktion
58c: Teilintervall
60c: Prädiktionszeitraum
62c: Wendepunkt
64c: Maximum
66b: geschätzte Signalanteile
68c: prädizierte Signal-Block
t, t': Zeitachse

Claims

Verfahren zur Reduktion der Latenzzeit einer Filterbank (26, 32) zur Filterung eines Audiosignals (10, 16), wobei aus dem Audiosignal (10, 16) eine Vielzahl von Signal-Blöcken (50a–f) in der Zeitdomäne gebildet wird, wobei für wenigstens eine Mehrzahl der Signal-Blöcke (50a–f) jeweils – eine Filterfunktion (56c) vorgegeben wird, – wenigstens ein Teilintervall (58c) des Signal-Blocks (50a–f) als ein Prädiktionszeitraum (60c) vorgegeben wird, – Signalanteile (66b) des Signal-Blocks (50a–f) im wenigstens einen Teilintervall (58c) für den Prädiktionszeitraum (60c) geschätzt werden, und aus den für den Prädiktionszeitraum (60c) geschätzten Signalanteilen (66b) und den Signalanteilen (52a) des Signal-Blocks (50a–f) außerhalb des Prädiktionszeitraums (60c) ein prädizierter Signal-Block (68c) erzeugt wird, und – der prädizierte Signal-Block (68c) mit der vorgegebenen Filterfunktion (56c) gefiltert in die Frequenz-Domäne transformiert wird, und hierdurch ein transformierter Signal-Block gebildet wird, und – Signalanteile des transformierten Signal-Blocks zur Weiterverarbeitung ausgegeben werden.
Verfahren nach Anspruch 1, wobei je zwei zeitlich aufeinander folgende Signal-Blöcke (50a–f) sich teilweise überlappen.
Verfahren nach Anspruch 1 oder Anspruch 2, wobei jeweils Signalanteile des transformierten Signal-Blocks nach verschiedenen Frequenzbändern getrennt zur Weiterverarbeitung (30) ausgegeben werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei jeweils die Filterfunktion (56c) im Prädiktionszeitraum (60c) eine im Mittel geringere Transmissionsamplitude (54c) aufweist als außerhalb des Prädiktionszeitraumes (60c).
Verfahren nach Anspruch 4, wobei die Transmissionsamplitude (54c) der Filterfunktion (56c) jeweils durch eine logarithmisch konkave Funktion gebildet wird, und wobei der Prädiktionszeitraum (60c) das Maximum (64c) der Transmissionsamplitude (54c) der Filterfunktion (56c) ausspart.
Verfahren nach Anspruch 5, wobei jeweils der Prädiktionszeitraum (60c) nur konvexe Bereiche der Transmissionsamplitude (54c) der Filterfunktion (56c) beinhaltet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei für den Prädiktionszeitraum (60c) wenigstens eines Signal-Blocks (50a–f) als Signalanteile (66b) jeweils ein leeres Signal geschätzt wird.
Verfahren zum latenzarmen Betrieb eines Hörsystems (1), wobei aus einem Schallsignal (9) durch einen ersten Eingangswandler (8) ein erstes Audiosignal (10) erzeugt wird, wobei das erste Audiosignal (10) unmittelbar zu einer Signalverarbeitungseinheit (24) übertragen wird, und in der Signalverarbeitungseinheit (24) unmittelbar mittels einer ersten Filterbank (26) gemäß einem Verfahren nach einem der vorhergehenden Ansprüche gefiltert wird, wobei Signalanteile des gefilterten ersten Audiosignals (28) in der Signalverarbeitungseinheit (24) weiterverarbeitet (30) und zur Erzeugung eines Ausgabesignals (36) verwendet werden, und wobei aus dem Ausgabesignal (36) unmittelbar durch einen Ausgangswandler (40) ein Ausgabe-Schallsignal (42) erzeugt wird.
Verfahren nach Anspruch 8, wobei aus dem Schallsignal (9) durch einen vom ersten Eingangswandler (8) räumlich getrennten zweiten Eingangswandler (14) ein zweites Audiosignal (16) erzeugt wird, wobei das zweite Audiosignal (16) unmittelbar zur Signalverarbeitungseinheit (24) übertragen und mittels einer zweiten Filterbank (32) gefiltert wird, und wobei Signalanteile des gefilterten zweiten Audiosignals (36) in der Signalverarbeitungseinheit (24) weiterverarbeitet und zur Erzeugung des Ausgabesignals (36) verwendet werden.
Hörgerät (2, 4), umfassend wenigstens einen Eingangswandler (8, 14) zur Erzeugung eines Audiosignals (10, 16), einen Ausgangswandler (40) zur Erzeugung eines Ausgangs-Schallsignals (42), sowie eine Signalverarbeitungseinheit (24) mit einer ersten Filterbank (26), welches zur Durchführung des Verfahrens nach Anspruch 8 oder Anspruch 9 eingerichtet ist.
Binaurales Hörsystem (1) mit zwei Hörgeräten (2, 4) nach Anspruch 10, welches zur Durchführung des Verfahrens nach Anspruch 9 eingerichtet ist.