-
ALLGEMEINER STAND DER TECHNIK
-
Technisches Gebiet
-
Die Offenbarung betrifft ein Verfahren und ein System (im Allgemeinen als ein „Verfahren“ bezeichnet) zum Bekämpfen von Ploppgeräuschen.
-
Verwandte Technik
-
Häufig angewendete Herangehensweisen an die Beseitigung von akustischen Echos und häufig angewendete Herangehensweisen an die Rauschminderung sind nicht in der Lage, Echos ausreichend zu entfernen, die durch impulsive Referenzsignale mit einem ausgeprägten, impulsiven Bassrhythmus zu entfernen, wie in der Musik, da derartige Teile eines Referenzsignals dazu neigen, einen verwendeten Lautsprecher über dessen linearen Betriebsbereich zu treiben und dementsprechend in von dem Lautsprecher reproduziertem Klang unerwünschte nicht lineare Komponenten zu erzeugen, die häufig verwendete Verfahren und Systeme zur Ploppgeräuschbekämpfung in die Irre führen können, so dass diese unter allen möglichen Bedingungen unter Umständen keine zufriedenstellenden Ergebnisse zeigen. Insbesondere bei hohen Lautstärken, wenn Nichtlinearitäten von Bedeutung sind, können diese Verfahren in bestimmten Situationen fehlschlagen. Dementsprechend besteht ein Bedarf an einer robusteren Ploppgeräuschbekämpfung. Die europäische Veröffentlichung
EP 3 428 918 A1 offenbart hierzu eine Vorrichtung und ein Verfahren zum Entfernen von „pop noise“ in einem Audiosignal. Die Vorrichtung und das Verfahren erkennen Impuls-Komponenten in einem Eingangssignal basierend auf einem Signal-Rausch-Verhältnis-Spektrum des Eingangssignals, erzeugen eine spektrale „pop noise“ Entfernungs-Maske und wenden diese Maske auf das Eingangssignal an, um die Impuls-Komponenten in dem Eingangssignal zu unterdrücken. Demgegenüber ist eine weiteren Verbesserung der Robustheit gewünscht.
-
KURZDARSTELLUNG
-
Zu einem Verfahren zur Ploppgeräuschbekämpfung gehört das Ermitteln einer Leistungsspektraldichte eines Eingangssignals, das ein Ploppgeräusch umfasst, wobei die Leistungsspektraldichte durch eine Vielzahl von Leistungsfrequenzliniensignalen dargestellt ist, das nicht lineare Glätten der Frequenz der Leistungsfrequenzliniensignale oder modifizierten Leistungsfrequenzliniensignale, um nicht linear und spektral geglättete Leistungsfrequenzliniensignale bereitzustellen, und das Summieren der nicht linear und spektral geglätteten Leistungsfrequenzliniensignale über der Frequenz, um ein Summensignal zu erhalten. Zu dem Verfahren gehört zudem das Vergleichen des Summensignals mit Schätzschwellen, um Vergleichsergebnissignale bereitzustellen, die den nicht linear und spektral geglätteten Leistungsfrequenzliniensignalen entsprechen, wenn das Summensignal größer ist als die entsprechenden Schätzschwellen, und die andernfalls null betragen. Zu dem Verfahren gehören zudem das Wiener-Filtern der Vergleichsergebnissignale, um gefilterte Vergleichsergebnissignale bereitzustellen, sowie das Kombinieren des Eingangssignals mit den gefilterten Vergleichsergebnissignalen, um ein Ausgangssignal bereitzustellen, bei dem es sich um das Eingangssignal mit reduziertem Ploppgeräusch handelt.
-
Zu einem System zur Ploppgeräuschbekämpfung gehört mindestens eine Verarbeitungseinheit, wobei die mindestens eine Verarbeitungseinheit konfiguriert ist, um eine Leistungsspektraldichte eines Eingangssignals zu ermitteln, zu dem ein Ploppgeräusch gehört, wobei die Leistungsspektraldichte durch eine Vielzahl von Leistungsfrequenzliniensignalen dargestellt ist, um eine Frequenz der Leistungsfrequenzliniensignale oder modifizierten Leistungsfrequenzliniensignale nicht linear zu glätten, um nicht linear und spektral geglättete Leistungsfrequenzliniensignale bereitzustellen, und um die nicht linear und spektral geglätteten Leistungsfrequenzliniensignale über der Frequenz zu summieren, um ein Summensignal zu erhalten. Die mindestens eine Verarbeitungseinheit ist zudem konfiguriert, um das Summensignal mit Schätzschwellen zu vergleichen, um Vergleichsergebnissignale bereitzustellen, die den nicht linear und spektral geglätteten Leistungsfrequenzliniensignalen entsprechen, wenn das Summensignal größer ist als die entsprechenden Schätzschwellen, und die andernfalls null betragen. Die mindestens eine Verarbeitungseinheit ist zudem konfiguriert, um das Wiener-Filtern der Vergleichsergebnissignale durchzuführen, um gefilterte Vergleichsergebnissignale bereitzustellen, sowie um das Eingangssignal mit den gefilterten Vergleichsergebnissignalen zu kombinieren, um ein Ausgangssignal bereitzustellen, bei dem es sich um das Eingangssignal mit reduziertem Ploppgeräusch handelt.
-
Andere Systeme, Verfahren, Merkmale und Vorteile werden dem Fachmann bei Durchsicht der nachstehenden Figuren und der detaillierten Beschreibung offensichtlich sein oder werden. Es ist beabsichtigt, dass alle derartigen zusätzlichen Systeme, Verfahren, Merkmale und Vorteile, die in dieser Beschreibung enthalten sind, in den Geltungsbereich der Erfindung fallen und durch die nachstehenden Patentansprüche geschützt sind.
-
Figurenliste
-
Die vorliegende Offenbarung erschließt sich unter Umständen besser durch Bezugnahme auf die nachstehenden Figuren. Die Komponenten in den Figuren sind nicht notwendigerweise maßstabsgetreu, stattdessen wird der Schwerpunkt auf die Veranschaulichung der Prinzipien der Offenbarung gelegt. In den Figuren geben gleiche Bezugsziffern entsprechende Teile in den unterschiedlichen Ansichten an.
- 1 ist ein Amplitude-Zeit-Diagramm, das Zeitdomänensignale veranschaulicht, die in einem akustischen Echounterdrückungssystem auftreten, einschließlich einem Signal von einem Mikrofon, einem Ausgangssignal eines linearen akustischen Echounterdrückungsverfahrens und einem Ausgangssignal eines Restechounterdrückungsverfahrens.
- 2 sind Spektrogramme des Ausgangssignals des Restechounterdrückungsverfahrens (links) und des Ausgangssignals des Rauschminderungsverfahrens, ohne dass irgendeine Maske zur Wichtung der Ploppgeräuschbekämpfung angewendet wurde (rechts).
- 3 ist ein schematisches Diagramm, das die Signalstromstruktur eines beispielhaften Ploppgeräuschbekämpfungssystems veranschaulicht, das ein beispielhaftes Verfahren zur Ploppgeräuschbekämpfung ausführt.
- 4 ist ein schematisches Diagramm, das eine beispielhafte Signalstromstruktur zum Schätzen der Leistungsspektraldichte eines Signals veranschaulicht, von dem ein Ploppgeräusch auf Grundlage der Verwendung des Mittelwertes entfernt werden soll.
- 5 ist ein schematisches Diagramm, das eine beispielhafte Signalstromstruktur veranschaulicht, die ein nicht lineares Glättverfahren verwendet, mit dem die finale Leistungsspektraldichte des Eingangssignals zum Entfernen des Ploppgeräusches geschätzt werden kann.
- 6 ist ein Pegel-Frequenz-Diagramm, das Diagramme der Leistungsspektraldichtepegel von Sprachsignalen und deren Ploppgeräuschschätzungen über der Frequenz darstellt.
- 7 ist ein Pegel-Frequenz-Diagramm, das Leistungsspektraldichtepegel von Sprachsignalen in einem Eingangssignal und das geschätzte Ploppgeräusch darstellt, das von diesem Eingangssignal entfernt werden soll, wobei das Eingangssignal hauptsächlich gesprochene Sprachkomponenten umfasst.
- 8 ist ein Pegel-Frequenz-Diagramm, das Leistungsspektraldichtepegel von Sprachsignalen in einem Eingangssignal und das geschätzte Ploppgeräusch darstellt, das von diesem Eingangssignal entfernt werden soll, wobei das Eingangssignal hauptsächlich nicht gesprochene Sprachkomponenten umfasst.
- 9 ist ein Pegel-Frequenz-Diagramm, das die Leistungsspektraldichte eines beispielhaften Knackgeräuschsignals und eine Schätzung des überlagerten Ploppgeräusches darstellt.
- 10 ist ein Amplitude-Zeit-Diagramm, das Ausgangssignale eines vollständigen Fernfeldmikrofonverfahrens darstellt, um dessen Leistung ohne Entfernung des Ploppgeräusches mit der Leistung mit entferntem Ploppgeräusch zu vergleichen.
- 11 ist ein schematisches Diagramm, das die Signalstromstruktur einer Modifikation des beispielhaften Ploppgeräuschbekämpfungssystems aus 3 veranschaulicht.
-
DETAILLIERTE BESCHREIBUNG
-
Signale mit ausgeprägten impulsiven Bestandteilen, wie etwa Musikstücke, erzeugen in Lautsprechern wahrscheinlicher Nichtlinearitäten, die folglich nicht entfernt werden können, z. B. weder durch lineare Signalverarbeitungsteile von akustischen Echounterdrückungssystemen (AEC) noch durch Teile für eine nicht lineare Restechounterdrückung (RES) davon, und dementsprechend zu starken verbleibenden impulsiven Teilen in den Fehlersignalen (die Ausgangssignale bilden) des akustischen Echounterdrückungssystem führen, gleichviel, ob optionale Restechounterdrückungsverfahren in den akustischen Echounterdrückungssystemen aktiviert sind oder nicht.
-
1 zeigt zwei Amplitude-Zeit-Diagramme, die Diagramme von verschiedenen Zeitsignalen veranschaulichen, die in einem beispielhaften akustischen Echounterdrückungssystem auftreten (in den 1, 2, 4 und 5 nicht gezeigt). In dem linken Diagramm in 1 zeigt Diagramm 101 ein Mikrofonsignal, zeigt Diagramm 102 ein Ausgangssignal eines linearen Signalverarbeitungsteils des akustischen Echounterdrückungssystems und zeigt Diagramm 103 ein Ausgangssignal des Restechounterdrückungsverfahrens des akustischen Echounterdrückungssystems. Die Diagramme basieren auf aufgezeichneten Werten, die für einen Minilautspecher angefertigt wurden, der in einem geschlossenen Kasten mit einem Volumen von etwa 0,8 [1] montiert ist. Der Lautsprecher wurde bei einem hohen Pegel angetrieben, wobei das bekannte Lied „Hotel California“ von der Band „The Eagles“ verwendet wurde. Nach etwa 30 [s] abgelaufener Zeit entwickelt sich die Impulsivität dieses Liedes. In dem rechten Diagramm aus 1 sind das Ausgangssignal des linearen akustischen Echounterdrückungsverfahrens (Diagramm 102) und das Ausgangssignal des Restechounterdrückungsverfahrens (Diagramm 103), für das der Schwellenwert auf 20 [dB] eingestellt wurde, näher dargestellt.
-
Bei einem Vergleich des Gesamtpegels des Aufzeichnungssignals mit dem Fehlersignal ist ersichtlich, dass impulsive Teile des Liedes (abgelaufene Zeit >30 [s]) durch das lineare akustische Echounterdrückungsverfahren wesentlich weniger unterdrückt werden als Teile mit wesentlich weniger ausgeprägtem impulsiven Charakter (abgelaufene Zeit <30 [s]). Im Gegensatz zu dem linearen akustischen Echounterdrückungsverfahren scheint das Restechounterdrückungsverfahren keine Unterscheidung zwischen verschiedenen Eigenschaften des Signals zu machen, sondern eher alle Teile des Signals ähnlich zu unterdrücken. Dadurch zeigt selbst in dem Ausgangssignal aus dem Restechounterdrückungsverfahren das Fehlersignal nach wie vor einen beträchtlichen Unterschied zwischen quasi stationären Signalteilen und impulsiven Signalteilen. Es ist anzumerken, dass übrige Signalteile, die innerhalb der anfänglichen 15 [s] beobachtet werden können, Sprachsignale darstellen, die von Echos befreit werden sollten.
-
Das (alleinige) Anwenden der allgemeinen Einkanalrauschminderung kann den vorstehend umrissenen Nachteil nicht überwinden, wie aus 2 ersichtlich, da Einkanalrauschminderungsverfahren auf das Reduzieren von Geräuschteilen beschränkt sein können, die sich im Zeitverlauf nicht zu schnell ändern, aber keine impulsiven Signalteile reduzieren können, wie in dem vorstehenden Beispiel. 2 zeigt Spektrogramme des Ausgangssignals des Restechounterdrückungsverfahrens (links) und des Ausgangssignals eines Rauschminderungsverfahrens im Anschluss an das Restechounterdrückungsverfahren, bei dem kein Ploppgeräusch entfernt wurde (rechts).
-
Nach dem Untersuchen verschiedener Ausnahmefälle, bei denen allgemeine Verfahren und Systeme zum Entfernen eines Ploppgeräusches häufig fehlschlagen, wurde festgestellt, dass die Ursache für das Fehlschlagen durch die Verfahren entsteht, die dort verwendet wurden, um impulsive Störungen zu erkennen, die einen Bassgehalt des Eingangssignals analysieren können, z. B. den Gehalt bis zu einer maximalen Frequenz von etwa f ≈ 100 [Hz]. Anstelle dessen ist nachstehend ein robusteres Verfahren beschrieben, in dem aktuelle Abtastwerte eines Signals in der Zeitdomäne mit geglätteten Abtastwerten davon verglichen werden, und zwar durch Berechnen der Differenz von den beiden, und, wenn die Differenz einen bestimmten Schwellenwert überschreitet, z. B. wenn der aktuelle Abtastwertden geglätteten Abtastwertum mehr als den vorgegebenen Schwellenwert überschreitet, wird davon ausgegangen, dass das Signal impulsive Teile enthält, ungeachtet von dessen Spektralgehalt, d. h. ungeachtet eines Bassgehaltes in dem Eingangssignal eines Verfahrens oder Systems zum Entfernen eines Ploppgeräusches. Alternativ kann die Signalverarbeitung in der Frequenzdomäne (Spektraldomäne) anstatt, wie vorstehend umrissen, in der Zeitdomäne erfolgen, wodurch ein noch robusteres Verhalten als bei dem Zeitdomänengegenstück erhalten werden kann.
-
Zu der Verarbeitung in der Frequenzdomäne können das Berechnen (Ermitteln) der Leistungsspektraldichte des Eingangssignals, das dem Verfahren oder System zum Entfernen eines Ploppgeräusches zugeführt wird, und das nicht lineare Glätten der Leistungsspektraldichte über der Frequenz gehören. Das nicht lineare Glätten kann gegebenenfalls in einem Glättzyklus, der von hohen zu niedrigen Frequenzen läuft, und in einem anderen Glättzyklus durchgeführt werden, der von niedrigen zu hohen Frequenzen läuft, um zwei Glättprodukte zu erhalten, die anschließend miteinander kombiniert werden können, z. B. durch Verwenden des Mittelwertes oder des Mindestwertes von beiden Produkten, um unerwünschte Spektralverschiebungen oder - spitzen der so abgeleiteten spektral geglätteten Leistungsspektraldichte zu vermeiden. Die spektral geglättete Leistungsspektraldichte kann über eine Frequenz summiert werden, um ein Signal zu erhalten, das einem Zeitdomänensignalgegenstück entspricht, bevor dieses Quasizeitdomänensignal mit dem vorgegebenen Schwellwert verglichen wird. Wenn die Quasizeitsignale, die die geglättete Leistungsspektraldichte des Eingangssignals für das Verfahren oder System zum Entfernen eines Ploppgeräusches darstellen, den Schwellenwert überschritten, wird davon ausgegangen, dass eine impulsive Störung erkannt wurde. Nur wenn eine impulsive Störung erkannt wurde, wird die geglättete Leistungsspektraldichte direkt als eine Rauschschätzung verwendet, die in einen Wiener-Filter eingegeben wird. Der Wiener-Filter ist so konzipiert, dass er das Signal unterdrückt, das durch die geglättete Leistungsspektraldichte des Eingangssignals des Verfahrens oder Systems zum Entfernen eines Ploppgeräusches geschätzt wurde. Der Wiener-Filter kann gegebenenfalls mit einem konventionellen Rauschminderungsverfahren oder -system kombiniert werden, in dem die geglättete Leistungsspektraldichte des Eingangssignals für das Verfahren oder System zum Entfernen eines Ploppgeräusches dem geschätzten Hintergrundrauschen hinzugefügt wird, das durch das Rauschminderungsverfahren oder -system geschätzt wurde.
-
3 ist ein schematisches Diagramm, das eine Signalstromstruktur eines beispielhaften Verfahrens (Systems) zur Ploppgeräuschbekämpfung veranschaulicht, das eine Maske zum Entfernen des Ploppgeräusches ermittelt (berechnet) und anwendet (d. h. ein Signal oder eine Gruppe von Signalen), um Ploppgeräuschteile zu entfernen, die durch die impulsiven Teile des Referenzsignals angetrieben sind, wie etwa Musik, sowie ein Mikrofonsignal auf Grundlage von Ploppgeräuschteilen, die auftreten können, wenn jemand auf das Mikrofon schlägt. Das Verfahren kann durch Programmcode umgesetzt sein, der durch eine Verarbeitungseinheit 300 ausgeführt wird, wie etwa eine Steuerung, einen Mikroprozessor, einen Mikrocomputer oder dergleichen. Das Verfahren zur Ploppgeräuschbekämpfung aus 3 ist mit einem akustischen Echounterdrückungsverfahren 301 verbunden, das ein akustisches Echounterdrückungsverfahren ausführt. In dem akustischen Echounterdrückungsverfahren 301 wird ein elektrisches Referenzsignal x(n) in der Zeitdomäne einem Lautsprecher 302 zugeführt, wo es in Klang umgewandelt wird. Der Klang wird über ein unbekanntes System 303 mit einer Übertragungsfunktion w(n) an ein Mikrofon 304 übertragen, wo der Klang wieder in ein elektrisches Signal umgewandelt wird, Mikrofonsignal y(n). Ein adaptiver Filter 305 mit einer Übertragungsfunktion w̃(n) wird parallel zu dem unbekannten System 303 betrieben, d. h. diesem wird das Referenzsignal x(n) zugeführt und er gibt ein geschätztes Mikrofonsignal aus d (n). Das geschätzte Mikrofonsignal d (n) wird von dem Mikrofonsignal y(n) subtrahiert, beispielsweise in einer Subtraktionseinheit 306, um ein Fehlersignal e(n) bereitzustellen. Der adaptive Filter 305 wird durch eine Filtersteuerung 307, die das Referenzsignal x(n) und das Fehlersignal e(n) empfängt, beispielsweise unter Verwendung des bekannten Verfahrens der kleinsten mittleren Quadrate (Least Mean Square - LMS) gesteuert. Filterkoeffizienten und dementsprechend die Übertragungsfunktion w̃(n) des adaptiven Filters 305 werden durch die Filtersteuerung 307 in einer Iterationsschleife angepasst, so dass das Fehlersignal e(n) minimiert wird, d. h. das geschätzte Mikrofonsignal d̂(n) nähert sich dem Mikrofonsignal y(n). Die unbekannte Übertragungsfunktion des unbekannten Systems 303 wird dementsprechend durch die Übertragungsfunktion des adaptiven Filters 305 genähert.
-
Das Fehlersignal e(n) bildet ein Eingangssignal in das Ploppgeräuschbekämpfungssystem, d. h. in dem vorliegenden Beispiel in ein Spektralumwandlungsverfahren 308 des Verfahrens zur Ploppgeräuschbekämpfung, wo dieses von der Zeitdomäne in die Frequenzdomäne (Spektraldomäne) umgewandelt wird, d. h. in das Spektralfehlersignal E(Ω,k), und zwar beispielsweise durch einen Schritt der schnellen Fourier-Transformation (FFT). In einem Absolutwertverfahren 309 wird ein Absolutwert, auch bekannt als Modulus oder Umfang, pro Zeiteinheit ermittelt, z. B. durch einen Absolutwertschritt (Abs), der regelmäßig auf das Spektralfehlersignal E(Ω,k) angewendet wird, um ein Spektralumfangssignal Φe(Ω,k) bereitzustellen. Das Spektralumfangssignal Φe(Ω,k) wird in ein nicht lineares Spektralglättverfahren 310 eingegeben, um dort spektral nicht linear geglättet zu werden, um ein nicht linear geglättetes Signal X̅(Ω,k) zu erhalten. Zu dem nicht linearen Glätten eines Signals kann das Filtern des Signals gehören, um wichtige Muster in dem Signal zu erfassen, während gestörte, detaillierte und/oder sich schnell ändernde Muster aus nicht linearen Signalverzerrungen außen vor bleiben.
-
In einem anschließenden Summationsverfahren 311 werden Frequenzlinien des in der Frequenzdomäne nicht linear geglätteten Signals X̅(Ω,k) summiert, um ein entsprechendes (genähertes) nicht linear geglättetes Signal x̅(Ω,k) in der Zeitdomäne zu erhalten, das in ein Verfahren zum Schätzen der Leistungsspektraldichte 312 eingegeben wird. Das Verfahren zum Schätzen der Leistungsspektraldichte 312, das ebenfalls das nicht linear geglättete Signal X̅(Ω,k) in der Frequenzdomäne empfängt, schätzt das Ploppgeräusch in dem nicht linear geglätteten Signal x̅(k) in der Zeitdomäne durch Vergleichen des nicht linear geglätteten Signals x̅(k) in der Zeitdomäne mit einem Schwellenwert für das Entfernen des Ploppgeräusches (PNR) PnrTh. Wenn das nicht linear geglättete Signal x̅(k) in der Zeitdomäne größer ist als der Schwellenwert für das Entfernen des Ploppgeräusches PnrTh, wird ein Signal ΦPnr(Ω,k), das durch das Verfahren zum Schätzen der Leistungsspektraldichte 312 ausgegeben wurde, auf das nicht linear geglättete Signal X̅(Ω,k) in der Frequenzdomäne gesetzt. Andernfalls wird das Signal ΦPnr(Ω,k) auf null gesetzt. Das Signal ΦPnr(Ω,k) wird einem Wiener-Filter-Verfahren 313 zugeführt, das ein Wiener-Filter-Ausgangssignal HW(Ω,k) ausgibt. In einem Multiplikationsverfahren 314 wird das Wiener-Filter-Ausgangssignal HW(Ω,k) in der Spektraldomäne mit dem Spektralfehlersignal E(Ω,k) aus FFT-Block 308 multipliziert, um ein Ausgangssignal Z(Ω,k) in der Spektraldomäne bereitzustellen. Das Ausgangssignal Z(Ω,k) in der Spektraldomäne wird durch ein Umkehrspektraltransformationsverfahren 315 in ein Ausgangssignal z(n) in der Zeitdomäne umgewandelt, zu dem ein Schritt einer umgekehrten schnellen Fourier-Transformation (IFFT) gehören kann.
-
4 veranschaulicht eine beispielhafte Signalstromstruktur (hier auf Grundlage der Verwendung des Mittelwertes) zum Schätzen der Leistungsspektraldichte eines Signals, von dem ein Ploppgeräusch entfernt werden soll, in der vorliegenden Schrift das Spektralumfangssignal Φe(Ω,k). Eine derartige Signalstromstruktur kann in dem Verfahren zum spektralen nicht linearen Glätten 310 des beispielhaften Verfahrens (Systems) zur Ploppgeräuschbekämpfung verwendet werden, das vorstehend in Verbindung mit 3 beschrieben ist. In dem Beispiel aus 4 werden zwei nicht linear geglättete Signale X̅UL(Ω,k), X̅LU(Ω,k), die Schätzungen der Leistungsspektraldichte des Spektralumfangssignals Φe(Ω,k) darstellen, miteinander kombiniert, z. B. durch Verwenden des Mittelwertes, d. h. summieren der beiden nicht linearen geglätteten Signale X̅UL(Ω,k), X̅LU(Ω,k) in einem Summierverfahren 401 und Teilen dieser Summe durch zwei in einem Beispiel 402, um einen finalen Schätzwert X̅(Ω,k) der Leistungsspektraldichte des Spektralumfangssignals Φe(Ω,k) bereitzustellen. Das nicht linear geglättete Signal X̅UL(Ω,k) wird von dem Spektralumfangssignal Φe(Ω,k) durch ein Verfahren zum spektralen nicht linearen Glätten von höheren Frequenzen zu niedrigeren Frequenzen 403 abgeleitet, und das nicht linear geglättete Signal X̅LU(Ω,k) wird von dem Spektralumfangssignal Φe(Ω,k) durch ein Verfahren zum spektralen nicht linearen Glätten von niedrigeren Frequenzen zu höheren Frequenzen 404 abgeleitet.
-
5 veranschaulicht eine beispielhafte Signalstromstruktur, die ein nicht lineares Glättverfahren verwendet, mit dem die finale Leistungsspektraldichte des Eingangssignals zum Entfernen des Ploppgeräusches, hier dasSpektralumfangssignal, ermittelt werden kann. Das beispielhafte nicht lineare Glätten aus 5 kann in dem Verfahren 404 aus 4 angewendet werden und ermöglicht das Glätten von niedrigen zu hohen Frequenzen. Das Spektralumfangssignal Φe(Ω,k), in dem Ω = 0, ..., FftLen/2 und FftLen/2 die Hälfte der Länge der schnellen Fourier-Transformation ist, wird von einer linearen Domäne in eine logarithmische Domäne in einem Verfahren 501 umgewandelt. Ein so abgeleitetes logarithmisches Spektralumfangssignal Φe_Log(Ω+1,k) wird mit einem logarithmischen nicht linear geglätteten Signal XLU_log(Ω,k-1) verglichen, wobei es sich um den Logarithmus des nicht linear geglätteten Signals X̅LU(Ω,k-1) handelt. Ist das logarithmische Spektralumfangssignal Φe_Log(Ω+1,k) größer als das logarithmische nicht linear geglättete Signal X̅Lu_log(Ω,k-1), wird das logarithmische nicht linear geglättete Signal X̅LU_log(Ω+1,k) durch ein Verfahren 503 to X̅LU_log(Ω,k) + C_Inc eingestellt, in dem C_Inc für eine Erhöhungskonstante steht. Andernfalls wird das logarithmische nicht linear geglättete Signal X̅LU_log(Ω+1,k) durch ein Verfahren 504 auf X̅LU_log(Ω,k) - C Dec eingestellt, in dem C_Dec eine Minderungskonstante ist. In einem Verfahren 505 wird das logarithmische nicht linear geglättete Signal X̅LU_log(Ω+1,k) verzögert, um das Signal X̅LU_log(Ω+1,k-1) zu erzeugen, das in Verfahren 502 verwendet wird. In einem Verfahren 506 wird das logarithmische nicht linear geglättete Signal X̅LU_log(Ω+1,k) in die lineare Domäne zurück transformiert, d. h. in das nicht linear geglättete Signal X̅LU(Ω+1,k).
-
Das Wiener-Filter-Verfahren
313 aus
3 kann einen Wiener-Filter mit einer Übertragungsfunktion H
W(Ω,k) umfassen, die wie folgt lauten kann:
wobei Φ
N(Ω,k) für die Leistungsspektraldichte des geschätzten Hintergrundrauschsignals steht, Φ
Res(Ω,k) für die Leistungsspektraldichte des geschätzten Restechosignals steht, λ für einen Überschätzungsfaktor steht, H
W
Boden (Ω, k) für eine Untergrenze des Wiener-Filters steht und δ für einen kleinen Wert steht, um Teilungen durch null zu vermeiden. Terme in der Gleichung können je nach Fall gewichtet sein. Beispielsweise kann mindestens einer der Terme H
W
Boden (Ω, k), λ̅, und
mit spezifischen Wichtungen gewichtet oder sogar weggelassen (Wichtungen = 0) sein, um das Verhalten des Wiener-Filters einzustellen.
-
6 zeigt Diagramme von Leistungsspektraldichtepegeln [dB] von Sprachsignalen (Linie a) und deren Ploppgeräuschschätzungen (Linie b: auf Grundlage von nicht linearem Glätten von hoch zu niedrig; Linie c: auf Grundlage von nicht linearem Glätten von niedrig zu hoch; Linie d: auf Grundlage von dem Mittelwert von beiden nicht linear geglätteten Schätzungen) über der Frequenz [Hz]. Wie aus 6 ersichtlich, verursacht das Berechnen der Leistungsspektraldichte des Eingangssignals zum Entfernen des Ploppgeräusches ausschließlich auf Grundlage eines einzelnen nicht linearen Glättverfahrens, unabhängig davon, ob das Verfahren von höheren zu niedrigeren (UL) oder von niedrigeren zu höheren (LU) Frequenzen durchgeführt wird, eine Spektralverschiebung. Wenn eine entsprechend geschätzte Leistungsspektraldichte mit impulsiven Störungen als Eingabe verwendet wird, können einige harmonische Komponenten auch durch das Verfahren zum Entfernen eines Ploppgeräusches unterdrückt werden. Dies ist nicht wünschenswert, da, wenn es zu einer Erfassung kommt, die fehlerhaft ausgelöst wurde, z. B. durch ein Sprachsignal oder eine zeitliche Überlappung einer impulsiven Störung und eines Sprachsignals, Teile von wichtigen Fanten des Sprachsignals betroffen sein können und die Verständlichkeit der Sprache nach Anwenden des Verfahrens zum Entfernen eines Ploppgeräusches abnehmen kann. Dieser Nachteil kann durch Verwenden des Mittelwertes der Schätzungen auf Grundlage von UL und LU sowie von Verfahren für eine nicht linear geglättete Leistungsspektraldichte überwunden werden, um eine finale Schätzung des Ploppgeräuschsignals bereitzustellen, wie ohne Weiteres durch Vergleichen der Linien b, c und d in 6 erkennbar. Es ist augenscheinlich, dass Linie d, die den Mittelwert beider nicht linear geglätteter Einzelverfahrens darstellt, eine geringere Wirkung auf harmonische Komponenten hat, die durch enge und hohe Spektralspitzen gekennzeichnet sind, als jedes der anderen beiden Einzelverfahrens per se. Dies stellt durch ein wesentlich robusteres und beinahe ausfallsicheres Verhalten eine wesentliche Verbesserung gegenüber allgemeinen Verfahren zum Entfernen eines Ploppgeräusches dar, d. h. selbst bei Exposition gegenüber nicht impulsiven Ereignissen wirken sich diese kaum negativ auf ausgesprochene Sprachsignale aus.
-
Die 7 und 8 zeigen Leistungsspektraldichtepegel [dB] von Sprachsignalen (Linie e in 7, Linie g in 8) in einem Eingangssignal und das geschätzte Ploppgeräusch (Linie f in 7, Linie h in 8), das von diesem Eingangssignal entfernt werden soll. 7 veranschaulicht ein Eingangssignal mit hauptsächlich ausgesprochenen Sprachkomponenten, wohingegen 8 ein Eingangssignal mit hauptsächlich unausgesprochenen Sprachkomponenten aufweist - beide Eingangssignale sind durch Restechos und Hintergrundrauschen überlagert. Durch Prüfen der 7 und 8 ist der Unterschied zwischen ausgesprochenen (7) und unausgesprochenen (8) Sprachsignalen ohne Weiteres zu sehen - selbst wenn diese Signale unter ungünstigen Bedingungen aufgezeichnet wurden, wie in diesem Beispiel, in dem die Aufzeichnung erfolgte, während die Vorrichtung durchgehend typische Popmusik bei maximaler Lautstärke spielte, mit Hintergrundrauschen und einem aktiven Sprecher nahe dem Ende. Es wird davon ausgegangen, dass ausgesprochene Signale (hier der Vokal „i“) bei niedrigeren Frequenzen mehr Energie aufweisen, etwa in einem Bereich von 0,3 bis 3 [kHz], und unausgesprochene Signale (hier Konsonant „x“) bei höheren Frequenzen mehr Energie enthalten, etwa in einem Bereich von 4 bis 8 [kHz]. Diese Tatsache kann verwendet werden, um zwischen verschiedenen Teilen der Sprache, des (quasistationären) Hintergrundrauschens und des Knackgeräusches zu unterscheiden, wie nachstehend in Verbindung mit 9 beschrieben.
-
9 ist ein Diagramm, das die Leistungsspektraldichte eines beispielhaften Knackgeräuschsignals (Linie i) und eine Schätzung des überlagerten Ploppgeräusches darstellt (Linie j). Die Differenz zwischen einem Knackgeräusch (Plopp) und einem Sprachsignal (egal, ob ausgesprochen oder unausgesprochen) besteht darin, dass dieses (für einen kurzen Zeitraum) eine hohe Breitbandenergie enthält, die eine Trennung von einem quasi stationären, d. h. langfristigen, Hintergrundrauschen sowie von einem ausgesprochenen und einem unausgesprochenen Sprachsignal erlaubt und dementsprechend die Basis für das in der vorliegenden Schrift beschriebene Verfahren (System) zum Entfernen eines Ploppgeräusches bildet.
-
10 zeigt Ausgangssignale eines vollständigen Fernfeldmikrofonverfahrens, in dem Linie k das Signal ohne angewendete Entfernung des Ploppgeräusches darstellt und Linie 1 das Signal mit angewendeter Entfernung des Ploppgeräusches darstellt. 10 zeigt die Wirksamkeit des in der vorliegenden Schrift beschriebenen Verfahrens zum Entfernen eines Ploppgeräusches. Es ist anzumerken, dass das Verfahren zum Entfernen eines Ploppgeräusches die Sprachqualität nicht merklich negativ beeinflusst, wodurch der höhere Grad an Robustheit im Vergleich mit gängigen Verfahren zum Entfernen eines Ploppgeräusches bewiesen wird.
-
Unter Bezugnahme auf 11 können unter Verwendung des Verhältnisses der Leistungsspektraldichte des Spektralumfangssignals Φe(Ω,k) zu der Leistungsspektraldichte des geschätzten, quasistationären Hintergrundrauschens ΦN(Ω,k) als Eingang, um die Leistungsspektraldichte des Knackgeräusches ΦPnr(Ω,k) zu schätzen, potentiell störende Wirkungen des Hintergrundrauschens vermieden werden. Daneben kann dadurch eine doppelte Subtraktion der Schätzung zum Hintergrundrauschen ebenfalls vermieden werden, z. B. in einem Wiener-Filter, der mehrere, unabhängige Rauschschätzungen berücksichtigt, wie etwa Restechos, (quasistationäres) Hintergrundrauschen, Ploppgeräusch usw. Die Struktur aus 3 kann dementsprechend durch eine Unterstruktur erweitert werden, die zwischen dem Absolutwertverfahren 309 und dem spektralen nicht linearen Glättverfahren 310 eingefügt wird. Diese Unterstruktur umfasst ein Verfahren 1101, das das Spektralumfangssignal Φe(Ω,k) spektral glättet, ein anschließendes Verfahren 1102, das die Ausgabe aus Verfahren 1101 zeitlich glättet, und ein Verfahren 1103, das das Rauschen ΦN(Ω,k) schätzt, das in der Ausgabe aus dem Verfahren 1102 enthalten ist. Die Unterstruktur umfasst zudem ein Verfahren 1104, das anhand der Ausgabe der Verfahren 1102 und 1103 ein Signal-Rausch-Verhältnis ΦeSNR(Ω,k) berechnet. Das Signal-Rausch-Verhältnis ΦeSNR(Ω,k) wird dem Verfahren 310 zum weiteren Verarbeiten bereitgestellt.
-
Beispielsweise kann ein akustisches Echounterdrückungssystem, das in der Lage ist, auf einem Referenzsignal beruhende Teile des Ploppgeräusches zu entfernen, als ein nicht lineares akustisches Echounterdrückungssystem betrachtet werden, da dieses System nur dann aktiv ist, wenn ein bestimmter Grad der Wahrscheinlichkeit besteht, dass die Sprache nicht linear werden kann, und da dieses System (nur) den unteren spektralen Teil des Signal-Rausch-Verhältnisses für die Analyse und das Erzeugen der Maske zum Entfernen des Ploppgeräusches, z. B. ein Signal oder eine Gruppe von Signalen. Anders ausgedrückt, geben das (ausschließliche) Auswerten des unteren Spektralbereiches der spektralen Signal-Rausch-Verhältnisse und das Erfassen von mehr als einer Mindestanzahl an Spektrallinien, die eine vorbestimmte maximale Schwelle überschreiten, einen Hinweis darauf, ob die Auslenkung der Membran des Lautsprechers hoch ist. Dementsprechend besteht eine hohe Wahrscheinlichkeit, dass nicht lineare Nebenprodukte, die durch gängige akustische Echounterdrückungsverfahren nicht unterdrückt werden können, Teil des Fehlersignals sind. Daneben besteht aufgrund der Tatsache, dass in diesem begrenzten Spektralbereich eine Mindestanzahl an spektralen Signal-Rausch-Verhältnissen einen bestimmten maximalen Schwellenwert überschreitet, zudem eine hohe Wahrscheinlichkeit, dass ein Signal mit einem impulsiven Charakter vorliegt. Dies deutet daraufhin, dass eine Maske zum Entfernen von Ploppgeräuschen ermittelt und angewendet werden sollte, um diese andernfalls nicht entfernbaren, nicht linearen Signalteile des Fehlersignals zu entfernen.
-
Der Unterschied zwischen einer Maske zum Entfernen eines Ploppgeräusches und einer Rauschminderungsmaske besteht hauptsächlich darin, dass letztere durch Subtrahieren der bestimmten Rauschminderungsmaske von eins mehr oder weniger umgekehrt wird, um die Maske zum Entfernen eines Ploppgeräusches zu erzeugen. Anders ausgedrückt, während die Rauschminderungsmaske impulsive Signalteile, wie etwa Sprache, nicht betrifft und darauf abzielt, quasi stationäre Signalteile zu unterdrücken, zielt die Maske zum Entfernen eines Ploppgeräusches auf das Gegenteil ab, d. h. sie zielt darauf ab, ausgeprägte impulsive Signalteile zu unterdrücken, während Sprachsignale gleichzeitig außen vorgelassen werden sollen. Da letztere versucht, Signalteile mit ähnlichen Eigenschaften zu unterdrücken und wiederherzustellen, ist es hilfreich, die Analyse auf den unteren Spektralteil zu begrenzen, in dem in der Regel keine Sprachbestandteile vorliegen, beispielsweise bei Frequenzen unter 150 [Hz]. Daneben wird durch das Analysieren (gegebenenfalls) des Referenzsignals, das nicht von jedweden nützlichen Sprachsignalen betroffen ist, das Risiko, dass eine unerwünschte Unterdrückung von nützlichen Sprachsignalen auftritt, weiter verringert.
-
Das Entfernen eines Mikrofonsignal-basierten Ploppgeräusches kann zudem nur auf ein Spektrum von den Signal-Rausch-Verhältnissen zurückgreifen, in dem im Wesentlichen keine nützlichen Sprachteile vorkommen können, z. B. Frequenzen unter 150 [Hz]. Dieser Frequenzbereich wird für die Analyse verwendet und nur die Teile, die auch einen impulsiven Charakter zeigen, werden für das Ermitteln der Maske zum Entfernen eines Ploppgeräusches herangezogen. Dementsprechend ist das Risiko einer fehlerhaften Unterdrückung nützlicher Sprachsignalteile auch dann gering, wenn das Mikrofonsignal als Eingangssignal für das System und das Verfahren zum Entfernen eines Ploppgeräusches verwendet wird.
-
Das in der vorliegenden Schrift offenbarte Verfahren und System zum Entfernen eines Ploppgeräusches kann jedoch als eine Art nicht lineare Erweiterung eines akustischen Echounterdrückungsverfahrens oder eines erweiterten Rauschminderungsverfahrens verwendet werden, das nicht nur quasi stationäre Rauschsignale, sondern auch Knackgeräuschsignalteile unterdrücken kann. Das Verfahren und System zum Entfernen eines Ploppgeräusches lässt sich sehr wirksam mit gängigen Rauschminderungssystemen und -verfahren kombinieren, wodurch die Anzahl von Millionen Anweisungen pro Sekunde (MIPS) und der Speicherumfang niedrig gehalten werden, wenn die Umsetzung in einer digitalen Signalverarbeitungsumgebung erfolgt. Neben seiner Einfachheit bietet es einen sehr wirksamen Weg zum Verringern impulsiver Teile von Rauschen, auf Grundlage des Referenzsignals und/oder des Mikrofonsignals und/oder des Restechosignals von akustischen Echounterdrückungsverfahren.
-
Die vorstehend beschriebene Struktur kann in einem computerlesbaren Medium, wie etwa einer CD-ROM, einer Platte, einem Flash-Speicher, einem RAM oder einem ROM, einem elektromagnetischen Signal oder einem anderen maschinenlesbaren Medium als Anweisungen zur Ausführung durch einen Prozessor kodiert sein. Alternativ oder zusätzlich kann eine beliebige Art von Logik verwendet werden und kann als analoge oder digitale Logik, die Hardware verwendet, wie etwa einen oder mehrere integrierte Schaltungen (einschließlich Verstärker, Addierer, Verzögerungen und Filter), einen oder mehrere Prozessoren, die Verstärkungs-, Addierungs-, Verzögerungs- und Filteranweisungen ausführen; oder in Software in einer Anwendungsprogrammschnittstelle (application programming interface - API) oder in einer dynamischen Verknüpfungsbibliothek (Dynamic Link Library - DLL), in Funktionen in einem geteilten Speicher oder als lokale oder entfernte Prozeduraufrufe; oder als eine Kombination aus Hardware und Software umgesetzt sein.
-
Das Verfahren kann durch Software und/oder Firmware umgesetzt werden, die auf oder in einem computerlesbaren Medium, einem maschinenlesbaren Medium, einem Verbreitungssignalmedium und/oder einem signaltragenden Medium gespeichert ist/sind. Die Medien können eine beliebige Vorrichtung umfassen, die ausführbare Anweisungen zur Verwendung durch ein(e) oder in Verbindung mit einem System, einem Gerät oder einer Vorrichtung, das/die Anweisungen ausführen kann, enthält, speichert, kommuniziert, verbreitet oder transportiert. Das maschinenlesbare Medium kann wahlweise ein elektronisches, ein magnetisches, ein optisches, ein elektromagnetisches oder ein Infrarotsignal oder ein Halbleitersystem, ein Halbleitergerät, eine Halbleitervorrichtung oder ein Verbreitungsmedium sein. Eine unvollständige Liste von Beispielen eines maschinenlesbaren Mediums umfasst Folgendes: eine magnetische oder eine optische Platte, einen flüchtigen Speicher wie etwa einen Direktzugriffsspeicher „RAM“ (Random Access Memory - RAM), einen Nur-Lese-Speicher „ROM“ (Read-Only Memory - ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (d. h. EPROM) (Erasable Programmable Read-Only Memory - EPROM) oder einen Flash-Speicher oder eine optische Faser. Ein maschinenlesbares Medium kann auch ein physisches Medium umfassen, auf dem ausführbare Anweisungen gedruckt sind, wie auch die Logik als ein Bild oder in einem anderen Format (z. B. durch einen optischen Scan) elektronisch gespeichert sein, dann kompiliert und/oder interpretiert oder auf andere Weise verarbeitet werden kann. Das verarbeitete Medium kann dann in einem Computer und/oder in einem Maschinenspeicher gespeichert werden.
-
Die Systeme können zusätzliche oder andere Logik umfassen und können auf viele unterschiedlichen Arten umgesetzt sein. Eine Steuerung kann als ein Mikroprozessor, eine Mikrosteuerung, eine anwendungsspezifische integrierte Schaltung (application specific integrated circuit - ASIC), eine bestimmte Logik oder eine Kombination von anderen Arten von Schaltungen oder Logik umgesetzt sein. Ähnlich können die Speicher DRAM, SRAM, Flash oder andere Arten von Speicher sein. Parameter (z. B. Bedingungen und Schwellenwerte) und andere Datenstrukturen können getrennt voneinander gespeichert und verwaltet, können in einen einzelnen Speicher oder eine einzelne Datenbank aufgenommen oder können logisch und physisch auf viele verschiedene Arten organisiert werden. Programme und Anweisungssätze können Teile eines einzelnen Programms, von getrennten Programmen oder über mehrere Speicher und Prozessoren verteilt sein. Die Systeme können in einer großen Vielfalt von elektronischen Vorrichtungen enthalten sein, einschließlich eines Mobilfunktelefons, eines Headsets, eines Freihand-Sets, einer Freisprechanlage, einer Kommunikationsschnittstelle oder eines Infotainmentsystems.
-
Die Beschreibung der Ausführungsformen wurde zum Zwecke der Veranschaulichung und Beschreibung dargelegt. Geeignete Modifikationen und Variationen der Ausführungsformen können im Hinblick auif die vorstehende Beschreibung durchgeführt werden oder können aus der Umsetzung der Verfahren erhalten werden. Beispielsweise können, sofern nicht anders angegeben, eines oder mehrere der beschriebenen Verfahren durch eine geeignete Vorrichtung und/oder eine Kombination von Vorrichtungen durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Handlungen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen parallel und/oder gleichzeitig durchgeführt werden. Die beschriebenen Systeme sind beispielhafter Natur und können zusätzliche Elemente enthalten und/oder Elemente weglassen.
-
Wie in dieser Anmeldung verwendet, sollte ein Element oder ein Schritt, der im Singular aufgeführt ist und mit dem Wort „ein“, oder „eine“ fortgeführt wird, so verstanden werden, dass mehrere der Elemente oder Schritte nicht ausgeschlossen werden, es sei denn, ein solcher Ausschluss ist angegeben. Ferner sollen Bezugnahmen auf „eine Ausführungsform“ oder „ein Beispiel“ der vorliegenden Offenbarung nicht so ausgelegt werden, dass sie das Vorhandensein zusätzlicher Ausführungsformen ausschließen, die auch die genannten Merkmale enthalten. Die Begriffe „erste/r/s“, „zweite/r/s“ und „dritte/r/s“ werden lediglich als Kennzeichnungen verwendet und sollen keine numerischen Anforderungen oder eine bestimmte positionsmäßige Reihenfolge der Gegenstände, auf die sie sich beziehen, vorschreiben.
-
Wenngleich verschiedene Ausführungsformen der Erfindung beschrieben wurden, ist es für den Fachmann offensichtlich, dass im Rahmen der Erfindung viel mehr Ausführungsformen und Implementierungen möglich sind. Insbesondere wird der Fachmann die Austauschbarkeit verschiedener Merkmale aus unterschiedlichen Ausführungsformen erkennen. Obwohl diese Techniken und Systeme im Zusammenhang mit bestimmten Ausführungsformen und Beispielen offenbart wurden, versteht es sich, dass diese Techniken und Systeme über die spezifisch offenbarten Ausführungsformen hinaus auf andere Ausführungsformen und/oder Verwendungen und offensichtliche Modifikationen davon ausgedehnt werden können.