DE112009000805T5

DE112009000805T5 - Rauschreduktion

Info

Publication number: DE112009000805T5
Application number: DE112009000805T
Authority: DE
Inventors: Xuejing Rochester Hills Sun; Kuan-Chieh Northville Yen; Rogerio Guedes Macomb Alves
Original assignee: Cambridge Silicon Radio Ltd
Current assignee: Qualcomm Technologies International Ltd
Priority date: 2008-04-07
Filing date: 2009-04-07
Publication date: 2011-04-28
Anticipated expiration: 2029-04-08
Also published as: US20090254340A1; WO2009124926A3; US9142221B2; DE112009000805B4; WO2009124926A2

Abstract

Signalprozessor zum Schätzen einer Rauschleistung in einem Audiosignal, wobei der Signalprozessor aufweist:
eine Filterfunktion zum Erzeugen einer Reihe von Leistungswerten, wobei jeder Leistungswert die Leistung in dem Audiosignal in einem zugehörigen Frequenzband von einer Vielzahl von Frequenzbändern repräsentiert;
eine Signalklassifizierungsfunktion zum Analysieren aufeinanderfolgender Teile des Audiosignals, um zu bewerten, ob jeder Teil Merkmale enthält, die für Sprache charakteristisch sind, sowie zum Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse;
eine Korrekturfunktion zum Schätzen eines minimalen Leistungswerts in einem zeitbegrenzten Teil des Audiosignals, zum Schätzen der gesamten Rauschleistung in diesem Teil des Audiosignals und zum Bilden eines Korrekturfaktors, der von dem Verhältnis des minimalen Leistungswerts zu der geschätzten gesamten Rauschleistung abhängig ist, wobei die Korrekturfunktion dazu ausgebildet ist, den minimalen Leistungswert und die gesamte Rauschleistung über nur diejenigen Teile des zeitbegrenzten Teils des Signals zu schätzen, die durch die Signalklassifizierungsfunktion als weniger charakteristisch für Sprache klassifiziert sind; und...

Description

TECHNISCHES GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf das Schätzen von Eigenschaften eines Signals, im Besonderen zum Zweck des Verringerns von Rauschen in dem Signal. Die Eigenschaften könnten Rauschleistung und Verstärkung sein. Das Signal könnte ein Audiosignal sein.
Es gibt verschiedene Arten von Anordnungen, die Sprachsignale erfassen und verarbeiten. Beispiele schließen Hörsprecheinrichtungen und mobile Telephone ein. Bei diesen Anordnungen ist oft erwünscht das Rauschen in dem erfassten Signal zu verringern, um die Sprachkomponente des Signals präziser zu repräsentieren. Bei einem Mobiltelephon oder einer Hörsprecheinrichtung kann zum Beispiel jedes Audiosignal, das durch ein Mikrophon erfasst wird, eine Komponente beinhalten, die die Sprache eines Anwenders repräsentiert, und eine Komponente, die von Umgebungsrauschen herrührt. Wenn dieses Rauschen aus dem erfassten Signal entfernt werden kann, dann kann das Signal besser klingen, wenn es wiedergegeben wird, und es könnte auch möglich sein, das Signal präziser oder effizienter zu komprimieren. Um dies zu erreichen, muss die Rauschkomponente des erfassten Audiosignals von der Stimmkomponente getrennt werden.
Wenn ein Sprachsignal s(n) durch zusätzliches Hintergrundrauschen v(n) korrumpiert ist, kann das sich ergebende verrauschte Sprachsignal d(n) im Zeitbereich ausgedrückt werden als: d(n) = s(n) + v(n) (1)
Das Ziel von Rauschreduktion in einer solchen Situation ist normalerweise v(n) zu schätzen und dieses von d(n) zu subtrahieren, um s(n) zu erhalten.
Ein Algorithmus zum Verringern von Rauschen arbeitet in Frequenzbereich. Er nimmt das Problem der Rauchreduzierung durch Anwenden einer DFT (diskrete Fouriertransformation) Filterbank und Nachverfolgen der mittleren Leistung von quasi-stationärem Hintergrundrauschen in jedem Subband der DFT in Angriff. Für jedes Subband wird basierend auf der Rauschschätzung ein Verstärkungswert hergeleitet, und diese Verstärkungswerte werden auf jedes Subband angewendet, um ein verbessertes Signal im Zeitbereich zu erzeugen, bei dem erwartet wird, dass das Rauschen reduziert ist. 1 veranschaulicht diesen Algorithmus durch ein Blockdiagramm. Das ankommende Signal d(n) wird bei 1 empfangen. Es wird auf eine Reihe von Filtern 2 angewendet, von denen jeder ein entsprechendes Subbandsignal ausgibt, das ein bestimmtes Subband des eingehenden Signals darstellt. Jedes der Subbandsignale wird in eine Abtastratenreduktionseinheit (Downsampling-Einheit) 3 eingespeist, die die Abtastrate das Subbandsignals reduziert, um seine Leistung zu mitteln. Die Ausspeisungen der Downsampling-Einheit 3 bilden das Ausgangssignal der Analysefilterbank (AFB) 5. Diese Ausgangssignale sind verrauschte Signale D_k (k = 0..M – 1). Jedes dieser Signale wird nachfolgend in einer Multiplikationseinheit 6 mit G_oms,k multipliziert. G_oms,k ist ein geschätzter Verstärkungswert, der weiter unten in größerem Detail beschrieben wird. Das verbesserte Signal im Zeitbereich wird dann durch Durchleiten der Ergebnisse der Multiplikation durch eine Synthesefilterbank (SFB) erzielt. In der SFB 7 erhöhen Interpolationseinheiten 8 (Upsampling-Einheiten) die Abtastrate der Ausgangssignale der Multiplikationseinheiten, und die Ausgangssignale der Upsampling-Einheiten werden auf entsprechende Synthesefilter 9 zugeführt, von denen jeder ein Signal resynthetisiert, das das entsprechende Subband repräsentiert, und dann werden die Ausgangssignale der Synthesefilter addiert, um das Ausgangssignal zu bilden.
Es kann im Allgemeinen angenommen werden, dass das Sprachsignal und das Hintergrundrauschen unabhängig sind, und daher die Leistung des verrauschten Sprachsignals gleich der Leistung des Sprachsignals plus der Leistung des Hintergrundrauschens in jedem Subband k |D_k|² = |S_k|² + |V_k|² (2) ist.
Wenn die Rauschleistung bekannt ist, dann kann eine Schätzung der Sprachleistung erhalten werden aus: |S_k|² = |D_k|² – |V_k|², (3)
Es ist notwendig die Verstärkung zu schätzen, um die Signale G_oms,k zu erzeugen. Eines der am meisten verwendeten Verfahren zum Schätzen der Verstärkung ist mittels der optimalen Wienerfilterverstärkung, die errechnet wird zu
Das geschätzte saubere Sprachsignal in jedem Subband, S ^_k, wird dann einfach hergeleitet als S ^_k = G_wiener,k·D_k. (5)
Es ist zu erkennen, dass die Schätzung der Rauschleistung (|V_k|²) und der Verstärkung (G_oms) entscheidend für den Erfolg des Algorithmus ist. Unglücklicherweise hat sich erwiesen, dass das Erzielen zuverlässiger Schätzungen von diesen in der Vergangenheit auf Grund der hohen Komplexität von verschiedenartigen verrauschten Umgebungen äußerst schwierig war. Viele Algorithmen arbeiten gut in einer Situation, versagen aber in anderen Situationen. Da die Beschaffenheit der Umgebung üblicherweise nicht im Voraus bekann ist, und sich ändern kann, wenn sich ein Anwender von einem Ort zu einem anderen bewegt, erweisen sich viele Algorithmen als inkonsistent und führen zu nicht zufriedenstellenden Ergebnissen.
Es wäre daher nützlich, einen verbesserten Mechanismus zum Schätzen von Rauschleistung in einem Signal zur Verfügung zu haben.
Gemäß den Aspekten der vorliegenden Erfindung werden Signalverarbeitungsvorrichtungen und Verfahren zur Verfügung gestellt, wie in den beigefügten Ansprüchen ausgeführt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung wird jetzt mit Hilfe eines Beispiels unter Bezugnahme auf die begleitenden Zeichnungen beschrieben. In den Zeichnungen zeigt:
1 ein Blockdiagramm, das einen Mechanismus zum Reduzieren von Rauschen in einem Signal zeigt;
2 ein Blockdiagramm, das einen Mechanismus zum Schätzen von Rauschleistung in einem Signal zeigt;
3 eine Zustandsmaschine zum Verwenden minimaler Statistik; und
4 eine Zustandsmaschine zum Bestimmen des Wertes eines Übersubtraktionsfaktors (over-subtraction factor).
DETAILLIERTE BESCHREIBUNG DER VERANSCHAULICHENDEN AUSFÜHRUNGSFORM
Das unten beschriebene System schätzt Rauschen in einem Audiosignal mittels eines adaptiven Systems, das kaskadierte Steuerblöcke aufweist.
Dieses Beispiel wird im Kontext einer Anordnung zum Schätzen von Rauschen in einem Quellaudiosignal beschrieben. 2 zeigt die allgemeine logische Architektur, die angewendet werden wird. Das Quellaudiosignal d(n) wird auf eine Analysefilterbank (AFB) 10 analog zu der in 1 gezeigten angewendet und auf eine Harmonitätsschätzungseinheit 11, die ein Ausgangssignal erzeugt, das von der geschätzten Harmonität des Quellsignals abhängig ist. Die Ausgangssignale der Analysefilterbank 10 und der Harmonitätsschätzungseinheit 11 werden einer statistischen Analyseeinheit 12 zur Verfügung gestellt, die Minimumstatistikinformation erzeugt. Die statistische Analyseeinheit verarbeitet das Ausgangssignal der AFB auf eine Weise, die von dem Ausgangssignal der Harmonitätsschätzungseinheit abhängig ist. Die Ausgangssignale der Analysefilterbank 10 und der statistischen Analyseeinheit werden auf eine adaptive Rauschschätzungseinheit 13 angewendet, die das Rauschen in jedem Subband des Signals adaptiv schätzt und zwar durch Verarbeiten des Ausgangssignals der AFB auf eine Weise, die von dem Ausgangssignal der statistischen Analyseeinheit abhängig ist.
Nehmen wir an, dass eine Rauschleistungsschätzung durch P_k(l) bezeichnet ist, wobei k der Subbandindex ist und/ist der Blockindex des Datenblocks in Betrachtung nach der Verarbeitung durch die Analysefilterbank 10 mit einer Abwärtssampelrate L (downsampling rate). Wie durch 2 gezeigt, wird P_k(l) erzielt, nachdem das Eingangssignal durch die AFB und durch die adaptive Rauschschätzungseinheit 13 verläuft. Parallel zu der AFB sind die Module 11 und 12 angeordnet. Die gestrichelten Pfeile in 2 bezeichnen, dass die Ausgangssignale der Module 11 und 12 den Betrieb der Einheiten steuern, in die sie eingespeist werden.
Zum Zweck einer besseren Veranschaulichung wird der Betrieb der Module 10 bis 13 im Folgenden in umgekehrter Reihenfolge beschrieben.
Adaptive Rauschschätzungsmodule
Die Rauschleistung P_k(l) wird üblicherweise durch Anwenden eines IIR Filters erster Ordnung auf die verrauschte Signalleistung geschätzt: P_k(l) = P_k(l – 1) + α(|D_k(l)² – P_k(l – 1)), (6) wobei der Parameter α ist eine Konstante zwischen 0 und 1 ist, die die Gewichtung einstellt, die auf jeden Signalblock angewendet wird, und daher die effektive durchschnittliche Zeit.
Adaptive Rauschschätzung wird durch dynamisches Gewichten von α in der Gleichung (6) mit einem Sprachabwesenheitswahrscheinlichkeits-(SAP)Modell erzielt. Das Modell wird unten beschrieben.
Nehmen wir an H₀ ist die Hypothese von Sprachabwesenheit; dann ist bei einem Eingangssignal im Frequenzbereich (D) die Sprachabwesenheitswahrscheinlichkeit (SAP) gleich p(H₀|D). Zur Vereinfachung werden Zeit- und Frequenzindizes in der untenstehenden Beschreibung ignoriert. Das Anwenden der Regel Eins von Bayes führt zu:
Unter der Annahme p(H₀) = λ, (8) wobei λ eine Konstante zwischen 0 und 1 die Grenzen einschließend ist, haben wir dann für eine komplexe Gaussverteilung von DFT Koeffizienten (D)
und
wobei σ 2 / D die Varianz von D ist. (Siehe Vary, P.; Martin, R. Digital Speech Transmission. Enhancement, Coding and Error Concealment, John Wiley-Verlag, 2006; Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. Acoustics, Speech und Signal Processing, vol. ASSP-33, pp. 443–445, 1985; and I. Cohen, "Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging," IEEE Trans. Speech und Audio Processing, vol. 11, pp. 466–475, Sep. 2003).
Das Zusammenführen der Gleichungen 7 bis 10 ergibt, dass die konditionale Sprachabwesenheitswahrscheinlichkeit ist:
Durch Ersetzen von σ 2 / D mit der momentanen Signalleistung |D|², und durch Hinzufügen zusätzlicher Grenzen um zwischen unterschiedlichen Bedingungen zu unterscheiden, kann Gleichung 11 umgeschrieben werden zu
und die Rauschleistungsschätzung wird zu P_k(l) = P_k(l – 1) + αq_k(l)(|D_k(l)|² – P_k(l – 1)). (13)
Es kann ersehen werden, dass q_k(l) nur dann λ erreicht, wenn |D_k(l)|² gleich P_k(l) ist, und sich 0 nähert, wenn ihr Unterschied zunimmt. Diese Eigenschaft ermöglicht, dass glatte Übergänge erzielt werden, verhindert jedoch, dass eine dramatische Variation die Rauschschätzung beeinflusst. Es ist zu erkennen, dass ein Einstellen von q_k(l) auf λ wenn |D_k(l)|² kleiner als P_k(l) ist, eine Rauschadaptation mit voller Geschwindigkeit ermöglicht, die schwache Sprachsegmente besser erhalten kann, das sie die Gewichtungen von vorherigen Rauschschätzungen verringert. Der Nachteil davon ist, dass die Rauschschätzungen in Richtung geringerer Werte verzerrt sind, was zu geringerer Rauschverminderung führt. Dies kann auf eine unten beschriebene Weise abgemildert werden.
Das SAP Modell in den Gleichungen 12 ist aus dem Energieverhältnis zwischen einem verrauschten Sprachsignal und geschätztem Rauschen innerhalb jedem individuellen Frequenzband hergeleitet. Es schöpft keinen Vorteil aus den nachfolgenden bekannten Fakten:

• Stimmhafte Sprachsignale weisen üblicherweise eine harmonische Struktur auf.
• Sprachsignale weisen eine ausgeprägte Formantenstruktur auf.

Wenn man voraussetzt, dass das betrachtete Rauschen diese Strukturen nicht aufweist, die für Sprache charakteristisch sind, kann ein effektiveres SAP Modell hergeleitet werden, um Sprache oder Rauschen zu detektieren. Eine Option ist, die Gleichungen 12 auf die nachfolgende Weise zu modifizieren, um über-Kreuz Mittelung über Bänder einzubringen:
wobei b(k) ein vorab definierter Bandbreitenwert für das Subband k ist.
Eine solche über-Kreuz Mittelung über Bänder führt zu größer Varianzreduktion bei Rauschen als bei Sprache, und macht das SAP Modell robuster. Übermäßiges Mitteln (das heißt ein Wert von b(k) der zu groß ist) verringert jedoch sowohl die Frequenz- als auch die Zeitauflösung, was eine wesentliche Sprachverzerrung bewirken kann. Um dies zu vermeiden, sollten Bandbreitenwerte gewählt werden, die sich an den in Sprache vorhandenen Formanten orientieren, zum Beispiel:

(1) Durch Erhöhen der Bandbreitenwerte mit zunehmender Frequenz, da sich die Bandbreite von Formanten im Allgemeinen mit der Formantenfrequenz erhöht.
(2) Durch Verwenden relativ schmaler Bandbreite für die Bereiche des ersten und zweiten Formanten, da diese Bereiche für die Verständlichkeit von Sprache wichtiger sind.

Die Sprachabwesenheitswahrscheinlichkeit kann alternativ dazu durch andere Sprachaktivitätsdetektionsalgorithmen geschätzt werden, geeigneter Weise derjenigen, die SAP basierend auf Information der Eingangssignalleistung ausgeben.
Statistische Analysemodule
Eine adaptive Rauschschätzung, die wie oben beschrieben durchgeführt wird, kann eine lange Zeit erfordern um zu konvergieren, wenn es eine plötzliche Veränderung des Rauschens gibt. Eine mögliche Lösung ist, Minimumstatistik zu verwenden, um die Rauschschätzung zu korrigieren. (Siehe Rainer Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics, "IEEE Transactions on speech und audio processing, vol. 9, no. 5, pp. 504–512, July 2001; Myron J. Ross, Harry L. Shaffer, Andrew Cohen, Richard Freudberg).
Der in dem vorliegenden System angewendete Ansatz beinhaltet im Wesentlichen das Suchen nach einem minimalen Wert, entweder:

(a) im Zeitbereich; oder
(b) im Frequenzbereich innerhalb eines Zeitsignalblocks,

Bei dem vorliegenden System wird Minimumstatistik verwendet, um den adaptiven Rauschschätzer zu steuern, wodurch die Notwendigkeit für eine Hochfrequenzauflösung wesentlich entspannt werden kann. An Stelle der Durchführung von Minimumverfolgung in jedem Subband, gruppieren wir im Besonderen Frequenzblöcke in mehrere Teilmengen und erzielen einen minimalen Wert für jede Teilmenge. Der Nutzen des Gruppierens ist ein zweifacher: (1) es reduziert die Komplexität des Systems und die Kosten der Ressourcen; und (2) es glättet unerwünschte Fluktuationen. Ohne den Verlust der Allgemeingültigkeit teilen wir das Spektrum bei unserer Implementierung in zwei Gruppen, die Bereiche niedriger Frequenz beziehungsweise hoher Frequenz umspannen. Es könnten mehr Gruppen verwendet werden, und nicht benachbarte Teile des Frequenzspektrums könnten in eine einzelne Gruppe kombiniert werden. Für jede Gruppe wird durch Errechnen der Summierung von verrauschter Signalleistung (|D_k(l)|²) für jeden Signalblock eine FIFO (first-in first-out) Warteschlange fester Länge gebildet. Zuletzt wird ein minimaler Wert für jede Warteschlange identifiziert.
Minimumstatistik wird auf die folgende Weise verwendet, um die adaptive Rauschschätzung zu unterstützen. Nehmen wir an P_min,g(l) sei der minimale Leistungswert für die Gruppe g bei Signalblockindex l, ermittelt auf die oben beschriebene Weise, und nehmen wir an P_sum,g(l) repräsentiert die gesamte geschätzte Rauschleistung für die Gruppe g bei Signalblock l. Dann wird ein Korrekturfaktor C hergeleitet zu
Die Steuerung der Rauschschätzung unter Verwendung von Minimumstatistik wird durch Anwenden dieses Korrekturfaktors auf die Rauschschätzungen P_k(l) realisiert.
Um einen weiteren Vorteil aus der Information der Minimumstatistik zu ziehen, kann ein komplexeres Schema verwendet werden. Der Bereich von C {C ≥ 0} kann durch Definieren von zwei Grenzwertwerten T₁ und T₂ in vier Zonen geteilt werden, wobei T₁ < 1 < T₂. Dann wird eine Zustandsmaschine implementiert wie in 3 gezeigt.
Wenn das Minimum P_min,g(l) nur geringfügig niedriger ist als die geschätzte Rauschleistung P_sum,g(l) wie in Zustand 2 (T₁ ≤ C ≤ 1), muss nichts getan werden, weil dies vollständig erwartet ist. Wenn jedoch der Minimumwert wesentlich kleiner ist als die Rauschschätzung wie in Zustand 1 (C < T₁), dann wird eine Korrektur angestoßen. Zustand 1 entspricht einer Lage, in der Rauschen irrtümlich auf den Sprachpegel adaptiert wird oder es einen plötzlichen Abfall des Rauschens gibt. Um eine Übernachregelung zu vermeiden, wird der Korrekturfaktor C durch T₁ normalisiert, so dass die korrigierten Rauschschätzungen immer noch höher sind als der minimale Wert. Wenn P_min,g(l) größer ist als P_sum,g(l) wie in Zustand 3 (1 < C ≤ T₂), wird eine einfache Korrektur angewendet, da es einen plötzlichen Sprung des Rauschpegels geben könnte und unsere Rauschschätzung nacheilt. Eine besondere Behandlung ist notwendig, wenn der minimale Wert (P_min,g(l)) wesentlich höher ist als die Rauschschätzung (P_sum,g(l)), wie in Zustand 4 (C > T₂). Eine schlichte Korrektur durch Multiplizieren mit dem Korrekturfaktor kann zu Problemen führen, wenn es eine wesentliche Abweichung des Spektrums zwischen dem alten Rauschhintergrund und dem neuen Rauschhintergrund gibt. Es kann eine sehr lange Zeit erfordern zu dem neuen Rauschspektrum zu konvergieren. Oder es könnte, sogar noch problematischer, Schmalbandrauschen erzeugt werden, das sehr wohl störende Audioartefakte erzeugen könnte. Dies wird in der Zustandsmaschine nach 3 durch Rücksetzen der Rauschschätzungen auf weißes Spektrum für jede Gruppe behandelt, wie in Gleichung 18 gezeigt. Dies ergibt die Eigenschaft, dass, wenn die Änderung des Rauschhintergrunds zu extrem ist, die Verwendung des gleichmäßig verteilten Spektrums gut in schneller Konvergenz resultieren kann.
Harmonitätsmodul
Die Dauer des Suchfensters für das Minimum weist einen entscheidenden Einfluss auf die Rauschschätzung auf. Ein kurzes Fenster ermöglicht eine schnellere Reaktion auf Variationen des Rauschens, kann aber auch Sprache fälschlich als Rauschen klassifizieren, wenn eine andauernde Stimmbildung länger als die Länge des Fensters ist. Auf der anderen Seite wird ein langes Fenster die Rauschadaptation verlangsamen. Ein Ansatz besteht darin, eine vorteilhafte Fensterlänge empirisch zu definieren, es kann aber sein, dass dies nicht zu einem breiten Bereich von Situationen passt. An Stelle davon wendet das vorliegende System eine dynamische Fensterlänge an, die während des Betriebs variieren kann. In diesem Beispiel wird die Länge des Fensters durch Harmonität der Sprache (Periodizität) gesteuert.
Es gibt viele Wege, um die Harmonität von Sprache zu ermitteln. AMDF (Average Magnitude Difference Function) ist ein Verfahren und ist beschrieben in Harold J. Manley; Average magnitude difference function pitch extractor, IEEE Trans. Acoust., Speech, Signal Processing, vol. 22, pp. 353–362, October 1974. Eine Variante von AMDF ist CAMDF (Cross Average Magnitude Difference Function). Es ist festgestellt worden, dass CAMDF relativ effektiv ist und eine relativ gute Leistungsfähigkeit zur Verfügung stellt.
Für ein Kurzzeitsignal x(n) {n:0..N – 1} kann CAMDF wie unten definiert werden:
wobei τ ist der Nachlaufwert ist, der den Grenzen 0 < τ ≤ N – U unterworfen ist.
Eine Repräsentation der Harmonität basierend auf CAMDF kann auf einfache Weise das Verhältnis zwischen ihrem Minimum und Maximum sein:
Herkömmlich wird ein Harmonitätswert verwendet, um direkt den Status der Stimmhaftigkeit zu ermitteln. Seine Zuverlässigkeit verschlechtert sich jedoch in einer Umgebung mit hohem Rauschen wesentlich. Auf der anderen Seite bietet die Harmonität unter Bedingungen mit mittlerem bis hohem SNR einige einzigartige jedoch wichtige Informationen, die zuvor bei der adaptiven Rauschschätzung und Minimumstatistik nicht verfügbar waren, und die zumeist Energievariationsmuster auswerten. Das vorliegende System verwendet die Harmonität, um die Art und Weise des Betriebs des statistischen Analysemoduls zu steuern. Im Besonderen wird, wenn ein Signalblock durch die Harmonitätsfunktion als stimmhaft klassifiziert wird, dieser durch die Berechnung der Minimumstatistik ausgelassen. Dies ist gleichwertig zu einem Verlängern der Dauer des Minimumsuchfensters wenn Sprache vorliegt. Als Ergebnis kann die vorgegebene Suchdauer zur schnellen Adaption an das Rauschen relativ kurz eingestellt werden.
Der Harmonitätsdetektor/das Harmonitätsmodul können alternativ durch andere in der Literatur beschrieben Tonhöhendetektoren implementiert werden, zum Beispiel durch Autokorrelation. Es wird jedoch bevorzugt, ein einfacheres Verfahren als eine vollwertige Tonhöhendetektion zu verwenden, da eine Tonhöhendetektion rechenintensiv ist. Alternativen schließen das Ermitteln eines oder mehrerer aus Harmonität, Periodizität und Stimmhaftigkeit ein und/oder durch Analysieren über einen teilweisen Tonhöhenbereich. Wenn Stimmhaftigkeit verwendet wird, dann muss der Detektor keine Tonhöhendetektion durchführen.
Instant Noise Estimation Using Fourier Transform of AMDF and Variable Start Minima Search [Zhong Lin; Goubran, R.; Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP apos; 05). Volume 1, Issue, March 18–23, 2005 Page(s): 161–164 offenbart einen Sprachprozessor, der einen Sprachdetektor anwendet, basierend auf einer Fouriertransformation von AMDF, das parallel zu Variable Start Minima Search abläuft. Ein derartiger paralleler Ansatz – anders als der hierin beschriebene Kaskadierungsansatz – erhöht die Empfindlichkeit des Systems gegenüber Sprachdetektorfehlfunktionen und kann weniger recheneffizient sein.
Hybridverstärkung durch Wienerfilter mit Über-Subtraktion und MMSE-LSA
Eine auf Basis des Wienerfilters in Gleichung 4 errechnete Verstärkung führt häufig zu musikartigem Rauschen. Eine der allgemein verwendeten Lösungen ist, wie unten gezeigt, Über-Subtraktion während der Verstärkung zu verwenden.
wobei β der Über-Subtraktionsfaktor ist.
Wie zuvor erwähnt kann festgestellt werden, dass die Rauschschätzung P_k(l) in dem vorliegenden System zu niedrigeren Werten hin beeinflusst wird. Daher kompensiert das Verwenden von Über-Subtraktion auch die Rauschschätzung, um eine größere Rauschreduktion zu erzielen.
Bei dem vorliegenden System wird ein adaptives Über-Subtraktionsmodell verwendet, das auf der SAP basiert, die wie oben beschrieben erzielt wird. Nehmen wir zuerst an, dass β_min beziehungsweise β_max die minimalen und maximalen Über-Subtraktionswerte sind. Dann teilen wir auf eine ähnliche Weise wie bei der in dem oben beschriebenen statistischen Analysemodul durchgeführten Analyse, und der Einfachheit halber unter Nichtbeachtung von Zeit- und Frequenzindizes, den Bereich der Sprachabwesenheitswahrscheinlichkeit q durch Definition zweier Grenzwertwerte Q_S und Q_N in drei Zonen derart, dass 0 < Q_S < Q_N < 1. Dies stellt eine nur rohe Kategorisierung von SAP in Sprache, Sprache gemischt mit Rauschen, beziehungsweise Zuständen nur mit Rauschen dar. Zuletzt verwenden wir eine Zustandsmaschine um den Wert des Über-Subtraktionsfaktors β zu ermitteln. Die Zustandsmaschine ist in 4 veranschaulicht.
In Zustand 1 (nur Sprache) oder Zustand 3 nur (Rauschen) wird β einfach auf die vorab ermittelten minimalen oder maximalen Über-Subtraktionswerte eingestellt. In Zustand 2, der einer Situation mit Sprache und Rauschen gemischt entspricht, wird β durch lineare Interpolation zwischen β_min und β_max basierend auf SAP q errechnet. Mit richtig gewählten Werten für die Grenzwerte kann eine Über-Subtraktion musikartiges Rauschen wirksam unterdrücken und in der Gesamtheit eine wesentliche Verringerung des Rauschens erreichen.
Um musikartiges Rauschen weiter zu unterdrücken, wird eine zusätzliche Verarbeitung auf die momentane Verstärkung G_wiener,k(l) angewendet.
Da Rauschen ein zufälliger Prozess ist, variiert die tatsächliche Rauschleistung zu jedem Zeitpunkt um die Rauschschätzung P_k(l). Wenn G_wiener,k(l) viel größer ist als P_k(l), ist die Fluktuation der Rauschleistung gering im Vergleich zu |D_k(l)|², und G_wiener,k(l) ist daher sehr zuverlässig und seine normalisierte Varianz ist gering. Wenn sich |D_k(l)|² auf der anderen Seite P_k(l) annähert, wird die Fluktuation Rauschleistung bedeutend, und G_wiener,k(l) ist daher unzuverlässig und seine normalisierte Varianz ist groß. Wenn G_wiener,k(l) ohne weitere Glättung belassen wird, würde die große normalisierte Varianz in Perioden mit geringem SNR musikartige oder Verwässerungsartefakte bewirken. Wenn jedoch eine konstante durchschnittliche Rate verwendet wird, um diese Artefakte zu unterdrücken, würde dies eine übergroße Glättung in Perioden mit hohem SNR bewirken und daher zu tonalen oder Umgebungsartefakten führen. Um für den Verstärkungsfaktor die gleiche normalisierte Variation zu erzielen, muss die durchschnittliche Rate proportional zu dem Quadrat der Verstärkung sein. Daher wird der endgültige Verstärkungsfaktor G_k(l) berechnet durch Glätten von G_wiener,k(l) mit dem folgenden Algorithmus: G_k(l) = G_k(l – 1) + (α_G·G 2 / 0,k(l))(G_wiener,k(l) – G_k(l – 1)), (23) G_0,k(l) = G_k(l – 1) + 0.25(G_wiener,k(l) – G_k(l - 1)), (24) wobei α_G eine Zeitkonstante zwischen 0 und 1 ist, und G_0,i(k) eine Vorabschätzung von G_k(l) basierend auf der letzten Verstärkungsschätzung G_k(l – 1) und der momentanen Wienerverstärkung G_0,k(l) ist. Das Verwenden einer variablen durchschnittlichen Rate G 2 / 0,k (l), und im Besonderen einer auf einer Vorabschätzung des abgemilderten Wienerverstärkungswerts basierenden, um die Wienerverstärkung zu glätten, kann hilfreich sein, um die normalisierte Varianz in dem Verstärkungsfaktor G_k(l) einzustellen.
Es kann beobachtet werden, dass G_k(l) über einen langen Zeitraum gemittelt wird, wenn es nahe 0 ist, aber eine sehr geringe Mittelung aufweist, wenn es sich 1 annähert. Dies erzeugt einen glatten Rauschhintergrund, während die Erzeugung von nach Hintergrund klingender (das heißt dünn, verwässert klingender) Sprache vermieden wird.
Während Über-Subtraktion und Verstärkungsglättung einen glatten Rauschhintergrund erzeugen und eine wesentliche Verringerung des Rauschens erzielen, könnten sie auch ein Sprachverzerrung bewirken, besonders bei schwachen Sprachkomponenten. Um die Stimmenqualität zu verbessern, wählen wird die MMSE-LSA Verstärkungsfunktion, beschrieben in Ephraim und D. Malah, um die Gleichung 21 unter bestimmten Bedingungen zu ersetzen, die später spezifiziert werden.
Die Formulierung von MMSE-LSA ist nachstehend beschrieben.
Zuerst wird festgelegt:
wobei γ das a posteriori SNR ist, und ξ das a priori SNR ist.
Dann lautet die MMSE-LSA Verstärkungsfunktion:
Bei MMSE-LSA ist a priori SNR ξ der dominante Faktor, der es ermöglicht dass Filter weniger musikartiges Rauschen und bessere Sprachqualität erzeugen. Auf Grund der abnehmenden Rolle von a posteriori SNR γ, auf das die Über-Subtraktion angewendet werden kann, ist der Rauschreduktionspegel von MMSE-LSA jedoch begrenzt. Aus diesem Grund verwendet das vorliegende System MMSE-LSA nur für Frequenzbänder von stimmhaften Datenerhebungsblöcken die für Sprache dominant sind. Dies ist der Fall, weil in diesen Datenerhebungsblöcken: (1) die Sprachqualität die größte Rolle spielt, und (2) eine geringere Rauschreduktion tolerierbar sein kann, da einige Rauschkomponenten durch stärkere Sprachkomponenten maskiert sein könnten.
Ergebnisse
Tests unter Verwendung des oben beschriebenen Systems haben gezeigt, dass das System über 20 dB Rauschreduktion erzielen kann, während eine hohe Stimmqualität beibehalten wird. Es wurde festgestellt, dass das System unter Bedingungen von Ruhe bis hin zu hohem Rauschen gut arbeitet. Es wurde auch festgestellt, dass es in einigen üblichen Umgebungen eine schnelle Konvergenzzeit von weniger als 0,5 Sekunden aufweist. Diese Ergebnisse ordnen es unter die besten gegenwärtig verfügbaren Algorithmen für Rauschreduktion unter Verwendung eines einzelnen Mikrophons ein.
Das oben beschriebene System kann verwendet werden, um Rauschleistung und/oder Verstärkung zur Verwendung in einem Rauschreduktionssystem der in 1 gezeigten Art zu schätzen, oder in einem anderen derartigen System, oder für andere Zwecke, wie zum Beispiel das Identifizieren einer Umgebung aus ihren Rauscheigenschaften.
Das oben beschriebene System kann in jede Anordnung implementiert werden, die Audiodaten verarbeitet. Beispiele schließen Hörsprechgarnituren, Telephone, Radioempfänger die Sprachsignale wiedergeben und eigenständige Mikrophoneinheiten ein.
Das oben beschriebene System könnte in dedizierter Hardware oder mittels Software implementiert werden, die auf einem Mikroprozessor abläuft. Das System wird bevorzugt auf einer einzelnen integrierten Schaltung implementiert.
Der Antragsteller offenbart hiermit getrennt jedes einzelne hierin beschriebene Merkmal und jede Kombination von zwei oder mehr derartiger Merkmale in dem Umfang, dass derartige Merkmale oder Kombinationen dazu in der Lage sind, basierend auf der vorliegende Beschreibung in Anbetracht der üblichen allgemeinen Kenntnis einer in der Technik bewanderten Person als Ganzes ausgeführt zu werden, unabhängig davon, ob derartige Merkmale oder Kombination von Merkmalen irgendein hierin offenbartes Problem lösen, und ohne Einschränkung des Schutzumfangs der Ansprüche. Der Antragsteller weist darauf hin, dass Aspekte der vorliegenden Erfindung aus jedem derartigen individuellen Merkmal oder einer Kombination von Merkmalen bestehen können. In Anbetracht der vorangehenden Beschreibung wird es für eine in der Technik bewanderte Person offensichtlich sein, dass verschiedenartige Modifikationen innerhalb des Schutzumfangs der Erfindung durchgeführt werden können.
Zusammenfassung
Rauschreduzierung
Ein Signalprozessor zum Schätzen von Rauschleistung in einem Audiosignal, wobei der Signalprozessor aufweist: eine Filtereinheit zum Erzeugen einer Reihe von Leistungswerten, wobei jeder Leistungswert die Leistung in dem Audiosignal in einem entsprechenden einer Vielzahl von Frequenzbänder repräsentiert; eine Signalklassifizierungseinheit zum Analysieren aufeinanderfolgender Teile des Audiosignals um zu bewerten, ob jeder Teil Merkmale enthält, die für Sprache charakteristisch sind, und zum Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse; eine Korrektureinheit zum Schätzen eines minimalen Leistungswerts in einem zeitbegrenzten Teil des Audiosignals, Schätzen der gesamten Rauschleistung in diesem Teil des Audiosignals und Bilden eines Korrekturfaktors abhängig von dem Verhältnis des minimalen Leistungswerts zu der geschätzten gesamten Rauschleistung, wobei die Korrektureinheit ausgebildet ist den minimalen Leistungswert und die gesamte Rauschleistung über nur diejenigen Teile des zeitbegrenzten Teils des Signals zu schätzen, die durch die Signalklassifizierungseinheit als weniger charakteristisch für Sprache klassifiziert sind; und eine Rauschschätzeinheit zum Schätzen von Rauschen in dem Audiosignal in Abhängigkeit von den durch die Filtereinheit ausgegebenen Leistungswerten und dem durch die Korrektureinheit gebildeten Korrekturfaktor.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Vary, P.; Martin, R. Digital Speech Transmission. Enhancement, Coding and Error Concealment, John Wiley-Verlag, 2006 [0025]
Y. Ephraim and D. Malah, ”Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Trans. Acoustics, Speech und Signal Processing, vol. ASSP-33, pp. 443–445, 1985 [0025]
I. Cohen, ”Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging,” IEEE Trans. Speech und Audio Processing, vol. 11, pp. 466–475, Sep. 2003 [0025]
Rainer Martin, ”Noise power spectral density estimation based on optimal smoothing and minimum statistics, ”IEEE Transactions on speech und audio processing, vol. 9, no. 5, pp. 504–512, July 2001; Myron J. Ross, Harry L. Shaffer, Andrew Cohen, Richard Freudberg [0033]
Harold J. Manley; Average magnitude difference function pitch extractor, IEEE Trans. Acoust., Speech, Signal Processing, vol. 22, pp. 353–362, October 1974 [0041]
Zhong Lin; Goubran, R.; Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP apos; 05). Volume 1, Issue, March 18–23, 2005 Page(s): 161–164 [0046]

Claims

Signalprozessor zum Schätzen einer Rauschleistung in einem Audiosignal, wobei der Signalprozessor aufweist: eine Filterfunktion zum Erzeugen einer Reihe von Leistungswerten, wobei jeder Leistungswert die Leistung in dem Audiosignal in einem zugehörigen Frequenzband von einer Vielzahl von Frequenzbändern repräsentiert; eine Signalklassifizierungsfunktion zum Analysieren aufeinanderfolgender Teile des Audiosignals, um zu bewerten, ob jeder Teil Merkmale enthält, die für Sprache charakteristisch sind, sowie zum Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse; eine Korrekturfunktion zum Schätzen eines minimalen Leistungswerts in einem zeitbegrenzten Teil des Audiosignals, zum Schätzen der gesamten Rauschleistung in diesem Teil des Audiosignals und zum Bilden eines Korrekturfaktors, der von dem Verhältnis des minimalen Leistungswerts zu der geschätzten gesamten Rauschleistung abhängig ist, wobei die Korrekturfunktion dazu ausgebildet ist, den minimalen Leistungswert und die gesamte Rauschleistung über nur diejenigen Teile des zeitbegrenzten Teils des Signals zu schätzen, die durch die Signalklassifizierungsfunktion als weniger charakteristisch für Sprache klassifiziert sind; und eine Rauschschätzfunktion zum Schätzen von Rauschen in dem Audiosignal in Abhängigkeit von den durch die Filterfunktion ausgegebenen Leistungswerten und dem durch die Korrekturfunktion gebildeten Korrekturfaktor.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die Filterfunktion eine Fouriertransformation implementiert.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die Signalklassifizierungsfunktion ausgebildet ist die Teile des Audiosignals zu analysieren, um Harmonität darin zu detektieren und jeden Teil in Abhängigkeit von dieser Analyse zu klassifizieren.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die Signalklassifizierungsfunktion ausgebildet ist die Teile des Audiosignals zu analysieren, um Tonhöhenmerkmale darin zu detektieren und jeden Teil in Abhängigkeit von dieser Analyse zu klassifizieren.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die minimale Leistung die minimale Leistung einer Vielzahl von Zeitbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die minimale Leistung die minimale Leistung einer Vielzahl von Frequenzbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die minimale Leistung die Ableitung der minimalen Leistung einer Vielzahl von Zeitbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die minimale Leistung die Ableitung der minimalen Leistung einer Vielzahl von Frequenzbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Signalprozessor wie in Anspruch 1 beansprucht, wobei in einem ersten Modus des Betriebs die Rauschschätzfunktion ausgebildet ist, Rauschen in dem Audiosignal zu schätzen als das Produkt der durch die Filterfunktion ausgegebenen Leistungswerte und des durch die Korrekturfunktion gebildeten Korrekturfaktors geteilt durch einen vorgegebenen Skalierungsfaktor, der größer als Eins ist.
Signalprozessor wie in Anspruch 9 beansprucht, wobei die Rauschschätzfunktion ausgebildet ist in dem ersten Modus des Betriebs zu arbeiten, wenn der Korrekturfaktor unter einem ersten vorgegebenen Grenzwert ist.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die Rauschschätzfunktion in einem zweiten Modus des Betriebs ausgebildet ist, Rauschen in dem Audiosignal als die durch die Filterfunktion ausgegebenen Leistungswerte zu schätzen, wenn der durch die Korrekturfunktion gebildete Korrekturfaktor zwischen einem/dem ersten Grenzwert und einem zweiten Grenzwert ist.
Signalprozessor wie in Anspruch 1 beansprucht, wobei die Rauschschätzfunktion in einem dritten Modus des Betriebs ausgebildet ist, Rauschen in dem Audiosignal als das Produkt der durch die Filterfunktion ausgegebenen Leistungswerte und des durch die Korrekturfunktion gebildeten Korrekturfaktors zu schätzen.
Signalprozessor wie in Anspruch 12 beansprucht, wobei die Rauschschätzfunktion ausgebildet ist in dem dritten Modus des Betriebs zu arbeiten, wenn der Korrekturfaktor zwischen einem/dem zweiten Grenzwert und einem dritten Grenzwert ist.
Signalprozessor wie in Anspruch 9 beansprucht, wobei die Rauschschätzfunktion in einem vierten Modus des Betriebs ausgebildet ist, Rauschen in dem Audiosignal in Abhängigkeit von dem geschätzten minimalen Leistungswert geteilt durch eine Repräsentation der Breite des Frequenzspektrums zu schätzen, das zu diesem Wert beigetragen hat.
Signalprozessor wie in Anspruch 14 beansprucht, wobei die Rauschschätzfunktion ausgebildet ist in dem vierten Modus des Betriebs zu arbeiten, wenn der Korrekturfaktor über einem/dem dritten vorgegebenen Grenzwert ist.
Verfahren zum Schätzen von Rauschleistung in einem Audiosignal, wobei das Verfahren aufweist: Erzeugen einer Reihe von Leistungswerten, wobei jeder Leistungswert die Leistung in dem Audiosignal in einem zugehörigen Frequenzband einer Vielzahl von Frequenzbändern repräsentiert; Analysieren aufeinanderfolgender Teile des Audiosignals, um zu bewerten, ob jeder Teil Merkmale enthält, die für Sprache charakteristisch sind, und Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse; Schätzen eines minimalen Leistungswerts in einem zeitbegrenzten Teil des Audiosignals, Schätzen der gesamten Rauschleistung in diesem Teil des Audiosignals und Bilden eines Korrekturfaktors abhängig von dem Verhältnis des minimalen Leistungswerts zu der geschätzten gesamten Rauschleistung, wobei das Verfahren nur das Schätzen des minimalen Leistungswerts und der gesamten Rauschleistung über diejenigen Teile des zeitbegrenzten Teils des Signals aufweist, die in dem Analyseschritt als weniger charakteristisch für Sprache klassifiziert worden sind; und Schätzen von Rauschen in dem Audiosignal in Abhängigkeit von den geschätzten Leistungswerten und dem gebildeten Korrekturfaktor.
Verfahren wie in Anspruch 17 beansprucht, wobei der Schritt des Erzeugens einer Reihe von Leistungswerten Implementieren einer Fouriertransformation aufweist.
Verfahren wie in Anspruch 16 beansprucht, das Analysieren der Teile des Audiosignals, um Harmonität darin zu detektieren, und Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse aufweist.
Verfahren wie in Anspruch 16 beansprucht, das Analysieren der Teile des Audiosignals, um Tonhöhenmerkmale darin zu detektieren, und Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse aufweist.
Verfahren wie in Anspruch 16 beansprucht, wobei die minimale Leistung die minimale Leistung einer Vielzahl von Zeitbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Verfahren wie in Anspruch 16 beansprucht, wobei die minimale Leistung die minimale Leistung einer Vielzahl von Frequenzbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Verfahren wie in Anspruch 16 beansprucht, wobei die minimale Leistung die Ableitung der minimalen Leistung einer Vielzahl von Zeitbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Verfahren wie in Anspruch 16 beansprucht, wobei die minimale Leistung die Ableitung der minimalen Leistung einer Vielzahl von Frequenzbereichsproben ist, die von dem zeitbegrenzten Teil des Audiosignals hergeleitet sind.
Verfahren wie in Anspruch 16 beansprucht, das aufweist: in einem ersten Modus des Betriebs Schätzen von Rauschen in dem Audiosignal als das Produkt der durch die Filterfunktion ausgegebenen Leistungswerte und des durch die Korrekturfunktion gebildeten Korrekturfaktors geteilt durch einen vorgegebenen Skalierungsfaktor, der größer als Eins ist.
Verfahren wie in Anspruch 24 beansprucht, das Betrieb in dem ersten Modus des Betriebs aufweist, wenn der Korrekturfaktor unter einem ersten vorgegebenen Grenzwert ist.
Verfahren wie in Anspruch 16 beansprucht, das aufweist: in einem zweiten Modus des Betriebs Schätzen von Rauschen in dem Audiosignal als die durch die Filterfunktion ausgegebenen Leistungswerte, wenn der durch die Korrekturfunktion gebildete Korrekturfaktor zwischen einem/dem ersten Grenzwert und einem zweiten Grenzwert ist.
Verfahren wie in Anspruch 16 beansprucht, das aufweist: in einem dritten Modus des Betriebs Schätzen von Rauschen in dem Audiosignal als das Produkt der durch die Filterfunktion ausgegebenen Leistungswerte und dem durch die Korrekturfunktion gebildeten Korrekturfaktor.
Verfahren wie in Anspruch 27 beansprucht, das Betrieb in dem dritten Modus des Betriebs aufweist, wenn der Korrekturfaktor zwischen einem/dem zweiten Grenzwert und einem dritten Grenzwert ist.
Verfahren wie in Anspruch 16 beansprucht, das aufweist: in einem vierten Modus des Betriebs Schätzen von Rauschen in dem Audiosignal in Abhängigkeit von dem geschätzten minimalen Leistungswert geteilt durch eine Repräsentation der Breite des Frequenzspektrums, das zu diesem Wert beigetragen hat.
Verfahren wie in Anspruch 29 beansprucht, das Betrieb in dem vierten Modus des Betriebs aufweist, wenn der Korrekturfaktor oberhalb einem/dem dritten vorgegebenen Grenzwert ist.
Signalprozessor zum Schätzen von Rauschen in einem Audiosignal, wobei der Signalprozessor aufweist: eine Frequenzanalysefunktion zum Durchführen einer Frequenzanalyse an dem Audiosignal, um periodisch die Leistung des Signals in jedem einer Vielzahl von Frequenzbereichen zu ermitteln; eine Aggregationsfunktion zum Bilden einer Vielzahl von Leistungsdatensätzen, wobei jeder der Leistungsdatensätze die durch die Frequenzanalysefunktion über einen entsprechenden Frequenzbereich und über eine Zeitspanne ermittelten Leistungen repräsentiert, und jede der Komponenten von zumindest einem der Leistungsdatensätze durch Kombinieren der durch die Frequenzanalysefunktion festgestellten Leistungen für zwei oder mehr Frequenzbereiche gebildet wird; und eine Minimierungsfunktion zum Bestimmen der Minima von jedem der Leistungsdatensätze; und eine Rauschschätzfunktion zum Schätzen von Rauschen in dem Audiosignal in Abhängigkeit von den durch die Minimierungsfunktion festgestellten Minima.
Signalprozessor wie in Anspruch 31 beansprucht, wobei die Rauschschätzfunktion ausgebildet ist, Rauschen in dem Audiosignal durch Bilden einer oder mehrerer erster Rauschschätzungen in Abhängigkeit von dem Audiosignal zu schätzen und die/diese erste(n) Rauschschätzung(en) in Abhängigkeit von den durch die Minimierungsfunktion ermittelten Minima zu modifizieren.
Signalprozessor wie in Anspruch 31 beansprucht, wobei es nur zwei Leistungsdatensätze gibt.
Signalprozessor wie in Anspruch 31 beansprucht, wobei jede der Komponenten von allen der Leistungsdatensätze durch Kombinieren der durch die Frequenzanalysefunktion ermittelten Leistungen für zwei oder mehr Frequenzbereiche gebildet wird.
Signalprozessor wie in Anspruch 31 beansprucht, wobei die Frequenzanalysefunktion eine Fouriertransformation implementiert.
Signalprozessor wie in Anspruch 31 beansprucht, wobei der Signalprozessor ausgebildet ist jede der ermittelten Leistungen des Signals in jedem der Vielzahl von Frequenzbereichen durch einen entsprechenden Verstärkungswert zu verstärken, und ein Audiosignal in Abhängigkeit von den Datenausgaben dieser Verstärkungen zu resynthetisieren, um so ein Signal mit verringertem Rauschen zu bilden.
Signalprozessor wie in Anspruch 31 beansprucht, wobei jede Zeitspanne eine Vielzahl von Datenerhebungsblöcken umspannt und die Minimierungsfunktion ausgebildet ist, die Minima von jedem der Leistungsdatensätze für eine Zeitspanne als die minimalen der durch die Frequenzanalysefunktion ermittelten Leistungen über einen entsprechenden Frequenzbereich für individuelle Datenerhebungsblöcke während dieser Zeitspanne zu ermitteln.
Signalprozessor wie in Anspruch 31 beansprucht, wobei der Leistungsdatensatz oder jeder der Leistungsdatensätze, die durch Kombinieren der durch die Frequenzanalysefunktion für zwei oder mehr Frequenzbereiche ermittelten Leistungen gebildet werden, durch Kombinieren der durch die Frequenzanalysefunktion für benachbarte Frequenzbereiche ermittelten Leistungen gebildet werden.
Verfahren zum Schätzen von Rauschen in einem Audiosignal, wobei das Verfahren aufweist: Durchführen einer Frequenzanalyse über das Audiosignal um periodisch die Leistung des Signals in jedem einer Vielzahl von Frequenzbereichen zu ermitteln; Bilden einer Vielzahl von Leistungsdatensätzen, wobei jeder der Leistungsdatensätze die über einen entsprechenden Frequenzbereich und über eine Zeitspanne ermittelten Leistungen repräsentiert, und jede der Komponenten von zumindest einem der Leistungsdatensätze durch Kombinieren der durch die Frequenzanalysefunktion für zwei oder mehr Frequenzbereiche ermittelten Leistungen gebildet wird; und Ermitteln der Minima von jedem der Leistungsdatensätze; und Schätzen von Rauschen in dem Audiosignal in Abhängigkeit von den ermittelten Minima.
Verfahren wie in Anspruch 39 beansprucht, das Schätzen von Rauschen in dem Audiosignal durch Bilden einer oder mehrerer erster Rauschschätzungen in Abhängigkeit von dem Audiosignal und Modifizieren der/dieser ersten Rauschschätzung(en) in Abhängigkeit von den ermittelten Minima aufweist.
Verfahren wie in Anspruch 39 beansprucht, wobei es nur zwei Leistungsdatensätze gibt.
Verfahren wie in Anspruch 39 beansprucht, wobei jede der Komponenten von allen der Leistungsdatensätze durch Kombinieren der für zwei oder mehr Frequenzbereiche ermittelten Leistungen gebildet wird.
Verfahren wie in Anspruch 39 beansprucht, wobei der Schritt des Durchführens der Frequenzanalyse Implementieren einer Fouriertransformation aufweist.
Verfahren wie in Anspruch 39 beansprucht, das Verstärken jeder der ermittelten Leistungen des Signals in jedem der Vielzahl von Frequenzbereichen durch einen entsprechenden Verstärkungswert aufweist, und Resynthetisieren eines Audiosignals in Abhängigkeit von den Datenausgaben dieser Verstärkungen, um so . ein Signal mit verringertem Rauschen zu bilden.
Verfahren wie in Anspruch 39 beansprucht, wobei jede Zeitspanne eine Vielzahl von Datenerhebungsblöcken umspannt und das Verfahren Ermitteln der Minima von jedem der Leistungsdatensätze für eine Zeitspanne als die minimale der über einen entsprechenden Frequenzbereich für individuelle Datenerhebungsblöcke während dieser Zeitspanne ermittelten Leistungen aufweist.
Verfahren wie in Anspruch 39 beansprucht, wobei der Leistungsdatensatz oder jeder der Leistungsdatensätze, die durch Kombinieren der für zwei oder mehr Frequenzbereiche ermittelten Leistungen gebildet werden, durch Kombinieren der für benachbarte Frequenzbereiche ermittelten Leistungen gebildet werden.
Signalprozessor zum Reduzieren von Rauschen in einem Audiosignal, wobei der Signalprozessor aufweist: eine Analysefunktion zum Analysieren des Audiosignals, um ein oder mehrere erste Zwischensignale zu bilden; eine Verstärkungsfunktion zum Anwenden einer ermittelten Verstärkung auf das oder jedes erste Zwischensignal, um ein oder mehrere zweite Zwischensignale zu bilden; und eine Synthesefunktion zum Synthetisieren eines Audiosignal mit verringertem Rauschen aus dem/den zweiten Zwischensignal(en); und eine Verstärkungsermittlungsfunktion die ausgebildet ist, die Verstärkung zu ermitteln, die auf das oder jedes erste Zwischensignal angewendet werden soll, als die Wiener-Verstärkung des entsprechenden Zwischensignals geglättet durch die momentane Varianz der Wiener-Verstärkung.
Signalprozessor wie in Anspruch 47 beansprucht, wobei die Analysefunktion eine Frequenzanalyse des Audiosignals implementiert, um die Zwischensignale zu bilden, und jedes der Zwischensignale repräsentativ für die Leistung in dem Audiosignal in einem entsprechenden Frequenzbereich ist.
Signalprozessor wie in Anspruch 48 beansprucht, wobei die Analysefunktion die Frequenzanalyse mittels einer Fouriertransformation implementiert.
Signalprozessor wie in Anspruch 48 beansprucht, wobei die Analysefunktion die Ergebnisse der Frequenzanalysein ihrer Abtastrate reduziert, um die Zwischensignale zu bilden.
Signalprozessor wie in Anspruch 47 beansprucht, wobei die Synthesefunktion eine inverse Frequenzanalyse in Abhängigkeit von den zweiten Zwischensignalen implementiert, um das Audiosignal mit verringertem Rauschen zu bilden.
Signalprozessor wie in Anspruch 51 beansprucht, wobei die Synthesefunktion die inverse Frequenzanalyse mittels einer inversen Fouriertransformation implementiert.
Signalprozessor wie in Anspruch 47 beansprucht, wobei die Synthesefunktion zweite Zwischensignale interpoliert, um interpolierte Signale zu bilden und die inverse Frequenzanalyse auf die interpolierten Signale ausgeführt wird.
Signalprozessor wie in Anspruch 51 beansprucht, wobei es eine Vielzahl von zweiten Zwischensignale gibt, jedes in Abhängigkeit von einem entsprechenden einer Vielzahl von ersten Zwischensignalen gebildet, und wobei die Synthesefunktion jedes einer Vielzahl von Audiosignalen mit verringertem Rauschen in Abhängigkeit von einem entsprechenden der zweiten Zwischensignale synthetisiert und das Signal mit verringertem Rauschen als das Aggregat der Vielzahl von Audiosignalen mit verringertem Rauschen gebildet wird.
Verfahren zum Reduzieren von Rauschen in einem Audiosignal, wobei das Verfahren aufweist: Analysieren des Audiosignals, um ein oder mehrere erste Zwischensignale zu bilden; Anwenden einer ermittelten Verstärkung auf das oder jedes erste Zwischensignal, um ein oder mehrere zweite Zwischensignale zu bilden; und Synthetisieren eines Audiosignals mit verringertem Rauschen aus dem/den zweiten Zwischensignal(en); und Ermitteln der Verstärkung, die auf das oder jedes erste Zwischensignal angewendet werden soll, als die Wiener-Verstärkung des entsprechenden Zwischensignals geglättet durch die momentane Varianz der Wiener Verstärkung.
Verfahren wie in Anspruch 55 beansprucht, wobei das Verfahren Implementieren einer Frequenzanalyse des Audiosignals aufweist, um die Zwischensignale zu bilden, und wobei jedes der Zwischensignale repräsentativ für die Leistung in dem Audiosignal in einem entsprechenden Frequenzbereich ist.
Verfahren wie in Anspruch 56 beansprucht, das Implementieren der Frequenzanalyse mittels einer Fouriertransformation aufweist.
Verfahren wie in Anspruch 56 beansprucht, das eine Abtastatenreduktion der Ergebnisse der Frequenzanalyse aufweist, um die Zwischensignale zu bilden.
Verfahren wie in Anspruch 55 beansprucht, das Implementieren einer inversen Frequenzanalyse in Abhängigkeit von den zweiten Zwischensignalen aufweist, um das Audiosignal mit verringertem Rauschen zu bilden.
Verfahren wie in Anspruch 59 beansprucht, das Implementieren der inversen Frequenzanalyse mittels einer inversen Fouriertransformation aufweist.
Verfahren wie in Anspruch 55 beansprucht, das eine Interpolation zweiter Zwischensignale aufweist, um interpolierte Signale zu bilden und die inverse Frequenzanalyse auf die interpolierten Signale auszuführen.
Verfahren wie in Anspruch 59 beansprucht, wobei es eine Vielzahl von zweiten Zwischensignalen gibt, jedes gebildet in Abhängigkeit von einem entsprechenden einer Vielzahl von ersten Zwischensignalen, und wobei das Verfahren Synthetisieren jedes einer Vielzahl von Audiosignalen mit verringertem Rauschen in Abhängigkeit von einem entsprechenden der zweiten Zwischensignale und Bilden des Signals mit verringertem Rauschen als das Aggregat der Vielzahl von Audiosignalen mit verringertem Rauschen aufweist.
Signalprozessor zum Reduzieren von Rauschen in einem Audiosignal, wobei der Signalprozessor aufweist: eine Analysefunktion zum Analysieren des Audiosignals, um ein oder mehrere erste Zwischensignale zu bilden; eine Verstärkungsfunktion zum Anwenden einer ermittelten Verstärkung auf das oder jedes erste Zwischensignal, um ein oder mehrere zweite Zwischensignale zu bilden; und eine Synthesefunktion zum Synthetisieren eines Audiosignals mit verringertem Rauschen aus dem/den zweite(n) Zwischensignal(en); eine Signalklassifizierungsfunktion zum Analysieren aufeinanderfolgender Teile des Audiosignals, um zu bewerten, ob jeder Teil Merkmale enthält, die charakteristisch für Sprache sind, und zum Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse; eine Verstärkungsermittlungsfunktion die ausgebildet ist, die auf jeden Teil des oder jedes ersten Zwischensignals anzuwendende Verstärkung gemäß einem erste Algorithmus zu ermitteln, wenn der Teil des Audiosignals, der diesem Teil des ersten Zwischensignals entspricht, durch die Signalklassifizierungsfunktion als Merkmale enthaltend klassifiziert worden ist, die charakteristisch für Sprache sind, und andernfalls gemäß einem zweiten Algorithmus.
Signalprozessor wie in Anspruch 63 beansprucht, wobei der erste Algorithmus einer ist, der die Wirkung des Verringerns von Rauschen um einen geringeren Betrag als der zweite Algorithmus aufweist.
Signalprozessor wie in Anspruch 63 beansprucht, wobei der zweite Algorithmus weniger rechenintensiv ist als der zweite Algorithmus.
Signalprozessor wie in Anspruch 63 beansprucht, wobei der erste Algorithmus auf der MMSE-LSA-Verstärkungsfunktion basiert.
Signalprozessor wie in Anspruch 63 beansprucht, wobei der erste Algorithmus auf der Wiener-Verstärkungsfunktion basiert.
Verfahren zum Reduzieren von Rauschen in einem Audiosignal, wobei das Verfahren aufweist: eine Analysefunktion zum Analysieren des Audiosignals, um ein oder mehrere erste Zwischensignale zu bilden; eine Verstärkungsfunktion zum Anwenden einer ermittelten Verstärkung auf das oder jedes erste Zwischensignal, um ein oder mehrere zweite Zwischensignale zu bilden; und eine Synthesefunktion zum Synthetisieren eines Audiosignals mit verringertem Rauschen aus dem/den zweiten Zwischensignal(en); eine Signalklassifizierungsfunktion zum Analysieren aufeinanderfolgender Teile des Audiosignals, um zu bewerten, ob jeder Teil Merkmale enthält, die für Sprache charakteristisch sind, und zum Klassifizieren jedes Teils in Abhängigkeit von dieser Analyse; eine Verstärkungsermittlungsfunktion die ausgebildet ist, die auf jeden Teil des oder jedes ersten Zwischensignals anzuwendende Verstärkung gemäß einem ersten Algorithmus zu ermitteln, wenn der Teil des Audiosignals, der diesem Teil des ersten Zwischensignals entspricht, durch die Signalklassifizierungsfunktion klassifiziert worden ist als Merkmale enthaltend, die für Sprache charakteristisch sind, und andernfalls gemäß einem zweiten Algorithmus.
Verfahren wie in Anspruch 68 beansprucht, wobei der erste Algorithmus einer ist, der die Wirkung des Verringerns von Rauschen um einen geringeren Betrag aufweist als der zweite Algorithmus.
Signalprozessor wie in Anspruch 68 beansprucht, wobei der zweite Algorithmus weniger rechenintensiv ist als der zweite Algorithmus.
Verfahren wie in Anspruch 68 beansprucht, wobei der erste Algorithmus auf der MMSE-LSA Verstärkungsfunktion basiert.
Verfahren wie in Anspruch 68 beansprucht, wobei der erste Algorithmus auf der Wiener-Verstärkungsfunktion basiert.