DE102007030209A1 - Glättungsverfahren - Google Patents

Glättungsverfahren Download PDF

Info

Publication number
DE102007030209A1
DE102007030209A1 DE102007030209A DE102007030209A DE102007030209A1 DE 102007030209 A1 DE102007030209 A1 DE 102007030209A1 DE 102007030209 A DE102007030209 A DE 102007030209A DE 102007030209 A DE102007030209 A DE 102007030209A DE 102007030209 A1 DE102007030209 A1 DE 102007030209A1
Authority
DE
Germany
Prior art keywords
short
smoothing
smoothing method
transformation
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102007030209A
Other languages
English (en)
Inventor
Rainer Prof. Dr.-Ing. Martin
Timo Dipl.-Ing. Gerkmann
Colin Dipl.-Ing. Breithaupt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sivantos GmbH
Ruhr Universitaet Bochum
Original Assignee
Siemens Audioligische Technik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Audioligische Technik GmbH filed Critical Siemens Audioligische Technik GmbH
Priority to DE102007030209A priority Critical patent/DE102007030209A1/de
Priority to PCT/DE2008/001047 priority patent/WO2009000255A1/de
Priority to DE502008001543T priority patent/DE502008001543D1/de
Priority to AT08784249T priority patent/ATE484822T1/de
Priority to DK08784249.8T priority patent/DK2158588T3/da
Priority to EP08784249A priority patent/EP2158588B1/de
Priority to US12/665,526 priority patent/US8892431B2/en
Publication of DE102007030209A1 publication Critical patent/DE102007030209A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Networks Using Active Elements (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Optical Communication System (AREA)
  • Photoreceptors In Electrophotography (AREA)
  • Color Television Image Signal Generators (AREA)
  • Holo Graphy (AREA)

Abstract

Die Erfindung betrifft ein Glättungsverfahren zur Unterdrückung von fluktierenden Artefakten bei der Störgeräuschreduktion mit folgenden Schritten: . Bereitstellen von Kurzzeitspektren einer Folge von Signalrahmen, . Transformieren jedes Kurzzeitspektrums durch eine Hintransformation, die das Kurzzeitspektrum durch Transformationskoeffizienten beschreibt, welche das Kurzzeitspektrum in seine groben und seine feinen Strukturen unterteilt repräsentieren, . Glätten der Transformationskoeffizienten jeweils gleicher Koeffizienzindizes durch Kombination von wenigstens zwei aufeinanderfolgenden transformierten Kurzzeitspektren und . Transformieren der geglätteten Transformationskoeffizienten in geglättete Kurzzeitspektren durch eine Rücktransformation.

Description

  • Die Erfindung betrifft ein Glättungsverfahren zur Unterdrückung von fluktuierenden Artefakten bei der Störgeräuschreduktion.
  • In der digitalen Sprachsignalübertragung ist die Störgeräuschunterdrückung ein wichtiger Aspekt. Die mit einem Mikrofon erfassten und anschließend digitalisierten Audiosignale enthalten neben dem Nutzsignal (1) noch Umgebungsgeräusche, die dem Nutzsignal überlagert sind (2). So werden z. B. bei Freisprechanlagen in Fahrzeugen neben den Sprachsignalen noch Motoren- und Windgeräusche erfasst, bei Hörhilfen sind es ständig wechselnde Umgebungsgeräusche wie Verkehrsgeräusche oder im Hintergrund sprechende Personen wie etwa in einem Restaurant. Dadurch ist ein Verstehen des Sprachsignals nur mit erhöhter Anstrengung möglich. Die Störgeräuschreduktion zielt dementsprechend auf eine Erleichterung des Sprachverstehens ab. Daher darf eine Verringerung des Störgeräuschs auch das Sprachsignal nicht hörbar verzerren.
  • Für die Störgeräuschreduktion ist die Spektraldarstellung eine günstige Repräsentation des Signals. Hierbei wird das Signal in Frequenzen aufgeschlüsselt dargestellt. Eine praktische Realisierung der Spektraldarstellung sind Kurzzeitspektren, die durch eine Zerteilung des Signals in kurze Rahmen entstehen (3), die getrennt voneinander einer Spektraltransformation unterzogen werden (4). Ein Signalrahmen kann dabei bei einer Abtastrate von fs = 8000 Hz beispielsweise M = 256 aufeinanderfolgende digitale Signalabtastwerte umfassen, was dann einer Dauer von 32 ms entspricht. Ein transformierter Rahmen besteht dann aus M sogenannten Frequenzbins. Der quadrierte Amplitudenwert eines Frequenzbins korrespondiert zur Energie, die das Signal in dem schmalen Frequenzausschnitt von ca. 31 Hz Bandbreite enthält, der vom jeweiligen Frequenzbin repräsentiert wird. Aufgrund der Symmetrieeigenschaften der Spektraltransformation sind von den M Frequenzbins nur M/2 + 1, also im vorangegangenen Beispiel 129 Bins relevant für die Signaldarstellung. Mit 129 relevanten Bins und 31 Hz Bandbreite pro Bin wird insgesamt ein spektrales Band von 0 Hz bis ca. 4000 Hz abgedeckt. Dies reicht aus, um viele Sprachlaute mit hinreichender spektraler Auflösung zu beschreiben. Eine andere gängige Bandbreite ist 8000 Hz, die durch eine höhere Abtastrate und somit mehr Frequenzbins bei gleicher Rahmendauer erreicht werden kann. In einem Kurzzeitspektrum sind die Frequenzbins mit μ indiziert. Der Index für Rahmen ist λ. Die Amplituden des Kurzzeitspektrums eines Rahmens λ werden hier allgemein als spektrale Größe Gμ(λ) notiert. Ein vollständiges Kurzzeitspektrum bestehend aus den M Frequenzbins eines Rahmens ergibt sich aus den Amplituden Gμ(λ) der Indizes μ = 0 bis μ = M – 1, also μ = 0 ... M – 1. Für reelle Zeitsignale erfüllen Kurzzeitspektren die Symmetriebedingung Gμ(λ) = GM-μ(λ). Eine gängige Form der Präsentation der Kurzzeitspektren sind sogenannte Spektrogramme, die durch Aneinanderreihung zeitlich aufeinanderfolgender Kurzzeitspektren gebildet werden (vgl. beispielhaft 6 bis 9).
  • Vorteil der Spektraldarstellung ist, dass die wesentliche Sprachenergie in einer relativ geringen Anzahl von Frequenzbins konzentriert vorliegt (4 und 6), während im Zeitsignal alle digitalen Abtastwerte gleich relevant sind (3). Die Signalenergie der Störung ist in den meisten Fällen auf eine größere Anzahl von Frequenzbins verteilt. Da die Frequenzbins unterschiedlich viel Sprachenergie enthalten, ist es möglich, das Rauschen in jenen Bins zu unterdrücken, die nur wenig Sprachenergie enthalten. Je schmalbandiger die Frequenzbins sind, desto besser gelingt diese Trennung.
  • Für die Störgeräuschreduktion wird eine spektrale Gewichtungsfunktion geschätzt, die nach unterschiedlichen Optimierungskriterien berechnet werden kann. Sie ergibt niedrige Werte oder Null in Frequenzbins, in denen hauptsächlich Störung vorliegt, und Werte nahe oder gleich Eins für Bins, in denen Sprachenergie dominiert (5). Die Gewichtungsfunktion wird im Allgemeinen für jeden Signalrahmen in jedem Frequenzbin neu geschätzt. Die Gesamtheit der Gewichtungswerte aller Frequenzbins eines Rahmens wird hier auch als „Kurzzeitspektrum der Gewichtungsfunktion" oder einfach als „Gewichtungsfunktion" bezeichnet.
  • Eine Multiplikation der Gewichtungsfunktion mit dem Kurzzeitspektrum des verrauschten Signals ergibt das gefilterte Spektrum, in dem die Amplituden der Frequenzbins, in denen Störung dominiert, stark verringert sind, während Sprachkomponenten nahezu unbeeinflusst bleiben (8 und 9).
  • Schätzfehler bei der Berechnung der spektralen Gewichtungsfunktion, sogenannte Fluktuationen, ergeben gelegentlich zu hohe Gewichtungswerte für Frequenzbins, die hauptsächlich Störung enthalten (8). Dies geschieht unabhängig von spektral benachbarten oder zeitlich vorangegangenen Werten. Fluktuationen kommen auch schon in spektralen Zwischengrößen wie z. B. der Schätzung des Signal-zu-Rausch-Verhältnisses (signal-to-noise ratio, SNR) vor. Nach Multiplikation der schätzfehlerbehafteten Gewichtungsfunktion mit dem verrauschten Kurzzeitspektrum enthält das gefilterte Spektrum einzelne Frequenzbins, die hauptsächlich Störung enthalten und dennoch relativ hohe Amplituden aufweisen. Diese Bins heißen Ausreißer. Bei der Synthese eines Zeitsignals aus den gefilterten Kurzzeitspektren sind die vereinzelten Ausreißer als tonale Artefakte (musical noise) zu hören, die wegen ihrer Tonalität als besonders störend empfunden werden (10 und 11). Ein einzelnes tonales Artefakt hat die Dauer eines Signalrahmens und seine Frequenz wird durch den Frequenzbin bestimmt, in dem der Ausreißer vorkam.
  • Zur Unterdrückung von Fluktuationen in der Gewichtungsfunktion oder in spektralen Zwischengrößen bzw. zur Unterdrückung von Ausreißern im gefilterten Spektrum können diese spektralen Größen durch ein Mittelungsverfahren geglättet und somit von überhöhten Werten befreit werden. Spektrale Größen mehrerer spektral benachbarter oder zeitlich aufeinanderfolgender Frequenzbins werden dabei zu einem Mittelwert verrechnet, so dass die Amplitude einzelner Ausreißer relativiert wird. Eine Glättung ist über der Frequenz [1: Tim Fingscheidt, Christophe Beaugeant and Suhadi Suhadi. Overcoming the statistical independence assumption w. r. t. frequency in speech enhancement. Proceedings, IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1: 1081–1084, 2005], entlang der Zeit [2: Harald Gustafsson, Sven Erik Nordholm and Ingvar Claesson. Spectral subtraction using reduced delay convolution and adaptive averaging. IEEE Transactions an Speech and Audio Processing, 9(8): 799–807, November 2001] oder als Kombination aus zeitlicher und spektraler Mittelung [3: Zenton Goh, Kah-Chye Tan and B. T. G. Tan. Postprocessing method for suppressing musical noise generated by spectral subtraction. IEEE Transactions an Speech and Audio Processing, 6(3): 287–292, May 1998] bekannt. Nachteil einer Glättung über der Frequenz ist, dass bei einer Verrechnung mehrerer Frequenzbins die spektrale Auflösung verringert wird, also die Unterscheidung zwischen Sprachbins und Rauschbins schwieriger wird. Eine zeitliche Glättung durch Zusammenfassung aufeinanderfolgender Werte eines Bins verringert die zeitliche Dynamik der spektralen Werte, also ihr Vermögen, schnellen zeitlichen Änderungen der Sprache zu folgen. Eine Verzerrung des Sprachsignals ist die Folge (clipping). Außerdem kann ein mit dem Sprachsignal korreliertes, irritierendes Restrauschen hörbar werden (noise shaping). Diese Glättungsverfahren im Spektralbereich müssen deshalb im Allgemeinen aufwändig an das Sprachsignal adaptiert werden.
  • Eine weitere bekannte Form der Glättung einzelner Kurzzeitspektren über der Frequenz ist ein als „Liftering" bekanntes Verfahren [4: Andrzej Czyzewski. Multitask noisy speech enhancement system.http://sound.eti.pg.gda.pl/denoise/main.html, 2004], [5: Francois Thibault. High-level control of singing voice timbre transformations.http://www.music.mcgill.ca/thibault/Thesis/node43.html, 2004]. Hierbei wird das Kurzzeitspektrum eines Rahmens λ zunächst in den sogenannten Cepstralbereich transformiert. Die cepstrale Repräsentation der spektralen Amplituden Gμ(λ) berechnet sich zu Gcepstμ' (λ) = IDFT{log(Gμ(λ))}, μ' = 0 ... (M – 1), μ = 0 ... (M – 1) (1)mit IDFT{·} der inversen diskreten Fourier-Transformation (DFT) einer Folge von Werten der Länge M. Diese Transformation resultiert in M Transformationskoeffizienten Gcepstμ' (λ), den sogenannten cepstralen Bins mit Index μ'. Das Cepstrum besteht nach Gleichung (1) prinzipiell aus einer nicht-linearen Abbildung, nämlich der Logarithmierung, einer betragsmäßig vorliegenden spektralen Größe und einer anschließenden Transformation dieses logarithmierten Betragsspektrums mit einer Transformation. Der Vorteil einer cepstralen Repräsentation der Amplituden (14) ist, dass Sprache nicht mehr kammartig über die Frequenz verteilt ist (4 und 6), sondern die wesentliche Information über das Sprachsignal in den cepstralen Bins mit kleinem Index repräsentiert ist. Außerdem wird wesentliche Sprachinformation noch in dem verhältnismäßig leicht zu detektierenden cepstralen Bin mit höherem Index repräsentiert, der die sogenannte Pitch-Frequenz (Sprachgrundfrequenz) des Sprechers repräsentiert.
  • Ein geglättetes Kurzzeitspektrum kann berechnet werden, indem cepstrale Bins mit relativ kleinen Beträgen zu Null gesetzt werden und anschließend das veränderte Cepstrum wieder in ein Kurzzeitspektrum rücktransformiert wird. Da allerdings starke Fluktuationen bzw. Ausreißer zu entsprechend hohen Amplituden im Cepstrum führen, können diese Artefakte durch diese Verfahren nicht detektiert und unterdrückt werden.
  • Alternativ zum Liftering gibt es noch das Verfahen nach [6: Petre Stoica and Niclas Sandgren. Smoothed nonparametric spectral estimation via cepstrum thresholding. IEEE Signal Processing Magazine, pages 34–45, November 2006]. Hier werden nach einem Kriterium ausgesuchte cepstrale Bins nicht zu Null gesetzt, sondern zu einem Wert, der für die Schätzung von Langzeitspektren stationärer Signale aus Kurzzeitspektren optimal ist. Diese Form der Schätzung von Signalspektren bringt für stark nicht-stationäre Signale wie Sprache generell keine Vorteile.
  • Hiervon ausgehend liegt der Erfindung die Aufgabe zugrunde, für die Rauschreduktion ein Glättungsverfahren zur Unterdrückung von Fluktuationen in der Gewichtungsfunktion oder in spektralen Zwischengrößen bzw. von Ausreißern in gefilterten Kurzzeitspektren aufzuzeigen, das weder die Frequenzauflösung der Kurzzeitspektren verringert noch die zeitliche Dynamik des Sprachsignals beeinträchtigt.
  • Die Lösung dieser Aufgabe besteht in einem Glättungsverfahren mit den Maßnahmen von Patentanspruch 1. Vorteilhafte Weiterbildungen sind Gegenstand der Unteransprüche.
  • Das erfindungsgemäße Glättungsverfahren umfasst folgende Schritte:
    • • Bereitstellen von Kurzzeitspektren einer Folge von Signalrahmen,
    • • Transformieren jedes Kurzzeitspektrums durch eine Hintransformation, die das Kurzzeitspektrum durch Transformationskoeffizienten beschreibt, welche das Kurzzeitspektrum in seine groben und seine feinen Strukturen unterteilt repräsentieren,
    • • Glätten der Transformationskoeffizienten jeweils gleicher Koeffizientenindizes durch Kombination von wenigstens zwei aufeinanderfolgenden transformierten Kurzzeitspektren und
    • • Transformieren der geglätteten Transformationskoeffizienten in geglättete Kurzzeitspektren durch eine Rücktransformation.
  • Das erfindungsgemäße Glättungsverfahren bedient sich einer Transformation wie des Cepstrums, um ein breitbandiges Sprachsignal mit möglichst wenig Transformationskoeffizienten in seiner wesentlichen Struktur zu beschreiben. Anders als in bekannten Verfahren werden die Transformationskoeffizienten aber nicht unabhängig voneinander zu Null gesetzt, wenn sie einen Schwellwert unterschreiten. Es werden stattdessen die Werte von Transformationskoeffizienten aus mindestens zwei aufeinanderfolgenden Rahmen durch eine Glättung über die Zeit miteinander verrechnet. Hierbei wird der Grad der Glättung davon abhängig gemacht, inwieweit die durch den Koeffizienten repräsentierte spektrale Struktur entscheidend für die Beschreibung des Nutzsignals ist. Der Grad der zeitlichen Glättung eines Koeffizienten hängt daher beispielsweise davon ab, ob ein Transformationskoeffizient viel Sprachenergie enthält oder wenig. Dies ist im Cepstrum oder ähnlichen Transformationen leichter zu bestimmen als im Kurzzeitspektrum. So kann beispielsweise angenommen werden, dass die ersten vier cepstralen Koeffizienten mit Indizes μ' = 0 ... 3 und zusätzlich der Koeffizient mit maximalem Betrag und Index μ' größer 16 und kleiner 160 bei fs = 8000 Hz (Pitch) Sprache repräsentieren. Koeffizienten mit viel Sprachinformation werden nur soweit geglättet, dass ihre zeitliche Dynamik nicht geringer wird als bei einem unverrauschten Sprachsignal. Gegebenenfalls werden diese Koeffizienten gar nicht geglättet. Sprachverzerrungen werden so verhindert. Da spektrale Fluktuationen und Ausreißer eine kurzzeitige Änderung in der Feinstruktur eines Kurzzeitspektrums darstellen, bilden sie sich im transformierten Kurzzeitspektrum als kurzzeitige Änderung derjenigen Transformationskoeffizienten ab, die die Feinstruktur des Kurzzeitspektrums repräsentieren. Da diese Transformationskoeffizienten bei unverrauschter Sprache eine relativ geringe zeitliche Änderungsrate haben, können eben diese Koeffizienten stärker geglättet werden. Eine verstärkte zeitliche Glättung wirkt somit der Ausbildung von Ausreißern entgegen, ohne die Struktur der Sprache zu beeinflussen. Das Glättungsverfahren resultiert somit nicht in einer verringerten spektralen Auflösung für Sprachlaute. Die Änderung der Feinstruktur des Kurzzeitspektrums bei aufeinanderfolgenden Rahmen ist derart verzögert, dass nur schmalbandige spektrale Änderungen mit Zeitkonstanten kleiner als derjenigen von unverrauschter Sprache unterbunden werden.
  • Aus der geglätteten Größe, notiert als Gcepstμ',smooth (λ), kann durch eine Rücktransformation wieder eine spektrale Darstellung des geglätteten Kurzzeitspektrums gewonnen werden. Für eine cepstrale Repräsentation, wie unter (1) beschrieben, ist eine mögliche Rücktransformation: Gμ,smooth(λ) = exp(DFT{Gcepstμ',smooth (λ)}), μ = 0... (M – 1), μ'= 0... (M – 1) (2)mit DFT{} der diskreten Fourier-Transformation und exp() der Exponentialfunktion, die in (2) elementweise angewendet wird.
  • Die Vorteile, die sich aus der erfindungsgemäßen Glättung von Kurzzeitspektren ergeben, sind:
    • • eine effektive Unterdrückung von Fluktuationen bzw. Ausreißern,
    • • Beibehaltung der spektralen Auflösung für Sprachsignale und
    • • keine hörbare Beeinflussung von Sprache.
  • Es ist wichtig anzumerken, dass die für das Cepstrum verwendete inverse DFT in (1) und die DFT für die Rücktransformation in (2) durch andere Transformationen ersetzt werden können, ohne dass dabei die prinzipiellen Eigenschaften der Transformationskoeffizienten bzgl. der kompakten Repräsentation von Sprache verloren gehen. Genauso verhält es sich mit der Logarithmierung in (1) und der entsprechenden Umkehrfunktion in (2), der Exponentialfunktion. Auch hier sind andere nicht-lineare Abbildungen und auch lineare Abbildungen denkbar.
  • Transformationen unterscheiden sich in ihren verwendeten Basisfunktionen. Der Vorgang der Transformation bedeutet, dass das Signal mit den verschiedenen Basisfunktionen korreliert wird. Der resultierende Grad der Korrelation zwischen dem Signal und einer Basisfunktion ist dann der zugehörige Transformationskoeffizient. Bei einer Transformation entstehen so viele Transformationskoeffizienten wie es Basisfunktionen gibt. Ihre Anzahl ist hier mit M bezeichnet. Für die Erfindung wichtige Transformationen sind solche, durch deren Basisfunktionen das zu transformierende Kurzzeitspektrum in seiner Grobstruktur und seiner Feinstruktur aufgeschlüsselt wird.
  • Ein Unterscheidungsmerkmal von Transformationen ist die Orthogonalität. Orthogonale Transformationsbasen enthalten nur Basisfunktionen, die unkorreliert sind. Für den Fall, dass das Signal mit einer der Basisfunktionen identisch ist, entstehen bei orthogonalen Transformationen Transformationskoeffizienten mit dem Wert Null, bis auf den einen Koeffizienten, der identisch zum Signal ist. Die Trennschärfe einer orthogonalen Transformation ist demnach hoch. Nicht-orthogonale Transformationen verwenden Funktionsbasen, die miteinander korreliert sind.
  • Ein weiteres Merkmal ist, dass die Basisfunktionen für den betrachteten Anwendungsfall diskret und endlich sind, da es sich bei den verarbeiteten Signalrahmen um diskrete Signale von der Länge eines Rahmens handelt.
  • Wichtiges Merkmal einer Transformation ist die Invertierbarkeit. Existiert zu einer Transformation (Hintransformation) eine inverse Transformation, so entsteht durch Transformation eines Signals in Transformationskoeffizienten und anschließender inverser Transformation (Rücktransformation) dieser Koeffizienten wieder das Ausgangssignal, falls die Transformationkoeffizienten nicht verändert wurden.
  • In der Signalverarbeitung, wie sie hier beschrieben wird, ist die diskrete Fourier-Transformation (DFT) eine bevorzugte Transformation. Ein dazugehöriger wichtiger Algorithmus in der diskreten Signalverarbeitung ist die „Fast-Fourier-Transformation" (FFT). Außerdem sind die diskrete Cosinus-Transformation (DCT) und die diskrete Sinus-Transformation (DST) häufig verwendete Transformationen. Diese Transformationen werden hier unter dem Begriff „Standardtransformationen" zusammengefasst. Eine für die Erfindung entscheidende bereits erwähnte Eigenschaft der Standardtransformationen ist, dass die Amplituden der verschiedenen Transformationskoeffizienten unter schiedliche Grade an Feinstruktur des transformierten Signals repräsentieren. So beschreiben Koeffizienten mit kleinen Indizes die groben Strukturen des transformierten Signals, weil die zugehörigen Basisfunktionen niederfrequente harmonische Funktionen sind. Je höher der Index eines Transformationskoeffizienten bis hin zu μ' = M/2, desto feiner sind die Strukturen des transformierten Signals, die durch diesen Koeffizienten beschrieben werden. Für darüber hinausgehende Koeffizienten dreht sich diese Eigenschaft wegen der Symmetrie der Koeffizienten um. In der Regel werden bei der Signalverarbeitung nur die Koeffizienten mit Indizes μ' = 0 bis μ' = M/2 verarbeitet und die restlichen Werte durch spiegeln der Resultate ermittelt.
  • Die Invertierbarkeit der Transformationen macht es außerdem möglich, die Transformation und ihre Inverse bei der Hin- und Rücktransformation zu vertauschen. In (1) ist also auch beispielsweise die Verwendung der DFT aus (2) möglich, wenn in (2) die IDFT aus (1) verwendet wird.
  • Vorteilhaft werden die spektralen Koeffizienten der Kurzzeitspektren vor der Hintransformation nicht-linear abgebildet. Prinzipielle, für die Erfindung vorteilhafte Eigenschaft der nicht-linearen Abbildung ist eine Dynamik-Kompression relativ großer Amplituden und eine Dynamik-Expansion relativ kleiner Amplituden.
  • Entsprechend können die spektralen Koeffizienten der geglätteten Kurzzeitspektren nach der Rücktransformation nicht-linear abgebildet werden, wobei die nicht-lineare Abbildung nach der Rücktransformation die Umkehrung der nicht-linearen Abbildung vor der Hintransformation ist.
  • Zweckmäßigerweise werden die spektralen Koeffizienten vor der Hintransformation durch Logarithmierung nicht-linear abgebildet.
  • Eine Form der zeitlichen Glättung kann durch ein rekursives System vorzugsweise erster Ordnung erreicht werden: Gcepstμ',smooth (λ) = βμ'Gcepstμ',smooth (λ – 1) + (1 – βμ')Gcepstμ' (λ). (3)
  • Mögliche Werte für die Glättungskonstanten für Koeffizienten der Standardtransformationen im Falle von Sprachsignalen sind βμ' = 0 für μ' = 0 ... 3, βμ' = 0,8 für μ' = 4 ... M/2 mit Ausnahme der Transformationskoeffizienten durch die die Pitch-Frequenz eines Sprechers repräsentiert wird, und βμ' = 0,4 für Transformationskoeffizienten, die die Pitch-Frequenz repräsentieren. Verfahren zur Bestimmung des Pitch-Koeffizienten sind zahlreich in der Literatur verfügbar. Beispielsweise kann zur Bestimmung des Koeffizienten der Pitch derjenige Koeffizient gewählt werden, dessen Index zwischen μ' = 16 und μ' = 160 liegt und der die maximale Amplitude aller Koeffizienten in diesem Indexbereich aufweist. Für die verbleibenden Transformationskoeffizienten mit Indizes μ' = M/2 + 1 ... M – 1 gilt die Symmetriebedingung βM-μ' = βμ'. Die Werte sind für die Standardtransformationen sowie Kurzzeitspektren, die aus Signalen mit fs = 8000 Hz entstanden sind, geeignet. Sie sind durch verhältnismäßige Umrechnung an andere Systeme anpassbar. Die Wahl βμ' = 0 bedeutet, dass die betreffenden Koeffizienten nicht geglättet werden. Es ist eine entscheidende Eigenschaft der Erfindung, dass Koeffizienten, die den groben Verlauf des Kurzzeitspektrums beschreiben, möglichst wenig geglättet werden, wenn es sich um die Entrauschung von Sprachsignalen handelt. So werden die groben Strukturen des breitbandigen Sprachspektrums vor Glättungseffekten geschützt. Die feinen Strukturen von Fluktuationen bzw. spektralen Ausreißern bilden sich bei den Standardtransformationen in den Transformationskoeffizienten zwischen μ' = 4 und μ' = M/2 ab, weshalb diese bis auf den Pitch der Sprache stark geglättet werden.
  • Vorteilhafterweise wird das Glättungsverfahren auf den Betrag oder eine Potenz des Betrags der Kurzzeitspektren angewendet.
  • Besonders vorteilhaft ist es, wenn zum Glätten der jeweiligen Transformationskoeffizienten unterschiedliche Zeitkonstanten verwendet werden. Die Zeitkonstanten können so gewählt werden, dass die Transformationskoeffizenten, die vornehmlich Sprache repräsentieren, wenig geglättet werden. Zweckmäßigerweise können die Transformationskoeffizenten, die hauptsächlich fluktuierende Hintergrundgeräusche und Artefakte der Geräuschreduktionsalgorithmen beschreiben, stark geglättet werden.
  • Als Kurzzeitspektrum kann die spektrale Gewichtungsfunktion eines Geräuschreduktionsalgorithmus bereitgestellt werden. Vorteilhaft kann als Kurzzeitspektrum auch die spektrale Gewichtungsfunktion eines Postfilters für mehrkanalige Verfahren zur Geräuschreduktion verwendet werden. Zweckmäßigerweise ergibt sich die spektrale Gewichtungsfunktion hierbei aus der Minimierung eines Fehlerkriteriums.
  • Als Kurzzeitspektrum kann auch ein gefiltertes Kurzzeitspektrum bereitgestellt werden.
  • Nach einer anderen Weiterbildung des Verfahrens, wird als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Geräuschreduktion bereitgestellt.
  • Als Kurzzeitspektrum kann auch eine geschätzte Kohärenz oder eine geschätzte „Magnitude Squared Coherence" zwischen wenigstens zwei Mikrofonkanälen bereitgestellt werden.
  • Vorteilhaft wird als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprecher- oder Quellentrennung bereitgestellt.
  • Weiterhin ist vorgesehen, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprechertrennung auf Basis von Phasenunterschieden von Signalen in den verschiedenen Kanälen (Phase Transform – PHAT) bereitgestellt wird.
  • Ferner ist es möglich, als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens auf Basis einer „Generalized Cross-Correlation" (GCC) zu verwenden.
  • Als Kurzzeitspektrum können auch spektrale Größen, die sowohl Sprach- als auch Störanteile enthalten, bereitgestellt werden.
  • So kann als Kurzzeitspektrum auch eine Schätzung des Signal-zu-Rausch-Verhältnisses in den einzelnen Frequenzbins bereitgestellt werden. Ferner kann als Kurzzeitspektrum eine Schätzung der Rauschleistung verwendet werden.
  • Das Problem von Fluktuationen in Kurzzeitspektren ist nicht nur in der Audiosignalverarbeitung bekannt. Weitere vorteilhafte Anwendungsgebiete sind die Bild- und die medizinische Signalverarbeitung.
  • In der Bildverarbeitung kann z. B. die Zeile eines Bildes als Signalrahmen interpretiert werden, der in den Spektralbereich transformiert werden kann. Die entstehenden Frequenzbins werden hier Ortsfrequenzbins genannt. Bei der Verarbeitung von Bildern im Ortsfrequenzbereich werden Algorithmen verwendet, die denen in der Audiosignalverarbeitung äquivalent sind. Mögliche Fluktuationen, die diese Algorithmen im Ortsfrequenzbereich erzeugen, resultieren im verarbeiteten Bild in optischen Artefakten. Diese sind äquivalent zum tonalen Rauschen in der Audioverarbeitung.
  • In der medizinischen Signalverarbeitung werden vom menschlichen Körper Signale abgeleitet, die wie akustische Signale verrauscht sein können. Das verrauschte Signal kann entsprechend rahmenweise in den Spektralbereich transformiert werden. Die entstehenden Spektrogramme lassen sich wie Audiospektren verarbeiten.
  • Die Erfindung wird nachfolgend anhand von in den Figuren dargestellten Abbildungen näher erläutert. Es zeigen:
  • 1 ein unverrauschtes Zeitsignal;
  • 2 ein verrauschtes Zeitsignal;
  • 3 einen einzelnen Signalrahmen im Zeitbereich;
  • 4 einen einzelnen Signalrahmen im Spektralbereich;
  • 5 eine Gewichtungsfunktion für einen einzelnen Rahmen;
  • 6 das Spektrogramm eines unverrauschten Signals;
  • 7 das Spektrogramm eines verrauschten Signals;
  • 8 das Spektrogramm eines mit der ungeglätteten Gewichtungsfunktion gefilterten Signals;
  • 9 das Spektrogramm eines mit einer erfindungsgemäß geglätteten Gewichtungsfunktion gefilterten Signals;
  • 10 ein gefiltertes Zeitsignal mit tonalen Artefakten;
  • 11 ein gemäß der Erfindung gefiltertes Zeitsignal;
  • 12 das Spektrogramm einer ungeglätteten Gewichtungsfunktion;
  • 13 das Spektrogramm einer erfindungsgemäß geglätteten Gewichtungsfunktion;
  • 14 den Betrag des Cepstrums eines unverrauschten Sprachsignals und
  • 15 den Signalflussgraphen gemäß einer bevorzugten Ausführungsform der Erfindung.
  • In 1 ist ein unverrauschtes Signal in Form der Amplitude über die Zeit dargestellt. Die Dauer des Signals ist 4 Sekunden, die Amplituden reichen von ca. –0,18 bis ca. 0,18. In 2 ist das Signal in verrauschter Form dargestellt. Man erkennt ein zufälliges Grundrauschen über dem gesamten Zeitverlauf.
  • In 3 ist das Signal eines einzelnen Signalrahmens λ dargestellt. Der Signalrahmen hat eine Segmentdauer von 32 Millisekunden. Die Amplitude beider Graphen bewegt sich zwischen –0,1 und 0,1. Die einzelnen Abtastwerte der digitalen Signale sind zu Graphen verbunden. Der verrauschte Graph repräsentiert das Eingangssignal, in dem das unverrauschte Signal enthalten ist. Eine Trennung von Signal und Rauschen im verrauschten Signal ist in dieser Repräsentation des Signals kaum möglich.
  • 4 ist eine Darstellung desselben Signalrahmens nach der Transformation in den Frequenzbereich. Die einzelnen Frequenzbins μ sind zu Graphen verbunden. Auch in dieser Figur sind die Frequenzbins verrauscht und unverrauscht dargestellt, wobei wieder das unverrauschte Signal das im verrauschten Signal enthaltene Sprachsignal ist. Über der Abszisse sind die Frequenzbins μ von 0 bis 128 eingezeichnet. Sie haben Amplituden von ca. –40 Dezibel (dB) bis ca. 10 dB. Aus dem Vergleich der Graphen ist ersichtlich, dass die Energie des Sprachsignals in einigen Frequenzbins in einer kammartigen Struktur konzentriert ist, während das Rauschen auch in den dazwischenliegenden Bins vorhanden ist.
  • In 5 ist eine Gewichtungsfunktion für den verrauschten Rahmen aus 4 dargestellt. Für jeden Frequenzbin μ ergibt sich in Abhängigkeit vom Verhältnis aus Sprach- und Rauschenergie ein Faktor zwischen 0 und 1. Die einzelnen Gewichtungsfaktoren sind zu einem Graphen verbunden. Man erkennt die kammartige Struktur des Sprachspektrums wieder.
  • In den 6 und 7 sind Spektrogramme aus einer Folge von unverrauschten bzw. verrauschten Kurzzeitspektren (4) dargestellt. Auf der Abszisse ist der Rahmenindex λ aufgetragen, über der Ordinate der Frequenzbinindex μ. Die Amplituden der einzelnen Frequenzbins sind als Grauwerte dargestellt. Im Vergleich von 6 und 7 wird deutlich, wie Sprache in wenigen Frequenzbins konzentriert ist. Sie bildet zudem regelmäßige Strukturen aus. Das Rauschen ist dagegen über alle Frequenzbins verteilt.
  • In 8 ist das Spektrogramm eines gefilterten Signals dargestellt. Die Achsen entsprechen denen aus den 6 und 7. Aus einem Vergleich mit 6 ist erkennbar, dass durch Schätzfehler in der Gewichtungsfunktion hohe Amplituden in Frequenzbins verbleiben, die keine Sprache enthalten. Diese Ausreißer zu unterdrücken ist Ziel des erfindungsgemäßen Verfahrens.
  • In 9 ist das Spektrogramm eines Signals dargestellt, das gemäß einer bevorzugten Weiterbildung des erfindungsgemäßen Verfahrens mit einer geglätteten Gewichtungsfunktion gefiltert wurde. Die Achsen entsprechen denen der vorangegangenen Spektrogramme. Im Vergleich mit 8 sind die Ausreißer stark vermindert. Die Sprachanteile im Spektrogramm sind dagegen in ihrer wesentlichen Form erhalten.
  • In den 10 und 11 sind die Zeitsignale dargestellt, die sich jeweils aus den gefilterten Spektren der 8 und 9 ergeben. Aufgetragen ist die Amplitude über der Zeit. Die Signale sind 4 Sekunden lang und haben Amplituden zwischen ca. –0,18 und 0,18. Die Ausreißer im Spektrogramm aus 8 ergeben im zugehörigen Zeitsignal in 10 deutlich sichtbare tonale Artefakte, die im unverrauschten Signal aus 1 nicht vorhanden sind. Das Zeitsignal in 11 weist einen deutlich ruhigeren Verlauf des Restrauschens auf. Dieses Zeitsignal ergibt sich aus dem Spektrogramm von 9, das durch Filterung mit der geglätteten Gewichtungsfunktion erzeugt wurde.
  • In 12 ist die ungeglättete Gewichtungsfunktion für alle Rahmen dargestellt. Zu jedem Rahmen λ sind entlang der Ordinate Frequenzbins μ aufgetragen. Die Werte der Gewichtungsfunktion sind als Grauton dargestellt. Die Fluktuationen, die aus Schätzfehlern resultieren, sind als unregelmäßige Flecken erkennbar.
  • In 13 ist die geglättete Gewichtungsfunktion für alle Rahmen dargestellt. Die Achsen entsprechen denen aus 12. Durch die Glättung werden die Fluktuationen verschmiert und im Wert stark vermindert. Die Struktur der Sprachfrequenzbins bleibt dagegen deutlich erkennbar.
  • In 14 ist der Betrag des Cepstrums eines unverrauschten Signals über alle Rahmen dargestellt. Zu jedem Rahmen λ sind entlang der Ordinate die cepstralen Bins μ' aufgetragen. Die Werte der Beträge der cepstralen Koeffizienten Gcepstμ' (λ) sind als Grautöne dargestellt. Ein Vergleich mit 6 zeigt, dass Sprache im Cepstrum auf eine noch geringere Anzahl von Koeffizienten konzentriert ist. Außerdem sind diese Koeffizienten in ihrer Position weniger variabel. Deutlich erkennbar ist auch der Verlauf des cepstralen Koeffizienten, der die Pitch-Frequenz repräsentiert.
  • In 15 ist ein Signalflussgraph gemäß einer bevorzugten Ausführungsform der Erfindung dargestellt. Ein verrauschtes Eingangssignal wird in eine Folge von Kurzzeitspektren transformiert und daraus über spektrale Zwischengrößen anschließend eine Gewichtungsfunktion zur Filterung geschätzt. Es wird jeweils ein Rahmen zur Zeit bearbeitet. Zunächst werden die Kurzzeitspektren der Gewichtungsfunktion einer nicht-linearen, logarithmischen Abbildung unterworfen. Es folgt eine Hintransformation in den cepstralen Bereich. Die so transformierten Kurzzeitspektren werden damit durch Transformationskoeffizienten der Basisfunktionen repräsentiert. Die auf diesem Wege berechneten Transformationskoeffizienten werden getrennt voneinander unter Verwendung von unterschiedlichen Zeitkonstanten geglättet. Der rekursive Charakter der Glättung ist durch die Rückführung der Ausgabe der Glättung zu ihrem Eingang angedeutet. Von den Signalpfaden der insgesamt M Transformationskoeffizienten sind nur 3 dargestellt, die restlichen sind durch drei Punkte „..." ersetzt. Nach der Glättung erfolgen eine Rücktransformation und danach die nicht-lineare Umkehrabbildung. Auf diese Weise erhält man als Ergebnis eine Folge von geglätteten Kurzzeitspektren der Gewichtungsfunktion. Diese geglätteten Kurzzeitspektren der Gewichtungsfunktion können mit den verrauschten Kurzzeitspektren multipliziert werden, wodurch gefilterte Kurzzeitspektren mit wenigen Ausreißern entstehen. Diese können dann in ein Zeitsignal mit verringertem Rauschpegel umgerechnet werden. Der Teil des Signalflussgraphen, der die erfindungsgemäße Glättung beschreibt, ist gestrichelt umrandet.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • - 1: Tim Fingscheidt, Christophe Beaugeant and Suhadi Suhadi. Overcoming the statistical independence assumption w. r. t. frequency in speech enhancement. Proceedings, IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1: 1081–1084, 2005 [0008]
    • - 2: Harald Gustafsson, Sven Erik Nordholm and Ingvar Claesson. Spectral subtraction using reduced delay convolution and adaptive averaging. IEEE Transactions an Speech and Audio Processing, 9(8): 799–807, November 2001 [0008]
    • - 3: Zenton Goh, Kah-Chye Tan and B. T. G. Tan. Postprocessing method for suppressing musical noise generated by spectral subtraction. IEEE Transactions an Speech and Audio Processing, 6(3): 287–292, May 1998 [0008]
    • - 4: Andrzej Czyzewski. Multitask noisy speech enhancement system.http://sound.eti.pg.gda.pl/denoise/main.html, 2004 [0009]
    • - 5: Francois Thibault. High-level control of singing voice timbre transformations.http://www.music.mcgill.ca/thibault/Thesis/node43.html, 2004 [0009]
    • - 6: Petre Stoica and Niclas Sandgren. Smoothed nonparametric spectral estimation via cepstrum thresholding. IEEE Signal Processing Magazine, pages 34–45, November 2006 [0011]

Claims (32)

  1. Glättungsverfahren zur Unterdrückung von fluktuierenden Artefakten bei der Störgeräuschreduktion mit folgenden Schritten: • Bereitstellen von Kurzzeitspektren einer Folge von Signalrahmen, • Transformieren jedes Kurzzeitspektrums durch eine Hintransformation, die das Kurzzeitspektrum durch Transformationskoeffizienten beschreibt, welche das Kurzzeitspektrum in seine groben und seine feinen Strukturen unterteilt repräsentieren, • Glätten der Transformationskoeffizienten jeweils gleicher Koeffizientenindizes durch Kombination von wenigstens zwei aufeinanderfolgenden transformierten Kurzzeitspektren und • Transformieren der geglätteten Transformationskoeffizienten in geglättete Kurzzeitspektren durch eine Rücktransformation.
  2. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass für die Rücktransformation die Inverse zur Hintransformation verwendet wird.
  3. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Transformation mit orthogonaler Basis verwendet wird.
  4. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Transformation mit nicht-orthogonaler Basis verwendet wird.
  5. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die diskrete Fourier-Transformation und ihre Inverse verwendet werden.
  6. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die Fast-Fourier-Transformation und ihre Inverse verwendet werden.
  7. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die diskrete Cosinus-Transformation und ihre Inverse verwendet werden.
  8. Glättungsverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass für die Transformationen die diskrete Sinus-Transformation und ihre Inverse verwendet werden.
  9. Glättungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kurzzeitspektren vor der Hintransformation nicht-linear abgebildet werden.
  10. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die geglätteten Kurzzeitspektren nach der Rücktransformation nicht-linear abgebildet werden, wobei die nichtlineare Abbildung der Rücktransformation die Umkehrung der nichtlinearen Abbildung der Hintransformation ist.
  11. Glättungsverfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kurzzeitspektren vor der Hintransformation durch Logarithmierung nicht-linear abgebildet werden.
  12. Glättungsverfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass zum Glätten der Transformationskoeffizienten eine rekursive Glättung verwendet wird.
  13. Glättungsverfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass zum Glätten der Transformationskoeffizienten eine nicht-rekursive Glättung verwendet wird.
  14. Glättungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Glättung auf den Betrag oder eine Potenz des Betrags der Kurzzeitspektren angewendet wird.
  15. Glättungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Glätten der jeweiligen Transformationskoeffizienten unterschiedliche Zeitkonstanten verwendet werden.
  16. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass Zeitkonstanten so gewählt werden, dass die Transformationskoeffizienten, die typischerweise spektrale Strukturen des Nutzsignals beschreiben, wenig geglättet werden.
  17. Glättungsverfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Zeitkonstanten so gewählt werden, dass die Transformationskoeffizienten, die spektrale Strukturen von fluktuierenden spektralen Größen und von Artefakten von Geräuschreduktionsalgorithmen beschreiben, stark geglättet werden.
  18. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines Geräuschreduktionsalgorithmus bereitgestellt wird.
  19. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines Postfilters für mehrkanalige Verfahren zur Geräuschreduktion verwendet wird.
  20. Glättungsverfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sich die spektrale Gewichtungsfunktion aus der Minimierung eines Fehlerkriteriums ergibt.
  21. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum ein gefiltertes Kurzzeitspektrum bereitgestellt wird.
  22. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Geräuschreduktion bereitgestellt wird.
  23. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine geschätzte Kohärenz oder eine geschätzte „Magnitude Squared Coherence" zwischen wenigstens zwei Mikrofonkanälen bereitgestellt wird.
  24. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprecher- oder Quellentrennung bereitgestellt wird.
  25. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Sprechertrennung auf Basis von Phasenunterschieden von Signalen in den verschiedenen Kanälen (Phase Transform – PHAT) bereitgestellt wird.
  26. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine spektrale Gewichtungsfunktion eines mehrkanaligen Verfahrens zur Geräuschreduktion auf Basis einer „Generalized Cross-Correlation" (GCC) bereitgestellt wird.
  27. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum spektrale Größen, die sowohl Sprach- als auch Störanteile enthalten, bereitgestellt werden.
  28. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine Schätzung des Signal-zu-Rausch-Verhältnisses bereitgestellt wird.
  29. Glättungsverfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass als Kurzzeitspektrum eine Schätzung der Rauschleistung bereitgestellt wird.
  30. Glättungsverfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass als Kurzzeitspektrum transformierte Signalrahmen eines Bildsignals bereitgestellt werden und die zeilen- oder spaltenweise oder 2-dimensional berechneten Koeffizienten des transformierten Bildsignals einer räumlichen Glättung mit unterschiedlichen Glättungsparametern unterworfen werden.
  31. Glättungsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass das Bildsignal ein Videosignal ist und eine Glättung zusätzlich in zeitliche Richtung der Bildfolge stattfindet.
  32. Glättungsverfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass als Kurzzeitspektrum ein transformiertes, vom menschlichen Körper abgeleitetes, medizinisches Signal verwendet wird.
DE102007030209A 2007-06-27 2007-06-27 Glättungsverfahren Ceased DE102007030209A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE102007030209A DE102007030209A1 (de) 2007-06-27 2007-06-27 Glättungsverfahren
PCT/DE2008/001047 WO2009000255A1 (de) 2007-06-27 2008-06-25 Spektralglättungsverfahren von verrauschten signalen
DE502008001543T DE502008001543D1 (de) 2007-06-27 2008-06-25 Spektralglättungsverfahren von verrauschten signalen
AT08784249T ATE484822T1 (de) 2007-06-27 2008-06-25 Spektralglättungsverfahren von verrauschten signalen
DK08784249.8T DK2158588T3 (da) 2007-06-27 2008-06-25 Fremgangsmåde til spektraludglatning af støjbehæftede signaler
EP08784249A EP2158588B1 (de) 2007-06-27 2008-06-25 Spektralglättungsverfahren von verrauschten signalen
US12/665,526 US8892431B2 (en) 2007-06-27 2008-06-25 Smoothing method for suppressing fluctuating artifacts during noise reduction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007030209A DE102007030209A1 (de) 2007-06-27 2007-06-27 Glättungsverfahren

Publications (1)

Publication Number Publication Date
DE102007030209A1 true DE102007030209A1 (de) 2009-01-08

Family

ID=39767094

Family Applications (2)

Application Number Title Priority Date Filing Date
DE102007030209A Ceased DE102007030209A1 (de) 2007-06-27 2007-06-27 Glättungsverfahren
DE502008001543T Active DE502008001543D1 (de) 2007-06-27 2008-06-25 Spektralglättungsverfahren von verrauschten signalen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE502008001543T Active DE502008001543D1 (de) 2007-06-27 2008-06-25 Spektralglättungsverfahren von verrauschten signalen

Country Status (6)

Country Link
US (1) US8892431B2 (de)
EP (1) EP2158588B1 (de)
AT (1) ATE484822T1 (de)
DE (2) DE102007030209A1 (de)
DK (1) DK2158588T3 (de)
WO (1) WO2009000255A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013030134A1 (en) * 2011-08-26 2013-03-07 The Queen's University Of Belfast Method and apparatus for acoustic source separation
DE102014210760A1 (de) * 2014-06-05 2015-12-17 Bayerische Motoren Werke Aktiengesellschaft Betrieb einer Kommunikationsanlage
EP2985761B1 (de) * 2013-04-11 2021-01-13 Nec Corporation Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren, signalverarbeitungsprogramm

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE454696T1 (de) * 2007-08-31 2010-01-15 Harman Becker Automotive Sys Schnelle schätzung der spektraldichte der rauschleistung zur sprachsignalverbesserung
US8588138B2 (en) * 2009-07-23 2013-11-19 Qualcomm Incorporated Header compression for relay nodes
US8577186B1 (en) * 2011-02-14 2013-11-05 DigitalOptics Corporation Europe Limited Forward interpolation approach using forward and backward mapping
US8675115B1 (en) 2011-02-14 2014-03-18 DigitalOptics Corporation Europe Limited Forward interpolation approach for constructing a second version of an image from a first version of the image
EP2689419B1 (de) * 2011-03-21 2015-03-04 Telefonaktiebolaget L M Ericsson (PUBL) Verfahren und anordnung zur dämpfung dominanter frequenzen in einem tonsignal
JP5774191B2 (ja) * 2011-03-21 2015-09-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号において卓越周波数を減衰させるための方法および装置
US9026451B1 (en) * 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
JP5772723B2 (ja) * 2012-05-31 2015-09-02 ヤマハ株式会社 音響処理装置および分離マスク生成装置
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
WO2016157270A1 (ja) * 2015-03-31 2016-10-06 日本電気株式会社 分光解析装置、分光解析方法、及び可読媒体
US9721581B2 (en) * 2015-08-25 2017-08-01 Blackberry Limited Method and device for mitigating wind noise in a speech signal generated at a microphone of the device
US9972134B2 (en) 2016-06-30 2018-05-15 Microsoft Technology Licensing, Llc Adaptive smoothing based on user focus on a target object
WO2019213769A1 (en) 2018-05-09 2019-11-14 Nureva Inc. Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
EP3573058B1 (de) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Trocken- und raumschalltrennung
JP7278092B2 (ja) * 2019-02-15 2023-05-19 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、撮像装置の制御方法、及びプログラム
CN113726348B (zh) * 2021-07-21 2022-06-21 湖南艾科诺维科技有限公司 一种无线电信号频谱的平滑滤波方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998003965A1 (de) * 1996-07-19 1998-01-29 Daimler-Benz Ag Verfahren zur verringerung von störungen eines sprachsignals
US7054808B2 (en) * 2000-08-31 2006-05-30 Matsushita Electric Industrial Co., Ltd. Noise suppressing apparatus and noise suppressing method

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5365592A (en) * 1990-07-19 1994-11-15 Hughes Aircraft Company Digital voice detection apparatus and method using transform domain processing
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US7689419B2 (en) * 2005-09-22 2010-03-30 Microsoft Corporation Updating hidden conditional random field model parameters after processing individual training samples
US7680663B2 (en) * 2006-08-21 2010-03-16 Micrsoft Corporation Using a discretized, higher order representation of hidden dynamic variables for speech recognition
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998003965A1 (de) * 1996-07-19 1998-01-29 Daimler-Benz Ag Verfahren zur verringerung von störungen eines sprachsignals
US7054808B2 (en) * 2000-08-31 2006-05-30 Matsushita Electric Industrial Co., Ltd. Noise suppressing apparatus and noise suppressing method

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
1: Tim Fingscheidt, Christophe Beaugeant and Suhadi Suhadi. Overcoming the statistical independence assumption w. r. t. frequency in speech enhancement. Proceedings, IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1: 1081-1084, 2005
2: Harald Gustafsson, Sven Erik Nordholm and Ingvar Claesson. Spectral subtraction using reduced delay convolution and adaptive averaging. IEEE Transactions an Speech and Audio Processing, 9(8): 799-807, November 2001
3: Zenton Goh, Kah-Chye Tan and B. T. G. Tan. Postprocessing method for suppressing musical noise generated by spectral subtraction. IEEE Transactions an Speech and Audio Processing, 6(3): 287-292, May 1998
4: Andrzej Czyzewski. Multitask noisy speech enhancement system.http://sound.eti.pg.gda.pl/denoise/main.html, 2004
5: Francois Thibault. High-level control of singing voice timbre transformations.http://www.music.mcgill.ca/thibault/Thesis/node43.html, 2004
6: Petre Stoica and Niclas Sandgren. Smoothed nonparametric spectral estimation via cepstrum thresholding. IEEE Signal Processing Magazine, pages 34-45, November 2006

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013030134A1 (en) * 2011-08-26 2013-03-07 The Queen's University Of Belfast Method and apparatus for acoustic source separation
EP2985761B1 (de) * 2013-04-11 2021-01-13 Nec Corporation Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren, signalverarbeitungsprogramm
DE102014210760A1 (de) * 2014-06-05 2015-12-17 Bayerische Motoren Werke Aktiengesellschaft Betrieb einer Kommunikationsanlage
DE102014210760B4 (de) 2014-06-05 2023-03-09 Bayerische Motoren Werke Aktiengesellschaft Betrieb einer Kommunikationsanlage

Also Published As

Publication number Publication date
WO2009000255A9 (de) 2010-05-14
ATE484822T1 (de) 2010-10-15
DK2158588T3 (da) 2011-02-07
WO2009000255A1 (de) 2008-12-31
US8892431B2 (en) 2014-11-18
EP2158588A1 (de) 2010-03-03
EP2158588B1 (de) 2010-10-13
US20100182510A1 (en) 2010-07-22
DE502008001543D1 (de) 2010-11-25

Similar Documents

Publication Publication Date Title
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE112009000805B4 (de) Rauschreduktion
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE3689035T2 (de) Rauschminderungssystem.
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE602004001694T2 (de) Vorrichtung zur Unterdrückung von Windgeräuschen
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE19629132A1 (de) Verfahren zur Verringerung von Störungen eines Sprachsignals
DE112011104737T5 (de) Geräuschunterdrückungsvorrichtung
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE102018117558A1 (de) Adaptives nachfiltern
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
EP1453355A1 (de) Signalverarbeitung in einem Hörgerät
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
DE102012204193B4 (de) Audioprozessor und Verfahren zum Verstärken oder Dämpfen eines empfangenen Audiosignals

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: SIEMENS AUDIOLOGISCHE TECHNIK GMBH, 91058 ERLA, DE

Owner name: RUHR-UNIVERSITAET BOCHUM, 44801 BOCHUM, DE

R082 Change of representative

Representative=s name: BOCKERMANN KSOLL GRIEPENSTROH OSTERHOFF, DE

Representative=s name: FDST PATENTANWAELTE FREIER DOERR STAMMLER TSCH, DE

R082 Change of representative

Representative=s name: BOCKERMANN KSOLL GRIEPENSTROH OSTERHOFF, DE

R081 Change of applicant/patentee

Owner name: RUHR-UNIVERSITAET BOCHUM, DE

Free format text: FORMER OWNERS: RUHR-UNIVERSITAET BOCHUM, 44801 BOCHUM, DE; SIEMENS AUDIOLOGISCHE TECHNIK GMBH, 91058 ERLANGEN, DE

Owner name: SIVANTOS GMBH, DE

Free format text: FORMER OWNERS: RUHR-UNIVERSITAET BOCHUM, 44801 BOCHUM, DE; SIEMENS AUDIOLOGISCHE TECHNIK GMBH, 91058 ERLANGEN, DE

R082 Change of representative

Representative=s name: BOCKERMANN KSOLL GRIEPENSTROH OSTERHOFF, DE

R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final