EP0948237B1

EP0948237B1 - Method for noise suppression in a microphone signal

Info

Publication number: EP0948237B1
Application number: EP99106123A
Authority: EP
Inventors: Hans-Jörg Thomas
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 1998-04-03
Filing date: 1999-04-01
Publication date: 2008-06-11
Anticipated expiration: 2019-04-01
Also published as: DE19814971A1; US6895095B1; ATE398326T1; EP0948237A3; EP0948237A2; DE59914782D1

Abstract

The noise reduction method uses subtraction of a noise compensation signal from the microphone signal (y), the noise compensation signal provided by simulation of the noise signal via an adaptive filter (H) using a least mean square algorithm, supplied with a reference signal, e.g. a loudspeaker signal, with transformation of the microphone signal, the compensation signal and the output signal into the frequency range.

Description

Die Erfindung betrifft ein Verfahren zur Störbefreiung eines Mikrophonsignals.The invention relates to a method for noise immunity of a microphone signal.

Derartige Verfahren gewinnen insbesondere für die Spracheingabe von Kommandos und/oder für Freisprechtelefone zunehmend an Bedeutung, wobei insbesondere die Situation in einem Fahrzeug ein wichtiger Anwendungsfall ist.Such methods are becoming increasingly important, in particular for the voice input of commands and / or for hands-free telephones, with the situation in a vehicle in particular being an important application.

Eine besondere Situation ist in Fahrzeugen häufig dadurch gegeben, daß ein Wiedergabegerät wie z.B. ein Radio, ein Kassetten- oder CD-Abspieler über einen Lautsprecher eine Geräuschumgebung erzeugt, die als Störsignal ein von einem Mikrophon aufgenommenes Sprachsignal, beispielsweise für die Spracherkennung oder Telefonübertragung überlagert. Zur Erkennung von Spracheingaben in einem Spracherkenner oder zur verständlichen Sprachübertragung über Telefon ist das Mikrophonsignal soweit wie möglich von Störsignalanteilen zu befreien.A particular situation is often given in vehicles in that a playback device such as a radio, a cassette or CD player via a loudspeaker Sound environment generates, which superimposed as an interference signal recorded by a microphone voice signal, for example, for speech recognition or telephone transmission. To detect voice input in a voice recognition device or for intelligible voice transmission over the telephone, the microphone signal must be freed as much as possible of interference signal components.

Das von einer Störquelle, insbesondere einem Lautsprecher ausgehende Störsignal gelangt nicht nur auf direktem kürzestem Weg zum Mikrophon, sondern tritt auch noch über zahlreiche Reflexionen als eine Überlagerung einer Mehrzahl von Echos mit verschiedenen Laufzeiten im Mikrophonsignal in Erscheinung. Die gesamte Einwirkung des Störsignals von der Störquelle auf das Mikrophonsignal kann durch eine a priori unbekannte Übertragungsfunktion des Raumes, beispielsweise des Fahrgastraumes eines Kraftfahrzeugs beschrieben werden. Die Übertragungsfunktion ändert sich je nach Besetzung des Fahrzeugs und nach Position der einzelnen Personen. Durch Nachbildung dieser Übertragungsfunktion und Filterung eines Referenzsignals von der Störquelle mit dieser Nachbildung kann ein Kompensationssignal erzeugt werden, welches durch Subtraktion vom Mikrophonsignal ein vom Störsignal befreites Signal, beispielsweise ein reines Sprachsignal liefert. Im Realfall stellt die genannte Nachbildung eine mehr oder minder gute Annäherung an die unbekannte Übertragungsfunktion dar und die Störung kann nicht vollständig beseitigt werden.The interference signal emanating from a source of interference, in particular a loudspeaker, not only reaches the microphone on the shortest direct path, but also occurs via numerous reflections as a superposition of a plurality of echoes with different transit times in the microphone signal. The entire effect of the interference signal from the source of interference on the microphone signal can be described by an a priori unknown transfer function of the room, such as the passenger compartment of a motor vehicle. The transfer function changes depending on the occupation of the vehicle and the position of the individual persons. By replicating this transfer function and filtering a reference signal from the source of interference with this replica, a compensation signal can be generated which, by subtraction from the microphone signal, delivers a signal freed from the interference signal, for example a pure speech signal. In the real case, said replica represents a more or less good approximation to the unknown transfer function and the disturbance can not be completely eliminated.

EP 0 250 048 A1 offenbart einen digitalen blockadaptatierbaren Filter der im Frequenzbereich adaptiert wird. EP 0 250 048 A1 discloses a digital block adaptable filter which is adapted in the frequency domain.

Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Störbefreiung eines Mikrophonsignals anzugeben, daß bei vertretbarem Signalverarbeitungsaufwand gute Eigenschaften hinsichltich der Entstörung aufweist.Object of the present invention is to provide a method for noise immunity of a microphone signal that has good characteristics hinsichltich the suppression with reasonable signal processing overhead.

Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.The invention is described in claim 1. The subclaims contain advantageous embodiments and further developments of the invention.

Wesentlich an dem erfindungsgemäßen Verfahren ist, daß die Kompensation des Störsignalanteils im Mikrophonsignal mittels eines aus dem Referenzsignal über die Nachbildung der Übertragungsfunktion erzeugten Kompensationssignals im Frequenzbereich vorgenommen wird, so daß Mikrophonsignal, Kompensationssignal und Ausgangssignal im Frequenzbereich, d.h. in Form von Spektren vorliegen. Die Signalverarbeitung in diesem Verfahrensschritt im Frequenzbereich erfordert zwar eine spektrale Transformation des Mikrophonsignals, berücksichtigt aber, daß die Nachbildung der Übertragungsfunktion im Frequenzbereich vorteilhafter ist und stellt für eine vorteilhafte nachfolgende zusätzliche Geräuschreduktion des Ausgangssignals, die typischerweise gleichfalls im Frequenzbereich vorgenommen wird, bereits eine besonders geeignete Signalform bereit.It is essential to the inventive method that the compensation of the Störsignalanteils in the microphone signal is made by means of a generated from the reference signal on the replica of the transfer function compensation signal in the frequency domain, so that the microphone signal, compensation signal and output signal in the frequency range, i. in the form of spectra. Although the signal processing in this process step in the frequency domain requires a spectral transformation of the microphone signal, but takes into account that the reproduction of the transfer function in the frequency range is more advantageous and provides for a beneficial subsequent additional noise reduction of the output signal, which is typically also made in the frequency domain, already a particularly suitable Signal form ready.

Durch einfache Näherungen beim Ersatz eines Verarbeitungsschritts mit einem Zeitfenster kann durch Übergang zu einer Faltung im Frequenzbereich eine deutliche Reduzierung des Verarbeitungsaufwands reduziert werden.By simple approximations when replacing a processing step with a time window, a significant reduction in processing overhead can be reduced by transitioning to a convolution in the frequency domain.

Für lange Impulsantworten der Übertragungsfunktion bzw. deren Nachbildung sieht eine vorteilhafte Weiterbildung der Erfindung eine Aufteilung des Nachbildungsfilters in mehrere Teilfilter zu zeitversetzten Segmenten des segmentierten Referenzsignals vor, deren Koeffizienten-Aktualisierung zeitlich gestaffelt sein kann, wodurch der Signalverarbeitungsaufwand gering gehalten werden kann.For long impulse responses of the transfer function or their replica, an advantageous development of the invention provides for a division of the replica filter into a plurality of sub-filters at time-shifted segments of the segmented reference signal whose coefficient update can be staggered over time, whereby the signal processing effort can be minimized.

Als besonders vorteilhaft erweist es sich, die Entstörung eines Sprachsignals auf der Basis einer Einstellung des Nachbildungsfilters, die in einer vorhergehenden Sprachpause gewonnen und gespeichert wurde, vorzunehmen.It proves to be particularly advantageous to suppress the interference of a speech signal on the basis of a setting of the Replica filter that was obtained and stored in a previous speech break.

Die Aufteilung des Nachbildungsfilters in mehrere Teilfilter und die Störbefreiung auf der Basis einer in einer Sprachpause gewonnenen Filtereinstellung sind auch unabhängig von der Störsignalkompensation im Frequenzbereich eigenständig für die Störbefreiung eines Mikrophonsignals realisierbar und vorteilhaft.The division of the replica filter into a plurality of sub-filters and the noise removal on the basis of a filter setting obtained in a speech break are independent of the Störsignalkompensation in the frequency domain independently for the noise immunity of a microphone signal feasible and advantageous.

Die Erfindung ist nachfolgend anhand von bevorzugten Ausführungsbeispielen unter Bezugnahme auf die Abbildungen noch eingehend veranschaulicht. Dabei zeigt:

Fig. 1: ein Prinzip der Kompensation eines Radiosignals
Fig. 2a: ein Blockschaltbild zu Fig. 1
Fig. 2b: ein Blockschaltbild zur Filternachbildung
Fig. 3: ein detailliertes Beispiel zu Fig. 2b
Fig. 4: eine Erweiterung auf mehrere Teilfilter
Fig. 5: einen Übergang zur Kompensation im Frequenzbereich
Fig. 6: ein detailliertes Beispiel zu Fig. 5b
Fig. 7: ein Ausführungsbeispiel mit mehreren Teilfiltern
Fig. 8: ein Ausführungsbeispiel mit Speicherung der Filtereinstellungen
Fig. 9: Signale einer synthetischen Beispielsszene
Fig. 10: Impulsantwort und Übertragungsfunktion zu Fig. 9
Fig. 11: Signal einer ersten Meßszene
Fig. 12: Impulsantwort und Übertragungsfunktion zu Fig. 11
Fig. 13: das Beispiel nach Fig. 11 mit Speicherung der Filtereinstellungen
Fig. 14: eine Sprachpausendetektion zu Fig. 13
Fig. 15: Impulsantworten und Übertragungsfunktionen zu Fig. 11 und Fig. 13
Fig. 16: Übergang von einem Zeitfenster zu einer Faltung im Frequenzbereich
Fig. 17: ein Rechteck-Zeitfenster mit Linienspektrum
Fig. 18: ein Hamming-Zeitfenster mit Linienspektrum
Fig. 19: Staffelung von Signalblöcken bei der Filterberechnung
Fig. 20: Signale einer zweiten Meßszene
Fig. 21: eine Sprachpausendetektion zu Fig. 20
Fig. 22: Impulsantworten und Übertragungsfunktionen zu Fig. 20 und Fig. 21
Fig. 23: Signale einer dritten Meßszene
Fig. 24: eine Sprachpausendetektion zu Fig. 23
Fig. 25: Impulsantworten und Übertragungsfunktionen zu Fig. 23 und Fig. 24
Fig. 26: Signale einer vierten Meßszene
Fig. 27: eine Sprachpausendetektion zu Fig. 26
Fig. 28: Impulsantworten und Übertragungsfunktionen zu Fig. 26 und Fig. 27.

The invention is illustrated below with reference to preferred embodiments with reference to the figures still in detail. Showing:

Fig. 1: a principle of compensation of a radio signal
Fig. 2a: a block diagram to Fig. 1
Fig. 2b: a block diagram of the filter simulation
Fig. 3: a detailed example Fig. 2b
Fig. 4: an extension to several subfilters
Fig. 5: a transition to compensation in the frequency domain
Fig. 6: a detailed example Fig. 5b
Fig. 7: an embodiment with several sub-filters
Fig. 8: an embodiment with storage of the filter settings
Fig. 9: Signals of a synthetic example scene
Fig. 10: Impulse response and transfer function too Fig. 9
Fig. 11: Signal of a first measurement scene
Fig. 12: Impulse response and transfer function too Fig. 11
Fig. 13: the example after Fig. 11 with storage of the filter settings
Fig. 14: a speech pause detection too Fig. 13
Fig. 15: Impulse responses and transfer functions too Fig. 11 and Fig. 13
Fig. 16: Transition from a time window to a convolution in the frequency domain
Fig. 17: a rectangle time window with line spectrum
Fig. 18: a Hamming time window with line spectrum
Fig. 19: Staggering of signal blocks during filter calculation
Fig. 20: Signals of a second measurement scene
Fig. 21: a speech pause detection too Fig. 20
Fig. 22: Impulse responses and transfer functions too Fig. 20 and Fig. 21
Fig. 23: Signals of a third measurement scene
Fig. 24: a speech pause detection too Fig. 23
Fig. 25: Impulse responses and transfer functions too Fig. 23 and Fig. 24
Fig. 26: Signals of a fourth measurement scene
Fig. 27: a speech pause detection too Fig. 26
Fig. 28: Impulse responses and transfer functions too Fig. 26 and Fig. 27 ,

Fig. 1 stellt das Prinzip einer Einrichtung zur (einkanaligen) Radiosignalkompensation dar. Das vom Lautsprecher abgestrahlte akustische Signal gelangt auf direktem Wege, aber auch über zahlreiche Reflektionen im Fahrzeuginnenraum, auf das Mikrophon des Spracheingabesystems. Unter der Annahme, daß sich die Übertragungsstrecke G demnach als Transversalfilter mit einer gewichteten Summe zeitlich verzögerter Echos darstellt, läßt sich eine Filternachbildung H finden, die im Idealfall H=G eine vollständige Kompensation des Radiosignales ermöglicht. Fig. 1 represents the principle of a device for (single-channel) radio signal compensation. The acoustic signal emitted by the loudspeaker reaches the microphone of the speech input system directly, but also via numerous reflections in the vehicle interior. Assuming that the transmission path G thus represents a transversal filter with a weighted sum of time-delayed echoes, a filter simulation H can be found which, in the ideal case H = G, enables a complete compensation of the radio signal.

Das Lautsprechersignal x wird durch die a priori unbekannte Übertragungsfunktion G des Fahrzeuginnenraumes gefiltert. Es entsteht die Störkomponente r, die sich mit dem Sprachsignal s zu dem Mikrophonsignal y addiert. Um die Störkomponente r zu kompensieren, wird mittels der Filternachbildung H ein Schätzwert r^ aus dem Lautsprechersignal x erzeugt. Der Ausgang der Schaltung liefert den Schätzwert für das Sprachsignal: $s^{\land} = s + r - r^{\land} = s + E$

The loudspeaker signal x is filtered by the a priori unknown transfer function G of the vehicle interior. The result is the noise component r, which adds to the speech signal s to the microphone signal y. To compensate for the noise component r, an estimate r ^ is generated from the loudspeaker signal x by means of the filter simulation H. The output of the circuit provides the estimate for the speech signal:

s^{\land} = s + r - r^{\land} = s + e

Dem Sprachsignal s ist also am Ausgang der Schaltung noch das Fehlersignal $E = r - r^{\land}$

überlagert, welches in der Praxis möglichst klein gehalten werden sollte. Das Sprachsignal kann noch Störungen in Form von z.B. Motorgeräuschen oder externen Geräuschen enthalten, die aber in diesem Zusammenhang nicht explizit behandelt werden.The speech signal s is therefore still the error signal at the output of the circuit

e = r - r^{\land}

superimposed, which should be kept as small as possible in practice. The speech signal may still contain disturbances in the form of, for example, engine noise or external noise, but which are not explicitly dealt with in this context.

H ist ein adaptives Filter und arbeitet nach einem in der Literatur bekannten Standardverfahren, dem LMS-Algorithmus (least mean squares). Neben dem Eingangssignal x wird noch das Fehlersignal E benötigt, um die Koeffizientenadaption im Filter H zu bewerkstelligen. Hierfür ist das Ausgangssignal s^ der Bestimmung der Filterkoeffizienten zugeführt.H is an adaptive filter and works according to a standard method known in the literature, the LMS algorithm (Least Mean Squares). In addition to the input signal x, the error signal E is still required in order to accomplish the coefficient adaptation in the filter H. For this purpose, the output signal s ^ is fed to the determination of the filter coefficients.

Fig. 2a zeigt in anderer Darstellung nochmals die Anordnung von Fig. 1 als Radiosignalkompensation. Das adaptive System H kann z.B. im Zeitbereich als FIR-Filter (finite-impulse-response-Filter) realisiert werden. Bei großen Impulsantwortlängen, wie sie in der Praxis häufig auftreten, ist hierzu allerdings ein sehr hoher Rechenaufwand notwendig. Verschiedene Vorteile gegenüber einer Zeitbereichslösung bietet die Realisierung des LMS-Algorithmus im Frequenzbereich (FLMS). Wegen der blockweisen Verarbeitung von Daten in den als diskreten Fouriertransformationen realisierten spektralen Transformationen und der Filterrealisierung im Frequenzbereich durch Multiplikationen wird dieses Verfahren besonders rechenzeitgünstig. Fig. 2a shows in another representation again the arrangement of Fig. 1 as a radio signal compensation. The adaptive system H can be realized, for example, in the time domain as an FIR filter (finite-impulse-response filter). For large impulse response lengths, as they often occur in practice, however, this requires a very high computational effort. Various advantages over a time domain solution are the realization of the LMS algorithm in the frequency domain (FLMS). Because of the blockwise processing of data in the spectral transformations realized as discrete Fourier transforms and the filter realization in the frequency domain by multiplication, this method becomes particularly computationally favorable.

Fig. 2b zeigt ein Blockschaltbild des FLMS-Algorithmus. Die zugehörige Theorie ist an sich bekannt und daher an dieser Stelle nicht im Detail behandelt. Es bedeuten F eine spektrale Transformation FFT eines Zeitsignals in den Frequenzbereich und F^-1 die inverse IFFT. Die als Projektionen P1, P2 und P3 bezeichneten Verarbeitungsschritte dienen der korrekten Segmentierung der Daten durch die blockweise Verwendung mit der FFT bzw. IFFT und werden später noch genauer erläutert. Die Arbeitsweise des Filters besteht in der Multiplikation des Referenzspektrums X mit dem Filter-Koeffizientenvektor H. Das Spektrum des Filterausgangs R^ wird über F^-1 zurück in den Zeitbereich transformiert. Nach Anwendung der Projektion P2 auf den Realteil des so erhaltenen Kompensationssignals steht das Signal r^ zur Verfügung. Die Differenz der Signale $s^{\land} = y - r^{\land} = s + r - r^{\land} = s + E$

stellt den eigentlichen Ausgang, eine Schätzung der Spracheingabe, dar. Fig. 2b shows a block diagram of the FLMS algorithm. The associated theory is known per se and therefore not discussed in detail here. F is a spectral transformation FFT of a time signal into the frequency domain and F ^{-1 is} the inverse IFFT. The processing steps referred to as projections P1, P2 and P3 are used for the correct segmentation of the data by the block use with the FFT or IFFT and will be explained in more detail later. The operation of the filter is to multiply the reference spectrum X by the filter coefficient vector H. The spectrum of the filter output R ^ is transformed back into the time domain via F ^-1 . After applying the projection P2 to the real part of the compensation signal thus obtained, the signal r ^ is available. The difference of the signals

s^{\land} = y - r^{\land} = s + r - r^{\land} = s + e

represents the actual output, an estimate of the speech input.

Wesentlicher Bestandteil des adaptiven Filters ist die Koeffiiientenadaption im Block K, die im Fig. 2b durch die Erneuerungsgleichung $Hʹ = Hʹ + ΔHʹ$

beschrieben wird. Die hier mit zwei spektralen Transformationen besonders aufwendige Projektion P1 berechnet aus H' den für die Filterung benötigten Koeffizientenvektor H. Zur Berechnung des Korrekturvektors ΔH' wird neben dem Referenzspektrum X das Spektrum S^ des mit P₃ bewerteten Ausgangssignales

s + r - r^{\land}

benötigt.An essential part of the adaptive filter is the coefficient adaptation in block K, which is in the Fig. 2b through the renewal equation

H = H + ΔH'

is described. The projection P1, which is particularly complicated here with two spectral transformations, calculates from H 'the coefficient vector H required for the filtering. In addition to the reference spectrum X, the spectrum S 1 of the output signal evaluated with P _{3 is} calculated to calculate the correction vector ΔH'

s + r - r^{\land}

needed.

Ein detailliertes Blockschaltbild des in Fig. 2b dargestellten FLMS-Algorithmus zeigt Fig. 3. Die Abtastwerte eines Signals und die Stützstellen der FFT seien in gebräuchlicher Weise als samples bezeichnet. Alle Spektraltransformationen und deren Inverse sind als 256-Punkte - FFT's, die jeweils um 128 samples überlappen, zu segmentieren. Zu beachten ist, daß sich das Ausgangssignal s^ im Zeitbereich aus 128-sample-Blöcken zusammensetzt. Es entsteht aus der Differenz der zweiten Blockhälften (also jeweils der samples 129 bis 256) von Mikrofonsignal und gefiltertem Kompensationssignal r^. Aufwendig ist die Projektion P1, die 2 FFT's benötigt und den Vektor H' in den Vektor H umrechnet. Hierbei wird aus dem komplexen 256-Punkte-Ergebnisvektor der Rücktransformation vom Frequenz-in den Zeitbereich (IFFT) die erste Hälfte (samples 1 bis 128) ausgeschnitten und die zweite Hälfte (samples 129 bis 256) zu Null gesetzt. Nach Anwendung dieses Rechteckfensters im Zeitbereich erfolgt wieder mittels FFT die Transformation in den Frequenzbereich. Einfach ist die Projektion P2. Sie besteht aus der oben schon beschriebenen Ausschnittsbildung der letzten 128 samples, wodurch aus überlappenden 256-sample-Blöcken wieder nicht überlappende 128-sample-Blöcke entstehen. Ebenfalls sehr einfach ist schließlich auch die Projektion P3, welche umgekehrt aus nicht überlappenden 128-sample-Blöcken des Ausgangssignales durch Voranstellen von 128 Nullwerten wiederum überlappende 256-sample-Blöcke bereitstellt. Die Adaption der Filterkoeffizienten H'_L+1 für einen Zyklus L+1 besteht aus der Addition eines Erneuerungsvektors ΔH'_L zum alten Koeffizientenvektor H'_L. Diese Erneuerung errechnet sich aus dem Produkt zwischen dem Spektrum S^_L des Ausgangssignals und dem konjugiert komplexen Spektrum X*_L des Referenzsignales - gewichtet mit einer spektralen Leistungsnormierung 2µ_L, ${ΔHʹ}_{L} = 2 μ_{L} \cdot X *_{L} \cdot {S^{\land}}_{L} .$

. Zum Zweck dieser Leistungsnormierung ist der mit einer Konstanten 2α multiplizierte Kehrwert des geglätteten Referenzleistungsspektrums S_xx,L zu berechnen

2 μ_{L} = 2 α / S_{xx, L},

, wozu ein rekursives Filter 1. Ordnung mit einer Konstanten β dient

s_{xx, L} = β • {|X_{L}|}^{2} + (1 - β) • s_{xx, L - 1} .

A detailed block diagram of the in Fig. 2b shown FLMS algorithm Fig. 3 , The samples of a signal and the nodes of the FFT are commonly referred to as samples. All spectral transforms and their inverses are to be segmented as 256-point FFTs, each overlapping 128 samples. It should be noted that the output signal s ^ in the time domain consists of 128 sample blocks. It arises from the difference of the second block halves (thus in each case the samples 129 to 256) of microphone signal and filtered compensation signal r ^. The projection P1, which requires 2 FFTs and converts the vector H 'into the vector H, is elaborate. In this case, the first half (samples 1 to 128) is cut out of the complex 256-point result vector of the inverse transformation from the frequency to the time domain (IFFT) and the second half (samples 129 to 256) is set to zero. After applying this rectangular window in the time domain, the transformation into the frequency domain takes place again by means of FFT. Simple is the projection P2. It consists of the above-described fragmentation of the last 128 samples, resulting in overlapping 256-sample blocks again resulting in non-overlapping 128-sample blocks. Finally, the projection P3 is also very simple, which, in turn, provides overlapping 256-sample blocks from non-overlapping 128-sample blocks of the output signal by preprogramming 128 null values. The adaptation of the filter coefficients H ' _{L + 1} for a cycle L + 1 consists of the addition of a renewal vector ΔH' _L to the old coefficient vector H ' _L. This renewal is calculated from the product between the spectrum S ^ _{L of} the output signal and the conjugate complex spectrum X * _{L of} the reference signal - weighted with a spectral power normalization 2μ _L ,

{ΔH'}_{L} = 2 μ_{L} \cdot X *_{L} \cdot {S^{\land}}_{L},

, For the purpose of this power normalization, the inverse of the smoothed reference power spectrum S _{xx, L} multiplied by a constant 2α is to be calculated

2 μ_{L} = 2 α / S_{xx . L} .

, for which a recursive filter of the first order with a constant β is used

s_{xx . L} = β • {|X_{L}|}^{2} + (1 - β) • s_{xx . L - 1},

Die Arbeitsweise des LMS-Algorithmus wird erheblich von der Adaptionskonstante α und der Glättungskonstante β beeinflußt. Zwischenspeicher in Rekursionsschleifen sind mit Sp bezeichnet.The operation of the LMS algorithm is significantly influenced by the adaptation constant α and the smoothing constant β. Latches in recursion loops are labeled Sp.

Die bisher beschriebene Anordnung des FLMS-Algorithmus erlaubt Filternachbildungen mit einer maximalen Impulsantwortlänge von einer halben FFT-Länge, im Beispielsfall also 128 samples. Sollen längere Impulsantworten kompensiert werden, ist der schon bekannte FLMS-Algorithmus für einen Teilfilter (Fig. 4a) auf n Teilfilter zu erweitern. Eine 3-Teilfilter-Lösung mit einer Impulsantwortlänge von 3·128=384 samples hat sich bei der Radiosignalunterdrückung im Pkw mit einem Spracheingabesystem bewährt (Fig. 4b). Der im Fig. 4a mit B bezeichnete Block mit den Eingangssignalen X und S^ und dem Kompensations-Spektrum R^ als Ausgang ist durch die im Fig. 4b dargestellte Erweiterung zu ersetzen. Das Spektrum X des Referenzsignals wird durch Zwischenspeicher D um 1 bzw. 2 Blocklängen verzögert und das unverzögerte X1 und die beiden verzögerten Spektren X2, X3 werden separat in mit in einer erweiterten Projektion P1 getrennt bestimmten Koeffizientenvektoren H1, H2, H3 multipliziert. Die Bildung der Koeffizientenvektoren erfolgt analog zum Fall nur eines Teilfilters, wobei in K1, K2, K3 jeweils das zugehörige Referenzspektrum mit dem Spektrum S^ des Ausgangssignals verknüpft wird. Der Aufwand wird hauptsächlich durch die Verdreifachung der Projektion P1 beträchtlich erhöht. Zusätzlicher Speicherplatzbedarf wird notwendig um die Spektren des um 1 bzw. 2 Blocklängen zeitlich älteren Referenzsignales X bereitzustellen.The previously described arrangement of the FLMS algorithm allows filter emulations with a maximum impulse response length of half an FFT length, in the example case 128 samples. If longer impulse responses are to be compensated, the already known FLMS algorithm for a sub-filter ( Fig. 4a ) to n subfilters. A 3-part filter solution with an impulse response length of 3 × 128 = 384 samples has proven itself in the case of radio signal suppression in passenger cars with a voice input system ( Fig. 4b ). The im Fig. 4a Block B with the input signals X and S ^ and the compensation spectrum R ^ as the output is denoted by the Fig. 4b to replace the extension shown. The spectrum X of the reference signal is delayed by latches D by 1 or 2 block lengths, and the instantaneous X1 and the two delayed spectra X2, X3 are separately multiplied by coefficient vectors H1, H2, H3 determined separately in an extended projection P1. The formation of the coefficient vectors is analogous to the case of only a sub-filter, wherein in K1, K2, K3 respectively the associated reference spectrum is linked to the spectrum S ^ of the output signal. The effort is considerably increased mainly by the tripling of the projection P1. Additional storage space is required to provide the spectra of the reference signal X which is older by 1 or 2 block lengths.

Bei der beispielhaft angegebenen Aufgabenstellung der Unterdrückung des Radiosignales bei Spracheingabe im Kfz ist es vorteilhaft die Ausgangsdaten nicht im Zeit- sondern im Frequenzbereich auszugeben, da dadurch eine verbesserte Anpassung an eine nachgeschaltete Geräuschunterdrückung erreicht werden kann. Der bereits vorgestellte FLMS-Algorithmus mit einem Teilfilter benötigt gemäß Fig. 5a insgesamt 5 FFT's bei einem Ausgangssignal im Zeitbereich. Wird dem Ausgang eine FFT nachgeschaltet, erhöht sich der Aufwand bei einem Frequenzbereichs-Ausgangssignal auf 6 FFT's. Die gleiche FFT-Anzahl ergibt sich zunächst auch bei einer äquivalenten Lösung nach Fig. 5b. Diese Variante besitzt jedoch folgende Vorteile:

Bei der zeitgleichen Spektralanalyse der Signale x und y ist nur eine einzige 256-Punkte-FFT mit geringem Zusatzaufwand für eine spektrale Separation notwendig. Man erzielt eine Einsparung von 1 FFT.
Die hier mit P4 gekennzeichnete und neu definierte Projektion ist bis auf das verwendete Zeitfenster formal identisch mit der Projektion P1. Wie später gezeigt wird, läßt sich P4 durch eine relativ einfache Faltungsoperation im Frequenzbereich ersetzten, ohne daß eine merkliche Einbuße an Qualität in Kauf genommen werden muß. Man erzielt eine Einsparung von 2 FFT's.

In the exemplified task of suppressing the radio signal in speech input in the car, it is advantageous not output the output data in the time but in the frequency domain, as this improved adaptation to a downstream noise suppression can be achieved. The already presented FLMS algorithm required with a sub-filter according to Fig. 5a a total of 5 FFT's with an output signal in the time domain. If an FFT is connected downstream of the output, the effort for a frequency range output signal increases to 6 FFTs. The same number of FFT results initially even with an equivalent solution after Fig. 5b , However, this variant has the following advantages:

In the simultaneous spectral analysis of the signals x and y, only a single 256-point FFT with little additional effort for a spectral separation is necessary. One achieves a saving of 1 FFT.
The newly defined projection with P4 is formally identical to the projection P1 except for the time window used. As will be seen later, P4 can be replaced by a relatively simple convolution operation in the frequency domain without the need to sacrifice any appreciable quality. One achieves a saving of 2 FFT's.

Fig. 6 stellt ein ausführlicheres Blockschaltbild des FLMS-Algorithmus mit Frequenzbereichs-Ausgangssignal dar und gestattet nochmals einen Vergleich mit Fig. 3 (Zeitbereichs-Ausgang). Unverändert geblieben ist die Filteradaption bestehend aus Glättung der spektralen Leistung, Leistungsnormierung und Koeffizientenerneuerung. Neu sind die FFT im Mikrophonkanal, die Differenzbildung Y-R^ im Frequenz- anstatt im Zeitbereich zur Ausgangsbildung, und schließlich die neu definierte Projektion P4, welche sich lediglich durch das komplementäre Zeitbereichsfenster von der Projektion P1 unterscheidet. Fig. 6 provides a more detailed block diagram of the frequency domain output FLMS algorithm and again allows comparison with Fig. 3 (Time domain output). The filter adaptation consisting of smoothing of the spectral power, power normalization and coefficient renewal has remained unchanged. What is new are the FFT in the microphone channel, the difference formation YR ^ in the frequency domain instead of in the time domain for output formation, and finally the newly defined projection P4, which differs from the projection P1 only by the complementary time domain window.

Als Vorstufe einer nachfolgend beschriebenen bevorzugten Ausführung betrachte man Fig. 7. Dargestellt ist der FLMS-Algorithmus mit 3 Teilfiltern (384-sample-Impulsantwort), welcher eine ausreichende Unterdrückung des Radiosignales im Mikrophonkanal des Spracheingabesystems liefert. Die Projektionen P1 und P4 sind vereinfacht dargestellt. Es ist der schon aus Fig. 4b bekannte zusätzliche Aufwand in Form der Speicher D sowie die Verdreifachung der Projektion P1 ersichtlich. Im Gegensatz zur 1-Teilfilter-Lösung nach Fig. 6 wird die Summe W von gegenwärtigem und den beiden zeitlich vorausgegangenen Referenz-Leistungsspektren auf den Eingang des rekursiven Filters gegeben. Die Tatsache, daß am Filterausgang nun praktisch die 3-fache geglättete spektrale Leistung vorliegt, wird nach der Kehrwertbildung durch Multiplikation mit der Konstanten 6α berücksichtigt. Nach der spektralen Leistungsnormierung des in P4 modifizierten Ausgangsspektrums S^ wird die Filter-Adaption nun für die 3 Koeffizientenvektoren der 3 Teilfilter separat durchgeführt.As a preliminary stage of a preferred embodiment described below, consider Fig. 7 , Shown is the FLMS algorithm with 3 sub-filters (384 sample impulse response), which provides sufficient suppression of the radio signal in the microphone channel of the speech input system. The projections P1 and P4 are shown simplified. It's already out Fig. 4b known additional effort in the form of the memory D and the tripling of the projection P1 visible. In contrast to the 1-part filter solution after Fig. 6 the sum W of present and the two temporally preceding reference power spectra is given to the input of the recursive filter. The fact that the filter output is now practically 3 times the smoothed spectral power is taken into account after the inverse by multiplying by the constant 6α. After the spectral power normalization of the output spectrum S ^ modified in P4, the filter adaptation is now carried out separately for the 3 coefficient vectors of the 3 sub-filters.

Ein Beispiel Z0 für die Wirkungsweise der Erfindung nach Fig. 7 zeigt Fig. 9. Die Eingangsdaten wurden synthetisch generiert. Das Referenzsignal X stellt 100000 Abtastwerte eines weißen Gaußrauschens bei einer Abtastfolgefrequenz von fs=12 kHz dar. Das Mikrophonsignal Y entstand durch Faltung dieses Rauschsignales mit einer ebenfalls konstruierten 384-sample-Impulsantwort sowie der Addition eines äußerst schwachen Sprachsignales. Beim Abhören dieses in Fig. 9 oben aufgezeichneten Signals y sind die 10 gesprochenen Ziffern gerade noch im farbigen (weil gefilterten) Rauschen zu erkennen. Das in den Zeitbereich zurücktransformierte Ausgangssignal des Schätzers befreit nach einem ca. 1 Sekunde (12000 samples) dauernden Einschwingvorgang sehr wirkungsvoll die Spracheingabe vom Rauschen und liefert ein unverzerrtes jedoch leicht verhalltes Sprachsignal S^ (Fig. 9 unten). Die verwendeten beiden Parameter waren α=0,05 und β=0,5, Werte, die sich auch bei den später vorgestellten Beispielen gut bewährt haben.An example Z0 for the operation of the invention according to Fig. 7 shows Fig. 9 , The input data was synthetically generated. Reference signal X represents 100,000 samples of white Gaussian noise at a sampling rate of fs = 12kHz. Microphone signal Y resulted from convolution of this noise signal with a likewise constructed 384 sample impulse response and the addition of an extremely weak speech signal. While listening to this in Fig. 9 recorded above signal y, the 10 spoken numbers are barely visible in the colored (because filtered) noise. The output signal of the estimator, which was transformed back into the time domain, is freed after a transient of about 1 second (12,000 samples) very effective the speech input from noise and provides an undistorted but slightly reverberated speech signal S ^ ( Fig. 9 below). The two parameters used were α = 0.05 and β = 0.5, values which also proved to be good in the examples presented later.

Aus den jeweils 129 samples langen Teilkoeffizientenvektoren H1, H2, H3 der 3 Teilfilter nach Bild7 läßt sich nun zu jedem Zeitpunkt die hieraus resultierende 3*128-sample-Impulsantwort bzw. die zugehörige Filterübertragungsfunktion berechnen. So zeigt Fig. 10 oben die 384-sample-Impulsantwort, wie sie sich ganz am Ende der Szene- also nachdem die Ziffer "0" gesprochen wurde - ergibt. Sie ist ein sehr genaues Abbild derjenigen Impulsantwort, die zur Faltung mit weißem Gaußrauschen und damit zur synthetischen Generierung des Signales mikro benutzt wurde. Die zugehörige Betragsübertragungsfunktion (Fig. 10 unten) im Bereich zwischen den Frequenzen 0 und fs/2 = 6 kHz stellt einen mit zahlreichen schmalbandigen Resonanzüberhöhungen behafteten Tiefpaßfrequenzgang dar.From the 129 samples of partial coefficient vectors H1, H2, H3 of the 3 sub-filters according to Fig. 7, the resulting 3 * 128 sample impulse response or the associated filter transfer function can be calculated at any time. So shows Fig. 10 above is the 384 sample impulse response as it appears at the very end of the scene, that is, after the digit "0" was spoken. It is a very accurate image of the impulse response that was used to convolve with white Gaussian noise and thus to synthetically generate the signal micro. The associated amount transfer function ( Fig. 10 below) in the range between the frequencies 0 and fs / 2 = 6 kHz represents a low-pass frequency response involving numerous narrowband resonance peaks.

Weißes Rauschen als Referenzeingangssignal und gefiltertes "farbiges" Rauschen als Mikrophoneingangssignal stellen im Sinne der Aufgabenstellung, eine Nachbildung dieses Filters zu finden, den einfachsten Fall dar. Da das Referenzsignal per Definitionen alle Frequenzanteile enthält, gelingt die Filteradaption hier am schnellsten. Die zusätzliche additive Spracheingabe im Mikrophoneingangssignal - also das eigentliche Nutzsignal des Spracheingabesystems - stellt für den (F)LMS-Algorithmus eine Störung dar, welche die korrekte Adaption der Filterkoeffizienten behindert. Anders ausgedrückt: nur in Sprachpausen ist das System dazu in der Lage die Raumakustik des Fahrzeuginnenraums (Strecke Radiolautsprecher zum Mikrophon) richtig nachzubilden und dadurch eine Kompensation der Radiowiedergabe zu bewirken. Im oben demonstrierten Beispiel gemäß Fig. 9 gelingt dies sehr gut, da der Mikrophon-eingang im wesentlichen aus Rauschen und nur zu einem sehr geringen Teil aus Spracheingabe besteht.White noise as the reference input signal and filtered "colored" noise as the microphone input signal are the simplest case in terms of the task of finding a replica of this filter. Since the reference signal contains all frequency components by definition, the filter adaptation succeeds fastest here. The additional additive speech input in the microphone input signal - ie the actual useful signal of the speech input system - represents a disturbance for the (F) LMS algorithm, which hinders the correct adaptation of the filter coefficients. In other words, the system is only able to correctly reproduce the room acoustics of the vehicle interior (distance between radio loudspeaker and microphone) during pauses in speech thereby causing a compensation of the radio playback. In the example demonstrated above Fig. 9 This works very well, since the microphone input consists essentially of noise and only a very small part of speech input.

Aus echten Messungen im Fahrzeug hingegen entstammten das an den Radiolautsprecherklemmen abgegriffene Referenzsignal radio und das vom Mikrophon des Spracheingabesystem aufgezeichnete Signal mikro der Szene Z1. Dieses Mikrophonsignal ist in Fig. 11 oben dargestellt, besteht aus 100000 samples und besitzt demnach bei einer Sampling-Frequenz von 12 kHz eine zeitliche Dauer von ca. 8,3 Sekunden. Es handelt sich um flüssig und relativ schnelle gesprochene Sprache eines hinten rechts im Auto sitzenden Fahrzeuginsassen, während gleichzeitig Musik mit normaler Lautstärke aus dem Autoradio-Lautsprecher erklingt. Nach Anwendung der Entstörmaßnahme gemäß Fig. 7 und Umrechnung in den Zeitbereich ergibt sich das in Fig. 11 unten dargestellte Ausgangssignal. Der Hörtest ergibt eine deutliche Herausarbeitung des Sprachanteils bzw. eine vor allem in den kurzen Sprachpausen bemerkenswerte Musikunterdrückung. Auffällig und von Nachteil ist jedoch, daß die erwünschte Radiosignalunterdrückung in starkem Maße davon abhängt, ob gerade gesprochen wird oder nicht. Die wieder am Szenenende ermittelte 384-sample-Impulsantwort mit zugehöriger Übertragungsfunktion ist aus Fig. 12 ersichtlich. Eine korrekte Impulsantwort ist an den typischen Nullsamples (Totzeit) am Anfang zu erkennen, welche von der Laufzeit des Direktschalls vom Radiolautsprecher zum Mikrophon herrühren. Aus den hier vorhandenen starken Störungen am Anfang sowie am Ende der Impulsantwort läßt sich demnach der Schluß ziehen, daß die Filteradaption an dieser Stelle wegen vorhandener Spracheingabe äußerst unzureichend ist.On the other hand, from real measurements in the vehicle, the reference signal radio picked up from the radio speaker terminals and the signal micro recorded from the microphone of the voice input system came from the scene Z1. This microphone signal is in Fig. 11 shown above, consists of 100000 samples and thus has a sampling time of 12 kHz a time duration of about 8.3 seconds. It is fluent and relatively fast spoken language of a vehicle occupant seated in the rear right of the car while at the same time sounding at normal volume from the car radio speaker. After application of the anti-interference measure according to Fig. 7 and conversion into the time domain results in the Fig. 11 output signal shown below. The hearing test results in a clear elaboration of the language portion or a notable especially in the short language breaks music suppression. It is conspicuous and disadvantageous, however, that the desired radio signal suppression strongly depends on whether or not there is talk. The again at the end of the scene determined 384 sample impulse response with associated transfer function is off Fig. 12 seen. A correct impulse response can be recognized by the typical zero samples (dead time) at the beginning, which stem from the duration of the direct sound from the radio loudspeaker to the microphone. From the existing strong disturbances at the beginning and at the end of the impulse response, it can therefore be concluded that the filter adaptation at this point is extremely inadequate because of existing speech input.

Die im folgenden anhand von Fig. 8 beschriebene Ausführungsform beruht auf folgender Grundidee: ein geeignetes Merkmal dient zusammen mit einem Schwellenwert als Indikator für eine Spracheingabe. Unterschreitet das Merkmal die Schwelle, so ist dies ein Anzeichen für fehlende Spracheingabe. In diesem Fall kann - wie oben schon festgestellt - eine weitgehend ungestörte Filteradaption erfolgen. Bei Spracheingabe wird nun auf denjenigen Filterkoeffizientensatz zurückgegriffen, der unmittelbar vor der Schwellenüberschreitung - d.h. am Ende der vorangegangenen Sprachpause - abgespeichert wurde. Diese gespeicherten Koeffizienten H10, H20, H30 liefern im Regelfall eine deutlich bessere Radiosignal-Kompensation als die unter dem störenden Einfluß der Spracheingabe sich ständig ändernden aktuellen Koeffizienten H, H2, H3.The following with reference to Fig. 8 described embodiment is based on the following basic idea: a suitable feature is used together with a threshold as an indicator for a voice input. If the characteristic falls below the threshold, this is an indication of missing speech input. In this case, as already stated above, a largely undisturbed filter adaptation can take place. With speech input, the filter coefficient set is used, which was stored immediately before the threshold was exceeded, ie at the end of the preceding speech break. As a rule, these stored coefficients H10, H20, H30 provide significantly better radio signal compensation than the current coefficients H, H2, H3, which constantly change under the disturbing influence of the voice input.

Fig. 8 stellt eine Ausführung mit einer weiter verbesserten FLMS-Verarbeitung mit 3 Teilfiltern dar. Neben den schon in Fig. 7 vorhandenen aktuellen Filterkoeffizientenvektoren H1, H2, H3, welche zur Bildung des fortlaufend adoptierten Ausgangssignals y-R benötigt wurden, existiert nun ein zusätzliches Ausgangssignal (y-Ro), das unter Verwendung gespeicherter Koeffizienten H10, H20, H30 gebildet ist. Die aktuellen Koeffizientensätze H1, H2, H3 stellen nur bei fehlender Spracheingabe im eingeschwungenen Zustand ein brauchbares Kompensationsfilter im Frequenzbereich dar, liefern hingegen bei Spracheingabe ungenügende Filtereigenschaften, weil der Adaptionsprozeß in der Regelschleife ständig gestört wird. Bei fehlender Spracheingabe d.h. hoher Filterqualität sind die drei Schalter geschlossen und es werden die aktuellen Koeffizientensätze in die Koeffizientenspeicher M1, M2, M3 geschrieben: H10=H1, H20=H2, H30=H3. Die Ausgänge (y-Ro) und (y-Ra) sind identisch. Einsetzende Spracheingaben bewirken ein Öffnen der 3 Schalter, wodurch die zuletzt in den Speichern M1, M2, M3 befindlichen Koeffizienten H10, H20, H30 nicht mehr überschrieben werden und unverändert bleiben. Dieser Zustand, in welchem sich die Ausgänge (Y-Ro) und (Y-Ra) unterschieden, wird solange beibehalten, bis wieder eine Sprachpause detektiert und die Schalter geschlossen werden. Fig. 8 represents an embodiment with a further improved FLMS processing with 3 sub-filters. In addition to the already in Fig. 7 existing current filter coefficient vectors H1, H2, H3, which were needed to form the continuously adopted output signal yR, there now exists an additional output signal (y-Ro) formed using stored coefficients H10, H20, H30. The current coefficient sets H1, H2, H3 represent a useful compensation filter in the frequency domain only in the absence of speech input in the steady state, however, provide insufficient filter characteristics in voice input, because the adaptation process in the control loop is constantly disturbed. In the absence of voice input, ie high filter quality, the three switches are closed and the current coefficient sets are written into the coefficient memories M1, M2, M3: H10 = H1, H20 = H2, H30 = H3. The outputs (y-Ro) and (y-Ra) are identical. Inserting voice inputs cause the 3 switches, whereby the last located in the memories M1, M2, M3 coefficients H10, H20, H30 are no longer overwritten and remain unchanged. This state, in which the outputs (Y-Ro) and (Y-Ra) differ, is maintained until a speech break is detected again and the switches are closed.

Als Sprachpausenmerkmal fea hat sich die geglättete Summe aller Absolutwerte der Koeffizientenkorrekturvektoren ΔH1', ΔH2', ΔH3' bewährt (Fig. 8a). Diese Größe ist gleich Null bzw. weist kleine Zahlenwerte auf, wenn es keinen oder nur einen geringen Bedarf gibt, die Koeffizienten abzuändern. In Sprachpausen ist dies der Fall, der Regelkreis ist praktisch eingeschwungen. Störungen, wie sie durch Spracheingabe - aber auch durch Bewegungen der Fahrzeuginsassen - hervorgerufen werden, haben einen erhöhten Nachregelbedarf zur Folge, was sich durch entsprechend große Zahlenwerte bei ΔH1', ΔH2', ΔH3' und somit beim Merkmal fea bemerkbar macht. Ein Glättungsfilter beispielsweise ein rekursiver Tiefpaß 1. Ordnung mit dem Eingang feat stellt an seinem Ausgang das geglättete Sprachpausen-Merkmal fea zur Verfügung, welches nach Vergleich mit einem Schwellwert th die Schalter für die Koeffizientenübernahme steuert.As a speech pause feature fea, the smoothed sum of all absolute values of the coefficient correction vectors ΔH1 ', ΔH2', ΔH3 'has proved successful ( Fig. 8a ). This variable is equal to zero or has small numerical values if there is little or no need to change the coefficients. This is the case in speech pauses, the control loop is practically steady. Disturbances, as caused by voice input - but also by movements of the vehicle occupants - have an increased Nachregelbedarf result, which is noticeable by correspondingly large numerical values at ΔH1 ', ΔH2', ΔH3 'and thus the feature fea. A smoothing filter, for example a 1st order recursive low-pass filter with the input feat, provides at its output the smoothed speech pause feature fea which, after comparison with a threshold value th, controls the coefficients transfer switches.

Die Wirkungsweise des verbesserten FLMS-Algorithmus nach Fig. 8 demonstriert Fig. 13. Oben ist das aufgezeichnete Signal y der Szene Z1 (vgl. Fig. 11 oben) dargestellt, unten das gewonnene Ausgangssignal. Schon der visuelle Vergleich der Ausgangssignale von Fig. 13 und Fig. 11 zeigt die verbesserte Herausarbeitung der Sprachpassagen. Der vergleichende Hörtest bestätigt dies: auch während der Spracheingabe ist die Musikunterdrückung deutlich besser. Den Verlauf des Sprachpausenmerkmals und der konstanten Schwelle über der Zeit (hier in FFT-Blöcken skaliert) zeigt Fig. 14 oben. In den durch die Schwellenunterschreitung detektierten Sprachpausen (Fig. 14 unten) findet laufend die Übernahme der Koeffizienten in die Speicher wie beschrieben statt, um dort während der Spracheingabe als gespeicherte Koeffizienten zur Verfügung zu stehen. Die schon in Fig. 12 am Szenenende gemessene 384-sample-Impulsantwort mit zugehöriger Betragsübertragungsfunktion ist in Fig. 15 als aktuelle Impulsantwort (a) bzw. aktuelle Übertragungsfunktion (b) dargestellt. Im Gegensatz zu dieser infolge Spracheingabe stark gestörten Schätzung aus den aktuellen Koeffizienten H1, H2, H3 ist aus den gespeicherten Koeffizienten H10, H20, H30 eine Impulsantwort (c) und eine Übertragungsfunktion (d) hoher Qualität berechenbar. Die Impulsantwort aus den gespeicherten Koeffizienten weist die typischen Nullsamples am Anfang auf, welche durch die Laufzeit des Direktschalls vom Radiolautsprecher zum Spracheingabemikrophon verursacht werden. Aus der im Beispielsfall abzulesenden Totzeit von ca. 40 samples läßt sich die Entfernung zwischen Lautsprecher und Mikrophon bestimmen.The operation of the improved FLMS algorithm after Fig. 8 demonstrated Fig. 13 , Above is the recorded signal y of scene Z1 (cf. Fig. 11 above), below the obtained output signal. Already the visual comparison of the output signals of Fig. 13 and Fig. 11 shows the improved elaboration of the language passages. The comparative hearing test confirms this: even during voice input the music suppression is much better. The history of the speech pause feature and the constant threshold over time (scaled here in FFT blocks) Fig. 14 above. In the speech breaks detected by the threshold undershoot ( Fig. 14 below) the transfer of the coefficients to the memories takes place continuously as described, in order to be available there as stored coefficients during speech input. The already in Fig. 12 At the end of the scene, the measured 384-sample impulse response with associated magnitude transfer function is in Fig. 15 represented as current impulse response (a) or current transfer function (b). In contrast to this highly disturbed speech input from the current coefficients H1, H2, H3, an impulse response (c) and a high-quality transfer function (d) can be calculated from the stored coefficients H10, H20, H30. The impulse response from the stored coefficients has the typical zero samples at the beginning, which are caused by the transit time of the direct sound from the radio loudspeaker to the speech input microphone. From the dead time of about 40 samples to be read in the example, the distance between loudspeaker and microphone can be determined.

Wie vorstehend schon angedeutet läßt sich die aufwendige Projektion P4 (IFFT, Fenster rechts im Zeitbereich, FFT) ohne merkliche Einbuße an Qualität durch eine relativ einfache Faltung im Frequenzbereich ersetzten, wodurch 2 FFT's eingespart werden. Dazu betrachte man Fig. 16. In einem ersten Schritt wird das "rechtsseitige" 128-sample-Rechteckfenster im Zeitbereich (Fig. 16a) bei der idealen Projektion ersetzt durch ein 128-sample-Hammingfenster (Fig. 16b). Gegenüber dem Rechteckfenster besitzt dieses den Vorteil eines bedeutend schmaleren Spektrums. Wie Fig. 17 zeigt, besteht beim Rechteckfenster der Realteil des Spektrums aus einer einzigen Linie (Gleichanteil), während das zur Mitte antisymmetrische Imaginärteil-Spektrum aus vielen nach außen hin langsam abfallenden Linien mit alternierenden Nullstellen besteht. Im Gegensatz dazu beschränkt sich das komplexe Spektrum des Hammingfensters (Fig. 18) auf insgesamt 7 Linien, von denen im symmetrischen Realteil nur 3 und im antisymmetrischen Imaginärteil nur 4 Werte von Null verschieden sind. Sämtliche weiter außen liegenden Anteile sind vernachlässigbar gering. Diese spezielle Eigenschaft des Hammingfensters ermöglicht es vorteilhafterweise die Multiplikation im Zeitbereich (Fig. 16b) zu ersetzen durch eine Faltung mit dem zugehörigen 7-sample-Spektrum im Frequenzbereich und damit eine IFFT und eine FFT einzusparen (Fig. 16c).As already indicated above, the complex projection P4 (IFFT, window on the right in the time domain, FFT) can be replaced without noticeable loss of quality by a relatively simple convolution in the frequency domain, thus saving 2 FFTs. Consider this Fig. 16 , In a first step, the "right-sided" 128-sample rectangle window in the time domain ( Fig. 16a ) in the ideal projection replaced by a 128 sample Hamming window ( Fig. 16b ). Compared to the rectangular window this has the advantage of a much narrower spectrum. As Fig. 17 In the case of the rectangular window, the real part of the spectrum consists of a single line (DC component), whereas the antisymmetrical part of the imaginary spectrum consists of many slowly decreasing lines with alternating lines Zeroing exists. In contrast, the complex spectrum of the Hamming window ( Fig. 18 ) to a total of 7 lines, of which only 3 are different in the symmetric real part and only 4 values in the antisymmetric imaginary part. All further outlying parts are negligible. This special property of the Hamming window advantageously allows multiplication in the time domain ( Fig. 16b ) by folding it with the associated 7-sample spectrum in the frequency domain and thus saving one IFFT and one FFT ( Fig. 16c ).

Prinzipiell läßt sich natürlich auch die Projektion P1 (IFFT - linksseitiges Rechteckfenster - FFT) ersetzen durch eine entsprechende Faltungsoperation im Frequenzbereich mit dem konjugiert komplexen 7-Linien-Spektrum. Experimente haben jedoch gezeigt, daß Einsparungen an dieser Stelle erkauft werden mit einer deutlichen Verschlechterung des Einschwingverhaltens. Aufwandsgünstige Lösungen lassen sich trotzdem dadurch erzielen, daß in dem LMS-Algorithmus nach Fig. 8 die 3 Projektionen P1 nicht gleichzeitig in einem 256-sample-Inputdatenblock abgearbeitet werden müssen. Die mit 128-samples überlappenden Inputdatenblöcke der Länge 256 sind mit einer willkürlich bei "1" beginnenden Nummerierung in Fig. 19a skizziert. So ist es z.B. möglich bei modulo-3-Zählweise der Inputdatenblöcke die 3 Teilfilterprojektionen nicht parallel (Fig. 19b) sondern sequentiell in aufeinanderfolgenden Blöcken Fig. 19 zu berechnen. Dadurch sind bei idealer Projektion P1 pro Datenblock nicht 6 sondern nur noch 2 FFT's notwendig. Es hat sich gezeigt, daß die Kompensation des Radiosignales auch noch ausreichend funktioniert, wenn die Abstände zwischen den zu berechnenden Teilfilter-Projektionen noch größer gewählt werden. Zählt man die Blöcke z.B. modulo 6, so ist lediglich in jedem zweiten Block eine Projektion Zu berechnen (Fig. 19d). Selbst eine Reduzierung auf einen Abstand von vier Blöcken zwischen zwei aufeinanderfolgenden P1 Berechnungen mittels modulo-12-Zählung führt noch zu brauchbaren Ergebnissen (Fig. 19e).In principle, of course, the projection P1 (IFFT - left-sided rectangular window - FFT) can be replaced by a corresponding convolution operation in the frequency domain with the conjugate complex 7-line spectrum. Experiments have shown, however, that savings are made at this point with a significant deterioration of the transient response. Nevertheless, cost-effective solutions can be achieved by following the LMS algorithm Fig. 8 the 3 projections P1 need not be processed simultaneously in a 256 sample input data block. The 128-sample overlapping input data blocks of length 256 are numbered beginning with "1" at random Fig. 19a outlined. For example, if the input data blocks are modulo-3, the 3 sub-filter projections are not possible in parallel ( Fig. 19b ) but sequentially in successive blocks Fig. 19 to calculate. Thus, with ideal projection P1 per block of data not 6 but only 2 FFT's are necessary. It has been shown that the compensation of the radio signal still works sufficiently, if the distances between the sub-filter projections to be calculated are chosen to be even greater. If you count the blocks eg modulo 6, you only have to calculate a projection in every second block ( FIG. 19d ). Even a reduction to a distance of four blocks between two successive P1 calculations by means of modulo-12 counting still leads to useful results ( Fig. 19e ).

Die Leistungsfähigkeit des FLMS-Algorithmus mit 3 Teilfiltern gemäß Blockschaltung Fig. 8 und einer sequentiellen Berechnung der idealen Projektion P1 im Zeitraster nach Fig. 19e sowie der Projektion P2 mittels Faltung im Frequenzbereich (Fig. 16c) mit einem komplexen 7-Linien-Spektrum (Fig. 18) sei anhand von 3 Meßszenen demonstriert.The performance of the FLMS algorithm with 3 sub-filters according to block switching Fig. 8 and a sequential calculation of the ideal projection P1 in the time grid Fig. 19e and the projection P2 by means of convolution in the frequency domain ( Fig. 16c ) with a complex 7-line spectrum ( Fig. 18 ) is demonstrated on the basis of 3 measurement scenes.

Die erste dieser Szenen Z2 beinhaltet Spracheingabe von Ziffern, wobei der Radiolautsprecher annähernd weißes Rauschen mit verhältnismäßig hoher Lautstärke abstrahlt. Das zugehörige 100000-sample-Mikrophonsignal ist in Fig. 20 oben, das extrahierte Ausgangssignal in Fig. 20 unten dargestellt. Eine deutliche Rauschbefreiung des Outputsignales gegenüber dem Mikrophoninput stellt man durch Abhörvergleich fest. Der zeitliche Verlauf des Sprachpausenmerkmals ist zusammen mit der konstanten Schwelle th Fig. 21 oben abgebildet und die hieraus abgeleiteten Sprachpausen bzw. die zugeordneten Schalterstellungen in Fig. 21 unten. Schließlich zeigt Fig. 22 in zu Fig. 15 analoger Weise die am Szenenende gefundene Impulsantwort (a) und Übertragungsfunktion (b) auf der Basis der aktuellen Koeffizienten und die entsprechenden Größen (c), (d) auf der Basis der Sprachpauseneinstellung. Es ist deutlich erkennbar, daß die am Szenenende gefundene aktuelle Impulsantwort ein infolge Spracheingabe gestörtes Ergebnis darstellt, während die aus der letzten Sprachpause stammende Impulsantwort aus den gespeicherten Koeffizientensätzen eine hohe Qualität aufweist.The first of these scenes Z2 involves voice input of digits, with the radio loudspeaker emitting near-white noise at a relatively high volume. The corresponding 100000 sample microphone signal is in Fig. 20 above, the extracted output signal in Fig. 20 shown below. A clear noise exemption of the output signal compared to the microphone input is found by interception comparison. The time course of the speech pause feature is together with the constant threshold th Fig. 21 pictured above and derived therefrom language pauses or the associated switch positions in Fig. 21 below. Finally shows Fig. 22 in to Fig. 15 analogously, the impulse response (a) and transfer function (b) found at the end of the scene on the basis of the current coefficients and the corresponding magnitudes (c), (d) on the basis of the speech pause setting. It can be clearly seen that the current impulse response found at the end of the scene represents a disturbed result due to speech input, while the impulse response from the last speech pause has a high quality from the stored coefficient sets.

Die ersten 100000 samples einer Meßszene Z3 mit POP-Musik im Radio und flüssig bis schnell gesprochener Sprache der rechts hinten sitzenden Person sind in Form des Mikrophonsignales y in Fig. 23 oben aufgezeichnet. Nach ca. 10000 samples (0,83 s) wird das Radiosignal brauchbar unterdrückt (Fig. 23 unten). Auch bei der im letzten Drittel dieser Szene einsetzenden Spracheingabe bleibt die POP-Musikunterdrückung wirksam erhalten, wodurch die Sprachverständlichkeit hier gegenüber dem Mikrophonsignal merklich verbessert wird. Nach einer langen Sprachpause kommt es wegen der anschließenden pausenfreien Spracheingabe nicht mehr zu einer Schwellenunterschreitung (Fig. 24). Aus diesem Grunde ist die in Fig. 25 unten am Ende der Szene festgehaltene Impulsantwort auf der Basis der gespeicherten Koeffizienten zeitlich relativ veraltet, weil sie bereits ca. 2,3 s vorher aktuell war (215 Blöcke * 10,7 ms). Wieder weist die aktuelle Impulsantwort (Fig. 25 oben) starke von der Spracheingabe herrührende Störungen auf. Wie ein Vergleich mit der ähnlichen Szene Z1 nach Figuren 11 bis 15 zeigt, ist trotz des stark verringerten Rechenaufwandes die Qualität der Störbefreiung unverändert hoch.The first 100000 samples of a measurement scene Z3 with POP music on the radio and fluent to fast spoken language of the person sitting on the right back are in the form of the microphone signal y in Fig. 23 recorded above. After about 10000 samples (0.83 s) the radio signal is usefully suppressed ( Fig. 23 below). Even with the voice input beginning in the last third of this scene, the POP music suppression is effectively maintained, whereby the speech intelligibility here is markedly improved over the microphone signal. After a long linguistic break, there is no longer a threshold underrun because of the subsequent pause-free speech input ( Fig. 24 ). For this reason, the in Fig. 25 The impulse response recorded at the bottom of the scene based on the stored coefficients is relatively outdated in terms of time, because it was already up to date about 2.3 s (215 blocks * 10.7 ms). Again, the current impulse response ( Fig. 25 above) strong interference originating from the speech input. Like a comparison with the similar scene Z1 after FIGS. 11 to 15 shows, despite the greatly reduced computational effort, the quality of noise immunity remains high.

Die letzte Szene Z4 nach Fig. 26 wurde ohne Spracheingabe erstellt und soll abschließend nochmals die Musikunterdrückungseigenschaften des beschriebenen FLMS-Algorithmus demonstrieren. Nach ca. 18000 samples bzw. 1,5 s wird - wie aus Fig. 26 unten ersichtlich - die Musik wirksam unterdrückt. Diese Eigenschaft wird bis zum Szenenende mit unveränderter Qualität beibehalten. Fig. 27 zeigt auf, daß das Sprachpausen-Größe fea überwiegend unter der Schwelle th bleibt. Die Zeiten, in welchen auf die gespeicherten Koeffizienten zurückgegriffen wird, sind demnach nur sehr kurz. Impulsantwort und Übertragungsfunktion aus aktuellen Koeffizienten sind daher im wesentlichen mit den entsprechenden Verläufen aus Sprachpausen-Koeffizienten identisch.The last scene Z4 after Fig. 26 was created without voice input and is finally to demonstrate again the music suppression properties of the described FLMS algorithm. After about 18000 samples or 1.5 s is - as out Fig. 26 below - the music effectively suppressed. This property is maintained until the end of the scene with unchanged quality. Fig. 27 indicates that the speech pause size fea remains predominantly below the threshold th. The times in which the stored coefficients are used are therefore only very short. Impulse response and transfer function from current Coefficients are therefore essentially identical to the corresponding courses of speech pause coefficients.

Claims

Method of eliminating interference in a microphone signal due to components of a source signal which is present as a reference signal (x) and after passing through a transmission path with a priori unknown transmission function (G), is superimposed on a voice signal (s) as an interference signal (r) in the microphone signal, by adaptive simulation of the interference signal and compensation of the actual and the simulated interference signal in an output signal, wherein the microphone signal is likewise transformed into the frequency domain, the signal compensation occurs in the frequency domain and the output signal present in the frequency domain is linked with the reference signal present in the frequency domain for adaptation of the simulation, wherein for simulation of the interference signal an adaptive filtering function of a simulation filter is applied to the reference signal, characterised in that the occurrence of the voice signal in the microphone signal is detected and when a voice signal occurs the filtering function set before the occurrence of the voice signal is retained in order to form the output signal.
Method as claimed in Claim 1, wherein the output signal spectrum is transformed into the time domain, the length of the time signal is doubled by placing zeros in front of it, back-transforming it into the frequency domain and is used for simulation of the transmission function.
Method as claimed in Claim 1, wherein the output signal spectrum is convoluted with the spectrum of a Hamming time window and is used for simulation of the transmission function.
Method as claimed in Claim 1, wherein the filtering function is predetermined by a coefficient vector with adaptively adjusted coefficients.
Method as claimed in Claim 1, wherein when the voice signal is detected the adaptive readjustment of a current filtering function is continued in addition to the formation of the output signal.
Method as claimed in Claim 5, wherein the occurrence of the voice signal is detected from a change in the current filtering function.
Method as claimed in Claim 6, wherein the change in the current filtering function is smoothed over time for detection of the occurrence of a voice signal.
Method as claimed in any one of the preceding claims, in which the filtering function is divided into several partial filtering functions for successive segments of a total pulse response from all partial filters and is applied to reference signal spectra during time segments of the segmented reference time signal which are offset in time.
Method as claimed in Claim 8, wherein the adaptation of the filtering function is carried out in parallel for the partial filters.
Method as claimed in Claim 9, wherein the adaptation of the filtering function for the individual partial filters is carried out sequentially in time.