EP1055318A2 - Method for improving acoustic noise attenuation in hand-free devices - Google Patents
Method for improving acoustic noise attenuation in hand-free devicesInfo
- Publication number
- EP1055318A2 EP1055318A2 EP99907267A EP99907267A EP1055318A2 EP 1055318 A2 EP1055318 A2 EP 1055318A2 EP 99907267 A EP99907267 A EP 99907267A EP 99907267 A EP99907267 A EP 99907267A EP 1055318 A2 EP1055318 A2 EP 1055318A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- echo
- attenuation
- filter
- frequency
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
Definitions
- the present invention relates to a method for improving the acoustic attenuation in hands-free devices with a level balance, a frequency-selective, controllable echo compensation with subband processing and residual error post-filtering.
- This object is achieved with a method having the features of claim 1.
- Advantageous refinements of this method are specified in the subclaims.
- control variable namely the step size vector
- the step size vector is used both for controlling the frequency-selective echo compensation and for the Control of the additional filter used.
- sampling rates can preferably be used. This can further reduce the computing effort.
- the echo cancellation is preferably implemented in frequency subbands by means of a filter bank.
- both the echo cancellers and the residual error post-filtering provide the estimates for the echo attenuation introduced by them, since these estimates can preferably be used to control the attenuation of the level balance.
- the attenuation to be introduced by the level balance can be further reduced and the conversation quality in the case of two-way communication can be further improved.
- FIG. 2 is a block diagram of the speakerphone according to the invention.
- FIG. 3 curves for the attenuation requirements for the hands-free device as a function of the echo time
- FIG. 4 shows an overview of the method according to the invention
- FIG. 5 shows the structure of the adaptation of the subband echo compensators
- FIG. 6 shows a model for the power transmission factors
- FIG. 7 shows the signals of the distant and the local subscriber on the basis of which the method according to the invention is explained below;
- FIG. 8 the resulting excitation and the disturbed error in band 1;
- FIG. 11 the smoothing of the attenuation reduction according to the invention
- FIG. 12 shows a detailed illustration of the post-filtering of the error signal
- FIG. 13 the smoothing of the step sizes according to the invention (part A for the same time constants, part B for different time constants);
- FIG. 14 shows a further example of the signals of the remote and the local subscriber, which are the basis for the processing in the further figures;
- FIG. 15 the adjustment curve and the damping by the further filter in band 1;
- FIG. 17 the transfer of the damping values to the level balance
- FIG. 1 shows a simplified model of a hands-free device 10 connected to a digital connection 12.
- the A-law coding or decoding used in the European ISDN network is shown in the two left blocks 14, 16.
- the loudspeaker-room microphone system 18 (LRM system) with the local subscriber 20, the user of the hands-free device, is sketched on the right-hand side.
- LRM system loudspeaker-room microphone system
- the acoustic coupling between loudspeaker and microphone leads to crosstalk via the LRM system.
- This crosstalk is echoed by the distant subscriber perceived.
- Acoustic waves emerge from the loudspeaker and spread out in the room. Reflection on the walls and other objects in the room creates several paths of propagation, which result in different durations of the loudspeaker signal.
- the echo signal at the microphone thus consists of the superimposition of a large number of echo components and possibly the useful signal n (t): the local speaker.
- connection between the participants can also generate echoes at transitions between different transmission systems.
- the network operators try to take special measures against such echo sources directly at the critical points, so that these echoes can be disregarded here.
- Fork echoes which arise in phones with an analog interface due to mismatching of the line simulation to the line impedance, can be disregarded by using digital connections.
- the central element is a level balance 22, which is shown in the left part of FIG. 2.
- two gain controls 24, 26 can be switched on in the transmit and receive path.
- the level balance 22 guarantees the minimum attenuations prescribed by the ITU or ETSI recommendations by inserting attenuations into the transmission and / or reception path depending on the conversation situation.
- the reception path is activated and the signal from the remote subscriber is output undamped on the loudspeaker.
- the echoes that occur when the compensators are switched off or poorly balanced are greatly reduced by the damping inserted into the transmission path.
- the local speaker is active, the situation is reversed.
- the level balance 22 adds to the Transmission path no attenuation and the signal of local case- ⁇ Chers is transmitted unattenuated. More difficult is the Steue ⁇ tion of the level discriminator in the duplex case.
- both paths and thus also the subscriber signals) each receive half of the damping to be inserted or, if the control is not optimal, at least one of the two signal paths is damped. Intercom is therefore not possible or only possible to a limited extent.
- adaptive echo cancellers 28 - shown in the right part of FIG. 2. These try to digitally emulate the LRM system in order to then calculate the echo component of the distant subscriber from the microphone signal. Depending on how well the compensators manage this, the total attenuation to be introduced by the level balance can be reduced.
- the echo composition was implemented in frequency subbands, the width of the individual bands preferably being between 250 Hz and 500 Hz at 8 kHz sampling rate or between 500 Hz and 1000 Hz at 16 kHz sampling rate.
- the use of frequency selective echo cancellation has several advantages. On the one hand, by using undersampling and oversampling, the system can be operated as a multirate system, which reduces the calculation effort. On the other hand, by dividing the sub-band, the "compensation power" can be distributed differently over the individual frequency ranges and thus an effective adaptation of the "compensation power" to speech signals can be achieved. Subband processing also has a decorrelating effect when the overall tape processing is compared with the individual subband systems. For speech signals, this means an increase in the convergence speed of the adaptive filters.
- the runtime is mainly determined by the image processing component. Since attempts are generally made to output the image and sound of the remote subscriber lip-synchronized to the local subscriber, the running time of the acoustic echoes can increase to several hundred milliseconds. 3 shows the results of a study in which an attempt was made to find out which echo attenuation is necessary depending on the duration of this echo, so that 90, 70 and 50 percent of the respondents were satisfied with the quality of the conversation.
- a pure audio runtime of 30 - 40 ms only requires 35 dB echo attenuation.
- the requirement increases to 53 dB.
- the runtime can also be more than 100 ms in GSM connections. The requirements placed on echo cancellation methods in video conferencing and GSM systems are thus higher than the requirements placed on conventional hands-free telephones.
- a so-called post filter 30 was introduced. This evaluates the step sizes of the individual subbands together with the other detector results and filters the synthesis filter output signal again in a frequency-selective manner. Since the setting algorithm of filter 30 was designed in accordance with a Wiener approach, this post-filtering is also referred to below as Wiener filtering.
- the echo cancellers are controlled in several stages. All power-based control units 32 work autonomously for each compensator, that is to say independently of the remaining frequency ranges. A separate adaptation and control unit 32 is therefore sketched in FIG. 2 for each compensator.
- the control stage which is based on correlation analyzes of the loudspeaker and microphone signals, is used for intercom detection and is therefore evaluated equally in all frequency ranges.
- a further level takes into account the accuracy limited by the fixed point arithmetic and controls the adaptation depending on the modulation.
- the final intercom detection is also carried out separately with its own unit, which is based on both the level balance detectors and the echo cancellers. This unit causes the level balance in intercom situations to reduce the total attenuation to be inserted again (in accordance with ITU recommendation G.167).
- the central element here is the calculation of the step size vector c (k). This is used both to control the subband echo cancellers and to calculate the coefficients of the post filter.
- the two sub-methods each calculate the echo attenuation caused by them and communicate this information to the level balance 22.
- the scale 22 then reduces the total attenuation set by the user and only inserts the remaining attenuation into the transmission or reception path.
- the frequency band analysis and synthesis required for subband processing is implemented as a polyphase filter bank.
- a step size control is described, which ensures a fast and stable adaptation of the subband echo cancellers.
- methods are presented that estimate the echo attenuation achieved.
- the level balance 22 can thus reduce the total attenuation based on these estimated values. For the attenuation estimate, it is irrelevant whether the attenuation of well-balanced echo cancellers is achieved by the acoustic arrangement of the loudspeaker and microphone or by an appropriate choice of the analog amplifications.
- the adaptation of the subband echo cancellers is carried out by means of an NLMS method adapted to the signal processor used.
- NLMS method adapted to the signal processor used.
- the index ⁇ should show the subband number.
- the adaptation error e (r) (k r ) is calculated by forming the difference between the estimated and the measured microphone signal:
- This error consists of a so-called undisturbed error and the portion caused by the local speaker together:
- the adaptation is carried out using an approximation of the NLMS algorithm
- the coefficients of the subband echo cancellers are continuously applied to the subband impulse responses of the LRM system during the operation of the hands-free device using the adaptation methods. fit. A reduction in acoustic echoes can thus be achieved even after system changes.
- the setting criterion for the adaptation method used is the minimization of the mean square error. According to the calculation specification of the NLMS algorithm, the coefficients undergo a strong change if the samples of the compensated signal e (r) (k r ) of the ⁇ th subband are large. Constantly large values e r) (k r ) can be attributed to two causes:
- the adaptive filters are poorly adapted to the room impulse response. There is then no or only a slight reduction in the acoustic echoes - the uncompensated echo components cause the signals e ⁇ r) (k r ) to increase. • In such situations, the compensators should be adjusted as quickly as possible.
- n (k) for example when the local speaker is active - also causes the signals e (r) (k r ) to increase.
- This component is the useful signal to be transmitted for the hands-free device and for the adaptive device
- the filter represents a malfunction that can lead to an incorrect setting of the coefficients. In such situations, the compensators should not be adjusted, or only slightly, so that the adjustment already achieved is not deteriorated again.
- a step size control has already been presented which takes into account the two described conversation situations or states of the compensators and fulfills the demands placed on the adaptation control.
- the step size in the -th subband should be according to
- the disturbed error signal e (r) (k r ) in the denominator of equation 3.5 can be measured directly - the expected value of this can be determined by
- a power transfer factor p ⁇ r) (k r ) is introduced to estimate the meter.
- the parallel connection is switched off
- Modeled LRM system and echo canceller including the subtraction point in a first approximation as a simple attenuator.
- Equation 3.8 was made from for this reason the amount K ES , FT introduced. This amount is to the times in which the handsfree in to ⁇ stand Single the remote subscriber is located, beinhal ⁇ th.
- the power transfer factor estimate should not be updated - the most recently calculated p ⁇ r) (k r ) are retained. This measure means that changes in space cannot be detected when the local speaker is active. In such cases, the power transmission factors are only adjusted after the individual subscriber status has been reached again.
- the determination equation for the smoothed power transmission factors can thus according to
- Nonlinear, recursive smoothing was used for the first subproblem.
- the sum of the amount of the real part and the amount of the imaginary part of the subband signals was selected as the input signals of these filters.
- the performance factors were calculated logarithmically - the division can therefore be replaced by a subtraction.
- a so-called correlation measure ⁇ (k r ) was used for the second sub-problem.
- a standardized cross-correlation analysis of the excitation signal of the distant subscriber and the microphone signal is carried out.
- the distant subscriber speaks individually the two signals are strongly correlated and the correlation measure gives values ⁇ () «1.
- the correlation is reduced and values ⁇ (kr) ⁇ 1 are detected.
- the microphone signal is formed by convolution of the excitation signal with the impulse response already presented in an office room (length 2044 coefficients at 8 kHz sampling rate) and subsequent addition of the signal from the local speaker.
- the correction factor can be dispensed with by subsequently dividing the two quantities.
- the amount calculations were made by the more cost-effective estimates , (') (k r )
- the power transmission factors are only determined logarithmically - the division is thus reduced to two logarithms and one subtraction.
- the power transmission factors are thus according to
- the time constant ß p was also chosen differently for rising and falling edges. This is intended to do justice to the non-compensable part of the system runtime (artificial delay of the microphone signal). Due to this runtime, the signal power of the excitation signal drops earlier than that of the error signal - without correcting this process, the estimate would lower the estimated value after each excitation phase. In addition, the time constants are increased when two-way communication is detected. The two-way detector used is described below.
- the equation for the time constant ß p is: GK, GS
- K GS is used to denote the times at which the detector described above detects intercom.
- the set K ES , FT denotes the points in time at which the correlation measure recognizes individual speech by the distant subscriber.
- the step size a (k r) i-n can each band from the previously calculated sizes, according to
- the linearization is designated with LIN ⁇ ... ⁇ . If the excitation power is a limit falls below, it is assumed that the excitation consists only of background noise and the adaptation is stopped.
- the step size in the first subband is shown logarithmically in FIG.
- the step size is approximately 1 - in phases of individual speaking by the local subscriber ( ⁇ i and B 2 ), a difference from disturbed to undisturbed error performance of approximately 26 to 30 dB can be determined from FIG. 8 become.
- the step size is therefore also in the expected range (approx. -27 dB) in the intercom phases.
- the desired detector should be able to decide between single-talk and two-way talk independently of room changes and also independently of the power of the input signals.
- a correlation measure is used - a detector that meets the above requirements. The cross correlation between the loudspeaker signal and the microphone signal is evaluated in a standardized form.
- a release is set when the maximum of the determined correlation measures is greater than a limit value ⁇ 0 .
- the limitfrag 0 is determined by a finite sum of non-positive powers of two
- N tn 0 with a n e ⁇ 0, l ⁇ (3.26) approximated.
- the threshold value comparison can then be traced back to a summation of right-shifted denominator values and a comparison:
- N 0
- the evaluations were only carried out in the most powerful, first subband and there only with the real parts of the complex signals. In this band, the greatest signal-to-noise ratio can be expected for voice excitation, which should improve the reliability of the detector results. As a result of this measure, the subsampling will only carry out the calculations every r sampling cycles. The time k r is then included in the set K ES , F ⁇ if one of the L 2 comparisons yields a correlation measure greater than ⁇ 0 .
- the echo attenuation to be provided by the hands-free device can be reduced by 15 dB in intercom situations.
- an intercom detector has been developed according to the following considerations. At the same time, this detector can be used to "more carefully” set the estimates in the step size control when two-way communication occurs.
- the detection of intercom is carried out in two steps.
- a first stage it is checked whether the distant speaker is active.
- the excitation signal of the distant subscriber smoothed in magnitude, with a threshold
- the second comparison is always necessary if the level scale brings in large attenuation values (e.g. after changes in room). In such situations, the reception path can be severely damped. Here the comparison with the smoothed input signal would not provide a reliable result.
- the amount-smoothed excitation signal is calculated analogously to the recursive, non-linear smoothing described in the step size control. It should be noted here, however, that the higher sampling rate means that larger time constants must be used and limit cycles can occur as a result. A double-word precision calculation (32 bit) is therefore required:
- the time constant ß xg is chosen as follows
- the time constant ß eg is chosen as follows:
- a (total band) power transmission factor p EK (k) is determined to estimate the undisturbed error power:
- this variable is also smoothed recursively. Since the determination of the transmission factor only consists of smoothed quantities, it is only carried out under-sampled:
- the attenuation requirement is reduced using a low-pass filter.
- the time constant for the rising edge ß Gsr should be as small as possible so as not to cut off the beginning of a speech passage .
- the time constant for the falling flank ß Gsf should be greater than the arrival be selected rose constant, thus lowering the damping Pos e r) i n short speech pauses is not completely withdrawn. This relationship is shown in FIG.
- the smoothed damping reduction is determined as follows:
- the time k r is included in the quantity K gs if the damping reduction is above a predetermined value.
- An exemplary course of the damping reduction is shown in FIG. 11.
- the total attenuation of the level balance which is prescribed by ITU-T recommendation G. 167, can be reduced by the attenuation of the overall system consisting of room and echo canceller. Even when echo compensation is switched off, the control described above estimates the transmission factor of the acoustic path from the loudspeaker to the microphone, including the analog amplifications. In this way it is possible to react to different loudspeaker or different (analog) microphone amplifications and to adjust the total attenuation (digital) according to the required values.
- the total attenuation can also be set to a lower value in accordance with ITUT recommendation G. 167.
- ITUT recommendation G. 167 a detector and a corresponding transfer size were presented or defined.
- the total level balance damping D PW ⁇ k) is thus controlled (initially without taking post-filtering into account) using the following procedure:
- D 0 is the required maximum attenuation (eg 45 dB).
- the attenuation of the echo canceller D EK (k) is determined by the form of calculation
- the real-time implementation of the echo cancellation method shows that the adaptive filters can never completely calculate the portion of the distant speaker from the microphone signal. This can have many different causes, three of which are listed here as examples:
- the error signal e (k) thus contains, in addition to the portion of the local speaker n (k), also the uncompensated portion of the distant speaker, which was already referred to in the previous parts of this description as an 'undisturbed' error ⁇ (k).
- the signal n (k) is the useful component of the signal e (k) - the signal ⁇ (k) is the disturbance from this point of view.
- the following shows how post-filtering of the signal e (k) - to dampen the "interference" ⁇ (k) - based on a Wiener filter approach with the step size control for the Subband echo cancellers can be linked.
- a transversal filter of order M - 1 is inserted after the synthesis filtering.
- the parameter M is also the number of bands in the filter bank.
- the coefficients are determined in the subband level and transformed into the time domain with an inverse DFT.
- the coefficient determination is affected by several smoothings with an inertia and thus a running time. This runtime can be at least partially compensated for by the maximum-phase synthesis filter that lies between the determination and use of coefficients.
- the post-filtering takes place in the time domain and frequency-selective.
- the filter g (k) 30 is placed behind the synthesis.
- the order of the filter is M - 1, so M coefficients must be set.
- the filter 30 should optimally free the "disturbed” signal e (k) from the "disturbance” ⁇ (k).
- the filter frequency response can be too
- the filter g (k) has the order M - 1 and is to be determined from the frequency response G opt ( ⁇ ) by inverse Fourier transformation, M nodes of the frequency response must be determined. For the frequencies
- the frequencies ⁇ ⁇ represent, in addition to the support points in the frequency range, also the band centers of the bandpasses described above when dividing the subband.
- G opt ( ⁇ ⁇ ) can by
- the estimated support points of the filter frequency response are smoothed over time, and are provided with a so-called overestimation factor ⁇ and a maximum attenuation G min (k).
- the temporal smoothing is applied to the step sizes and is carried out with a first-order IIR filter with two different time constants for rising ( ⁇ r ) and falling ( ⁇ f ) edges:
- the vector a ⁇ r) (k) used in the implementation is thus composed of the smoothed step sizes:
- the filter frequency response is then according to
- the overestimation factor ß accelerates the introduction of the damping and increases the damping.
- a value between 1.0 and 3.0 is preferably chosen for ⁇ .
- G m i n (k) of the "influence" of the Wiener filter can be controlled. In real-time tests showed that it is advisable to link the control of this parameter with the collated status of the echo cancellers.
- the attenuation achieved by the echo cancellers is still very low.
- the Wiener filter should intervene strongly and be able to introduce large attenuations (eg up to 45 dB according to the ITU recommendations). Is in the room in which the hands-free system is located If there is strong background noise, the echo is suppressed by the Wiener filter, but the distant participant then perceives a kind of modulation of the background noise. During the pauses in the speech, the noise is transmitted undamped while he is speaking, it experiences a (e.g. B. 45 dB) attenuation.
- the step size control provides a suitable control variable - the estimated power transmission factor D EK (k).
- the parameter G mln (k) is therefore set according to:
- LIN denotes the linearization of logarithmic variables already used in the step size control.
- the maximum insertion loss (for example 45 dB) can be set with the parameter G maXrlog .
- This fixed value is then reduced by the attenuation D EK (k), which the echo cancellers provide on average, and the intercom reduction D GS (k) reduced.
- the sizes D EK (k) and D GS (k) lie in the same logarithmic ⁇ mix form as the constant G max / log before. Limiting the calculated size to 0 dB serves to adapt to the linearization.
- the attenuation D w (k) of the signal e (k) by the Wiener filter is communicated analogously to the attenuation of the echo cancellers and the attenuation reduction in the case of two-way communication via an interface of the level balance. Attenuation is approximated by the mean over all frequency ranges to be transmitted:
- D ' ⁇ w (k) ß, ./ D (k ⁇ ) + ( ⁇ -ß rf ) D (k).
- the use of different time constants for rising and falling edges causes the estimate to be "more careful”. If attenuation is added by the Wiener filter, the level balance reduces its attenuation more slowly. For a short time, the error signal thus exceeds the required 45 dB Conversely, if the Wiener filter reduces its attenuation, the level balance very quickly adds the remaining attenuation, and the delay due to the synthesis filtering can also result in a brief total attenuation of more than the set upper limit (eg 45 dB) .
- the set upper limit eg 45 dB
- the maximum attenuation G maX ⁇ og was chosen to be 60 dB.
- the initial adjustment process of the compensators takes place in area A ⁇ .
- the compensators have not yet been adjusted - in the end, the final adjustment status was reached in all bands. Since there is no intercom in this phase, the Wiener filter should insert the difference between 60 dB and the attenuation achieved by the echo canceller. The coefficient for this is in area Ai
- G 'k) r ⁇ (l- ßa ⁇ r) (k)), G nl (*) ⁇ in sub-band 1 (250 -750 Hz at 8 kHz sampling rate) together with the excitation and error signal before the Wiener filter in FIG. 15.
- the damping is not inserted immediately - this effect is partially compensated for by the transformation into the time domain and the synthesis filter in between. At least 25 dB of attenuation is thus already inserted in the overall band signal (see FIG. 18) at the beginning of the activity of the distant speaker.
- the attenuation After about 200 ms, the attenuation has already increased to its final value of 60 dB. With increasing compensation of the compensator, the attenuation by the Wiener filter in band 1 decreases and, as expected, reaches a final value of about 30 dB (60 dB maximum limit - 30 dB echo attenuation by the compensator). Since the Wiener filter was only inserted after the synthesis, the courses of the excitation, the error, the step size and the power transmission factor in band 1 can be seen from FIGS. 9 and 10.
- the maximum limit of the damping to be inserted G min (k) is the determining variable.
- the total signal e (k) should be separated from its interference ⁇ (k).
- the local participant - the useful signal in e (k) - is not active, the overall signal only consists of the disturbance.
- the initial value of about 60 dB is determined by the set maximum attenuation G maXr ⁇ og .
- this upper limit is reduced again by the intercom detector by 15 dB to about 15 dB.
- the performance of the local speaker is significantly higher than that of the residual echo, this limit is not reached.
- the determining factor in the intercom phase is the power ratio of the signal from the local speaker and the residual echo from the distant speaker. The performance of the residual echo depends on the one hand on the excitation power of the distant participant and on the other hand on the balancing state of the compensators. The better these are balanced, the less the influence of the Wiener filter will be in these passages.
- an upper limit of the attenuation was determined in accordance with equation 4.1.
- This upper limit was determined as a function of the attenuation already achieved, which is given by the power transmission factors in the respective band or by the intercom attenuation. Both quantities were only calculated and saved in logarithmic representation in the step size calculation. In order to be able to use the variables in the limitation function, eight linearizations are necessary. The determination of the maximum values would therefore require more computing power than the entire remaining coefficient calculation. For this reason, a uniform upper limit has been introduced for all tapes. This is also calculated according to equation 4.1, but with the total band sizes.
- the resource requirements of the post-filtering obtained in this way are well below 1 MIPS when using 16-bit fixed-point signal processors.
- the Wiener filter 30 When the Wiener filter 30 is switched on, the total attenuation can additionally be weakened by the attenuation of the Wiener filter 30. The maximum stroke of the level balance can thus be
- the size D w (k) is according to
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Telephone Function (AREA)
Abstract
The present invention relates to a method for improving acoustic noise attenuation, wherein said method uses a combination which comprises an adaptation control for the partial-band echo compensation process as well as a global-band post-filtration for suppressing residual echo in hand-free devices. This method also uses a level balance (22) as well as a controllable frequency-selection echo compensation (28) with partial-band processing. After the frequency-selection echo compensation (28), the outputted signal is submitted to a post-filtration in another frequency-selection filter (30) using an Wiener-equation adjustment algorithm (Wiener filtration). A single control value (increment vector) is used for controlling both the frequency-selection echo compensation and the other filter. This method can thus be implemented with a very reduced amount of calculations so that it can also be used in simple consumer-directed processors.
Description
Beschreibungdescription
Verfahren zur Verbesserung der akustischen Rückhördämpfung in FreiSprecheinrichtungen F Ver Ahren for improving the acoustic sidetone attenuation in handsfree
Die vorliegende Erfindung betrifft ein Verfahren zur Verbesse- rung der akustischen Rückhördämpfung in Freisprecheinrichtungen mit einer Pegelwaage, einer frequenzselektiven, steuerbaren Echokompensation mit Teilbandverarbeitung und einer Restfehler- nachfilterung.The present invention relates to a method for improving the acoustic attenuation in hands-free devices with a level balance, a frequency-selective, controllable echo compensation with subband processing and residual error post-filtering.
Bei Freisprecheinrichtungen ist es unbedingt erforderlich, die vom Lautsprecher ausgesandten und damit vom Mikrofon wieder aufgenommenen Signale des entfernten Teilnehmers zu unterdrük- ken, da sonst unangenehme Echos die Verbindung stören. Bisher wurde zur Unterdrückung dieser Echos, also zur akustischen Rückhördämpfung, üblicherweise eine Pegelwaage vorgesehen, die abhängig von der Gesprächssituation den Sende- oder den Empfangspfad stark dämpft. Dadurch wird jedoch ein Gegensprechen (Voll-Duplex-Betrieb) praktisch unmöglich.In the case of hands-free systems, it is absolutely necessary to suppress the signals of the remote subscriber which are sent out by the loudspeaker and thus picked up again by the microphone, since otherwise unpleasant echoes disrupt the connection. Up to now, a level balance has been usually provided to suppress these echoes, that is, for acoustic attenuation, which strongly dampens the transmission or reception path depending on the conversation situation. However, this makes two-way communication (full duplex operation) practically impossible.
Mit der bisherigen Technik wurde bereits versucht, eine ausreichende Rückhördämpfung trotz akzeptabler Gegensprechbetriebsei- genschaften zur Verfügung zu stellen. Hierzu wurde zusätzlich zu der Pegelwaage eine frequenzselektive, steuerbare Echokompensation vorgesehen. Diesbezüglich wird auf die noch unveröf- fentlichte Patentanmeldung DE 197 14 966 der Anmelderin verwiesen. Andere Verfahren sind beispielsweise dem Werbeprospekt der Firma NEC "Reflexion™ Acoustic Echo Canceller on the μPD7701x Family", 1996, oder aus der Beschreibung des Motorola DSP5600x Digitalprozessors (M. Knox,P. Abbot, Cyox: A Highly Integrated H320 Audiosubsystem using the Motorola DSP5600x Digitalprozes-
sor" beschrieben. Auch diese Verfahren können jedoch bei den langen Signallaufzeiten von Videokonferenzverbindungen bzw. bei GSM-Verbindungen keine ausreichende Echounterdrückung bieten, wenn gleichzeitig ein Gegensprechen möglich sein soll.With the previous technology, attempts have already been made to provide sufficient attenuation despite acceptable intercom characteristics. For this purpose, a frequency-selective, controllable echo compensation was provided in addition to the level balance. In this regard, reference is made to the applicant's unpublished patent application DE 197 14 966. Other methods are, for example, the advertising brochure from NEC "Reflexion ™ Acoustic Echo Canceller on the μPD7701x Family", 1996, or from the description of the Motorola DSP5600x digital processor (M. Knox, P. Abbot, Cyox: A Highly Integrated H320 audio subsystem using the Motorola DSP5600x digital process sor ". However, even with the long signal propagation times of video conference connections or GSM connections, these methods cannot offer sufficient echo suppression if two-way communication is to be possible at the same time.
Es wurde daher bereits vorgeschlagen, eine zusätzliche Nachfilterung nach der frequenzselektiven Echokompensation mit Teilbandverarbeitung vorzusehen. Eine solche Nachfilterung ist beispielsweise in dem Artikel "V. Turbin, A. Gilloire, P. Sealart: Comparison Of Three Post-Filtering Algorithmus For Residual Acoustic Echo Reduction" ICASSP97, International Workshop on Acoustic Speech and Signal Processing, München 1997, oder aus dem Artikel von R. Martin "An improved Echo-shape Algorithm for Acoustic Echo Control", EUSIPC096, 8th European Signal Proces- sing Conference, Triest, Italien, 1996, bekannt. Diese Konzepte ließen sich bisher nur schwer verwirklichen, da ja sowohl für die Echokompensation mit Teilbandverarbeitung als auch für die Nachfilterung eine digitale Signalverarbeitung vorzusehen ist, und die dafür erforderlichen Rechenleistungen vor den derzeit verfügbaren Prozessoren nicht mit angemessenem Aufwand erbracht werden können.It has therefore already been proposed to provide additional post-filtering after frequency-selective echo cancellation with subband processing. Such post-filtering is described, for example, in the article "V. Turbin, A. Gilloire, P. Sealart: Comparison Of Three Post-Filtering Algorithm For Residual Acoustic Echo Reduction" ICASSP97, International Workshop on Acoustic Speech and Signal Processing, Munich 1997, or from the article by R. Martin "An improved Echo-shape Algorithm for Acoustic Echo Control", EUSIPC096, 8th European Signal Processing Conference, Trieste, Italy, 1996. These concepts have so far been difficult to implement, since digital signal processing has to be provided both for echo compensation with subband processing and for post-filtering, and the computing power required for this cannot be provided with reasonable effort before the processors currently available.
Es ist daher Aufgabe der Erfindung, ein Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen anzugeben, bei dem der Rechenaufwand so minimiert ist, daß sowohl eine frequenzselektive Echokompensation mit Teilbandverarbeitung als auch die erforderliche Nachfilterung auf gebräuchlichen "Consu er-Prozessoren" verwirklicht werden können. Diese Aufgabe wird gelöst mit einem Verfahren mit den Merkmalen von Patentanspruch 1. Vorteilhafte Ausgestaltungen diese Verfahrens sind in den Unteransprüchen angegeben.It is therefore an object of the invention to provide a method for improving the acoustic attenuation in hands-free devices, in which the computational effort is minimized so that both frequency-selective echo cancellation with subband processing and the required post-filtering can be realized on conventional "consumer processors". This object is achieved with a method having the features of claim 1. Advantageous refinements of this method are specified in the subclaims.
Nach der Erfindung wird daher lediglich eine einzige Steuergröße, nämlich der Schrittweitenvektor, sowohl für die Steuerung der frequenzselektiven Echokompensation, als auch für die
Steuerung des weiteren Filters verwendet. Vorzugsweise können dabei mehrere unterschiedliche Abtastraten verwendet werden. Dadurch kann der Rechenaufwand weiter verringert werden.According to the invention, therefore, only a single control variable, namely the step size vector, is used both for controlling the frequency-selective echo compensation and for the Control of the additional filter used. Several different sampling rates can preferably be used. This can further reduce the computing effort.
Ebenso ist es bevorzugt, sowohl für die Echokompensation als auch für das weitere Filter adaptive Filter zu verwenden.It is also preferred to use adaptive filters both for echo compensation and for the further filter.
Die Echokompensation wird vorzugsweise mittels einer Filterbank in Frequenzteilbändern implementiert.The echo cancellation is preferably implemented in frequency subbands by means of a filter bank.
Vorzugsweise werden für die Adaptions- bzw. die Schrittweitent- steuerung sowohl leistungsbasierende Schätzungen als auch kor- relationsbasierende Analysen verwendet.Both performance-based estimates and correlation-based analyzes are preferably used for the adaptation or step size de-control.
Ebenso ist es bevorzugt, zur Schrittweitenbestimmung Leistungs- übertragungsfaktoren in Teilbändern zu schätzen.It is also preferred to estimate power transmission factors in subbands for determining the step size.
Ebenso ist es bevorzugt, daß sowohl die Echokompensatoren als auch die Restfehlernachfilterung die Schätzwerte für die durch sie eingebrachte Echodämpfung liefern, da diese Schätzwerte bevorzugt zur Steuerung der Dämpfung der Pegelwaage verwendet werden können. Dadurch kann die von der Pegelwaage einzubringende Dämpfung weiter reduziert und damit die Gesprächsqualität beim Gegensprechen weiter verbessert werden.It is also preferred that both the echo cancellers and the residual error post-filtering provide the estimates for the echo attenuation introduced by them, since these estimates can preferably be used to control the attenuation of the level balance. As a result, the attenuation to be introduced by the level balance can be further reduced and the conversation quality in the case of two-way communication can be further improved.
Zusätzlich ist es bevorzugt, die gleichzeitige Aktivität beider Gesprächsteilnehmer (Gegensprechen) zu detektieren. Es ist dann beispielsweise möglich, die Gesamtdämpfung der Pegelwaage im Gegensprechfall zu reduzieren, um die Gegensprechfähigkeit (Full-Duplex-Betrieb) der Freisprecheinrichtung weiter zu verbessern.In addition, it is preferred to detect the simultaneous activity of both conversation participants (intercom). It is then possible, for example, to reduce the total attenuation of the level balance in the case of two-way communication in order to further improve the two-way communication capability (full duplex operation) of the hands-free device.
Die vorliegende Erfindung wird im folgenden anhand des in den beigefügten Zeichnungen dargestellten Ausführungsbeispiels nä- her beschrieben. Es zeigt:
Figur 1 ein vereinfachtes Modell einer Freisprecheinrichtung mit Anschluß an eine digitale Verbindung;The present invention is described in more detail below with reference to the exemplary embodiment shown in the accompanying drawings. It shows: 1 shows a simplified model of a hands-free device with connection to a digital connection;
Figur 2 ein Blockschaltbild der erfindungsgemäßen Frei Sprecheinrichtung;Figure 2 is a block diagram of the speakerphone according to the invention;
Figur 3 Kurven für die Dämpfungsanforderungen an die Freisprecheinrichtung in Abhängigkeit von der Echolauf- zeit;FIG. 3 curves for the attenuation requirements for the hands-free device as a function of the echo time;
Figur 4 eine Übersichtsdarstellung des erfindungsgemäßen Verfahrens;FIG. 4 shows an overview of the method according to the invention;
Figur 5 die Struktur der Adaption der Teilbandechokompensato- ren;FIG. 5 shows the structure of the adaptation of the subband echo compensators;
Figur 6 eine Modellvorstellung für die Leistungsübertragungs- faktoren;FIG. 6 shows a model for the power transmission factors;
Figur 7 eine Darstellung der Signale des fernen und des lokalen Teilnehmers anhand derer im folgenden das erfindungsgemäße Verfahren erläutert wird;FIG. 7 shows the signals of the distant and the local subscriber on the basis of which the method according to the invention is explained below;
Figur 8 die daraus resultierende Anregung und der gestörte Fehler im Band 1;FIG. 8 the resulting excitation and the disturbed error in band 1;
Figur 9 den geschätzten Leistungsübertragungsfaktor unter den Bedingungen gem. Fig. 7 und 8 im Band 1;9 shows the estimated power transmission factor under the conditions according to 7 and 8 in volume 1;
Figur 10 die von der Schrittweitensteuerung gewählte Schrittweite im Band 1 unter den Bedingungen gem. Fig. 7 und10 shows the step size selected by the step size control in band 1 under the conditions according to FIG. Fig. 7 and
Figur 11 die erfindungsgemäße Glättung der Dämpfungsabsenkung;
Figur 12 eine Detaildarstellung der Nachfilterung des Fehlersignals;FIG. 11 the smoothing of the attenuation reduction according to the invention; FIG. 12 shows a detailed illustration of the post-filtering of the error signal;
Figur 13 die erfindungsgemäße Glättung der Schrittweiten (Teil A für gleiche Zeitkonstanten, Teil B für unterschiedliche Zeitkonstanten) ;FIG. 13 the smoothing of the step sizes according to the invention (part A for the same time constants, part B for different time constants);
Figur 14 ein weiteres Beispiel für die Signale des fernen und des lokalen Teilnehmers, die in den weiteren Figuren der Verarbeitung zugrunde liegen;FIG. 14 shows a further example of the signals of the remote and the local subscriber, which are the basis for the processing in the further figures;
Figur 15 den Abgleichverlauf und die Dämpfung durch das weitere Filter im Band 1;FIG. 15 the adjustment curve and the damping by the further filter in band 1;
Figur 16 die Dämpfung durch das weitere Filter in Band 1;16 shows the attenuation by the further filter in band 1;
Figur 17 die Übergabe der Dämpfungswerte an die Pegelwaage; undFIG. 17 the transfer of the damping values to the level balance; and
Figur 18 die Anregungs- und Fehlerleistung im Gesamtband (jeweils für den Eingangssignalverlauf gem. Fig. 14) .18 shows the excitation and error power in the entire band (in each case for the input signal curve according to FIG. 14).
In Fig. 1 ist ein vereinfachtes Modell einer Freisprecheinrich- tung 10 mit Anschluß an eine digitale Verbindung 12 dargestellt. Die im europäischen ISDN-Netz verwendete A-Law- Codierung bzw. Decodierung ist in den beiden linken Blöcken 14, 16 dargestellt. Auf der rechten Seite ist das Lautsprecher- Raum-Mikrophonsystem 18 (LRM-System) mit dem lokalen Gespräch- steilnehmer 20, dem Benutzer der Freisprecheinrichtung, skizziert.1 shows a simplified model of a hands-free device 10 connected to a digital connection 12. The A-law coding or decoding used in the European ISDN network is shown in the two left blocks 14, 16. The loudspeaker-room microphone system 18 (LRM system) with the local subscriber 20, the user of the hands-free device, is sketched on the right-hand side.
Durch die akustische Kopplung zwischen Lautsprecher und Mikrophon kommt es zum Übersprechen über das LRM-System. Dieses Übersprechen wird vom fernen Teilnehmer als störendes Echo
wahrgenommen. Akustische Wellen treten dabei aus dem Lautsprecher aus und breiten sich im Raum aus. Durch Reflexion an den Wänden und anderen sich im Raum befindlichen Gegenständen entstehen mehrere Ausbreitungspfade, durch die unterschiedliche Laufzeiten des Lautsprechersignals entstehen. Das Echosignal am Mikrophon besteht somit aus der Überlagerung einer Vielzahl von Echoanteilen und ggf. dem Nutzsignal n(t): dem lokalen Sprecher.The acoustic coupling between loudspeaker and microphone leads to crosstalk via the LRM system. This crosstalk is echoed by the distant subscriber perceived. Acoustic waves emerge from the loudspeaker and spread out in the room. Reflection on the walls and other objects in the room creates several paths of propagation, which result in different durations of the loudspeaker signal. The echo signal at the microphone thus consists of the superimposition of a large number of echo components and possibly the useful signal n (t): the local speaker.
Auch die Verbindung zwischen den Teilnehmern kann an Übergängen zwischen verschiedenen Ubertragungssystemen Echos erzeugen. Die Netzbetreiber versuchen jedoch, direkt an den kritischen Stellen besondere Maßnahmen gegen derartige Echoquellen zu treffen, so daß diese Echos hier außer Acht gelassen werden können. Auch Gabelechos, die in Telefonen mit analogem Interface durch Fehlanpassung der Leitungsnachbildung an die Leitungsimpedanz entstehen, können durch die Verwendung von digitalen Verbindungen außer Betracht gelassen werden.The connection between the participants can also generate echoes at transitions between different transmission systems. However, the network operators try to take special measures against such echo sources directly at the critical points, so that these echoes can be disregarded here. Fork echoes, which arise in phones with an analog interface due to mismatching of the line simulation to the line impedance, can be disregarded by using digital connections.
In Fig. 2 ist eine Übersicht der erfindungsgemäßen Freisprecheinrichtung dargestellt. Zentrales Element ist eine Pegelwaage 22, welche im linken Teil der Fig. 2 dargestellt ist. Optional können zwei Verstärkungssteuerungen 24, 26 (Automatic Gain Control = AGC) in den Sende- und den Empfangspfad einge- schaltet werden. Die Pegelwaage 22 garantiert die durch die ITU- bzw. ETSI-Empfehlungen vorgeschriebenen Mindestdämpfungen, in dem sie abhängig von der Gesprächssituation Dämpfungen in den Sende- und/oder den Empfangspfad einfügt. Bei Aktivität des fernen Teilnehmers wird der Empfangspfad freigeschaltet und das Signal des fernen Teilnehmers wird ungedämpft auf dem Lautsprecher ausgegeben. Die bei abgeschalteten oder schlecht abgeglichenen Kompensatoren entstehenden Echos werden durch die in den Sendepfad eingefügte Dämpfung stark verringert. Bei Aktivität des lokalen Sprechers kehrt sich die Situation um. Während der Empfangspfad stark bedämpft wird, fügt die Pegelwaage 22 in den
Sendepfad keine Dämpfung ein und das Signal des lokalen Spre¬ chers wird ungedämpft übertragen. Schwieriger wird die Steue¬ rung der Pegelwaage im Gegensprechfall. Hier erhalten beide Pfade (und damit auch die TeilnehmerSignale) jeweils die Hälfte der einzufügenden Dämpfung oder bei nicht optimaler Steuerung wird zumindest einer der beiden Signalpfade gedämpft. Gegensprechen ist damit nicht oder nur eingeschränkt möglich.2 shows an overview of the hands-free device according to the invention. The central element is a level balance 22, which is shown in the left part of FIG. 2. Optionally, two gain controls 24, 26 (Automatic Gain Control = AGC) can be switched on in the transmit and receive path. The level balance 22 guarantees the minimum attenuations prescribed by the ITU or ETSI recommendations by inserting attenuations into the transmission and / or reception path depending on the conversation situation. When the remote subscriber is active, the reception path is activated and the signal from the remote subscriber is output undamped on the loudspeaker. The echoes that occur when the compensators are switched off or poorly balanced are greatly reduced by the damping inserted into the transmission path. When the local speaker is active, the situation is reversed. While the reception path is strongly attenuated, the level balance 22 adds to the Transmission path no attenuation and the signal of local case-¬ Chers is transmitted unattenuated. More difficult is the Steue ¬ tion of the level discriminator in the duplex case. Here, both paths (and thus also the subscriber signals) each receive half of the damping to be inserted or, if the control is not optimal, at least one of the two signal paths is damped. Intercom is therefore not possible or only possible to a limited extent.
Abhilfe schafft hier der Einsatz von adaptiven Echokompensato- ren 28 - dargestellt im rechten Teil der Fig. 2. Diese versuchen das LRM-System digital nachzubilden, um dann den Echoanteil des fernen Teilnehmers aus dem Mikrophonsignal herauszurechnen. Je nachdem, wie gut die Kompensatoren dies bewerkstelligen, kann die durch die Pegelwaage einzufügende Gesamtdämp- fung reduziert werden.This is remedied by the use of adaptive echo cancellers 28 - shown in the right part of FIG. 2. These try to digitally emulate the LRM system in order to then calculate the echo component of the distant subscriber from the microphone signal. Depending on how well the compensators manage this, the total attenuation to be introduced by the level balance can be reduced.
Die Echokomponsation wurde in Frequenzteilbändern implementiert, wobei die Breite der einzelnen Bänder vorzugsweise zwischen 250 Hz und 500 Hz bei 8 kHz Abtastrate bzw. zwischen 500 Hz und 1000 Hz bei 16 kHz Abtastrate liegt. Der Einsatz einer frequenzselektiven Echokompensation hat mehrere Vorteile. Zum einen kann durch Verwendung von Unter- und Überabtastung das System als Multiratensystem betrieben werden, wodurch sich der Berechnungsaufwand verringert. Zum anderen kann durch die Teil- bandzerlegung die "Kompensationsleistung" unterschiedlich auf die einzelnen Frequenzbereiche verteilt werden und somit eine effektive Anpassung der "Kompensationsleistung" an Sprachsignale erreicht werden. Weiter hat die Teilbandverarbeitung eine dekorrelierende Wirkung, wenn die Gesamtbandverarbeitung mit den einzelnen Teilbandsystemen verglichen wird. Für Sprachsignale bedeutet dies eine Erhöhung der Konvergenzgeschwindigkeit der adaptiven Filter. Neben diesen Vorteilen darf der Nachteil einer Teilbandverarbeitung nicht außer Acht gelassen werden. Die Zerlegung eines Signals in einzelne Frequenzbereiche be- wirkt stets eine Laufzeit - im vorliegenden bevorzugten Verfah-
ren 32 ms bei 8 kHz Abtastrate bzw. 16 ms bei 16 kHz Abtastra¬ te. Da das Verfahren jedoch für Videokonferenzen bzw. in GSM- Mobiltelephonen eingesetzt wird, sind solche Laufzeiten zulässig.The echo composition was implemented in frequency subbands, the width of the individual bands preferably being between 250 Hz and 500 Hz at 8 kHz sampling rate or between 500 Hz and 1000 Hz at 16 kHz sampling rate. The use of frequency selective echo cancellation has several advantages. On the one hand, by using undersampling and oversampling, the system can be operated as a multirate system, which reduces the calculation effort. On the other hand, by dividing the sub-band, the "compensation power" can be distributed differently over the individual frequency ranges and thus an effective adaptation of the "compensation power" to speech signals can be achieved. Subband processing also has a decorrelating effect when the overall tape processing is compared with the individual subband systems. For speech signals, this means an increase in the convergence speed of the adaptive filters. In addition to these advantages, the disadvantage of subband processing must not be ignored. The decomposition of a signal into individual frequency ranges always has a duration - in the present preferred method ren 32 ms at 8 kHz sampling rate and 16 ms at 16 kHz te Abtastra ¬. However, since the method is used for video conferences or in GSM mobile phones, such runtimes are permissible.
In Videokonferenzsystemen wird die Laufzeit hauptsächlich von der bildverarbeitenden Komponente bestimmt. Da im allgemeinen versucht wird, dem lokalen Teilnehmer Bild und Ton des fernen Teilnehmers lippensynchron auszugeben, kann sich die Laufzeit der akustischen Echos auf mehrere hundert Millisekunden erhöhen. In Fig. 3 sind die Ergebnisse einer Studie dargestellt, in der versucht wurde, herauszufinden, welche Echodämpfung abhängig von der Laufzeit dieses Echos notwendig ist, damit 90, 70 bzw. 50 Prozent der Befragten mit der Gesprächsqualität zufrie- den waren.In video conferencing systems, the runtime is mainly determined by the image processing component. Since attempts are generally made to output the image and sound of the remote subscriber lip-synchronized to the local subscriber, the running time of the acoustic echoes can increase to several hundred milliseconds. 3 shows the results of a study in which an attempt was made to find out which echo attenuation is necessary depending on the duration of this echo, so that 90, 70 and 50 percent of the respondents were satisfied with the quality of the conversation.
Basierend auf dieser Studie sind bei der reinen Audiolaufzeit von 30 - 40 ms (bei 8 kHz Abtastrate) lediglich 35 dB Echodämpfung notwendig. Bei lippensynchroner Ausstrahlung von Bild und Ton und einer damit verbundenen Laufzeit von beispielsweise 300 ms erhöht sich die Anforderung auf 53 dB. Auch in GSM- Verbindungen kann die Laufzeit mehr als 100 ms betragen. Die Anforderungen, die an Echokompensationsverfahren in Videokonferenz- und GSM-Systemen gestellt werden, sind somit höher als die Anforderungen an herkömmliche Freisprechtelefone.Based on this study, a pure audio runtime of 30 - 40 ms (at 8 kHz sampling rate) only requires 35 dB echo attenuation. In the case of lip-synchronous transmission of image and sound and an associated runtime of, for example, 300 ms, the requirement increases to 53 dB. The runtime can also be more than 100 ms in GSM connections. The requirements placed on echo cancellation methods in video conferencing and GSM systems are thus higher than the requirements placed on conventional hands-free telephones.
Da die Echokompensatoren in ihrer Leistungsfähigkeit begrenzt sind und derart hohe Echodämpfungen mit der zur Verfügung stehenden Hardware nicht erreichen können, wurde ein sog. Postfil- ter 30 eingeführt. Dieses wertet die Schrittweiten der einzelnen Teilbänder zusammen mit den anderen Detektorergebnissen aus und filtert das Synthesefilterausgangssignal nochmals frequenzselektiv. Da der Einstellalgorithmus des Filters 30 gemäß einem Wiener-Ansatz entworfen wurde, wird diese Postfilterung im fol- genden auch mit Wiener-Filterung bezeichnet.
Die Steuerung der Echokompensatoren erfolgt in mehreren Stufen. Alle leistungsbasierenden Steuereinheiten 32 arbeiten für jeden Kompensator autonom, also unabhängig von den restlichen Fre- quenzbereichen. In Fig. 2 ist daher für jeden Kompensator eine eigene Adaptions- und Steuereinheit 32 skizziert. Die auf Korrelationsanalysen des Lautsprecher- und des Mikrophonsignals basierende Stufe der Steuerung wird zur Gegensprechdetektion verwendet und daher in allen Frequenzbereichen gleichermaßen ausgewertet. Eine weitere Stufe trägt der durch die Festkommaarithmetik begrenzten Genauigkeit Rechnung und steuert die Adaption in Abhängigkeit der Aussteuerung.Since the echo cancellers are limited in their performance and cannot achieve such high echo attenuation with the available hardware, a so-called post filter 30 was introduced. This evaluates the step sizes of the individual subbands together with the other detector results and filters the synthesis filter output signal again in a frequency-selective manner. Since the setting algorithm of filter 30 was designed in accordance with a Wiener approach, this post-filtering is also referred to below as Wiener filtering. The echo cancellers are controlled in several stages. All power-based control units 32 work autonomously for each compensator, that is to say independently of the remaining frequency ranges. A separate adaptation and control unit 32 is therefore sketched in FIG. 2 for each compensator. The control stage, which is based on correlation analyzes of the loudspeaker and microphone signals, is used for intercom detection and is therefore evaluated equally in all frequency ranges. A further level takes into account the accuracy limited by the fixed point arithmetic and controls the adaptation depending on the modulation.
Die endgültige Gegensprecherkennung erfolgt ebenfalls gesondert mit einer eigenen Einheit, die sich sowohl auf die Detektoren der Pegelwaage als auch auf die der Echokompensatoren stützt. Diese Einheit veranlaßt die Pegelwaage in Gegensprechsituatio- nen die einzufügende Gesamtdämpfung nochmals (gemäß der ITU- Empfehlung G.167) zu reduzieren.The final intercom detection is also carried out separately with its own unit, which is based on both the level balance detectors and the echo cancellers. This unit causes the level balance in intercom situations to reduce the total attenuation to be inserted again (in accordance with ITU recommendation G.167).
In Fig. 4 ist eine Übersichtsdarstellung des oben beschriebenen Zusammenhangs wiedergegeben. Zentrales Element ist hierbei die Berechnung des Schrittweitenvektors c (k) . Dieser wird sowohl zur Steuerung der Teilbandechokompensatoren als auch zur Be- rechnung der Koeffizienten des Postfilters verwendet. Die beiden Teilverfahren berechnen jeweils die durch sie hervorgerufene Echodämpfung und teilen diese Informationen der Pegelwaage 22 mit. Die Waage 22 reduziert dann die vom Benutzer eingestellte Gesamtdämpfung und fügt nur noch die restliche Dämpfung in den Sende- bzw. den Empfangspfad ein.4 shows an overview of the relationship described above. The central element here is the calculation of the step size vector c (k). This is used both to control the subband echo cancellers and to calculate the coefficients of the post filter. The two sub-methods each calculate the echo attenuation caused by them and communicate this information to the level balance 22. The scale 22 then reduces the total attenuation set by the user and only inserts the remaining attenuation into the transmission or reception path.
Da sich die vorliegende Erfindung auf die Kombination der oben erwähnten Wiener-Filterung und der Adaptionssteuerung der Teilbandechokompensatoren bezieht, werden beide Verfahren in eige- nen Kapiteln detailliert beschrieben. Neu an dem vorgestellten
Ansatz ist die Verwendung einer einzigen Steuergröße - dem Schrittweitenvektor ά(k) - für beide Verfahren. Durch den hier¬ durch verringerten Rechenaufwand (weniger 100 Zyklen/Abtasttakt für die Postfilterung) wird es ermöglicht, beide Verfahren auf preiswerten "Consumer"-Signalprozessoren zu implementieren und damit die Qualität der Freisprecheinrichtung zu erhöhen.Since the present invention relates to the combination of the above-mentioned Wiener filtering and the adaptation control of the subband echo cancellers, both methods are described in detail in separate chapters. New to the featured The approach is to use a single control variable - the step size vector ά (k) - for both methods. By ¬ here by reduced computational cost (less 100 cycles / sampling for post filtering), it is possible to implement both methods on inexpensive "Consumer" -Signalprozessoren and thus increase the quality of the speakerphone.
Bisherige Ansätze zur Fehlernachfilterung verwenden zunächst eine (aufwendige) FFT-Analyse bzw. andere rechenleistungsinten- sive Berechnungsverfahren und betrachten die Steuerung der Postfilterung stets getrennt von der Steuerung der Echokompensation.Previous approaches to error filtering initially use a (complex) FFT analysis or other computation-intensive calculation methods and always consider the control of post-filtering separately from the control of echo compensation.
Die für die Teilbandverarbeitung notwendige Frequenzbandanalyse und -synthese ist als Polyphasenfilterbank implementiert.The frequency band analysis and synthesis required for subband processing is implemented as a polyphase filter bank.
Zuerst wird - zunächst unabhängig von der späteren Verwendung innerhalb der Wiener-Filterung - eine Schrittweitensteuerung beschrieben, welche eine schnelle und stabile Adaption der Teilbandechokompensatoren gewährleistet. Zusätzlich werden Verfahren vorgestellt, welche die erreichte Echodämpfung schätzen. Die Pegelwaage 22 kann somit - basierend auf diesen Schätzwerten - die Gesamtdämpfung reduzieren. Für die Dämpfungsschätzung ist es dabei unerheblich, ob die Dämpfung von gut abgeglichenen Echokompensatoren, durch die akustische Anordnung von Lautsprecher und Mikrophon oder durch eine entsprechende Wahl der analogen Verstärkungen erreicht wird.First of all - regardless of the later use within the Wiener filtering - a step size control is described, which ensures a fast and stable adaptation of the subband echo cancellers. In addition, methods are presented that estimate the echo attenuation achieved. The level balance 22 can thus reduce the total attenuation based on these estimated values. For the attenuation estimate, it is irrelevant whether the attenuation of well-balanced echo cancellers is achieved by the acoustic arrangement of the loudspeaker and microphone or by an appropriate choice of the analog amplifications.
Die Adaption der Teilbandechokompensatoren wird mittels eines auf den verwendeten Signalprozessor angepaßten NLMS-Verfahrens durchgeführt. Um die Notation der folgenden Beschreibung zu erläutern, ist in Fig. 5 eine Strukturdarstellung des Adaptionsprozesses wiedergegeben.
,(OThe adaptation of the subband echo cancellers is carried out by means of an NLMS method adapted to the signal processor used. In order to explain the notation of the following description, a structural representation of the adaptation process is shown in FIG. 5. ,(O
Durch Faltung der geschätzten Teilbandimpulsantworten _P_ (*,) mit den Teilbandanregungssignalen des fernen Teilnehmers %P *■ r werden die geschätzten Mikrophonsignale V y(μΓ) Ä ? ' gebildet:By folding the estimated subband impulse responses _P_ (*,) with the subband excitation signals of the remote subscriber% P * ■ r , the estimated microphone signals V y ( μ Γ) Ä? ' educated:
Der Index μ soll dabei die Teilbandnummer anzeigen. Durch Differenzbildung zwischen dem geschätzten und dem gemessenen Mikrophonsignal wird der Adaptionsfehler e(r)(kr ) berechnet:The index μ should show the subband number. The adaptation error e (r) (k r ) is calculated by forming the difference between the estimated and the measured microphone signal:
Dieser Fehler setzt sich aus einem sog. ungestörten Fehler und den durch den lokalen Sprecher hervorgerufene Anteil
zusammen:This error consists of a so-called undisturbed error and the portion caused by the local speaker together:
e[r)( ) = >(*,) + „«(*,). :3.3:e [ r) () = > (*,) + "« (*,). : 3.3:
Die Adaption erfolgt mittels einer Näherung des NLMS- Algorith usThe adaptation is carried out using an approximation of the NLMS algorithm
c?(kr + ϊ) ( 3 . 4 :
c? (k r + ϊ) (3. 4:
wobei mit F ( X ) die bereits angesprochene Näherungsfunktion bezeichnet ist.where F (X) denotes the approximation function already mentioned.
Die Koeffizienten der Teilbandechokompensatoren werden während des Betriebs der Freisprecheinrichtung mit den Adaptionsverfah- ren laufend an die Teilbandimpulsantworten des LRM-Syste s an-
gepaßt. Damit kann auch nach Systemänderungen eine Reduktion der akustischen Echos erreicht werden. Das Einstellkriterium für das verwendete Adaptionsverfahren ist die Minimierung des mittleren quadratischen Fehlers. Gemäß der Rechenvorschrift des NLMS-Algorithmus erfahren die Koeffizienten eine starke Änderung, wenn die Abtastwerte des kompensierten Signals e(r) (kr ) des μ-ten Teilbandes groß sind. Andauernd große Werte e r)(kr ) können auf zwei Ursachen zurückgeführt werden:The coefficients of the subband echo cancellers are continuously applied to the subband impulse responses of the LRM system during the operation of the hands-free device using the adaptation methods. fit. A reduction in acoustic echoes can thus be achieved even after system changes. The setting criterion for the adaptation method used is the minimization of the mean square error. According to the calculation specification of the NLMS algorithm, the coefficients undergo a strong change if the samples of the compensated signal e (r) (k r ) of the μth subband are large. Constantly large values e r) (k r ) can be attributed to two causes:
1. Nach Änderungen im LRM-System sind die adaptiven Filter schlecht an die Raum-Impulsantwort angepaßt. Es findet dann keine oder eine nur geringe Reduktion der akustischen Echos statt - die unkompensierten Echoanteile bewirken eine Vergrößerung der Signale e{r)(kr ) • Die Kompensatoren sollten in solchen Situationen möglichst schnell angeglichen werden.1. After changes in the LRM system, the adaptive filters are poorly adapted to the room impulse response. There is then no or only a slight reduction in the acoustic echoes - the uncompensated echo components cause the signals e {r) (k r ) to increase. • In such situations, the compensators should be adjusted as quickly as possible.
2. Eine Erhöhung des lokalen Anteils n (k) - beispielsweise bei Aktivität des lokalen Sprechers - bewirkt ebenfalls eine Vergrößerung der Signale e(r) (kr ) • Dieser Anteil ist für die Frei- Sprecheinrichtung das zu übertragende Nutzsignal, für die adaptiven Filter stellt er jedoch ein Störung dar, die zu einer Fehleinstellung der Koeffizienten führen kann. In solchen Situationen sollten die Kompensatoren nicht oder nur wenig verstellt werden, damit der bereits erreichte Abgleich nicht wie- der verschlechtert wird.2. An increase in the local component n (k) - for example when the local speaker is active - also causes the signals e (r) (k r ) to increase. This component is the useful signal to be transmitted for the hands-free device and for the adaptive device However, the filter represents a malfunction that can lead to an incorrect setting of the coefficients. In such situations, the compensators should not be adjusted, or only slightly, so that the adjustment already achieved is not deteriorated again.
Es wurde bereits eine Schrittweitensteuerung vorgestellt, welche die beiden beschriebenen Gesprächssituationen bzw. Zustände der Kompensatoren berücksichtigt und die gestellten Forderungen an die Adaptionssteuerung erfüllt. Die Schrittweite im -ten Teilband sollte gemäß
A step size control has already been presented which takes into account the two described conversation situations or states of the compensators and fulfills the demands placed on the adaptation control. The step size in the -th subband should be according to
eingestellt werden. Das gestörte Fehlersignal e(r)(kr ) im Nenner der Gleichung 3.5 ist direkt meßbar - der Erwartungswert davon kann durchcan be set. The disturbed error signal e (r) (k r ) in the denominator of equation 3.5 can be measured directly - the expected value of this can be determined by
abgeschätzt werden. Die rechte Seite der Näherung 3.6 soll da- bei eine rekursive Glättung erster Ordnung bezeichnen:can be estimated. The right-hand side of approximation 3.6 is intended to denote first-order recursive smoothing:
Für die Abschätzung des Zählers wird ein Leistungsübertragungs- faktor pμ r) (kr ) eingeführt. Dabei wird die Parallelschaltung ausA power transfer factor p μ r) (k r ) is introduced to estimate the meter. The parallel connection is switched off
LRM-System und Echokompensator einschließlich der Subtraktionsstelle in erster Näherung als einfaches Dämpfungsglied modelliert .Modeled LRM system and echo canceller including the subtraction point in a first approximation as a simple attenuator.
Die Größe dieser Dämpfung (Verhältnis von Anregungs- zu Fehlerleistung) wird durch den Leistungsübertragungsfaktor im TeilbandThe size of this damping (ratio of excitation to error power) is determined by the power transmission factor in the subband
' *ir)(*r) " ' * i r) (* r ) "
Pμ (kr ) mit kr G K ES.FT : 3 . 8 ) x{ μ r K )P μ (k r ) with k r GK ES.FT: 3. 8) x { μ r K)
abgeschätzt. Das Modell setzt hierbei voraus, daß im LRM-System keine zusätzlichen Störungssignale - wie z. B. Aktivität des lokalen Sprechers - vorhanden sind. In Gleichung 3.8 wurde aus
diesem Grund die Menge KES,FT eingeführt. Diese Menge soll die Zeitpunkte, in welchen sich die Freisprecheinrichtung im Zu¬ stand Einzelsprechen des fernen Teilnehmers befindet, beinhal¬ ten.estimated. The model assumes that there are no additional interference signals in the LRM system - e.g. B. Local speaker activity - are present. Equation 3.8 was made from for this reason the amount K ES , FT introduced. This amount is to the times in which the handsfree in to ¬ stand Single the remote subscriber is located, beinhal ¬ th.
Das in Gleichung 3.8 verwendete, geglättete quadratische Anre¬ gungssignal wird dabei analog zur geschätzten Fehlerleistung bestimmt:The smoothed square Anre used in equation 3.8 ¬ acceleration signal is in this case analogous to the estimated error power determined:
*v(κ) \2=ßx\ z?(κ) r+α-A) κr)(κ -i)i (3.9;* v (κ) \ 2 = ß x \ z? (κ) r + α-A) κ r) (κ -i) i (3.9;
In Zuständen ohne Raumänderung wird sich der Leistungsübertra- gungsfaktor im Vergleich zu den (Kurzzeit-) Anregungsleistungen nur sehr langsam ändern. Zur Verbesserung der Varianz der obi- gen Schätzung können damit rekursive Glättungen mit großen Zeitkonstanten verwendet werden. Die Bezeichnung groß ist dabei im Verhältnis zu den Zeitkonstanten bei den Leistungsschätzun- gen zu sehen.In states without a change in space, the power transmission factor will only change very slowly compared to the (short-term) excitation powers. Recursive smoothing with large time constants can thus be used to improve the variance of the above estimate. The designation large is to be seen in relation to the time constants in the performance estimates.
Bei Aktivität des lokalen Teilnehmers wird die Schätzung des Restechos stark gestört. In solchen Fällen sollte die Erneuerung der Schätzung des Leistungsübertragungsfaktors nicht vorgenommen werden - die zuletzt berechneten pμ r) (kr ) werden beibehalten. Durch diese Maßnahme können Raumänderungen bei Aktivi- tat des lokalen Sprechers nicht detektiert werden. Erst nach dem erneuten Erreichen des Zustands Einzelsprechen des fernen Teilnehmers werden die Leistungsübertragungsfaktoren in solchen Fällen angeglichen. Die Bestimmungsgleichung für die geglätteten Leistungsübertragungsfaktoren kann damit gemäßIf the local participant is active, the estimation of the residual echo is severely disturbed. In such cases, the power transfer factor estimate should not be updated - the most recently calculated p μ r) (k r ) are retained. This measure means that changes in space cannot be detected when the local speaker is active. In such cases, the power transmission factors are only adjusted after the individual subscriber status has been reached again. The determination equation for the smoothed power transmission factors can thus according to
angegeben werden. Die Schrittweiten ^ (kr ) können wie folgt an¬ genähert werden: can be specified. The increments (k r) can be as follows approached to ¬:
Aus den bisherigen Überlegungen folgt, daß die Bestimmung der Leistungsübertragungsfaktoren in zwei Teile untergliedert werden kann. Zum einen muß eine effektive Berechnung der beiden Leistungsschätzungen bzw. der Divisionen dieser beiden Größen auf der zur Verfügung stehenden Hardware gefunden werden. Zum anderen müssen die Zeitpunkte, welche in der Menge KES,FT enthalten sind, detektiert werden.From the previous considerations it follows that the determination of the power transmission factors can be divided into two parts. On the one hand, an effective calculation of the two performance estimates or the divisions of these two quantities must be found on the hardware available. On the other hand, the times that are contained in the set K ES , FT must be detected.
Für das erste Teilproblem wurden nichtlineare, rekursive Glät- tungen verwendet. Als Eingangssignale dieser Filter wurde die Summe aus dem Betrag des Realteils und dem Betrag des Imaginärteils der Teilbandsignale gewählt. Zur Vermeidung der Division wurden die Leistungsfaktoren logarithmisch berechnet - die Division kann somit durch eine Subtraktion ersetzt werden.Nonlinear, recursive smoothing was used for the first subproblem. The sum of the amount of the real part and the amount of the imaginary part of the subband signals was selected as the input signals of these filters. To avoid division, the performance factors were calculated logarithmically - the division can therefore be replaced by a subtraction.
Für das zweite Teilproblem wurde ein sog. Korrelationsmaß ξ(kr ) eingesetzt . Hierbei wird eine normierte Kreuzkorrelationsanalyse des Anregungssignals des fernen Teilnehmers und des Mikrophonsignals durchgeführt. Bei Einzelsprechen des fernen Teilnehmers sind die beiden Signale stark korreliert und das Korrelationsmaß liefert Werte ξ( ) « 1. Bei Aktivität des lokalen Gesprächsteilnehmers verringert sich die Korrelation und es werden Werte ξ(kr) < 1 detektiert.A so-called correlation measure ξ (k r ) was used for the second sub-problem. A standardized cross-correlation analysis of the excitation signal of the distant subscriber and the microphone signal is carried out. When the distant subscriber speaks individually, the two signals are strongly correlated and the correlation measure gives values ξ () «1. When the local subscriber is active, the correlation is reduced and values ξ (kr) <1 are detected.
Zur Verdeutlichung der hier folgenden Überlegungen wurde die Steuerung mit den in Fig. 7 dargestellten Eingangssignalen des fernen und des lokalen Gesprächsteilnehmers getestet.
Für beide Signale wurde in den Aktivitätsphasen weißes, gauß- verteiltes Rauschen gewählt. Zu Beginn der Sequenz liegt "Einzelsprechen" des fernen Teilnehmers vor (Phase Aτ ) . Die ad- aptiven Echokompensatoren können in dieser Phase abgleichen und erreichen nach etwa 3 bis 4 Sekunden ihren Endabgleich. Nach 7.5 Sekunden beginnt der lokale Teilnehmer den fernen zu unterbrechen (Gegensprechen, Bereich Bα) und übernimmt dann die Rolle des "Alleinsprechenden" (Bereich C) . Nach 10,75 Sekunden kehrt sich die Situation um. Der ferne Teilnehmer unterbricht den lokalen (Gegensprechen, Bereich B2) und "redet" schließlich allein weiter (Phase A2) .In order to clarify the considerations that follow here, the control was tested with the input signals of the distant and local subscriber shown in FIG. 7. White, Gaussian-distributed noise was selected for both signals in the activity phases. At the beginning of the sequence there is "individual speaking" of the distant subscriber (phase A τ ). The adaptive echo cancellers can adjust in this phase and reach their final adjustment after about 3 to 4 seconds. After 7.5 seconds, the local subscriber begins to interrupt the distant one (intercom, area B α ) and then takes on the role of "sole speaker" (area C). The situation reverses after 10.75 seconds. The distant participant interrupts the local (intercom, area B 2 ) and finally "talks" alone (phase A 2 ).
Das Mikrophonsignal wird durch Faltung des Anregungssignals mit der bereits vorgestellten Impulsantwort eines Büroraumes (Länge 2044 Koeffizienten bei 8 kHz Abtrastrate) und anschließender Addition des Signals des lokalen Sprechers gebildet.The microphone signal is formed by convolution of the excitation signal with the impulse response already presented in an office room (length 2044 coefficients at 8 kHz sampling rate) and subsequent addition of the signal from the local speaker.
In Fig. 8 sind die mittleren Leistungen des Anregungs- und des Fehlersignals dargestellt. Die Adaption wurde mit der im folgenden beschriebenen Schrittweitensteuerung durchgeführt, wobei davon ausgegangen wird, daß die Korrelationsauswertungen nur in den Bereichen Aα und A2 Freigaben liefern. In der Abbildung ist deutlich zu erkennen, daß der im Laufe der Phase Aτ erreichte Abgleich von etwa 25 dB über die Bereiche des Gegensprechens und des Einzelsprechens des lokalen Teilnehmers gehalten werden kann.8 shows the mean powers of the excitation and error signals. The adaptation was carried out with the step size control described below, it being assumed that the correlation evaluations only deliver releases in the areas A α and A 2 . The figure clearly shows that the adjustment of about 25 dB achieved in the course of phase A τ can be maintained over the areas of intercom and individual speaking of the local subscriber.
Zur Bestimmung des Leistungsübertragungsfaktors im /-ten Teil- band müssen gemäß Gleichung 3.8 die mittleren Leistungen des Anregungssignals und des ungestörten Fehlersignals geschätzt werden. Um das Problem von Grenzzyklen zu vermeiden, wäre bei direkter Ausführung der Glättung wie sie in Gleichung 3.7 bzw. in Gleichung 3.9 vorgeschlagen wurde, eine Rechnung in Doppel- wort-Genauigkeit (32 Bit) notwendig. Um den damit verbundenen
Speicherbedarf bzw. die benötigte Rechenleistung zu reduzieren, werden lediglich Betragsglättungen durchgeführt:To determine the power transmission factor in the / -th subband, the average powers of the excitation signal and the undisturbed error signal must be estimated according to equation 3.8. In order to avoid the problem of limit cycles, a calculation with double-word accuracy (32 bits) would be necessary if smoothing was directly carried out as suggested in equation 3.7 or in equation 3.9. To the associated To reduce the memory requirement or the required computing power, only amount smoothing is carried out:
zV( ) \ = ßz\ zV(K) I + 0- U \* ( -i)| (3.12:zV () \ = ß z \ zV (K) I + 0- U \ * (-i) | (3.12:
:3.131
: 3,131
Damit der kritische Fall der Aktivität des lokalen Teilnehmers bei Gegensprechen möglichst schnell erkannt werden kann, wurden bei der Glättung des Fehlersignals zwei unterschiedliche Zeitkonstanten {ßer und ßef) für steigende und fallende Flanken eingeführt. Die Zeitkonstante ße wird gemäß ßer falls Yp(kr)> ß.
ßef sons (3.14: mit 0 < ße < A < 1So that the critical case of the activity of the local subscriber in intercom can be recognized as quickly as possible, two different time constants {ß er and ß ef ) were introduced for rising and falling edges when smoothing the error signal. The time constant ß e becomes according to ß er if Yp (k r )> ß. ß ef sons (3.14: with 0 <ß e <A <1
gebildet. Die so erhaltene Schätzung verliert durch die Wahl von zwei unterschiedlichen Zeitkonstanten ihre Erwartungstreue. Aus diesem Grund werden im Stand der Technik Korrekturfaktoren eingeführt. Hier soll ein anderer Weg eingeschlagen werden. Die Schätzung der Anregungsleistung erfolgt mit den gleichen Zeit- konstanten wie die Schätzung der Fehlerleistung:educated. The estimate obtained in this way loses its expectations by choosing two different time constants. For this reason, correction factors are introduced in the prior art. Another path is to be taken here. The excitation power is estimated with the same time constants as the error power estimate:
ßv falls ^ x kr)> |* (*r-l) ß^ sonst :3.151 mit ßzr=ßerundßzf=ßef.ß v if ^ xk r )> | * (* r -l) ß ^ else: 3.151 with ß zr = ß er andß zf = ß ef .
Durch die anschließende Division der beiden Größen kann auf den Korrekturfaktor verzichtet werden. Die Betragsbildungen wurden durch die aufwandgünstigeren Abschätzungen
,(') (kr)| «|Re{ (Är)}|+Jim {x kr)}| (3.16;The correction factor can be dispensed with by subsequently dividing the two quantities. The amount calculations were made by the more cost-effective estimates , (') (k r ) | «| Re {(Ä r )} | + Jim {xk r )} | (3.16;
ir )\ |Re{ ^(Är)}|+|lm{ (Är) (3.17)i r ) \ | Re {^ (Ä r )} | + | lm {(Ä r ) (3.17)
angenähert. Auch hier kann wieder ein Korrekturterm durch die Divisionsbildung weggelassen werden. Wie bereits im vorigen Abschnitt erwähnt, werden die Leistungsübertragungsfaktoren nur logarithmisch bestimmt - die Division wird dadurch auf zwei Logarithmierungen und eine Subtraktion zurückgeführt. Die Leistungsübertragungsfaktoren werden somit gemäßapproximated. Here, too, a correction term can be omitted by forming the division. As already mentioned in the previous section, the power transmission factors are only determined logarithmically - the division is thus reduced to two logarithms and one subtraction. The power transmission factors are thus according to
Pη (kr ) = LOG
- LOG {|* W(*r)|} ;3.18) P η (k r ) = LOG - LOG {| * W (* r ) |}; 3.18)
undand
geschätzt. Mit LOG {...} wird dabei die Logarithmierung bezeichnet. Die Zeitkonstante ßp wurde ebenfalls unterschiedlich für steigende und fallende Flanken gewählt. Hiermit soll dem nicht kompensierbaren Teil der Systemlaufzeit (künstliche Verzögerung des Mikrophonsignals) gerecht werden. Durch diese Laufzeit fällt die Signalleistung des Anregungssignals früher ab als die des Fehlersignals - ohne Korrektur dieses Vorgangs würde die Schätzung eine Absenkung des Schätzwertes nach jeder Anregungsphase durchführen. Zusätzlich werden bei Detektion von Gegensprechen die Zeitkonstanten erhöht. Der verwendete Gegen- sprechdetektor ist weiter unten beschrieben. Die Bestimmungsgleichung für die Zeitkonstante ßp lautet:
G K, GSestimated. LOG {...} denotes the logarithm. The time constant ß p was also chosen differently for rising and falling edges. This is intended to do justice to the non-compensable part of the system runtime (artificial delay of the microphone signal). Due to this runtime, the signal power of the excitation signal drops earlier than that of the error signal - without correcting this process, the estimate would lower the estimated value after each excitation phase. In addition, the time constants are increased when two-way communication is detected. The two-way detector used is described below. The equation for the time constant ß p is: GK, GS
<£K, GS<£ K, GS
mit 0 < ßpr,GS < ßFf,GS < und O < ßpr ES < ßpf ES < \. (3.20) with 0 <ß pr, GS <ß Ff, GS <and O <ß pr ES <ß pf ES <\. (3.20)
Mit KGS sollen dabei die Zeitpunkte, in welchen der oben be- schriebene Detektor Gegensprechen erkennt, bezeichnet werden. Die Menge KES,FT bezeichnet die Zeitpunkte, in welchen das Korrelationsmaß Einzelsprechen des fernen Teilnehmers erkennt.K GS is used to denote the times at which the detector described above detects intercom. The set K ES , FT denotes the points in time at which the correlation measure recognizes individual speech by the distant subscriber.
Vergleiche zwischen diesen Näherungen und der exakten Berech- nung nach Gleichung 3.10 ergaben Abweichungen bei Sprachanregung von weniger als 2 dB. Für die Verwendung innerhalb der Schrittweitensteuerung reicht dies aus, somit wurde dieses Schätzverfahren für den Leistungsübertragungsfaktor verwendet.Comparisons between these approximations and the exact calculation according to Equation 3.10 showed deviations with speech excitation of less than 2 dB. This is sufficient for use within the step size control, so this estimation method was used for the power transmission factor.
In Fig. 9 ist der geschätzte Leistungsübertragungsfaktor im ersten Band p^^ik, ) dargestellt. Seine Schätzung wird in den Bereichen i, C und B2 nicht erneuert, da hier vom Korrelationsmaß keine Freigaben geliefert werden. Im Vergleich mit Fig. 8 ist eine gute Übereinstimmung des Soll- und des Schätzwertes zu er- kennen. Als Sollwert ist hierbei die Leistungsdifferenz zwischen Anregung und Fehler zu sehen. Sowohl der Verlauf als auch der auf Fig. 8 zu erkennende Endwert von etwa 26 - 30 dB wird in der Schätzung gut nachgebildet.9 shows the estimated power transmission factor in the first band p ^^ ik,). Its estimate is not renewed in areas i, C and B 2 , since no releases are provided by the correlation measure. In comparison with FIG. 8, a good match between the target and the estimated value can be seen. The power difference between pickup and error can be seen as the setpoint. Both the course and the final value of approximately 26-30 dB that can be seen in FIG. 8 are well reproduced in the estimate.
Aus den bisher berechneten Größen können die Schrittweiten a (kr ) i-n den einzelnen Bändern gemäß
The step size a (k r) i-n can each band from the previously calculated sizes, according to
mitWith
ÖG{
£< } }ÖG { £ <}}
[3.22)[3.22)
bestimmt werden. Mit LIN {...} ist dabei die Linearisierung bezeichnet. Falls die Anregungsleistung eine Grenze
unter- schreitet, wird davon ausgegangen, daß die Anregung lediglich aus Hintergrundgeräusch besteht und die Adaption wird angehalten.be determined. The linearization is designated with LIN {...}. If the excitation power is a limit falls below, it is assumed that the excitation consists only of background noise and the adaptation is stopped.
In Fig. 10 ist die Schrittweite im ersten Teilband logarith- misch dargestellt. In Phasen des Einzelsprechens des fernen Teilnehmers (Äi und A ) ist die Schrittweite etwa 1 - in Phasen des Einzelsprechens des lokalen Teilnehmers (ßi und B2 ) kann aus Fig. 8 eine Differenz von gestörter zu ungestörter Fehlerleistung von etwa 26 bis 30 dB ermittelt werden. Die Schrittweite liegt demnach auch in den Gegensprechphasen im erwarteten Bereich (ca. -27 dB) .The step size in the first subband is shown logarithmically in FIG. In phases of individual speaking by the distant subscriber (Ai and A), the step size is approximately 1 - in phases of individual speaking by the local subscriber (βi and B 2 ), a difference from disturbed to undisturbed error performance of approximately 26 to 30 dB can be determined from FIG. 8 become. The step size is therefore also in the expected range (approx. -27 dB) in the intercom phases.
Für die oben vorgestellte Schrittweitensteuerung wird eine Schätzung des Leistungsübertragungsfaktors benötigt. Diese Schätzung sollte nur bei Einzelsprechen des fernen Teilnehmers erneuert werden. In Gleichung 3.19 wurde aus diesem Grund die Menge KES,FT eingeführt, welche die Zeitpunkte beinhalten soll, in denen das gewünschte Einzelsprechen vorliegt. Durch die starke rekursive Glättung führen kurzzeitige Fehlentscheidungen bei der Auswahl der Zeitpunkte zu keinen großen Fehlschätzungen der Übertragungsfaktoren.
Der angestrebte Detektor sollte zwischen Einzelsprechen und Gegensprechen unabhängig von Raumänderungen und auch unabhängig von der Leistung der Eingangssignale entscheiden können. Es wird ein Korrelationsmaß verwendet - ein Detektor, welcher die obigen Anforderungen erfüllt. Hierbei wird die Kreuzkorrelation zwischen dem Lautsprechersignal und dem Mikrophonsignal in einer normierten Form ausgewertet.For the step size control presented above, an estimate of the power transmission factor is required. This estimate should only be renewed if the distant participant speaks individually. For this reason, the set K ES , FT was introduced in equation 3.19, which should contain the times at which the desired single speech is present. Due to the strong recursive smoothing, short-term wrong decisions in the selection of the times do not lead to major misjudgments of the transmission factors. The desired detector should be able to decide between single-talk and two-way talk independently of room changes and also independently of the power of the input signals. A correlation measure is used - a detector that meets the above requirements. The cross correlation between the loudspeaker signal and the microphone signal is evaluated in a standardized form.
Für die Auswertung werden die beiden Signale mit Schätzfenstern (Rechteckfunktionen) der Länge ii multipliziert. Die so erhaltenen endlichen Signalfolgen werden gemäßFor the evaluation, the two signals are multiplied by estimation windows (rectangular functions) of length ii. The finite signal sequences thus obtained are according to
(3.23!(3.23!
ausgewertet. Bei stark korrelierten Signalen wird ein Maximum der oben beschriebenen Auswertung erreicht, wenn die Schätzfenster gerade um die Laufzeit des LRM-Systems zueinander verschoben sind. Da diese Laufzeit unbekannt und auch veränderlich ist (z.B. durch Verschieben des Lautsprechers oder des Mikrophons), wird das Maximum aus einer Folge von L2 Auswertungen weiterverarbeitet. Die einzelnen Auswertungen verwenden dann ein um 1 Takte verzögertes Anregungssignal x (k-l) . Die Bestimmungsglei- chung erweitert sich zu:
evaluated. In the case of strongly correlated signals, a maximum of the evaluation described above is achieved when the estimation windows are just shifted from one another by the running time of the LRM system. Since this runtime is unknown and also changeable (eg by moving the loudspeaker or the microphone), the maximum from a sequence of L 2 evaluations is processed further. The individual evaluations then use an excitation signal x (kl) delayed by 1 cycle. The equation of determination extends to:
mit l e {θ...L2 - l}. with le {θ ... L 2 - l}.
(3.24)(3.24)
Die Zähler und Nenner der obigen Gleichung müssen dabei in Doppelwort-Genauigkeit (32 Bit) ausgewertet werden. Um den Rechenaufwand zu verringern, werden die einzelnen Korrelationsmaße ξ(k,l)rekursiv berechnet:The numerators and denominators of the above equation must be evaluated in double word precision (32 bits). To reduce the computational effort, the individual correlation measures ξ (k, l) are calculated recursively:
Z(k,l) ξ(k,l) = N(k )Z (k, l) ξ (k, l) = N (k)
(3.25)(3.25)
Eine Freigabe wird dann gesetzt, wenn das Maximum aus den be- stimmten Korrelationsmaßen größer als ein Grenzwert ξ0 ist. Um eine Division von zwei 32-Bit-Werten zu vermeiden, wird der Grenzwert ξ0 durch eine endliche Summe aus nichtpositiven ZweierpotenzenA release is set when the maximum of the determined correlation measures is greater than a limit value ξ 0 . In order to avoid a division of two 32-bit values, the limit wird 0 is determined by a finite sum of non-positive powers of two
Nt n=0 mit an e{0,l} (3.26)
angenähert. Der Schwellwertvergleich kann dann auf eine Summa- tion von rechtsverschobenen Nennerwerten und einen Vergleich zurückgeführt werden: N tn = 0 with a n e {0, l} (3.26) approximated. The threshold value comparison can then be traced back to a summation of right-shifted denominator values and a comparison:
NξNξ
∑ an2-"N(k,l) <> Z(k,l). n=0∑ a n 2- "N (k, l) <> Z (k, l). N = 0
(3.27)(3.27)
Um den Rechenaufwand weiter zu reduzieren, wurden die Auswertungen nur im leistungsstärksten, ersten Teilband und dort auch nur mit den Realteilen der komplexwertigen Signale durchgeführt. In diesem Band ist bei Sprachanregung mit dem größten Signal-Geräusch-Abstand zu rechnen, was die Zuverlässigkeit der Detektorergebnisse verbessern sollte. Durch diese Maßnahme werden durch die Unterabtastung die Berechnungen nur alle r Ab- tasttakte durchgeführt werden. Der Zeitpunkt kr wird dann in die Menge KES,Fτ aufgenommen, falls einer der L2 Vergleiche ein Korrelationsmaß größer als ξ0 ergibt.In order to further reduce the computing effort, the evaluations were only carried out in the most powerful, first subband and there only with the real parts of the complex signals. In this band, the greatest signal-to-noise ratio can be expected for voice excitation, which should improve the reliability of the detector results. As a result of this measure, the subsampling will only carry out the calculations every r sampling cycles. The time k r is then included in the set K ES , F τ if one of the L 2 comparisons yields a correlation measure greater than ξ 0 .
Entsprechend der ITU-Empfehlung G. 167 kann die durch die Frei- Sprecheinrichtung zu erbringende Echodämpfung in Gegensprechsi- tuationen um 15 dB verringert werden. Aus diesem Grund wurde ein Gegensprechdetektor gemäß den folgenden Überlegungen entwickelt. Gleichzeitig kann dieser Detektor dazu verwendet werden, die Schätzungen in der Schrittweitensteuerung bei auftre- tendem Gegensprechen "vorsichtiger" einzustellen.According to ITU recommendation G. 167, the echo attenuation to be provided by the hands-free device can be reduced by 15 dB in intercom situations. For this reason, an intercom detector has been developed according to the following considerations. At the same time, this detector can be used to "more carefully" set the estimates in the step size control when two-way communication occurs.
Die Detektion von Gegensprechen wird in zwei Schritten durchgeführt. In einer ersten Stufe wird überprüft, ob der ferne Sprecher aktiv ist. Hierzu wird zum einen das betragsgeglättete An- regungssignal des fernen Teilnehmers mit einer Schwelle |x| verglichen - zum anderen wird überprüft, ob der Pegelwaagenalgorithmus Anregung des fernen Teilnehmers erkannt hat. Der zweite Vergleich ist immer dann notwendig, wenn die Pegelwaage große Dämpfungswerte einbringt (z. B. nach Raumänderungen). In sol-
chen Situationen kann der Empfangspfad stark bedämpft sein. Hier würde der Vergleich mit dem geglätteten Eingangssignal kein zuverlässiges Ergebnis liefern. Anregung des fernen Teilnehmers (Afe = 1) wird demnach immer dann angenommen, wenn entweder der Leistungsvergleich oder der Pegelwaagendetektor (Variable SR = 1) dies erkennen:The detection of intercom is carried out in two steps. In a first stage it is checked whether the distant speaker is active. For this purpose, on the one hand, the excitation signal of the distant subscriber, smoothed in magnitude, with a threshold | x | compared - on the other hand, it is checked whether the level balance algorithm has detected excitation from the remote subscriber. The second comparison is always necessary if the level scale brings in large attenuation values (e.g. after changes in room). In such situations, the reception path can be severely damped. Here the comparison with the smoothed input signal would not provide a reliable result. The remote participant's excitation (A fe = 1) is therefore always accepted if either the performance comparison or the level balance detector (variable SR = 1) detects this:
A J l , falls Q ) A J l if Q)
0, sonst0, otherwise
Das betragsgeglättete Anregungssignal wird dabei analog zu den in der Schrittweitensteuerung beschriebenen rekursiven, nichtlinearen Glättungen berechnet. Zu beachten ist hier allerdings, daß durch die höhere Abtastrate größere Zeitkonstanten verwendet werden müssen und dadurch Grenzzyklen auftreten können. Ei- ne Rechnung in Doppelwort-Genauigkeit (32 Bit) ist deshalb erforderlich:The amount-smoothed excitation signal is calculated analogously to the recursive, non-linear smoothing described in the step size control. It should be noted here, however, that the higher sampling rate means that larger time constants must be used and limit cycles can occur as a result. A double-word precision calculation (32 bit) is therefore required:
x(k) \ = ßa x(k - N^ +(l - ß„) |*(* " 1) !3.29)x (k) \ = ß a x (k - N ^ + (l - ß „) | * (*" 1)! 3.29)
Die Zeitkonstante ßxg wird dabei wie folgt gewähltThe time constant ß xg is chosen as follows
ßxgr ßlls\χ(k - N) \ > \χ(k - 1) | ß„ = ßm ,sonst (3.30) mit Q < ßxgr < ßχgf < \.ß xgr ßlls \ χ (k - N) \> \ χ (k - 1) | ß „= ß m , otherwise (3.30) with Q <ß xgr <ß χgf <\.
Die Verzögerung von N Takten wurde eingeführt, um bei den Ver- gleichen in der zweiten Detektorstufe die Laufzeit des Analyse- Synthese-Systems wieder auszugleichen. Es ist hierzu kein zusätzlicher Speicher notwendig, da das Analysefilter ohnehin die letzten N Signalwerte des Eingangssignals speichert.
In einer zweiten Stufe wird festgestellt, ob auch der lokale Gesprächsteilnehmer aktiv ist. Hierzu wird ein Vergleich zwi¬ schen der Leistung des geschätzten, ungestörten Fehlers und des meßbaren, gestörten Fehlers durchgeführt. Die Leistungsschätzungen werden wieder auf Betragsglättungen bzw. die Bestimmung eines Leistungsübertragungsfaktors zurückgeführt. Die Glättung des Fehlersignals wird gemäßThe delay of N clocks was introduced in order to compensate for the runtime of the analysis-synthesis system in the comparisons in the second detector stage. No additional memory is necessary for this, since the analysis filter stores the last N signal values of the input signal anyway. In a second stage it is determined whether the local call participant is also active. To this end, a comparison Zvi ¬ will rule the power of the estimated undisturbed error and the measurable, disturbed error made. The power estimates are traced back to smoothing the amount or the determination of a power transfer factor. The error signal is smoothed according to
durchgeführt. Die Zeitkonstante ßeg wird wie folgt gewählt:carried out. The time constant ß eg is chosen as follows:
ß, eg„r , falls e(k) \ >
r ezß, eg „r, if e (k) \> r ez
\ß. sonst (3.32)\ ß. otherwise (3.32)
mitßeSr = Zgr U"d ß Sf = ßZgr with ß S r = Zgr U "d ß Sf = ß Zgr
Für die Schätzung der ungestörten Fehlerleistung wird ein (Gesamtband-) Leistungsübertragungsfaktor pEK (k)bestimmt:A (total band) power transmission factor p EK (k) is determined to estimate the undisturbed error power:
pEK(k) = }. 13.33)
p EK (k) =}. 13.33)
Um die Varianz der Schätzung zu verbessern, wird auch diese Größe rekursiv geglättet. Da die Bestimmung des Übertragungsfaktors lediglich aus geglätteten Größen besteht, wird sie nur unterabgetastet ausgeführt:In order to improve the variance of the estimate, this variable is also smoothed recursively. Since the determination of the transmission factor only consists of smoothed quantities, it is only carried out under-sampled:
nύt ° < ßre < l nύt ° <ß re < l
( 3 . 34 )
Zur Detektion der Anregung des lokalen Teilnehmers (Alo = 1) wird die Differenz aus der gemessenen und der geschätzten Fehlerleistung bestimmt. Um Fehlentscheidung zu vermeiden wurde eine zusätzliche Sicherheitsschwelle pGS eingeführt. Der Detektor erkennt Anregung des lokalen Teilnehmers, wenn die gemessene Fehlerleistung um mindestens pGs dB größer ist als die aus der Anregungsleistung und dem Leistungsübertragungsfaktor geschätzte Fehlerleistung. Auch dieser Vergleich wird unterabgetastet ausgeführt: }+ /&>(*,).(3. 34) To detect the excitation of the local participant (A lo = 1), the difference between the measured and the estimated error power is determined. To avoid wrong decisions, an additional safety threshold p GS was introduced. The detector detects excitation of the local subscriber when the measured error power is at least p G s dB greater than the error power estimated from the excitation power and the power transmission factor. This comparison is also carried out under-sampled:} + / &> (*,).
[3.35)[3.35)
Der Detektor erkennt Gegensprechen, wenn die UND-Verknüpfung der Variablen Afe und A1O den Wert eins ergibt. In diesen Fällen kann die Restdämpfung, welche durch die Pegelwaage eingebracht wird, um pGsmax = 15 dB verringert werden. Die Verringerung der Dämpfungsanforderung erfolgt tiefpaßgeglättet. Die Zeitkonstante für die steigende Flanke ßGsr sollte möglichst klein sein, um den Beginn einer Sprachpassage nicht abzuschneiden. Die Zeit- konstante für die fallende Flanke ßGsf sollte größer als die An- stiegskonstante gewählt werden, damit die DämpfungsabSenkung Pos ier ) in kurzen Sprachpausen nicht vollständig zurückgenommen wird. In Fig. 11 ist dieser Zusammenhang dargestellt. Die geglättete Dämpfungsabsenkung wird wie folgt bestimmt:The detector detects two-way communication when the AND combination of the variables A fe and A 1O results in the value one. In these cases, the residual attenuation introduced by the level balance can be reduced by p G s max = 15 dB. The attenuation requirement is reduced using a low-pass filter. The time constant for the rising edge ß Gsr should be as small as possible so as not to cut off the beginning of a speech passage . The time constant for the falling flank ß Gsf should be greater than the arrival be selected rose constant, thus lowering the damping Pos e r) i n short speech pauses is not completely withdrawn. This relationship is shown in FIG. The smoothed damping reduction is determined as follows:
Der Zeitpunkt kr wird in die Menge Kgs aufgenommen, falls die Dämpfungsabsenkung über einem vorbestimmten Wert liegt. Ein beispielhafter Verlauf der Dämpfungsabsenkung ist in Fig. 11 dargestellt.
Die Gesamtdämpfung der Pegelwaage, welche durch die ITU-T- Empfehlung G. 167 vorgeschrieben ist, kann um die Dämpfung des Gesamtsystems aus Raum und Echokompensator abgesenkt werden. Selbst im Falle abgeschalteter Echokompensation erfolgt durch die beschriebene Steuerung eine Schätzung des Übertragungsfak- tors der akustischen Strecke vom Lautsprecher zum Mikrophon einschließlich der analogen Verstärkungen. Hierdurch kann auf unterschiedliche Lautsprecher- bzw. verschiedene (analoge) Mi- krophonverStärkungen reagiert und die Gesamtdämpfung entsprechend den geforderten Werten (digital) angepaßt werden. Im Ge- gensprechfall kann die Gesamtdämpfung ebenfalls gemäß der ITU- T-Empfehlung G. 167 auf einen geringeren Wert gesetzt werden. Auch hierfür wurde ein Detektor und eine entsprechende Überga- begröße vorgestellt bzw. definiert. Die Pegelwaagengesamtdämp- fung DPW{k) wird damit (zunächst noch ohne Berücksichtigung der Postfilterung) nach folgendem Verfahren gesteuert:The time k r is included in the quantity K gs if the damping reduction is above a predetermined value. An exemplary course of the damping reduction is shown in FIG. 11. The total attenuation of the level balance, which is prescribed by ITU-T recommendation G. 167, can be reduced by the attenuation of the overall system consisting of room and echo canceller. Even when echo compensation is switched off, the control described above estimates the transmission factor of the acoustic path from the loudspeaker to the microphone, including the analog amplifications. In this way it is possible to react to different loudspeaker or different (analog) microphone amplifications and to adjust the total attenuation (digital) according to the required values. In the opposite case, the total attenuation can also be set to a lower value in accordance with ITUT recommendation G. 167. For this, too, a detector and a corresponding transfer size were presented or defined. The total level balance damping D PW {k) is thus controlled (initially without taking post-filtering into account) using the following procedure:
DPW (k) = D0 - DEK (k) - DGS (k) .3 . 31 )D PW (k) = D 0 - D EK (k) - D GS (k) .3. 31)
Alle Größen der obigen Gleichung liegen entsprechend den Anforderungen des ARCOFI-Pegelwaagen-Verfahrens in logarithmischer Form vor. D0 ist dabei die geforderte Maximaldämpfung (z.B. 45 dB) . Die Dämpfung des Echokompensators DEK (k) wird durch die Be- rechnungsformAll quantities of the above equation are available in logarithmic form in accordance with the requirements of the ARCOFI level balance method. D 0 is the required maximum attenuation (eg 45 dB). The attenuation of the echo canceller D EK (k) is determined by the form of calculation
!/>£>(*) falls k = ir (3.38) * (*) = Djxik- Ϊ) sonst (3.39) mit i eZ! />£> (*) if k = ir (3.38) * ( * ) = D j xik- Ϊ) otherwise (3.39) with i eZ
bestimmt. Analog dazu kann die Gegensprechabsenkung DGS (k) mit
p%£ falls k = ir (3.40)certainly. Similarly, the intercom reduction D GS (k) can be used p% £ if k = ir (3.40)
DGS(k) =D GS (k) =
Pπi - V) sonst (3.41) mit i eZP π i - V) otherwise (3.41) with i eZ
angegeben werden.can be specified.
In der Echtzeitrealisierung des Echokompensationsverfahrens zeigt sich, daß die adaptiven Filter den Anteil des fernen Sprechers niemals vollständig aus dem Mikrophonsignal herausrechnen können. Dies kann viele verschiedene Ursachen haben, drei davon sind hier exemplarisch angeführt:The real-time implementation of the echo cancellation method shows that the adaptive filters can never completely calculate the portion of the distant speaker from the microphone signal. This can have many different causes, three of which are listed here as examples:
a)Die Raumimpulsantworten sind im allgemeinen länger als die Echokompensatoren, wodurch ein Restfehler übrig bleibt.a) The space impulse responses are generally longer than the echo cancellers, leaving a residual error.
b)Die Festkommaarithmetik des verwendeten DSP 's wirkt sich be- grenzend auf den Endabgleich der Filter aus.b) The fixed point arithmetic of the DSP used has a limiting effect on the final adjustment of the filters.
c)Bei Raumänderungen führt der NLMS-Algorithmus die adaptiven Filter nur mit einer endlichen Geschwindigkeit nach - bis zum erneuten Erreichen des Endabgleichs sind Echos wieder stärker wahrnehmbar.c) In the case of room changes, the NLMS algorithm only tracks the adaptive filters at a finite speed - echoes are more noticeable again until the final adjustment is reached again.
Das Fehlersignal e (k) enthält somit neben dem Anteil des lokalen Sprechers n (k) auch noch den nicht kompensierten Anteil des fernen Sprechers, der bereits in den vorherigen Teilen dieser Beschreibung als 'ungestörter' Fehler ε (k) bezeichnet wurde. Für den fernen Teilnehmer ist das Signal n (k) der Nutzanteil des Signals e (k) - das Signal ε (k) ist aus dieser Sicht die Störung.The error signal e (k) thus contains, in addition to the portion of the local speaker n (k), also the uncompensated portion of the distant speaker, which was already referred to in the previous parts of this description as an 'undisturbed' error ε (k). For the distant subscriber, the signal n (k) is the useful component of the signal e (k) - the signal ε (k) is the disturbance from this point of view.
Im folgenden wird gezeigt, wie eine Nachfilterung des Signals e (k) - zur Dämpfung der "Störung" ε (k) - basierend auf einem Wiener-Filter-Ansatz mit der Schrittweitensteuerung für die
Teilbandechokompensatoren verknüpft werden kann. Hierzu wird ein Transversalfilter der Ordnung M - 1 im Anschluß an die Synthesefilterung eingefügt. Der Parameter M ist dabei gleichzeitig die Bandanzahl der Filterbank. Die Koeffizienten werden in der Teilbandebene bestimmt und mit einer inversen DFT in den Zeitbereich transformiert. Die Koeffizientenbestimmung ist durch mehrere Glättungen mit einer Trägheit und damit einer Laufzeit behaftet. Durch die zwischen der Koeffizientenbestimmung und -Verwendung liegende, maximalphasig entworfene Synthe- sefilterung kann diese Laufzeit zumindest zum Teil wieder ausgeglichen werden. Die Nachfilterung erfolgt hierbei im Zeitbereich und frequenzselektiv.The following shows how post-filtering of the signal e (k) - to dampen the "interference" ε (k) - based on a Wiener filter approach with the step size control for the Subband echo cancellers can be linked. For this purpose, a transversal filter of order M - 1 is inserted after the synthesis filtering. The parameter M is also the number of bands in the filter bank. The coefficients are determined in the subband level and transformed into the time domain with an inverse DFT. The coefficient determination is affected by several smoothings with an inertia and thus a running time. This runtime can be at least partially compensated for by the maximum-phase synthesis filter that lies between the determination and use of coefficients. The post-filtering takes place in the time domain and frequency-selective.
Bei der Herleitung ergeben sich einfache Steuergrößen, mit de- nen der "Einfluß" des Wiener-Filters abhängig von der Kompensationsleistung der adaptiven Filter gesteuert werden kann. Auch die durch diese Maßnahme eingefügte Dämpfung kann mit geringem Aufwand geschätzt und der Pegelwaage "mitgeteilt" werden.In the derivation there are simple control variables with which the "influence" of the Wiener filter can be controlled depending on the compensation power of the adaptive filter. The damping introduced by this measure can also be estimated with little effort and "notified" to the level balance.
Im folgenden wird sich zeigen, daß die Bestimmung der Koeffizienten des Wiener-Filters sich auf die Berechnung von +\ Subtraktionen, einer (vereinfachten) inversen Fourier- Transformation der Länge M und einigen rekursiven Glättungen zurückführen läßt. Sowohl die Subtraktionen als auch die inver- se FFT und die Glättungen sind dabei nur alle r Abtastwerte auszuführen. Der Berechnungsaufwand ist damit im Vergleich zu den übrigen Komponenten der Freisprecheinrichtung sehr gering!It will be shown below that the determination of the coefficients of the Wiener filter can be traced back to the calculation of + \ subtractions, a (simplified) inverse Fourier transform of length M and some recursive smoothing. The subtractions as well as the inverse FFT and the smoothing are only to be carried out every r samples. The computation effort is very low compared to the other components of the hands-free system!
Gemäß Fig. 12 wird das Filter g(k) 30 hinter der Synthese pla- ziert. Die Ordnung des Filters betrage M - 1, es müssen also M Koeffizienten eingestellt werden. Das Filter 30 soll gemäß dem Wiener-Ansatz das "gestörte" Signal e(k) optimal von der "Störung" ε(k) befreien. Der Frequenzgang eines solchen Filters lautet:
sm(Ω σ-(Ω) =12, the filter g (k) 30 is placed behind the synthesis. The order of the filter is M - 1, so M coefficients must be set. According to the Wiener approach, the filter 30 should optimally free the "disturbed" signal e (k) from the "disturbance" ε (k). The frequency response of such a filter is: s m (Ω σ- (Ω) =
Für das Signal e(k) gilt:The following applies to the signal e (k):
e (k) = ε (k) + n (k) .e (k) = ε (k) + n (k).
Der Filterfrequenzgang kann damit zuThe filter frequency response can be too
C-(Ω) =C- (Ω) =
_Sεε(Ω)+-SεB(Ω)+ S/ιε(Ω)+ S/ιn(Ω)_S εε (Ω) + - S εB (Ω) + S / ιε (Ω) + S / ιn (Ω)
umgeformt werden. Die Signale des fernen und des lokalen Teilnehmers (n(k) bzw. ε(k) ) werden als unkorreliert vorausgesetzt.be reshaped. The signals of the distant and the local subscriber (n (k) or ε (k)) are assumed to be uncorrelated.
Bedingt durch die Hochpaßfilterung des Leitungseingang- und des Mikrophonsignals wird weiter Mittelwertfreiheit der Signale n(k) und ε(k) angenommen. Der Frequenzgang vereinfacht sich dadurch zu:Due to the high-pass filtering of the line input and the microphone signal, freedom from the mean values of the signals n (k) and ε (k) is also assumed. This simplifies the frequency response to:
<v(")= Sεε(Ω Sn)n +(n Sn ) n(Ω) ^(Ω)<v ( " ) = S εε (Ω Sn ) n + (n S n ) n (Ω) ^ (Ω)
1-1-
Sεε(Ω) + Snn(Ω) ^(Ω)S εε (Ω) + S nn (Ω) ^ (Ω)
= 1-= 1-
^e(Ω)^ e (Ω)
Da das Filter g(k) die Ordnung M - 1 haben und durch inverse Fourier-Transformation aus dem Frequenzgang Gopt(Ω) bestimmt werden soll, müssen M Stützstellen des Frequenzgangs bestimmt werden. Für die FrequenzenSince the filter g (k) has the order M - 1 and is to be determined from the frequency response G opt (Ω) by inverse Fourier transformation, M nodes of the frequency response must be determined. For the frequencies
aμ = μ2^ mit μ e {0... M - l }a μ = μ 2 ^ with μ e {0 ... M - l}
ergibt sich:
< (Ωμ) = l S,(Ωμ)surrendered: <(Ω μ ) = l S, (Ω μ )
Die Frequenzen Ω^ stellen aber neben den Stützstellen im Frequenzbereich auch gleichzeitig die Bandmitten der zuvor beschriebenen Bandpässe bei der Teilbandzerlegung dar. Bei der Schätzung der Größe <>°__(""μ) kann somit auf entsprechende Größen in den einzelnen Teilbändern zurückgegriffen werden. Gopt (Ω^) kann durchThe frequencies Ω ^ represent, in addition to the support points in the frequency range, also the band centers of the bandpasses described above when dividing the subband. When estimating the size <> ° __ ("" μ), it is therefore possible to use corresponding sizes in the individual subbands. G opt (Ω ^) can by
angenähert werden. Da bei der Herleitung des Wiener-Filters Stationarität der Eingangssignale vorausgesetzt wurde, dies aber bei Sprache nur für kurze Passagen angenommen werden kann, sollten die Leistungsdichtesprektren durch entsprechende Kurz- zeitleistungsschätzwerte im jeweiligen Frequenzbereich ersetzt werden. Somit gelten für die Schätzung der Quotientenbe approximated. Since stationarity of the input signals was assumed in the derivation of the Wiener filter, but this can only be assumed for short passages in speech, the power density spectra should be replaced by corresponding short-term power estimates in the respective frequency range. The following therefore apply to the estimation of the quotients
die gleichen Voraussetzungen wie für die Schätzung der Schrittweiten in den jeweiligen Bändern. Die DFT-Transformierte des Filters g(k) könnte daher gemäßthe same requirements as for the estimation of the step sizes in the respective bands. The DFT transform of the filter g (k) could therefore according to
G (k) = l - a (k)G (k) = l - a (k)
bestimmt werden. Die hochgestellten " (r) " sollen dabei auf die Unterabtastebene hinweisen. G (k) bzw. a\ (k) ändern sich somit nur alle r Abtastschritte. Im bevorzugten Ausführungsbeispiel
wurde r = 13 gewählt. Es wurde gezeigt, daß die komplexen Bän¬ der nur für μ = l...^-\ berechnet werden müssen - die Bänder =^-l... -l können durch komplexe Konjugation ermittelt wer¬ den. Da die Schrittweiten aber reellwertig sind, kann der Vek- tor ä (k) wie folgt gebildet werdenbe determined. The superscript "(r)" should indicate the subsampling level. G (k) or a \ (k) therefore only change every r sampling steps. In the preferred embodiment r = 13 was chosen. It was shown that the complex Ribbons ¬ only for μ = l ... ^ - must be calculated \ - the tapes = ^ - l ... -l can be determined by complex conjugation ¬ to. However, since the step sizes are real, the vector ä (k) can be formed as follows
Da die Teilbandzerlegung den Bereich des letzten Teilbandes (bei 8 kHz Abtastrate 3750 Hz - 4000 Hz) herausfiltert, soll dieser Bereich im verwendeten Wiener-Filter ebenfalls undurchlässig sein, wodurch sich die Wahl von G8 (r)(A:) = 0 bzw. a( s r k) = l ergibt.Since the subband division filters out the area of the last subband (at 8 kHz sampling rate 3750 Hz - 4000 Hz), this area should also be impermeable in the Wiener filter used, which means that the choice of G 8 (r) (A :) = 0 or a ( s r k) = l results.
In der praktischen Anwendung dieses Verfahrens zeigt sich, daß ein leicht modifizierter Ansatz zu besseren Ergebnissen führt. Analog zu bekannten Verfahren der Geräuschreduktion werden die geschätzten Stützstellen des Filterfrequenzganges zeitlich geglättet, sowie mit einem sog. Überschätzungsfaktor ß und einer Maximaldämpfung Gmin (k) versehen. Die zeitliche Glättung wird auf die Schrittweiten angewendet und erfolgt mit einem IIR- Filter erster Ordnung mit zwei verschiedenen Zeitkonstanten für steigende (γr) und fallenden (γf) Flanken:The practical application of this method shows that a slightly modified approach leads to better results. Analogous to known methods of noise reduction, the estimated support points of the filter frequency response are smoothed over time, and are provided with a so-called overestimation factor β and a maximum attenuation G min (k). The temporal smoothing is applied to the step sizes and is carried out with a first-order IIR filter with two different time constants for rising (γ r ) and falling (γ f ) edges:
<xV(k) = l- yr )aγ(k) + rr UP (k - \)<xV (k) = l- y r ) aγ (k) + r r U P (k - \)
Bei einer linearen Glättung (γr = γf) würde die Dämpfung bei Beginn einer Sprachpassage des fernen Teilnehmers zunächst langsam und dann immer schneller eingebracht. Am Ende der Sprach- passage würde die Dämpfung dann zunächst schnell und dann immer langsamer reduziert. Um diesen Zusammenhang zu verdeutlichen,
ist in Fig. 13 ein beispielhafter Verlauf des Terms (1 - α(k))in einem der Teilbänder dargestellt. Zu Beginn soll eine Sprachpause des fernen Sprechers vorliegen, der Term (1 - α(k)) ist dementsprechend gleich Eins. Mit dem Einsetzen der Sprach- passage werde die Schrittweite α(k) auf einen Wert nahe bei Eins gesetzt - zur Vereinfachung bleibe die Schrittweite bis zum Ende der Sprachsequenz auf diesem Wert, anschließend wird die Schrittweite wieder auf Null gesetzt. Zur Verdeutlichung der Größe der eingefügten Dämpfung (es wird vereinfachend davon ausgegangen, daß in allen Bändern der gleiche Verlauf vorliegt) sind die Stellen, an denen die Kurve mit der geglätteten Schrittweite die Werte (1-^),(1-) und (l -\) erreicht, gekennzeichnet. Diese Werte entsprechen dann einer Dämpfung von 6 dB, 12 dB bzw. 18 dB. Im unteren Teil der Fig. 13 ist der mit zwei unterschiedlichen Zeitkonstanten geglättete Term a(k) dargestellt. Zu Beginn der Sprachpassage wird die Dämpfung hier schnell eingefügt - am Ende erfolgt eine langsamere Reduktion der eingebrachten Dämpfung.In the case of linear smoothing (γ r = γ f ), the damping at the beginning of a speech passage of the distant subscriber would first be introduced slowly and then more and more quickly. At the end of the speech passage, the attenuation would then be reduced quickly and then slowly. To clarify this connection, 13 shows an exemplary course of the term (1 - α (k)) in one of the subbands. At the beginning there should be a speech pause of the distant speaker, the term (1 - α (k)) is therefore equal to one. With the onset of speech passage, the step size α (k) is set to a value close to one - for simplification, the step size remains at this value until the end of the speech sequence, after which the step size is reset to zero. To illustrate the size of the inserted damping (it is assumed for simplicity that all bands have the same course), the points at which the curve with the smoothed step size have the values (1 - ^), (1-) and (l - \) reached, marked. These values then correspond to an attenuation of 6 dB, 12 dB or 18 dB. In the lower part of FIG. 13, the term a (k) smoothed with two different time constants is shown. At the beginning of the speech passage, the damping is inserted here quickly - at the end there is a slower reduction in the damping introduced.
Der in der Implementierung verwendete Vektor a{r)(k) setzt sich somit aus den geglätteten Schrittweiten zusammen:The vector a {r) (k) used in the implementation is thus composed of the smoothed step sizes:
5(r)(Ä)=(^( ),^(Ä),...,^(W,^( ),...,^(Ä))r.5 (r) (Ä) = (^ (), ^ (Ä), ..., ^ (W, ^ (), ..., ^ (Ä)) r .
Der Filterfrequenzgang wird dann gemäßThe filter frequency response is then according to
geschätzt. Der Überschätzungsfaktor ß beschleunigt bei einer Wahl größer als eins das Einbringen der Dämpfung und er vergrößert die Dämpfung. Für ß wird vorzugsweise ein Wert zwischen 1.0 und 3.0 gewählt.
Durch den Parameter Gmln (k) können die Spektralschätzwerte des Filters nach unten begrenzt werden. Wird dieser Parameter beispielsweise zu Null gewählt, so könnte durch das Filter das Ausgangssignal zu Null gesetzt werden. Wird Gmιn (k) = 1 gesetzt, so erfährt das Ausgangssignal keine Änderung. Mit dem Parameter Gmin (k) kann somit der „Einfluß" des Wiener-Filters gesteuert werden. In Echtzeitversuchen zeigte sich, daß es sinnvoll ist, die Steuerung dieses Parameters mit dem Abgleichzustand der Echokompensatoren zu verknüpfen. Zu Beginn eines Abgleichvorgangs ist die Dämpfung, welche durch die Echokompensatoren erreicht wird, noch sehr gering. Hier sollte das Wiener-Filter stark eingreifen und große Dämpfungen (z.B. bis zu 45 dB gemäß den ITU-Empfehlungen) einbringen können. Ist in dem Raum, in dem sich die Freisprecheinrichtung befindet, starkes Hintergrundgeräusch vorhanden, so werden durch das Wiener-Filter die Echos zwar unterdrückt, der ferne Teilnehmer nimmt dann aber eine Art Modulation des Hintergrundgeräusches wahr. In seinen Sprachpausen wird das Geräusch ungedämpft übertragen, während er spricht, erfährt es eine (z. B. 45 dB große) Dämpfung.estimated. If the selection is greater than one, the overestimation factor ß accelerates the introduction of the damping and increases the damping. A value between 1.0 and 3.0 is preferably chosen for β. With the parameter G mln (k) the spectral estimates of the filter can be limited. If this parameter is chosen to be zero, for example, the filter could set the output signal to zero. If G m ι n (k) = 1, the output signal does not change. Thus, with the parameter G m i n (k) of the "influence" of the Wiener filter can be controlled. In real-time tests showed that it is advisable to link the control of this parameter with the collated status of the echo cancellers. At the beginning of a trimming operation is The attenuation achieved by the echo cancellers is still very low. The Wiener filter should intervene strongly and be able to introduce large attenuations (eg up to 45 dB according to the ITU recommendations). Is in the room in which the hands-free system is located If there is strong background noise, the echo is suppressed by the Wiener filter, but the distant participant then perceives a kind of modulation of the background noise. During the pauses in the speech, the noise is transmitted undamped while he is speaking, it experiences a (e.g. B. 45 dB) attenuation.
Zu Beginn eines Abgleichvorgangs sind solche „Effekte" tolera- bel, zumal „herkömmliche" Verfahren wie die Pegelwaage ähnliches bewirken. Mit zunehmendem Abgleich der Kompensatoren soll- te dieser Effekt aber verringert werden. Auch hier liefert die Schrittweitensteuerung eine geeignete Steuergröße - den geschätzten Leistungsübertragungsfaktor DEK(k) . Die Einstellung des Parameter Gmln(k) erfolgt daher gemäß:At the beginning of an adjustment process, such "effects" are tolerable, especially since "conventional" methods such as the level balance have a similar effect. However, this effect should be reduced with increasing compensation of the compensators. Here, too, the step size control provides a suitable control variable - the estimated power transmission factor D EK (k). The parameter G mln (k) is therefore set according to:
Gmin ( ) = LIN {Max {0, { GmaXrlog - DEK (k) - DGS (k) ) } } . (4.2)G min () = LIN {Max {0, {G maXrlog - D EK (k) - D GS (k))}}. (4.2)
Mit „LIN" wird dabei die bereits in der Schrittweitensteuerung verwendete Linearisierung von logarithmischen Größen bezeichnet. Mit dem Parameter GmaXrlog kann die maximale Einfügedämpfung (z.B. 45 dB) eingestellt werden. Dieser Festwert wird dann um
die Dämpfung DEK (k) , welche die Echokompensatoren im Mittel leisten, sowie um die Gegensprechabsenkung DGS (k) reduziert. Die Größen DEK (k) und DGS (k) liegen dabei in der gleichen logarith¬ mischen Form wie die Konstante GmaX/log vor. Die Begrenzung der errechneten Größe auf 0 dB dient der Anpassung an die Linearisierung."LIN" denotes the linearization of logarithmic variables already used in the step size control. The maximum insertion loss (for example 45 dB) can be set with the parameter G maXrlog . This fixed value is then reduced by the attenuation D EK (k), which the echo cancellers provide on average, and the intercom reduction D GS (k) reduced. The sizes D EK (k) and D GS (k) lie in the same logarithmic ¬ mix form as the constant G max / log before. Limiting the calculated size to 0 dB serves to adapt to the linearization.
Damit sind alle Steuergrößen zur Einstellung des Wiener-Filters und die Filterkoeffizienten im Teilbandbereich bestimmt. Die so erhaltenen Spektralschätzwerte des Filters werden mit Hilfe einer inversen DFT so in den Zeitbereich transformiert, daß ein phasenlineares Filter entsteht. Hierbei kann von der Tatsache, daß die Systemfunktion sowohl reellwertig als auch symmetrisch ist, Gebrauch gemacht werden und der Aufwand der IDFT auf etwa ein Viertel reduziert werden.All control variables for setting the Wiener filter and the filter coefficients in the subband range are thus determined. The spectral estimates of the filter obtained in this way are transformed into the time domain with the aid of an inverse DFT in such a way that a phase-linear filter is produced. Here, the fact that the system function is both real and symmetrical can be used and the effort of the IDFT can be reduced to about a quarter.
Die Dämpfung Dw (k) des Signals e (k) durch das Wiener-Filter wird analog zur Dämpfung der Echokompensatoren und der Dämpfungsreduktion bei Gegensprechen über eine Schittstelle der Pe- gelwaage mitgeteilt. Die Dämpfung wird dabei durch den Mittelwert über alle zu übertragenden Frequenzbereiche angenähert:The attenuation D w (k) of the signal e (k) by the Wiener filter is communicated analogously to the attenuation of the echo cancellers and the attenuation reduction in the case of two-way communication via an interface of the level balance. Attenuation is approximated by the mean over all frequency ranges to be transmitted:
Mit „LOG" wird dabei die bereits in der Schrittweitensteuerung verwendete Normierung bzw. Logarithmierung bezeichnet. Sie sorgt für die schnittstellenspezifische Kommunikation mit der Pegelwaage. Die Division durch 8 wird durch Rechtsschieben um 3 Bit erreicht. Bevor die Dämpfung dann endgültig an die Pegel- waage übergeben wird, erfolgt eine rekursive, nichtlineare Glättung:With "LOG" the standardization or logarithmization already used in the step size control is designated. It ensures the interface-specific communication with the level balance. The division by 8 is achieved by shifting to the right by 3 bits. Before the damping then finally reaches the level balance is passed, there is a recursive, nonlinear smoothing:
D '^w (k) = ß, ./ D (k \) + (\-ßr f)D (k).
Die Verwendung von unterschiedlichen Zeitkonstanten für steigende und fallende Flanken bewirkt, daß die Schätzung „vorsichtiger" wird. Wird durch das Wiener-Filter Dämpfung ein- gefügt, so verringert die Pegelwaage ihre Dämpfung langsamer. Kurzzeitig wird das Fehlersignal damit mehr als die geforderten 45 dB gedämpft. Verringert das Wiener-Filter umgekehrt seine Dämpfung, fügt die Pegelwaage sehr schnell die restliche Dämpfung ein. Durch die zeitliche Verzögerung durch die Synthese- filterung kann es auch hier zu einer kurzzeitigen Gesamtdämpfung von mehr als der eingestellten Obergrenze (z.B. 45 dB) kommen.D '^ w (k) = ß, ./ D (k \) + (\ -ß rf ) D (k). The use of different time constants for rising and falling edges causes the estimate to be "more careful". If attenuation is added by the Wiener filter, the level balance reduces its attenuation more slowly. For a short time, the error signal thus exceeds the required 45 dB Conversely, if the Wiener filter reduces its attenuation, the level balance very quickly adds the remaining attenuation, and the delay due to the synthesis filtering can also result in a brief total attenuation of more than the set upper limit (eg 45 dB) .
Zur Verdeutlichung der bisherigen Überlegungen wurde die im Ab- schnitt der Schrittweitensteuerung beschriebene Simulation wiederholt - diesmal aber erweitert mit dem oben vorgestellten Wiener-Filter. Als Raumimpulsantwort wurde die gemessene Raumimpulsantwort eines Büroraumes mit etwa 300 ms Nachhallzeit verwendet. Als Anregungen wurde sowohl auf der fernen als auch auf der lokalen Teilnehmerseite weißes Rauschen gemäß Fig. 14 eingespeist.To illustrate the previous considerations, the simulation described in the section on step size control was repeated - this time, however, expanded with the Wiener filter presented above. The measured room impulse response of an office room with about 300 ms reverberation time was used as the room impulse response. As suggestions, white noise according to FIG. 14 was fed in both on the distant and on the local subscriber side.
Um den Einfluß des Wiener-Filters deutlich darzustellen, wurde die Maximaldämpfung GmaX χog zu 60 dB gewählt. Im Bereich A\ fin- det der Anfangsabgleichvorgang der Kompensatoren statt. Zu Beginn dieses Bereiches sind die Kompensatoren noch nicht abgeglichen - am Ende wurde in allen Bändern der Endabgleichszu- stand erreicht. Da in dieser Phase kein Gegensprechen stattfindet, sollte das Wiener-Filter die Differenz zwischen 60 dB und der Dämpfung, welche durch die Echokompensatoren erreicht wird, einfügen. Hierzu ist im Bereich Ai der KoeffizientIn order to clearly show the influence of the Wiener filter, the maximum attenuation G maX χ og was chosen to be 60 dB. The initial adjustment process of the compensators takes place in area A \. At the beginning of this area, the compensators have not yet been adjusted - in the end, the final adjustment status was reached in all bands. Since there is no intercom in this phase, the Wiener filter should insert the difference between 60 dB and the attenuation achieved by the echo canceller. The coefficient for this is in area Ai
G ' k) = r{(l- ßa\r) (k)),Gnl(*)}
im Teilband 1 (250 -750 Hz bei 8 kHz Abtastrate) zusammen mit dem Anregungs- und Fehlersignal vor dem Wiener-Filter in Fig. 15 dargestellt. Zu erkennen ist hierbei zunächst der Ein¬ schwingvorgang des Wiener-Filters. Bedingt durch die Trägheit der Tießpaßglättungen wird die Dämpfung nicht sofort eingefügt - dieser Effekt wird durch die Transformation in den Zeitbereich und die dazwischenliegende Synthesefilterung zum Teil wieder ausgeglichen. Im Gesamtbandsignal (s. Fig. 18) werden dadurch immerhin schon zu Beginn der Aktivität des fernen Spre- chers 25 dB Dämpfung eingefügt. Nach etwa 200 ms hat sich die Dämpfung dann bereits auf ihren Endwert von 60 dB erhöht. Mit zunehmendem Abgleichen des Kompensators verringert sich die Dämpfung durch das Wiener-Filter im Band 1 und erreicht erwartungsgemäß einen Endwert von etwa 30 dB (60 dB Maximalbegren- zung - 30 dB Echodämpfung durch den Kompensator) . Da das Wiener-Filter erst nach der Synthese eingefügt wurde, können die Verläufe der Anregung, des Fehlers, der Schrittweite und des Leistungsübertragungsfaktors im Band 1 aus den Fig. 9 und 10 entnommen werden.G 'k) = r {(l- ßa \ r) (k)), G nl (*)} in sub-band 1 (250 -750 Hz at 8 kHz sampling rate) together with the excitation and error signal before the Wiener filter in FIG. 15. To recognize here is first of all a ¬ oscillating operation of the Wiener filter. Due to the inertia of the low-pass smoothing, the damping is not inserted immediately - this effect is partially compensated for by the transformation into the time domain and the synthesis filter in between. At least 25 dB of attenuation is thus already inserted in the overall band signal (see FIG. 18) at the beginning of the activity of the distant speaker. After about 200 ms, the attenuation has already increased to its final value of 60 dB. With increasing compensation of the compensator, the attenuation by the Wiener filter in band 1 decreases and, as expected, reaches a final value of about 30 dB (60 dB maximum limit - 30 dB echo attenuation by the compensator). Since the Wiener filter was only inserted after the synthesis, the courses of the excitation, the error, the step size and the power transmission factor in band 1 can be seen from FIGS. 9 and 10.
Für den Fall des Einzelsprechens des fernen Gesprächsteilnehmers (Bereich A? und A2) ist somit die Maximalgrenze der einzufügenden Dämpfung Gmin (k) die bestimmende Größe. Entsprechend dem Ansatz des Filters soll das Gesamtsignal e (k) von seiner Störung ε (k) getrennt werden. Da der lokale Teilnehmer - das Nutzsignal in e (k) - jedoch nicht aktiv ist, besteht das Gesamtsignal lediglich aus der Störung. Würde die Begrenzung bei der Bestimmung der Koeffizienten
so würden diese Koeffizienten zu Null gesetzt und die Störung damit eli- miniert.In the event that the distant call participant speaks individually (areas A? And A 2 ), the maximum limit of the damping to be inserted G min (k) is the determining variable. According to the approach of the filter, the total signal e (k) should be separated from its interference ε (k). However, since the local participant - the useful signal in e (k) - is not active, the overall signal only consists of the disturbance. Would limit when determining the coefficient this would set these coefficients to zero and thus eliminate the disturbance.
In Fig. 16 ist zur Verdeutlichung dieses Zusammenhangs die16 is to illustrate this relationship
Dämpfung, welche durch das Wiener-Filter eingefügt wird, imAttenuation, which is inserted through the Wiener filter, in
Band 1 dargestellt. Der anfängliche Wert von etwa 60 dB wird durch die eingestellte Maximaldämpfung GmaXrιog bestimmt. Die zu
Beginn der Simulation mit Nullvektoren initialisierten Kompen¬ satoren gleichen im Verlauf der Phase AΎ ab und reduzieren da¬ mit die Obergrenze der einzufügenden Dämpfung auf etwa 30 dB. In der nun folgenden Gegensprechphase B, wird diese Obergrenze durch den Gegensprechdetektor nochmals um 15 dB auf nun noch etwa 15 dB verringert. Da die Leistung des lokalen Sprechers aber deutlich über der des Restechos liegt, wird diese Grenze nicht erreicht. Gemäß dem gewählten Einstellalgorithmus wird somit in der Gegensprechphase Bi fast keine Dämpfung eingefügt. Die bestimmende Größe in der Gegensprechphase ist das Leistungsverhältnis des Signals des lokalen Sprechers und des Restechos des fernen Sprechers. Die Leistung des Restechos hängt zum einen von der Anregungsleistung des fernen Teilnehmers und zum anderen vom Abgleichzustand der Kompensatoren ab. Je besser diese abgeglichen sind, um so geringer wird der Einfluß des Wiener-Filters in diesen Passagen sein.Volume 1 shown. The initial value of about 60 dB is determined by the set maximum attenuation G maXrιog . The too Beginning of the simulation initialized with zero vectors Kompen ¬ capacitors same from the course of the Phase A and Ύ reduce as ¬ with the upper limit of the damping insert to approximately 30 dB. In the following intercom phase B, this upper limit is reduced again by the intercom detector by 15 dB to about 15 dB. However, since the performance of the local speaker is significantly higher than that of the residual echo, this limit is not reached. According to the selected setting algorithm, almost no attenuation is inserted in the two-way phase Bi. The determining factor in the intercom phase is the power ratio of the signal from the local speaker and the residual echo from the distant speaker. The performance of the residual echo depends on the one hand on the excitation power of the distant participant and on the other hand on the balancing state of the compensators. The better these are balanced, the less the influence of the Wiener filter will be in these passages.
In der folgenden Gesprächssituation C hat der lokale Teilnehmer das Wort übernommen. Die Schrittweiten werden in diesen Situa- tionen zu Null gesetzt, wodurch das Wiener-Filter zu einer Durchschaltung wird. Die Passagen B2 und Az sind analog zu den eben beschriebenen Phasen zu sehen.In the following conversation situation C, the local participant took over. In these situations, the step sizes are set to zero, which means that the Wiener filter becomes an interconnection. Passages B 2 and A z are to be seen analogously to the phases just described.
Da die Schätzung der Dämpfung, welche durch das Wiener-Filter eingefügt wird, mit unterschiedlichen Zeitkonstanten ausgeführt wird, kommt es in bestimmten Phasen zu einer zu „vorsichtigen" Schätzung. Um diesen Sachverhalt zu verdeutlichen sind in Fig. 17 die Verläufe der Schätzung der Dämpfungen durch die Echokompensatoren und durch das Wiener-Filter, sowie die Absenkung im Gegensprechfall aufgetragen. Die Summe dieser drei Größen wird der Pegelwaage übergeben und ist im unteren Teil der Fig. 17 dargestellt. Diese Schätzung kann mit den wirklichen Signalverläufen der Anregung und des Fehlers im Gesamtband in Fig. 18 verglichen werden. In den Bereichen B2 und B2 erkennt der Gegen- sprechdetektor die Aktivität der beiden Teilnehmerseiten und
erhöht die Dämpfungsübergabe um 15 dB. Diese Erhöhung wird mit einer kurzen Zeitkonstante eingefügt und am Ende der Gegensprechphase langsam wieder herausgenommen. Diese Maßnahme wurde zur Überbrückung kurzer Sprachpausen eingeführt. Gleichzeitig wird mit dem Einsetzen des Gegensprechens die Schrittweite reduziert und das Wiener-Filter verringert seine Dämpfung. In den Passagen ohne Anregung (Bereich C) des fernen Teilnehmers wird die Schrittweite zu Null gesetzt - das Wiener-Filter wirkt dadurch lediglich als Verzögerungsglied.Since the estimation of the damping, which is inserted by the Wiener filter, is carried out with different time constants, a "careful" estimation occurs in certain phases. In order to clarify this fact, the course of the estimation of the damping is shown in FIG plotted by the echo canceller and by the Wiener filter, as well as the reduction in the case of two-way communication. The sum of these three quantities is transferred to the level balance and is shown in the lower part of Fig. 17. This estimate can be compared with the actual signal curves of the excitation and the error in the The total band can be compared in Fig. 18. In areas B 2 and B 2 , the intercom detector detects the activity of the two subscriber sides and increases the attenuation transfer by 15 dB. This increase is inserted with a short time constant and slowly removed at the end of the intercom phase. This measure was introduced to bridge short language breaks. At the same time, with the onset of intercom, the step size is reduced and the Wiener filter reduces its damping. In the passages without excitation (area C) of the distant participant, the step size is set to zero - the Wiener filter thus only acts as a delay element.
Das bisher vorgestellte Verfahren wurde für die endgültige Implementierung allerdings noch einmal leicht modifiziert - hierdurch konnte der Rechenaufwand noch einmal gesenkt werden, ohne merkliche Qualitätseinbußen zu erhalten.However, the procedure presented so far was slightly modified for the final implementation - as a result, the computational effort could be reduced again without any noticeable loss of quality.
Nach einer schrittweitenabhängigen Bestimmung der Filterkoeffizienten im Teilbandbereich, wurde gemäß Gleichung 4.1 eine Obergrenze der Dämpfung bestimmt. Diese Obergrenze wurde in Abhängigkeit von der bereits erreichten Dämpfung, welche durch die Leistungsübertragungsfaktoren im jeweiligen Band bzw. durch die Gegensprechdämpfung gegeben ist, bestimmt. Beide Größen wurden in der Schrittweitenberechnung lediglich in logarithmischer Darstellung berechnet und gespeichert. Um die Größen in der Begrenzungsfunktion verwenden zu können, sind demnach acht Linearisierungen notwendig. Die Bestimmung der Maximalwerte würde damit mehr Rechenleistung benötigen als die gesamte restliche Koeffizientenberechnung. Aus diesem Grund wurde für alle Bänder eine einheitliche Obergrenze eingeführt. Diese wird ebenfalls gemäß Gleichung 4.1 berechnet, allerdings mit den Ge- samtbandgrößen. Der Resourcenbedarf der so erhaltenen Nachfilterung liegt bei deutlich unter 1 MIPS bei Verwendung von 16- Bit-Festkomma-Signalprozessoren.
Bei eingeschaltetem Wiener-Filter 30 kann die Gesamtdämpfung zusätzlich um die Dämpfung des Wiener-Filters 30 abgeschwächt werden. Der Maximalhub der Pegelwaage kann damit durchAfter a step width-dependent determination of the filter coefficients in the subband range, an upper limit of the attenuation was determined in accordance with equation 4.1. This upper limit was determined as a function of the attenuation already achieved, which is given by the power transmission factors in the respective band or by the intercom attenuation. Both quantities were only calculated and saved in logarithmic representation in the step size calculation. In order to be able to use the variables in the limitation function, eight linearizations are necessary. The determination of the maximum values would therefore require more computing power than the entire remaining coefficient calculation. For this reason, a uniform upper limit has been introduced for all tapes. This is also calculated according to equation 4.1, but with the total band sizes. The resource requirements of the post-filtering obtained in this way are well below 1 MIPS when using 16-bit fixed-point signal processors. When the Wiener filter 30 is switched on, the total attenuation can additionally be weakened by the attenuation of the Wiener filter 30. The maximum stroke of the level balance can thus be
DPW(k) = D0 ~ DEK(k) - DGS(k) ~ Dw(k) (4.3)D PW (k) = D 0 ~ D EK (k) - D GS (k) ~ D w (k) (4.3)
angegeben werden. Die Größe Dw(k) wird dabei gemäßcan be specified. The size D w (k) is according to
I _ >(*) falls k = ιrI _> (*) if k = ιr
D„(k) = l I D *>B«K((k*--\») * < (4.4) mit i e Z bestimmt.
D „(k) = l ID *> B « K ( ( k * - \ ») * < (4.4) with ie Z determined.
Claims
1. Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen mit einer Pegelwaage (22) und einer frequenzselektiven steuerbaren Echokompensation (28) mit Teilbandverarbeitung, wobei das abgehende Signal nach der frequenzselektiven Echokompensation (28) einer Nachfilterung in einem weiteren frequenzselektiven Filter (30) mit Ein- Stellalgorithmus gemäß einem Wiener-Ansatz unterworfen wird (Wiener-Filterung) , dadurch gekennzeichnet, daß eine einzige1. A method for improving the acoustic attenuation in hands-free devices with a level balance (22) and a frequency-selective controllable echo cancellation (28) with subband processing, the outgoing signal after the frequency-selective echo cancellation (28) a post-filtering in a further frequency-selective filter (30) with on - Adjustment algorithm is subjected to a Wiener approach (Wiener filtering), characterized in that a single
Steuergröße (Schrittweitenvektor ά (k) ) sowohl für die Steuerung der frequenzselektiven Echokompensation, als auch für die Steuerung des weiteren Filters (30) verwendet wird.Control variable (step width vector ά (k)) is used both for the control of the frequency-selective echo compensation and for the control of the further filter (30).
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mehrere unterschiedliche Abtastraten verwendet werden.2. The method according to claim 1, characterized in that several different sampling rates are used.
3. Verfahren nach Anspruch 1 oder Anspruch 2 , dadurch gekenn- zeichnet, daß sowohl bei der Echokompensation (28) als auch für das weitere Filter (30) adaptive Filter verwendet werden.3. The method according to claim 1 or claim 2, characterized in that adaptive filters are used both in the echo cancellation (28) and for the further filter (30).
4. Verfahren nach einem der Ansprüche 1 bis 3 , dadurch gekennzeichnet, daß die Echokompensation (28) mittels einer Filterbank in Frequenzteilbändern implementiert wird.4. The method according to any one of claims 1 to 3, characterized in that the echo cancellation (28) is implemented by means of a filter bank in frequency subbands.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß zur Steuerung der Adaption und der Schrittweite sowohl leistungsbasierende Schätzungen als auch korre- lationsbasierende Analysen verwendet werden.5. The method according to any one of claims 1 to 4, characterized in that both performance-based estimates and correlation-based analyzes are used to control the adaptation and the step size.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß zur Schrittweitenbestimmung Leistungsübertragungsfaktoren in Teilbändern geschätzt werden.6. The method according to any one of claims 1 to 5, characterized in that power transmission factors in sub-bands are estimated for determining step size.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß sowohl die Echokompensation (28) als auch
der weitere Filter (30) Schätzwerte für die durch sie eingebrachte Echodämpfung liefern.7. The method according to any one of claims 1 to 6, characterized in that both the echo cancellation (28) and the further filter (30) provides estimates for the echo attenuation introduced by them.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Schätzwerte für die Dämpfung zur Steuerung der Dämpfung der8. The method according to claim 7, characterized in that the estimated values for the damping for controlling the damping of the
Pegelwaage (22) verwendet werden.Level balance (22) can be used.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die gleichzeitige Aktivität beider Ge- sprächsteilnehmer (Gegensprechen) detektiert wird.9. The method according to any one of claims 1 to 8, characterized in that the simultaneous activity of both participants (intercom) is detected.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die Gesamtdämpfung der Pegelwaage im Gegensprechfall reduziert wird.
10. The method according to claim 9, characterized in that the total attenuation of the level balance is reduced in the intercom.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19806015A DE19806015C2 (en) | 1998-02-13 | 1998-02-13 | Process for improving acoustic attenuation in hands-free systems |
DE19806015 | 1998-02-13 | ||
PCT/DE1999/000151 WO1999041897A2 (en) | 1998-02-13 | 1999-01-21 | Method for improving acoustic noise attenuation in hand-free devices |
Publications (1)
Publication Number | Publication Date |
---|---|
EP1055318A2 true EP1055318A2 (en) | 2000-11-29 |
Family
ID=7857681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP99907267A Withdrawn EP1055318A2 (en) | 1998-02-13 | 1999-01-21 | Method for improving acoustic noise attenuation in hand-free devices |
Country Status (5)
Country | Link |
---|---|
US (1) | US6834108B1 (en) |
EP (1) | EP1055318A2 (en) |
JP (1) | JP2002503923A (en) |
DE (1) | DE19806015C2 (en) |
WO (1) | WO1999041897A2 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60120233D1 (en) * | 2001-06-11 | 2006-07-06 | Lear Automotive Eeds Spain | METHOD AND SYSTEM FOR SUPPRESSING ECHOS AND NOISE IN ENVIRONMENTS UNDER VARIABLE ACOUSTIC AND STRONG RETIRED CONDITIONS |
EP1351479A1 (en) * | 2002-04-04 | 2003-10-08 | Castel GmbH | Generating an undisturbed signal out of an audio signal including a disturbing signal |
US7545926B2 (en) * | 2006-05-04 | 2009-06-09 | Sony Computer Entertainment Inc. | Echo and noise cancellation |
US7672445B1 (en) * | 2002-11-15 | 2010-03-02 | Fortemedia, Inc. | Method and system for nonlinear echo suppression |
US7272233B2 (en) * | 2003-09-11 | 2007-09-18 | Clarity Technologies, Inc. | Acoustic shock prevention |
DE102004044387B4 (en) * | 2004-09-14 | 2008-05-08 | Vodafone Holding Gmbh | communication system |
EP1853087B1 (en) * | 2005-02-21 | 2014-07-30 | Fujitsu Ltd. | Echo canceller |
US7734035B2 (en) * | 2005-02-28 | 2010-06-08 | Avaya Inc. | Method and apparatus for soft-response echo suppression |
WO2007130766A2 (en) * | 2006-05-04 | 2007-11-15 | Sony Computer Entertainment Inc. | Narrow band noise reduction for speech enhancement |
KR100761548B1 (en) * | 2007-03-15 | 2007-09-27 | (주)탑나노시스 | Film speaker |
JP4916394B2 (en) * | 2007-07-03 | 2012-04-11 | 富士通株式会社 | Echo suppression device, echo suppression method, and computer program |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US8538749B2 (en) | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US9202456B2 (en) * | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4227327A1 (en) * | 1992-08-18 | 1994-02-24 | Philips Patentverwaltung | Subband echo canceller with subband coding device |
JP2928130B2 (en) * | 1995-04-19 | 1999-08-03 | 埼玉日本電気株式会社 | Hands-free communication device |
US5818945A (en) * | 1995-04-20 | 1998-10-06 | Nippon Telegraph And Telephone | Subband echo cancellation method using projection algorithm |
DE69634027T2 (en) * | 1995-08-14 | 2005-12-22 | Nippon Telegraph And Telephone Corp. | Acoustic subband echo canceller |
JP3199155B2 (en) * | 1995-10-18 | 2001-08-13 | 日本電信電話株式会社 | Echo canceller |
US5806025A (en) * | 1996-08-07 | 1998-09-08 | U S West, Inc. | Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank |
JP3654470B2 (en) * | 1996-09-13 | 2005-06-02 | 日本電信電話株式会社 | Echo canceling method for subband multi-channel audio communication conference |
US6205124B1 (en) * | 1996-12-31 | 2001-03-20 | Compaq Computer Corporation | Multipoint digital simultaneous voice and data system |
FR2758677B1 (en) * | 1997-01-21 | 1999-04-02 | Matra Communication | ECHO CANCELLATION METHOD AND ECHO CANCELER IMPLEMENTING SUCH A METHOD |
-
1998
- 1998-02-13 DE DE19806015A patent/DE19806015C2/en not_active Expired - Fee Related
-
1999
- 1999-01-21 US US09/622,270 patent/US6834108B1/en not_active Expired - Lifetime
- 1999-01-21 EP EP99907267A patent/EP1055318A2/en not_active Withdrawn
- 1999-01-21 JP JP2000531947A patent/JP2002503923A/en not_active Withdrawn
- 1999-01-21 WO PCT/DE1999/000151 patent/WO1999041897A2/en not_active Application Discontinuation
Non-Patent Citations (1)
Title |
---|
See references of WO9941897A2 * |
Also Published As
Publication number | Publication date |
---|---|
WO1999041897A2 (en) | 1999-08-19 |
US6834108B1 (en) | 2004-12-21 |
WO1999041897A3 (en) | 1999-09-23 |
JP2002503923A (en) | 2002-02-05 |
DE19806015C2 (en) | 1999-12-23 |
DE19806015A1 (en) | 1999-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69332309T2 (en) | FAILURE-PROOF OPERATING PROCEDURE IN A SPEAKER SYSTEM | |
DE69428119T2 (en) | REDUCING BACKGROUND NOISE FOR LANGUAGE ENHANCEMENT | |
DE69827911T2 (en) | METHOD AND DEVICE FOR MULTI-CHANNEL COMPENSATION OF AN ACOUSTIC ECHO | |
DE69630580T2 (en) | Noise canceller and method for suppressing background noise in a noisy speech signal and a mobile station | |
DE69129497T2 (en) | RESET Echo Cancellation | |
EP0742664B1 (en) | Method for hand-free talking for a multi-channel transmission system | |
DE112009001003B4 (en) | Noise cancellation system with two microphones | |
DE60108401T2 (en) | SYSTEM FOR INCREASING LANGUAGE QUALITY | |
DE69738288T2 (en) | DEVICE FOR SUPPRESSING A DISTURBING COMPONENT OF AN INPUT SIGNAL | |
DE69632851T2 (en) | Acoustic subband echo canceller | |
DE69532394T2 (en) | Method and device for echo cancellation using the "fast projection scheme" | |
DE69627359T2 (en) | IMPROVED ECHOCOMPENSOR FOR USE IN DIGITAL TELEPHONY | |
DE69631086T2 (en) | Subband echo compensation method using a projection algorithm | |
DE19935808A1 (en) | Echo suppression device for suppressing echoes in a transmitter / receiver unit | |
EP1055318A2 (en) | Method for improving acoustic noise attenuation in hand-free devices | |
DE69512540T2 (en) | Method and device for analyzing an echo signal and adaptive echo canceller which uses it | |
DE102008039330A1 (en) | Apparatus and method for calculating filter coefficients for echo cancellation | |
EP0614304A1 (en) | Process for improvement of acoustic feedback suppression in electro-acoustic devices | |
EP1255398A2 (en) | Method for masking noise and noise modulation reduction during speech transmission | |
EP1103956B1 (en) | Exponential reduction of echo and noise during speech pauses | |
EP1055317A1 (en) | Method for improving acoustic noise attenuation in hand-free devices | |
EP1155561B1 (en) | Method and device for suppressing noise in telephone devices | |
EP1189419B1 (en) | Method and device for eliminating the loudspeaker interference on microphone signals | |
DE60026570T3 (en) | NOISE IN HOUR | |
DE60032047T2 (en) | Method and apparatus for adaptive identification and corresponding adaptive echo canceller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20000810 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): DE FR GB IT |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20030801 |