EP0689191B1 - Speech processing apparatus and mobile transceiver - Google Patents
Speech processing apparatus and mobile transceiver Download PDFInfo
- Publication number
- EP0689191B1 EP0689191B1 EP95201578A EP95201578A EP0689191B1 EP 0689191 B1 EP0689191 B1 EP 0689191B1 EP 95201578 A EP95201578 A EP 95201578A EP 95201578 A EP95201578 A EP 95201578A EP 0689191 B1 EP0689191 B1 EP 0689191B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- speech
- values
- delay
- signal
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000005070 sampling Methods 0.000 claims description 22
- 230000010363 phase shift Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 35
- 230000003111 delayed effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000010355 oscillation Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Definitions
- the invention relates to a mobile radio terminal with a Speech processing device.
- Speech signals In the field of language processing are often to be processed Speech signals contain noise signal components, which helps to reduce the Speech quality and, in particular, deteriorated Speech intelligibility leads. This problem occurs, for example, with mobile radio terminals on that are used in motor vehicles and a Have handsfree. Voice signals from in the motor vehicle Arranged microphones of the speakerphone are received On the one hand, voice signal components that the respective user (language source) of the Mobile terminal are generated within the motor vehicle, and on the other hand Noise signal components resulting from other ambient noises and during a Driving essentially consist of engine and driving noises.
- the corresponding one Delay value is an integer multiple of a sampling interval Signals rounded. Problems of convergence occur in such a way that when they are reached very small error values strong oscillations of the rounded delay values occur.
- the invention has for its object the speech quality of the processed Improve speech signals and reduce convergence problems.
- the gradient estimates serve to estimate the respective gradient of the Performance of the error values or in other words the squared error values.
- the Control means determine the delay estimates such that the performance of the Error values is reduced.
- the convergence of the Delay estimates determined delay values significantly improved because the delay estimates versus the delay values due to the Rounding have a higher resolution. Oscillations of the delay values are essentially avoided.
- the resolution of the delay values is chosen lower than the resolution of the delay estimated values by the to keep the technical effort involved in delaying the speech signals as low as possible.
- the signal / noise ratio and the speech quality of one at the output of the Adding device applied sum signal are compared to the signal / Noise power ratio and the speech quality of the individual speech signals improved.
- the digital filter is a digital Hilbert transformer.
- a digital Hilbert transformer that has a phase shift of 90 degrees for causes all frequencies, has the transfer function of an amount Low pass filter, so that it is particularly important for the low and for a speech signal Frequencies the rounded delay values converge well.
- the Hilbert transformer can also be replaced by a differentiator, for example, which also causes a phase shift of 90 degrees.
- one Differentiators a linearly increasing transfer function, so that in particular the low frequencies of a speech signal are suppressed, so that convergence is not as good as with a Hilbert transformer.
- the speech processing device is for Processing of three voice signals provided.
- the signal / noise ratio and the speech quality of the applied at the output of the adder Improve the sum signal.
- the invention can also be designed in that for determining a Delay estimate for the further speech signal the use of a Linear combination of error values is provided.
- delay means are provided Delay of the first speech signal is provided with a fixed delay time.
- the speech processing device is shown in FIG a hands-free system is integrated.
- the speech processing device shown in Fig. 1 contains two microphones M1 and M2. These are used to convert acoustic to electrical Speech signals, which are composed of speech and noise signal components.
- the Speech signal components come from a single speech source (speaker), which in the Usually different distances to the two microphones Ml and M2 having. The speech signal components are thus highly correlated.
- the Noise signal components of the two received by the microphones M1 and M2 Speech signals are not generated by the single speech source
- Ambient noise which is in the range of 10 at suitable microphone distances up to 60 cm can be assumed to be uncorrelated or only slightly correlated, when the microphones are in a so-called reverberated environment like for example, in the car or in an office.
- the noise signal components are caused in particular by engine and driving noises.
- the microphone signals generated by the microphones M1 and M2 are digitized by analog-digital converters 1 and 2.
- the resulting digitized and thus present as samples x1 (i) and x2 (i) microphone signals are evaluated by a control device 3, which is used to control and set a delay element 4.
- the sampled microphone signals x1 (i) and x2 (i) are referred to below as microphone or speech signals.
- the delay element 4 delays the microphone signal x1 with delay values T1 that can be set by the control device 3.
- An adding device 5 adds the microphone signal x1 (i) delayed by the delay element 4 and the microphone signal x2 (i) delayed by a delay element 16 with a constant time delay T max .
- the delay element 16 is provided in order to be able to set both a leading and a lagging of the microphone signal x1 (i) relative to the microphone signal x2 (i).
- a sum signal X (i) present at the output of the adding device 5 is a sampled speech signal, the signal / noise power ratio of which is increased compared to the signal / noise power ratios of the speech signals x1 (i) and x2 (i).
- the addition by the adder 5 increases the power of the voice signal components of the two voice signals x1 (i) and x2 (i) by approximately a factor of 4 and increases the power of the noise signal components only approximately caused by a factor of 2. This results in an improvement in the power-related signal / noise power ratio of approximately 3 dB.
- the speech signal estimates x1 int (i) are values that result from an interpolation of samples of the speech signal x1 (i). The determination of the speech signal estimates x1 int (i) will be explained later.
- i is a variable which can take integer values and with which, on the one hand, sampling times of the speech signals x1 (i) and x2 (i) and, on the other hand, program cycles of the programmable and control device 3 having control means 3 are indicated, with a new sample value per speech signal in each program cycle is processed.
- a digital filter 6 carries out a Hilbert transformation of the sample values x2 (i):
- the digital filter 6 supplying the values x2 H (i) of x2 (i) is an FIR filter of the order K, which has coefficients h (0), h (1), ..., h (K).
- K is sixteen, so that the digital filter 6 has seventeen coefficients.
- the amount of the digital filter 6 has the transfer function of a low pass. It continues to produce a 90 degree phase shift.
- the fixed phase shift of 90 degrees is the decisive property of the digital filter 6, the course of the amount of the transfer function is not decisive for the functioning of the speech processing device.
- the digital filter 6 can thus also be implemented with the aid of a differentiator, which would, however, lead to a suppression of low-frequency components of x2 (i) and thus to a reduced performance of the speech processing device.
- N indicates the number of samples of x2 used in the calculation. N is, for example, equal to 65.
- a function block 7 continuously forms from the samples of the speech signal x2 (i) Estimates SNR (i) of the associated signal-to-noise power ratio, which of a function block 8 can be evaluated.
- An evaluation of the Speech signal x1 (i) instead of the speech signal x2 (i) is possible without the Functionality of the speech processing device is restricted.
- the Operation of the function block 7 will be explained later with reference to FIGS. 6 to 8 explained in more detail.
- Function block 8 makes a threshold decision regarding the estimated values SNR (i). Only if the estimated values SNR (i) are above a predeterminable threshold, a buffer 9 with the newly determined Gradient estimate grad (i) overwritten.
- the memory content (degree (i)) of the buffer 9 is from a Functional unit 10 processed.
- the buffer 9 is not overwritten with the newly determined gradient estimated value grad (i) and it retains its old memory content at what is due to the open position of the switch 11 is symbolized.
- the predefinable threshold from which the opening and closing of the Switch 11 depends on the function block 8, is preferably between 0 and 10 dB.
- the intermediate memory 9 supplies the gradient estimated values grad (i) stored in it to the functional unit 10, to which sample values of the speech signal x1 (i) are also supplied and which is used both for supplying the speech signal estimated values x1 int (i) and for setting the delay element 4.
- ⁇ is a constant that has the value 0.95 in the exemplary embodiment.
- ⁇ is a constant factor or convergence parameter and is in the range 0 ⁇ ⁇ 1 10 * R x2x2 R x2x2 denotes an autocorrelation function of the speech signal x2 (i) at the zero position.
- a particularly advantageous value range of ⁇ in the present exemplary embodiment is 1.5 ⁇ ⁇ ⁇ 3.
- the delay estimated values T1 '(i) cannot do non-integer values be integer multiples of a sampling interval.
- a function block 14 rounds out the Delay estimated values T1 '(i) to integer delay values T1 (i), with which the delay device 4 is set. The rounding operation through Function block 14 is necessary because the values of the delay element 4 increase delaying speech signal x1 (i) only at the corresponding sampling times available.
- Function block 15 is thus able to use the speech signal estimate x1 int (i) in program cycle i to form or interpolate a value of speech signal x1 at time i + T1 (i), ie at a time between two sampling times.
- the described interpolation by function block 15 can be replaced by function block 15 performing low-pass filtering of the sample values x1 (i) for the interpolation of values between the sample times.
- the corresponding true time delay between the speech signal components which is determined by the different distances from the speaker to the microphones M1 and M2, would lie between these two delay values.
- such oscillations are avoided by using speech signal estimates x1 int (i) in the formation of the error values, by means of which the values of the speech signal x1 (i) are also available for delays by non-integer multiples of a sampling interval, i.e. also at points in time not equal to the sampling times i of the speech signal x1 (i).
- the function block 12 used to smooth the gradient estimates grad (i) causes an improved determination of the delay estimated values T1 '(i).
- the control device 3 adapts the delay estimated values T1 '(i) or the delay values T1 (i) so that the square or the power of the error values e 12 (i) is reduced from one program cycle to the next. The convergence of T1 '(i) or T1 (i) is thus ensured.
- FIG. 3 shows a speech processing device which works in principle like the speech processing device from FIG. 1 and now has three microphones M1, M2 and M3 for the delivery of microphone or speech signals.
- the microphone signals are fed to analog-to-digital converters 20, 21 and 22, which deliver digitized and thus sampled speech signals x1 (i), x2 (i) and x3 (i), which consist of speech and noise signal components.
- the speech signals x1 (i) and x3 (i) are supplied to adjustable delay elements 23 and 24.
- the speech signal x2 (i) is fed to a delay element 27 with a fixed delay time T max.
- the output values of the delay elements 23, 24 and 27 are added to the sum signal X (i) by an adding device 25.
- a control device 26 evaluates the sample values of the speech signals x1 (i), x2 (i) and x3 (i) and derives rounded integer delay values T1 (i) and T3 () from these sample values analogously to the mode of operation of the control device 3 from FIGS. i) ab, which correspond to the integer multiples of a sampling interval of the sampled speech signals x1 (i), x2 (i) and x3 (i) and with which the delay elements 23 and 24 are set, so that an expansion from two to three microphone to be processed or voice signals is enabled.
- FIG. 4 shows a first embodiment of the control device 26 from FIG. 3 shown.
- Two functional units 10 are provided, the structure of which is the same the structure of the functional unit 10 from FIG. 2 and for setting the Delay elements 23 and 24 with the rounded time delay values T1 (i) and T3 (i) serve.
- the upper functional unit 10 provides speech signal estimates x1 int (i).
- the lower functional unit 10 supplies speech signal estimates x3 int (i).
- Error values e 12 (i) and e 32 (i) are formed from a difference x1 int (i) - x2 (i) and from a difference x3 int (i) - x2 (i).
- a digital filter 6 which has already been described in more detail in the explanations relating to FIG. 2, and which serves to receive the sample values x2 (i) and to supply values x2 H (i) which are obtained by a Hilbert transformation of the Samples x2 (i) are generated.
- the values x2 H (i) are multiplied on the one hand by the error values e 12 (i) and on the other hand by the error values e 32 (i).
- the first product x2 H (i) * e 12 (i) is fed to the upper, the second product x2 H (i) * e 32 (i) to the lower functional unit 10.
- the arrangement of the function blocks 7 and 8, the buffer 9 and the switch 11 is carried out analogously to FIG. 2 and is not shown in FIG. 4 for reasons of clarity.
- FIG. 5 shows a version of the control device 26 that is expanded compared to FIG. 4.
- three digital filters 6 are now arranged. These form the values x1 H (i), x2 H (i) and x3 H (i) from the speech signal samples x1 (i), x2 (i) and x3 (i) by Hilbert transformation.
- error values e 13 (i) are formed from the difference x1 int (i) -x2 (i), which into a first product 0.3 * e 13 (i) * x3 H (i) die.
- a second product results from 0.7 * e 12 (i) * x2 h (i).
- the two products correspond to weighted gradient estimates of the squares of the error values e 13 (i) and e 12 (i).
- the sum of the first and second product and thus a linear combination of the weighted gradient estimated values is fed to the upper functional unit 10.
- error values e 31 (i) and e 32 (i) are formed in the lower half of the block diagram shown in FIG. 5.
- the error values e 31 (i) result from the difference x3 int (i) -x1 (i).
- the error values e 32 (i) are formed by the difference x3 int (i) -x2 (i).
- a third product 0.3 * e 31 (i) * x1 H (i) and a fourth product 0.7 * e 32 (i) * x2 H (i) are added and the resulting sum is fed to the lower functional unit 10 .
- the one 4 or 5 contains control device can be compared to the Improved speech processing device with two microphones according to FIG. 1 Generate sum signal X (i).
- the signal / noise ratio and thus the Speech quality of the sum signal X (i) of the speech processing device according to FIG. 3 is compared to that of the speech processing device according to FIG. 1 generated sum signal X (i) further increased.
- 5 points to the control device of FIG. 4 when used in the 3 has an increased stability.
- the delay estimates T1 '(i) and T3' (i) e.g. B. floating point numbers
- T1 (i) and T3 (i) Values are rounded to an integer multiple of a sampling interval correspond (here: whole numbers), but to values that are multiples of one Correspond to a fraction of a sampling interval.
- a rounding of the Delay estimates are advantageous to multiples of a value that is a quarter or half a sampling interval.
- the Resolution of the delay values increased which can thus be adjusted more precisely, so that also the speech quality of the sum signals X (i) is further increased because Differences in transit time from the speech source producing the speech signal components the microphones M1, M2 and M3 can be compensated more precisely.
- an interpolation or low pass filtering of Speech signal samples are provided to generate speech signal values that are between two speech signal samples.
- the interpolation or Low-pass filtering can be integrated in the delay means 4, 23 and 24 in particular become.
- the function block 7 from a sampled speech signal x (i), which consists of noise and speech signal components, the associated estimated values SNR (i) of the signal / noise power ratio, that is Ratio of the power of the speech signal components to the power of the noise signal components, determined.
- the sample values x2 (i) correspond to the sample values x (i).
- the function block 7 is shown in FIG. 6 on the basis of a block diagram.
- a function block 30 serves to form power values P x (i) of the sample values x (i) by squaring the sample values. Function block 30 also smoothes these power values P x (i).
- the resulting smoothed power values P x, s (i) are supplied to both function block 31 and function block 32.
- Function block 31 continuously determines estimated values P n (i) for estimating the power of the noise signal component of the sampled values x (i), ie the power of the noise signal components of the sampled values x (i) is determined.
- the function block 32 continuously determines estimated values SNR (i) of the signal / noise power ratio of the sampled values x (i).
- FIG. 7 shows a flow chart which explains the function of the function block 7 in more detail.
- the flow chart shows how estimated values SNR (i) of the corresponding signal / noise power ratio are formed from the sampled values x (i) of the speech signal x by a computer program.
- a counter variable Z is set to 0 and a variable P Mmin is set to a value P max at the beginning of the program described by FIG.
- P max is chosen so large that the smoothed power values P x, s (i) are always smaller than P max .
- P max can, for example, be set to the maximum representable numerical value of a computer used to implement the program.
- a new sample value x (i) is read in in block 34.
- a short-term power value P x (i) of a group of N successive sample values x (i) is determined using formula (9). N here is 128, for example.
- Equation (10) The value ⁇ from equation (10) is between 0.95 and 0.98.
- the determination of smoothed power values P x, s (i) can also only be carried out using equation (10), in which case however the value ⁇ should be increased approximately to the value 0.99 and P x (i) by x 2 (i) is to be replaced.
- a branch 37 queries whether the smoothed power value P x, s (i) that has just been determined is less than P Mmin . If this question is answered in the affirmative, ie P x, s (i) is less than P Mmin , block 38 sets P Mmin to the value of P x, s (i). If the question of branch 37 is answered in the negative, block 38 is skipped. This means that the minimum of M smoothed power values P x, s is in P Mmin after M program cycles . Then the branch 39 is used to query whether the counter variable Z has a value greater than or equal to a value M. In this way it is determined whether M smoothed power values have already been processed.
- SNR (i) [P x, p (i) - min ⁇ c * P n (i), P x, p (i) ⁇ ] / [c * P n (i)] a current estimate SNR (i) of the signal / noise power ratio of the speech signal x (i) is determined.
- the product c * P n (i) is used to estimate the current power of the noise signal component
- the difference P x, s (i) -c * P n (i) is used to estimate the current power of the voice signal component of the voice signal x ( i).
- the current power of the speech signal is estimated by the smoothed power value P x, s (i).
- the weighting with a scaling factor c prevents P n (i) from estimating the noise signal power with a value that is too small.
- the scaling factor c is typically in the range from 1.3 to 2.
- the minimum formation in block 41 or equation (12) ensures that the non-logarithmic signal / noise power ratio SNR (i) is also positive if, in exceptional cases, c * P n (i) is greater than P x, s (i). Then the power of the noise signal component of the voice signal is set equal to the power of the voice signal estimated by P x, s (i).
- the power of the speech signal component of the speech signal estimated by P x, s (i) -P x, s (i) is then equal to zero, as is the non-logarithmic signal / noise power ratio.
- the program continues with the reading in of a new speech signal sample value x (i) by block 34.
- branch 39 If the query of branch 39 is answered in the affirmative, ie M smoothed sample values P x, s (i) have been processed, in block 42 by updated the components of a vector minvec of dimension W. Subsequently, branch 43 queries whether the components minvec 1 to minvec w increase with increasing vector index, ie whether: minvec j + 1 > minvec j for 1 ⁇ j ⁇ W-1
- P n (i) is set equal to P Mmin in block 45, so that an adaptation of the estimation of the noise signal component is accelerated takes place since P n (i) is determined at the minimum of the last (M ⁇ L) values. Then in block 46 the counter variable Z is reset to 0 and P Mmin again receives the value P max .
- M successive smoothed P x, s (i) samples x (i) of the speech signal x are combined into a subgroup.
- the minimum of the smoothed power values P x, s (i) is determined by the operations carried out with branch 37 and block 38.
- the W minima determined last are stored in the components of the vector minvec. If the last W minima are not monotonically increasing (see branch 43), then a preliminary estimate P n (i) of the power of the noise signal component is determined from the minimum of the minima of the last W subgroups, ie from the minimum of a group, according to block 44.
- the minimum of the last subgroup with M smoothed power values P x is determined by block 45 to estimate the current estimated value P n (i) of the power of the noise signal component . s (i) used. This shortens the time period with which monotonically increasing smoothed power values P x, s (i) also cause a change in the estimated values SNR (i).
- the value P n (i) is determined from the minimum of the last W subgroup minima or the last L smoothed power values P x, s (i), which is used to estimate the noise signal power.
- the described speech processing device thus has an estimation device which is suitable for the continuous formation of estimated values SNR (i) of the signal / noise power ratio of noisy speech signals x (i). In particular, no speech pauses are required to estimate the noise signal power.
- the estimation device described uses the special time profile of smoothed power values of the speech signal x (i), which is characterized by peaks and intermediate areas with smaller smoothed power values P x, s (i), their temporal expansion from the respective speech source, ie the respective speaker , depends. The areas between the peaks are used to estimate the power of the noise signal component.
- the groups with L smoothed power values P x, s (i) must follow one another without gaps, ie they must either adjoin or overlap.
- each group must contain so many smoothed power values P x, s (i) that at least all values belonging to any peak can be recorded. Since the most extended peaks can be estimated by the most extended phonemes of a speech signal, ie the vowels, the number L describing the group size can be derived from this. For a sampling rate of the speech signal of 8 kHz, a useful value of L is in the range between 3000 and 8000. An advantageous value for W is 4. With such a dimensioning, there is a good compromise between the computational effort and the speed of reaction of the function block 7.
- FIG. 9 shows a use of the speech processing device from FIG. 3 in a mobile terminal 50 is shown.
- the language processing means 20 to 26 are summarized in a function block 51 which consists of those of the Microphones M1, M2 and M3 generated the microphone or speech signals Sum signal values X (i) forms.
- the microphones M1, M2 and M3 have advantages a distance of 10 to 60 cm, so that in a so-called "reverberated" Environment (e.g. car, office) the interference signal components from the microphones M1, M2 and M3 delivered speech signals are largely uncorrelated. this is also valid when using only two microphones as in Fig. 1.
- processing function block 52 summarizes all other means of the mobile radio terminal 50 for receiving, processing and transmitting signals together, which are used for communication with a base station, not shown, wherein sending and receiving signals via one to function block 52 coupled antenna 54 takes place.
- function block 52 coupled speaker 53 provided.
- Acoustic communication User (speaker, listener) with the mobile terminal 50 takes place via the Microphones M1 to M3 and the speaker 53, the parts of one in the mobile terminal 50 integrated handsfree are.
- the application of such Mobile radio terminal 50 is particularly advantageous in motor vehicles, since there the Hands-free calling via the mobile terminal, in particular through motor or Driving noise (noise) is disturbed.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
Die Erfindung betrifft ein Mobilfunkendgerät mit einer Sprachverarbeitungsvorrichtung.The invention relates to a mobile radio terminal with a Speech processing device.
Auf dem Gebiet der Sprachverarbeitung sind häufig in zu verarbeitenden Sprachsignalen Rauschsignalanteile enthalten, was zur Verringerung der Sprachqualität und damit insbesondere zu einer verschlechterten Sprachverständlichkeit führt. Dieses Problem tritt beispielsweise bei Mobilfunkendgeräten auf, die in Kraftfahrzeugen verwendet werden und eine Freisprecheinrichtung aufweisen. Sprachsignale, die von im Kraftfahrzeug angeordneten Mikrophonen der Freisprecheinrichtung empfangen werden, enthalten einerseits Sprachsignalanteile, die vom jeweiligen Benutzer (Sprachquelle) des Mobilfunkendgerätes innerhalb des Kraftfahrzeuges erzeugt werden, und andererseits Rauschsignalanteile, die aus sonstigen Umgebungsgeräuschen und während einer Fahrt im wesentlichen aus Motor- und Fahrgeräuschen bestehen.In the field of language processing are often to be processed Speech signals contain noise signal components, which helps to reduce the Speech quality and, in particular, deteriorated Speech intelligibility leads. This problem occurs, for example, with mobile radio terminals on that are used in motor vehicles and a Have handsfree. Voice signals from in the motor vehicle Arranged microphones of the speakerphone are received On the one hand, voice signal components that the respective user (language source) of the Mobile terminal are generated within the motor vehicle, and on the other hand Noise signal components resulting from other ambient noises and during a Driving essentially consist of engine and driving noises.
Aus "IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL. ASSP-29, No. 3, June 1981, pp. 582-587" ist eine Anordnung zur adaptiven Schätzung von Zeitverzögerungen von zwei stark korrelierten Signalen in digitalen Systemen beschrieben. Eines der beiden Signale wird von einem steuerbaren Verzögerungsglied verzögert. Die Verzögerungswerte des Verzögerungsgliedes werden adaptiv an die korrelierten Signale angepaßt. Die Bestimmung der Verzögerungswerte erfolgt mit Hilfe eines Algorithmus, der mittlerweile von der Fachwelt als LMS-Algorithmus (Least Mean Square) bezeichnet wird. Dieser Algorithmus beruht auf der Minimierung der Leistung bzw. des Quadrates von Fehlerwerten, die sich durch Bildung der Differenz von dem verzögerten und dem nicht verzögerten Signal ergeben. Kern des LMS-Algorithmus ist die rekursive Berechnung der Verzögerungswerte mit Hilfe von Schätzwerten für den Gradienten der Leistung der Fehlerwerte.From "IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL. ASSP-29, No. 3, June 1981, pp. 582-587 "is an arrangement for adaptive estimation of time delays of two strongly correlated signals in digital systems described. One of the two signals is from a controllable delay element delayed. The delay values of the delay element are adaptively applied adapted the correlated signals. The delay values are determined with the help of an algorithm that is now known by experts as an LMS algorithm (Least Mean Square). This algorithm is based on the Minimize the performance or the square of error values that are characterized by Formation of the difference between the delayed and the undelayed signal surrender. The core of the LMS algorithm is the recursive calculation of the Delay values using estimates for the gradient of the performance of the Error values.
Im oben zitierten Stand der Technik wird zur Bildung der Fehlerwerte jeweils die Differenz zweier Abtastwerte von zwei gegeneinander zeitversetzten Signalen gebildet, wobei eines der Signale verzögert wird. Der entsprechende Verzögerungswert ist auf ein ganzzahliges Vielfaches eines Abtastintervalls der Signale gerundet. Dabei treten Konvergenzprobleme derart auf, daß beim Erreichen sehr kleiner Fehlerwerte starke Oszillationen der gerundeten Verzögerungswerte auftreten. Die Verzögerungswerte oszillieren dabei zwischen zwei gerundeten Verzögerungswerten im Abstand eines Abtastintervalls.In the prior art cited above, the Difference between two samples of two signals staggered in time formed, with one of the signals being delayed. The corresponding one Delay value is an integer multiple of a sampling interval Signals rounded. Problems of convergence occur in such a way that when they are reached very small error values strong oscillations of the rounded delay values occur. The delay values oscillate between two rounded ones Delay values at intervals of one sampling interval.
Der Erfindung liegt die Aufgabe zugrunde, die Sprachqualität der zu verarbeitenden Sprachsignale zu verbessern und Konvergenzprobleme zu verringern.The invention has for its object the speech quality of the processed Improve speech signals and reduce convergence problems.
Die Aufgabe wird dadurch gelöst, daß die Sprachverarbeitungsvorrichtung zur Verarbeitung eines ersten und mindestens eines weiteren aus Rausch- und Sprachsignalanteilen bestehenden und als Abtastwerte vorliegenden Sprachsignals vorgesehen ist, daß Verzögerungsmittel zur Verzögerung des abgetasteten weiteren Sprachsignals vorgesehen sind, daß Steuermittel
- zur Bildung von Gradientenschätzwerten durch Multiplikation von Fehlerwerten für zwei Sprachsignale mit den Ausgangswerten eines Digitalfilters, das eine Phasenverschiebung von 90 Grad bewirkt und zur Filterung eines der zwei Sprachsignale dient,
- zur rekursiven Ermittlung von Verzögerungsschätzwerten aus den Gradientenschätzwerten, wobei aus den Verzögerungsschätzwerten durch Rundung die Verzögerungswerte gebildet werden, die zur Einstellung der Verzögerungsmittel dienen und
- zur Bildung jeweils wenigstens eines Fehlerwertes für einen bestimmten Abtastzeitpunkt aus der Differenz zwischen einem Sprachsignalschätzwert, der zur Abschätzung des weiteren Sprachsignals zu einem gegenüber dem bestimmten Abtastzeitpunkt um den Verzögerungsschätzwert verschobenen Zeitpunkt dient und durch Interpolation von Abtastwerten des weiteren Sprachsignals gebildet wird, und dem Abtastwert eines anderen der zu verarbeitenden Sprachsignale zu dem bestimmten Abtastzeitpunkt
- to form gradient estimates by multiplying error values for two speech signals by the output values of a digital filter which causes a phase shift of 90 degrees and is used to filter one of the two speech signals,
- for the recursive determination of delay estimated values from the gradient estimated values, the delay estimated values which are used for setting the delay means being formed from the delay estimated values by rounding
- to form in each case at least one error value for a specific sampling time from the difference between a speech signal estimated value, which is used to estimate the further speech signal at a point in time shifted by the delay estimated value compared to the determined sampling time and is formed by interpolation of samples of the further speech signal, and the sampled value one other of the speech signals to be processed at the determined sampling time
Die Gradientenschätzwerte dienen zur Abschätzung des jeweiligen Gradienten der Leistung der Fehlerwerte oder anders ausgedrückt der quadrierten Fehlerwerte. Die Steuermittel bestimmen die Verzögerungsschätzwerte derart, daß die Leistung der Fehlerwerte verringert wird. Dabei wird die Konvergenz der aus den Verzögerungsschätzwerten ermittelten Verzögerungswerte erheblich verbessert, da die Verzögerungsschätzwerte gegenüber den Verzögerungswerten aufgrund der Rundung eine höhere Auflösung aufweisen. Oszillationen der Verzögerungswerte werden so im wesentlichen vermieden. Die Auflösung der Verzögerungswerte ist gegenüber der Auflösung der Verzögerungsschätzwerte geringer gewählt, um den technischen Aufwand beim Verzögern der Sprachsignale möglichst gering zu halten. Das Signal-/ Rauschleistungsverhältnis und die Sprachqualität eines am Ausgang der Addiervorrichtung anliegenden Summensignals sind gegenüber dem Signal-/ Rauschleistungsverhältnis und der Sprachqualität der einzelnen Sprachsignale verbessert.The gradient estimates serve to estimate the respective gradient of the Performance of the error values or in other words the squared error values. The Control means determine the delay estimates such that the performance of the Error values is reduced. The convergence of the Delay estimates determined delay values significantly improved because the delay estimates versus the delay values due to the Rounding have a higher resolution. Oscillations of the delay values are essentially avoided. The resolution of the delay values is chosen lower than the resolution of the delay estimated values by the to keep the technical effort involved in delaying the speech signals as low as possible. The signal / noise ratio and the speech quality of one at the output of the Adding device applied sum signal are compared to the signal / Noise power ratio and the speech quality of the individual speech signals improved.
In einer Ausgestaltung der Erfindung ist das Digitalfilter ein digitaler Hilbert-Transformator.In one embodiment of the invention, the digital filter is a digital Hilbert transformer.
Ein digitaler Hilbert-Transformator, der eine Phasenverschiebung von 90 Grad für alle Frequenzen bewirkt, besitzt betragsmäßig die Übertragungsfunktion eines Tiefpasses, so daß insbesondere für die tiefen und für ein Sprachsignal wesentlichen Frequenzen die gerundeten Verzögerungswerte gut konvergieren. Der Hilbert-Transformator kann beispielsweise auch durch einen Differenzierer ersetzt werden, der ebenfalls eine Phasenverschiebung von 90 Grad bewirkt. Allerdings hat ein Differenzierer betragsmäßig eine linear ansteigende Übertragungsfunktion, so daß insbesondere die tiefen Frequenzen eines Sprachsignals unterdrückt werden, so daß sich keine so gute Konvergenz wie bei einem Hilbert-Transformator ergibt.A digital Hilbert transformer that has a phase shift of 90 degrees for causes all frequencies, has the transfer function of an amount Low pass filter, so that it is particularly important for the low and for a speech signal Frequencies the rounded delay values converge well. The Hilbert transformer can also be replaced by a differentiator, for example, which also causes a phase shift of 90 degrees. However, one Differentiators a linearly increasing transfer function, so that in particular the low frequencies of a speech signal are suppressed, so that convergence is not as good as with a Hilbert transformer.
In einer anderen Ausgestaltung sind Mittel zur Glättung der Gradientenschätzwerte vorgesehen.In another embodiment there are means for smoothing the gradient estimated values intended.
Damit ergibt sich eine verbesserte Schätzung der Verzögerungsschätzwerte.This results in an improved estimate of the delay estimated values.
In einer weiteren Ausgestaltung ist die Sprachverarbeitungsvorrichtung zur Verarbeitung von drei Sprachsignalen vorgesehen.In a further embodiment, the speech processing device is for Processing of three voice signals provided.
Gegenüber einer Sprachverarbeitungsvorrichtung zur Verarbeitung von nur zwei Sprachsignalen läßt sich auf diese Weise das Signal-/ Rauschleistungsverhältnis und die Sprachqualität des am Ausgang der Addiervorrichtung anliegenden Summensignals verbessern.Compared to a speech processing device for processing only two Voice signals can in this way, the signal / noise ratio and the speech quality of the applied at the output of the adder Improve the sum signal.
Die Erfindung kann weiterhin dadurch ausgestaltet werden, daß zur Ermittlung eines Verzögerungsschätzwertes für das weitere Sprachsignal die Verwendung einer Linearkombination von Fehlerwerten vorgesehen ist.The invention can also be designed in that for determining a Delay estimate for the further speech signal the use of a Linear combination of error values is provided.
Auf diese Weise wird die Stabilität der Sprachverarbeitungvorrichtung erhöht.In this way, the stability of the speech processing device is increased.
Für eine andere Ausgestaltung der Erfindung sind Verzögerungsmittel zur Verzögerung des ersten Sprachsignals mit einer festen Verzögerungszeit vorgesehen.For another embodiment of the invention, delay means are provided Delay of the first speech signal is provided with a fixed delay time.
Ohne die eine feste Verzögerung bewirkenden Verzögerungsmittel sind nur Zeitversätze zwischen dem erstem und dem/den weiteren Sprachsignal(en) einstellbar, mit denen ein Vorlaufen des ersten Sprachsignals bewirkt wird. Je nach Position einer die Sprachsignalanteile erzeugenden Sprachquelle gegenüber Mikrophonen der Sprachverarbeitungsvorrichtung, die zur Umwandlung der von der Sprachquelle erzeugten akustischen Sprachsignale in elektrische Sprachsignale dienen, muß allerdings auch ein Nacheilen des ersten Sprachsignal einstellbar sein, was mit Hilfe dieser Ausgestaltung auf einfache Weise realisierbar ist.Without the delay means causing a fixed delay are only Time offsets between the first and the further speech signal (s) adjustable, with which a leading of the first speech signal is effected. Depending on Position opposite a speech source generating the speech signal components Microphones of the speech processing device used to convert the data from the Speech source generated acoustic speech signals into electrical speech signals serve, however, a lag of the first speech signal must be adjustable, what can be achieved in a simple manner with the aid of this configuration.
Zur weiteren Ausgestaltung der Erfindung ist die Sprachverarbeitungsvorrichtung in eine Freisprecheinrichtung integriert.The speech processing device is shown in FIG a hands-free system is integrated.
Insbesondere bei Freisprecheinrichtungen besteht das Problem, daß empfangene Sprachsignale störende Rauschsignalanteile aufweisen, die das Signal-/ Rauschleistungsverhältnis und die Sprachqualität der Sprachsignale verschlechtern. Gerade bei Mobilfunkendgeräten tritt dieses Problem auf, wenn diese in einer stark verrauschten Umgebung eingesetzt werden, wie z.B. in einem Automobil. Die Verwendung der beschriebenen Erfindung bewirkt deshalb gerade beim Einsatz in Freisprecheinrichtungen eine verbesserte Kommunikation zwischen den Gesprächsteilnehmern.Especially with hands-free devices there is the problem that received Speech signals have disturbing noise signal components that the signal / Noise performance ratio and the speech quality of the speech signals deteriorate. This problem occurs particularly with mobile radio terminals if these are in a strong noisy environment, such as in an automobile. The Use of the described invention therefore causes just when used in Hands-free devices improve communication between the Interlocutors.
Ausführungsbeispiele werden nachstehend anhand der Zeichnungen näher erläutert.Exemplary embodiments are explained in more detail below with reference to the drawings.
Es zeigen:
- Fig. 1
- eine Sprachverarbeitungsvorrichtung für zwei Sprachsignale,
- Fig. 2
- eine Steuervorrichtung zur Einstellung eines Zeitversatzes zwischen den beiden Sprachsignalen nach Fig. 1,
- Fig. 3
- eine Sprachverarbeitungsvorrichtung für drei Sprachsignale,
- Fig. 4 und 5
- Blockschaltbilder mit Steuervorrichtungen zur Einstellung von Zeitversätzen zwischen den drei Sprachsignalen nach Fig. 3,
- Fig. 6 und 7
- ein Blockschaltbild und ein Flußdiagramm zur Bestimmung des Signal-/ Rauschleistungsverhältnisses eines Sprachsignals,
- Fig. 8
- eine Einteilung von geglätteten Leistungswerten eines Sprachsignals in Gruppen und Untergruppen und
- Fig. 9
- ein Mobilfunkendgerät mit einer Sprachverarbeitungsvorrichtung nach Fig. 1 bis 8.
- Fig. 1
- a speech processing device for two speech signals,
- Fig. 2
- 1 a control device for setting a time offset between the two voice signals according to FIG. 1,
- Fig. 3
- a speech processing device for three speech signals,
- 4 and 5
- 3 block diagrams with control devices for setting time offsets between the three speech signals,
- 6 and 7
- 2 shows a block diagram and a flowchart for determining the signal / noise power ratio of a speech signal,
- Fig. 8
- a division of smoothed power values of a speech signal into groups and subgroups and
- Fig. 9
- a mobile radio terminal with a voice processing device according to FIGS. 1 to 8.
Die in Fig. 1 dargestellte Sprachverarbeitungsvorrichtung enthält zwei Mikrophone M1 und M2. Diese dienen zur Umwandlung von akustischen in elektrische Sprachsignale, die sich aus Sprach- und Rauschsignalanteilen zusammensetzen. Die Sprachsignalanteile stammen von einer einzelnen Sprachquelle (Sprecher), die im Regelfall unterschiedliche Abstände zu den beiden Mikrophonen Ml und M2 aufweist. Die Sprachsignalanteile sind somit in hohem Maße korreliert. Die Rauschsignalanteile der beiden von den Mikrophonen M1 und M2 empfangenen Sprachsignale sind nicht von der einzelnen Sprachquelle erzeugte Umgebungsgeräusche, die bei geeigneten Mikrophonabständen im Bereich von 10 bis 60 cm als unkorreliert oder nur wenig korreliert vorausgesetzt werden können, wenn sich die Mikrophone in einer sogenannten verhallten Umgebung wie beispielsweise im Auto oder in einem Büro befinden. Befinden sich Sprachquelle und Sprachverarbeitungsvorrichtung beispielsweise in einem Kraftfahrzeug, werden die Rauschsignalanteile insbesondere durch Motor- und Fahrgeräusche verursacht.The speech processing device shown in Fig. 1 contains two microphones M1 and M2. These are used to convert acoustic to electrical Speech signals, which are composed of speech and noise signal components. The Speech signal components come from a single speech source (speaker), which in the Usually different distances to the two microphones Ml and M2 having. The speech signal components are thus highly correlated. The Noise signal components of the two received by the microphones M1 and M2 Speech signals are not generated by the single speech source Ambient noise, which is in the range of 10 at suitable microphone distances up to 60 cm can be assumed to be uncorrelated or only slightly correlated, when the microphones are in a so-called reverberated environment like for example, in the car or in an office. Are language source and speech processing device, for example in a motor vehicle the noise signal components are caused in particular by engine and driving noises.
Die von den Mikrophonen M1 und M2 erzeugten Mikrophonsignale werden von
Analog-Digitalumsetzern 1 und 2 digitalisiert. Die sich ergebenden digitalisierten
und damit als Abtastwerte x1(i) und x2(i) vorliegenden Mikrophonsignale werden
von einer Steuervorrichtung 3 ausgewertet, die zur Steuerung und Einstellung eines
Verzögerungsgliedes 4 dient. Die abgetasteten Mikrophonsignale x1(i) und x2(i)
werden im folgenden abgekürzt als Mikrophon- oder Sprachsignale bezeichnet. Das
Verzögerungsglied 4 verzögert das Mikrophonsignal x1 mit durch die
Steuervorrichtung 3 einstellbaren Verzögerungswerten T1. Eine Addiervorrichtung 5
addiert das vom Verzögerungsglied 4 verzögerte Mikrophonsignal x1(i) und das von
einem Verzögerungsglied 16 mit einer konstanten Zeitverzögerung Tmax verzögerte
Mikrophonsignal x2(i). Das Verzögerungsglied 16 ist vorgesehen, um sowohl ein
Vorlaufen als auch ein Nacheilen des Mikrophonsignals x1(i) gegenüber dem
Mikrophonsignal x2(i) einstellen zu können. Ein am Ausgang der Addiervorrichtung
5 anliegendes Summensignal X(i) ist ein abgetastes Sprachsignal, dessen Signal-/
Rauschleistungsverhältnis gegenüber den Signal-/ Rauschleistungsverhältnissen der
Sprachsignale x1(i) und x2(i) erhöht ist. Durch eine geeignete Einstellung der
Verzögerungszeit T1 des Verzögerungsglieds 4 wird bei der Addition durch die
Addiervorrichtung 5 eine Verstärkung der Leistung der Sprachsignalanteile der
beiden Sprachsignale x1(i) und x2(i) ungefähr um den Faktor 4 und eine
Verstärkung der Leistung der Rauschsignalanteile nur ungefähr um den Faktor 2
bewirkt. Damit ergibt sich eine Verbesserung des leistungsbezogenen Signal-/
Rauschleistungsverhältnisses von ungefähr 3 dB.The microphone signals generated by the microphones M1 and M2 are digitized by analog-
In Fig. 2 wird die Funktionsweise der Steuerungvorrichtung 3 anhand eines
Blockschaltbildes näher erläutert. Aus dem Sprachsignal x2(i) und
Sprachsignalschätzwerten x1int(i) ergeben sich Fehlerwerte e12(i) durch
Differenzbildung nach
Die Sprachsignalschätzwerte x1int(i) sind Werte, die sich aus einer Interpolation von
Abtastwerten des Sprachsignals x1(i) ergeben. Die Bestimmung der
Sprachsignalschätzwerte x1int(i) wird später erläutert. i ist eine Variable, die
ganzzahlige Werte annehmen kann und mit der einerseits Abtastzeitpunkte der
Sprachsignale x1(i) und x2(i) und andererseits auch Programmzyklen der
programmierbaren und Steuermittel aufweisenden Steuervorrichtung 3 indiziert
werden, wobei in einem Programmzyklus jeweils ein neuer Abtastwert per
Sprachsignal verarbeitet wird. The speech signal estimates x1 int (i) are values that result from an interpolation of samples of the speech signal x1 (i). The determination of the speech signal estimates x1 int (i) will be explained later. i is a variable which can take integer values and with which, on the one hand, sampling times of the speech signals x1 (i) and x2 (i) and, on the other hand, program cycles of the programmable and
Ein digitales Filter 6 führt eine Hilbert-Transformation der Abtastwerte x2(i) durch:
A
Das die Werte x2H(i) von x2(i) liefernde Digitalfilter 6 ist ein FIR-Filter der
Ordnung K, das Koeffizienten h(0), h(1), ..., h(K) aufweist. Im vorliegenden
Ausführungsbeispiel ist K gleich sechzehn, so daß das Digitalfilter 6 siebzehn
Koeffizienten aufweist. Das Digitalfilter 6 besitzt dem Betrage nach die
Übertragungsfunktion eines Tiefpasses. Es erzeugt weiterhin eine
Phasenverschiebung von 90 Grad. Die feste Phasenverschiebung von 90 Grad ist die
entscheidende Eigenschaft des Digitalfilters 6, der Verlauf des Betrages der
Übertragungsfunktion ist für das Funktionieren der Sprachverarbeitungsvorrichtung
nicht entscheidend. So kann das Digitalfilter 6 auch mit Hilfe eines Differenzierers
realisiert werden, was allerdings zu einer Unterdrückung von niederfrequenten
Anteilen von x2(i) und damit zu einer verringerten Leistungfähigkeit der
Sprachverarbeitungsvorrichtung führen würde.The
Die Ausgangswerte x2H(i) werden mit den Fehlerwerten e12(i) und dem Kehrwert
1/Px2(i) einer Kurzzeitleistung Px2(i) multipliziert, wobei die Kurzzeitleistung Px2(i)
nach
Ein Funktionsblock 7 bildet fortlaufend aus den Abtastwerten des Sprachsignals x2(i)
Schätzwerte SNR(i) des zugehörigen Signal-/ Rauschleistungsverhältnisses, die von
einem Funktionsblock 8 ausgewertet werden. Auch eine Auswertung des
Sprachsignals x1(i) anstelle des Sprachsignals x2(i) ist möglich, ohne daß die
Funktionsfähigkeit der Sprachverarbeitungsvorrichtung eingeschränkt wird. Die
Funktionsweise des Funktionsblockes 7 wird später anhand der Figuren 6 bis 8
näher erläutert. Der Funktionsblock 8 führt eine Schwellwertentscheidung bezüglich
der Schätzwerte SNR(i) durch. Nur wenn die Schätzwerte SNR(i) über einer
vorgebbaren Schwelle liegen, wird ein Zwischenspeicher 9 mit dem neu bestimmten
Gradientenschätzwert grad(i) überschrieben. Dieser Fall wird durch die geschlossene
Stellung eines Schalters 11 symbolisiert, der von dem Funktionsblock 8 gesteuert
wird. Der Speicherinhalt (grad(i)) des Zwischenspeichers 9 wird von einer
Funktionseinheit 10 weiterverarbeitet. Für den Fall, daß ein Schätzwert SNR(i)
unterhalb des vorgebbaren Schwellwerts liegt, wird der Zwischenspeicher 9 nicht
mit dem neu ermittelten Gradientenschätzwert grad(i) überschrieben und er behält
seinen alten Speicherinhalt bei, was durch die geöffnete Stellung des Schalters 11
symbolisiert wird. Die vorgebbare Schwelle, von der das Öffnen und Schließen des
Schalters 11 durch den Funktionsblock 8 abhängt, liegt vorzugsweise zwischen 0
und 10 dB.A
Der Zwischenspeicher 9 liefert die in ihm gespeicherten Gradientenschätzwerte
grad(i) an die Funktionseinheit 10, der auch Abtastwerte des Sprachsignals x1(i)
zugeführt werden und die sowohl zur Lieferung der Sprachsignalschätzwerte x1int(i)
als auch zur Einstellung des Verzögerungsgliedes 4 dient. The
Die Gradientenschätzwerte grad(i) werden von einem Funktionsblock 12 nach
Die Verzögerungsschätzwerte T1'(i) können auch nicht ganzzahlige Werte d.h nicht
ganzzahlige Vielfache eines Abtastintervalls sein. Ein Funktionsblock 14 rundet die
Verzögerungsschätzwerte T1'(i) auf ganzzahlige Verzögerungswerte T1(i), mit
denen die Verzögerungsvorrichtung 4 eingestellt wird. Die Rundungsoperation durch
Funktionsblock 14 ist notwendig, da Werte des durch das Verzögerungsglied 4 zu
verzögernden Sprachsignals x1(i) nur zu den entsprechenden Abtastzeitpunkten
vorliegen. The delay estimated values T1 '(i) cannot do non-integer values
be integer multiples of a sampling interval. A
Die Funktionseinheit 10 weist weiterhin einen Funktionblock 15 auf, der die
Sprachsignalschätzwerte x1int(i) nach
Würden zur Bestimmung der Fehlerwerte e12(i) anstelle der Sprachsignalschätzwerte
x1int(i) die am Ausgang des Verzögerungsgliedes 4 anliegenden verzögerten
Abtastwerte des Sprachsignals x1(i) verwendet, wie dies aus "IEEE Transactions on
Acoustics, Speech, and Signal Processing, VOL. ASSP-29, Nr.3, Juni 1981, S. 582-587"
bekannt ist, würde beim Erreichen von Fehlerwerten e12(i) = 0 die
Verzögerungswerte T1(i), mit denen das Verzögerungsglied 4 eingestellt wird, nicht
mehr konvergieren. Es ergäben sich starke Oszillationen der gerundeten
Verzögerungswerte T1(i). Diese würden zwischen zwei Verzögerungswerten mit
dem Abstand eines Abtastintervalls schwanken. Die entsprechende wahre
Zeitverzögerung zwischen den Sprachsignalanteilen, die durch die unterschiedlichen
Wegstrecken vom Sprecher zu den Mikrophonen M1 und M2 bestimmt ist, würde
dabei zwischen diesen zwei Verzögerungswerten liegen. Im vorliegenden
Ausführungsbeispiel werden solche Oszillationen dadurch vermieden, daß bei der
Bildung der Fehlerwerte Sprachsignalschätzwerte x1int(i) verwendet werden, durch
die die Werte des Sprachsignals x1(i) auch für Verzögerungen um nicht ganzzahlige
Vielfache eines Abtastintervalls verfügbar sind, also auch an Zeitpunkten ungleich
der Abtastzeitpunkte i des Sprachsignals x1(i).If, instead of the speech signal estimated values x1 int (i), the delayed samples of the speech signal x1 (i) present at the output of the
Der zur Glättung der Gradientenschätzwerte grad(i) dienende Funktionsblock 12
bewirkt eine verbesserte Ermittlung der Verzögerungschätzwerte T1'(i).The
Die Steuervorrichtung 3 adaptiert die Verzögerungsschätzwerte T1'(i) bzw. die
Verzögerungswerte T1(i) so, daß von einem Programmzyklus zum nächsten das
Quadrat bzw. die Leistung der Fehlerwerte e12(i) verringert wird. Die Konvergenz
von T1'(i) bzw. T1(i) ist somit sichergestellt.The
In Fig. 3 ist eine prinzipiell wie die Sprachverarbeitungsvorrichtung aus Fig. 1
arbeitende Sprachverarbeitungsvorrichtung mit nun drei Mikrophonen M1, M2 und
M3 zur Lieferung von Mikrophon- bzw. Sprachsignalen dargestellt. Die
Mikrophonsignale werden Analog-Digital-Umsetzern 20, 21 und 22 zugeführt, die
digitalisierte und damit abgetastete Sprachsignale x1(i), x2(i) und x3(i) liefern, die
aus Sprach- und Rauschsignalanteilen bestehen. Die Sprachsignale x1(i) und x3(i)
werden einstellbaren Verzögerungsgliedern 23 und 24 zugeführt. Analog zu Fig. 1
wird das Sprachsignal x2(i) einem Verzögerungsglied 27 mit einer festen
Verzögerungszeit Tmax zugeführt.Die Ausgangswerte der Verzögerungsglieder 23, 24
und 27 werden von einer Addiervorrichtung 25 zum Summensignal X(i) aufaddiert.
Eine Steuervorrichtung 26 wertet die Abtastwerte der Sprachsignale x1(i), x2(i) und
x3(i) aus und leitet aus diesen Abtastwerten analog zur Wirkungsweise der
Steuervorrichtung 3 aus Fig. 1 und 2 gerundete ganzzahlige Verzögerungswerte
T1(i) und T3(i) ab, die ganzzahligen Vielfachen eines Abtastintervalles der
abgetasteten Sprachsignale x1(i), x2(i) und x3(i) entsprechen und mit denen die
Verzögerungsglieder 23 und 24 eingestellt werden, so daß eine Erweiterung von
zwei auf drei zu verarbeitende Mikrophon- bzw. Sprachsignale ermöglicht wird. FIG. 3 shows a speech processing device which works in principle like the speech processing device from FIG. 1 and now has three microphones M1, M2 and M3 for the delivery of microphone or speech signals. The microphone signals are fed to analog-to-
In Fig. 4 ist eine erste Ausführungsform der Steuervorrichtung 26 aus Fig. 3
dargestellt. Es sind zwei Funktionseinheiten 10 vorgesehen, deren Aufbau gleich
dem Aufbau der Funktionseinheit 10 aus Fig. 2 ist und die zur Einstellung der
Verzögerungsglieder 23 und 24 mit den gerundeten Zeitverzögerungswerten T1(i)
und T3(i) dienen.FIG. 4 shows a first embodiment of the
Die obere Funktionseinheit 10 liefert Sprachsignalschätzwerte x1int(i). Die untere
Funktionseinheit 10 liefert Sprachsignalschätzwerte x3int(i). Aus einer Differenz
x1int(i) - x2(i) und aus einer Differenz x3int(i) - x2(i) werden Fehlerwerte e12(i) und
e32(i) gebildet.The upper
Auch hier ist ein Digitalfilter 6 vorgesehen, das in den Ausführungen zu Fig. 2
bereits näher beschrieben ist, und das zum Empfang der Abtastwerte x2(i) und zur
Lieferung von Werten x2H(i) dient, die durch eine Hilbert-Transformation der
Abtastwerte x2(i) erzeugt werden. Die Werte x2H(i) werden einerseits mit den
Fehlerwerten e12(i) und andererseits mit den Fehlerwerten e32(i) multipliziert. Das
erste Produkt x2H(i)*e12(i) wird der oberen, das zweite Produkt x2H(i)*e32(i) wird der
unteren Funktionseinheit 10 zugeführt. Die Anordnung der Funktionsblöcke 7 und 8,
des Zwischenspeichers 9 und des Schalters 11 wird analog zu Fig. 2 durchgeführt
und ist aus Gründen der Übersichtlichkeit nicht in Fig. 4 dargestellt.Here too, a
Fig. 5 zeigt eine gegenüber Fig. 4 erweiterte Fassung der Steuervorrichtung 26. Im
Gegensatz zu Fig. 4 sind anstelle nur eines Digitalfilters 6 nun drei Digitalfilter 6
angeordnet. Diese bilden aus den Sprachsignalabtastwerten x1(i), x2(i) und x3(i)
durch Hilbert-Transformation die Werte x1H(i), x2H(i) und x3H(i).FIG. 5 shows a version of the
In der oberen Hälfte des in Fig. 5 dargestellten Blockdiagramms werden Fehlerwerte
e13(i) aus der Differenz x1int(i)-x2(i) gebildet, die in ein erstes Produkt
0,3*e13(i)*x3H(i) eingehen. Ein zweites Produkt ergibt sich aus 0,7*e12(i)*x2h(i). Die
beiden Produkte entsprechen gewichteten Gradientschätzwerten der Quadrate der
Fehlerwerte e13(i) und e12(i). Die Summe aus erstem und zweitem Produkt und damit
eine Linearkombination der gewichteten Gradientschätzwerten wird der oberen
Funktionseinheit 10 zugeführt.In the upper half of the block diagram shown in FIG. 5, error values e 13 (i) are formed from the difference x1 int (i) -x2 (i), which into a first product 0.3 * e 13 (i) * x3 H (i) die. A second product results from 0.7 * e 12 (i) * x2 h (i). The two products correspond to weighted gradient estimates of the squares of the error values e 13 (i) and e 12 (i). The sum of the first and second product and thus a linear combination of the weighted gradient estimated values is fed to the upper
Analog dazu werden in der unteren Hälfte des in Fig. 5 dargestellten
Blockdiagramms Fehlerwerte e31(i) und e32(i) gebildet. Die Fehlerwerte e31(i)
ergeben sich aus der Differenz x3int(i)-x1(i). Die Fehlerwerte e32(i) werden durch die
Differenz x3int(i)-x2(i) gebildet. Ein drittes Produkt 0,3*e31(i)*x1H(i) und ein viertes
Produkt 0,7*e32(i)*x2H(i) werden aufaddiert und die sich ergebende Summe wird der
unteren Funktionseinheit 10 zugeführt.Analogously, error values e 31 (i) and e 32 (i) are formed in the lower half of the block diagram shown in FIG. 5. The error values e 31 (i) result from the difference x3 int (i) -x1 (i). The error values e 32 (i) are formed by the difference x3 int (i) -x2 (i). A third product 0.3 * e 31 (i) * x1 H (i) and a fourth product 0.7 * e 32 (i) * x2 H (i) are added and the resulting sum is fed to the lower
Mit Hilfe der Sprachverarbeitungsvorrichtung nach Fig. 3, die eine Steuervorrichtung nach Fig. 4 oder 5 enthält, läßt sich ein gegenüber der Sprachverarbeitungsvorrichtung mit zwei Mikrophonen nach Fig. 1 verbessertes Summensignal X(i) erzeugen. Das Signal-/ Rauschleistungsverhältnis und damit die Sprachqualität des Summensignals X(i) der Sprachverarbeitungsvorrichtung nach Fig. 3 ist gegenüber dem von der Sprachverarbeitungsvorrichtung nach Fig. 1 erzeugten Summensignal X(i) weiter erhöht. Die Steuervorrichtung nach Fig. 5 weist gegenüber der Steuervorrichtung nach Fig. 4 beim Einsatz in der Sprachverarbeitungsvorrichtung nach Fig. 3 eine erhöhte Stabilität auf.3, the one 4 or 5 contains control device, can be compared to the Improved speech processing device with two microphones according to FIG. 1 Generate sum signal X (i). The signal / noise ratio and thus the Speech quality of the sum signal X (i) of the speech processing device according to FIG. 3 is compared to that of the speech processing device according to FIG. 1 generated sum signal X (i) further increased. 5 points to the control device of FIG. 4 when used in the 3 has an increased stability.
Sowohl in Fig. 4 als auch in Fig. 5 ist aus Gründen der Übersichtlichkeit auf eine
Darstellung von Mitteln (siehe Funktionsblöcke 7 und 8, Zwischenspeicher 9 und
Schalter 11 in Fig. 2) verzichtet worden, die eine Abhängigkeit der
Sprachverarbeitung von Schätzwerten SNR(i) für eines der Mikrophonsignale x1(i),
x2(i) oder x3(i) bewirken. Ebenfalls aus Gründen der Übersichtlichkeit ist die
Normierung von Produkten aus Fehlerwerten und der Ausgangswerte der die
Hilbert-Transformation durchführenden Digitalfilter 6 auf die Leistung eines
zugehörigen Mikrophonsignals (siehe 1/Px2(i) in Fig. 2) nicht dargestellt. Die
Erweiterung der Steuervorrichtungen 26 nach Fig. 4 und 5 um diese beiden
technischen Merkmale ergibt sich aus ihrer Realisierung in der Steuervorrichung 3
nach Fig. 2.Both in FIG. 4 and in FIG. 5, for the sake of clarity, a representation of means (see
Zur Erhöhung der Sprachqualität der Summensignale X(i) am Ausgang der
Addiervorrichtungen 5 und 25 in Fig. 1 und Fig. 3 kann die Erfindung so
ausgestaltet werden, daß die Verzögerungsschätzwerte T1'(i) und T3'(i) (das sind z.
B. Fließkommazahlen) zur Bildung der Verzögerungswerte T1(i) und T3(i) nicht auf
Werte gerundet werden, die einem ganzzahligen Vielfachen eines Abtastintervalls
entsprechen (hier: ganze Zahlen), sondern auf Werte, die einem Vielfachen eines
Bruchteils eines Abtastintervalls entsprechen. Insbesondere ist eine Rundung der
Verzögerungsschätzwerte auf Vielfache eines Wertes vorteilhaft, der einem Viertel
oder der Hälfte eines Abtastintervalls entspricht. Auf diese Weise wird die
Auflösung der Verzögerungswerte erhöht, die somit genauer einstellbar sind, so daß
auch die Sprachqualität der Summensignale X(i) weiter erhöht wird, da
Laufzeitunterschiede von der die Sprachsignalanteile erzeugenden Sprachquelle zu
den Mikrophonen M1, M2 und M3 genauer ausgeglichen werden können. Bei der
Verzögerung eines Sprachsignals mit einem Vielfachen eines Bruchteils eines
Abtastintervalls wird eine Interpolation oder Tiefpaßfilterung von
Sprachsignalabtastwerten vorgesehen, um Sprachsignalwerte zu erzeugen, die
zwischen jeweils zwei Sprachsignalabtastwerten liegen. Die Interpolation bzw.
Tiefpaßfilterung kann insbesondere in die Verzögerungsmittel 4, 23 und 24 integriert
werden.To increase the speech quality of the sum signals X (i) at the output of the
Mit Hilfe der Fig. 6 und 7 wird das Schema erläutert, anhand dessen der
Funktionsblock 7 aus einem abgetasteten Sprachsignal x(i), das aus Rausch- und
Sprachsignalanteilen besteht, die zugehörigen Schätzwerte SNR(i) des Signal-/
Rauschleistungsverhältnisses, d.h. des Verhältnisses der Leistungen der
Sprachsignalanteile zur Leistung der Rauschsignalanteile, ermittelt. Den
Abtastwerten x(i) entsprechen in Fig. 2 die Abtastwerte x2(i). In Fig. 6 ist der
Funktionsblock 7 anhand eines Blockschaltbildes dargestellt. Ein Funktionsblock 30
dient zur Bildung von Leistungswerten Px(i) der Abtastwerte x(i) durch Quadrieren
der Abtastwerte. Weiterhin führt der Funktionsblock 30 eine Glättung dieser
Leistungswerte Px(i) durch. Die sich so ergebenden geglätteten Leistungswerte Px,s(i)
werden sowohl dem Funktionsblock 31 als auch dem Funktionsblock 32 zugeführt.
Der Funktionsblock 31 ermittelt fortlaufend Schätzwerte Pn(i) zur Abschätzung der
Leistung des Raussignalanteils der Abtastwerte x(i), d.h. es wird die Leistung der
Rauschsignalanteile der Abtastwerte x(i) ermittelt. Aus den geglätteten
Leistungswerten Px,s(i) und den Schätzwerten Pn(i) bestimmt der Funktionsblock 32
fortlaufend Schätzwerte SNR(i) des Signal-/ Rauschleistungsverhältnisses der
Abtastwerte x(i).With the help of FIGS. 6 and 7, the scheme is explained, on the basis of which the
In Fig. 7 ist ein Flußdiagramm dargestellt, das die Funktionsweise des
Funktionsblockes 7 näher erläutert. Anhand des Flußdiagramms wird ersichtlich,
wie aus den Abtastwerten x(i) des Sprachsignals x durch ein Computerprogramm
Schätzwerte SNR(i) des entsprechenden Signal-/ Rauschleistungsverhältnisses
gebildet werden. In einem Initialisierungsblock 33 wird zu Beginn des durch Fig. 7
beschriebenen Programms eine Zählervariable Z auf 0 und eine Variable PMmin auf
einen Wert Pmax gesetzt. Pmax ist so groß gewählt, daß die geglätteten Leistungswerte
Px,s(i) immer kleiner als Pmax sind. Pmax kann beispielsweise auf den maximal
darstellbaren Zahlenwert eines zur Realisierung des Programms verwendeten
Rechners gesetzt werden. In einem Block 34 wird ein neuer Abtastwert x(i)
eingelesen. In Block 35 wird eine Zählervariable Z um den Wert 1 erhöht, wonach
in Block 36 ein neuer geglätteter Leistungswert Px,s(i) gebildet wird. Er ergibt sich
dadurch, daß zunächst durch
Durch eine Verzweigung 37 wird danach abgefragt, ob der gerade ermittelte
geglättete Leistungswert Px,s(i) kleiner als PMmin ist. Wird diese Frage bejaht, d.h.
Px,s(i) ist kleiner als PMmin, wird durch Block 38 PMmin auf den Wert von Px,s(i)
gesetzt. Falls die Frage von Verzweigung 37 verneint wird, wird Block 38
übersprungen. Damit steht in PMmin nach M Programmzyklen das Minimum von M
geglätteten Leistungswerten Px,s. Danach erfolgt mit der Verzweigung 39 die
Abfrage, ob die Zählervariable Z einen Wert größer oder gleich einem Wert M hat.
Es wird auf diese Weise festgestellt, ob schon M geglättete Leistungswerte
abgearbeitet sind.A
Wird die Frage von Verzweigung 39 verneint, d.h. es sind noch nicht M geglättete
Leistungswerte abgearbeitet, wird das Programm mit Block 40 fortgesetzt. Dort
wird ein vorläufiger Schätzwert Pn(i) der Rauschsignalleistung des Sprachsignals x
durch
Wird die Abfrage von Verzweigung 39 bejaht, d.h. es sind M geglättete Abtastwerte
Px,s(i) abgearbeitet, werden in Block 42 durch
die Komponenten eines Vektors minvec der Dimension W aktualisiert. Danach wird
durch Verzweigung 43 abgefragt, ob die Komponenten minvec1 bis minvecw mit
ansteigendem Vektorindex ansteigen, d.h. ob gilt:
Wird die Abfrage von Verzweigung 43 verneint, d.h. die zuletzt ermittelten in den
Komponenten des Vektors minvec stehenden zuletzt ermittelten W Minima steigen
nicht monoton an, wird durch Block 44 nach
Durch das beschriebene Programm werden jeweils M aufeinanderfolgende geglättete
Px,s(i) Abtastwerte x(i) des Sprachsignals x zu einer Untergruppe zusammengefaßt.
Innerhalb einer solchen Untergruppe wird durch die mit Verzweigung 37 und Block
38 durchgeführten Operationen das Minimum der geglätteten Leistungswerte Px,s(i)
ermittelt. Die zuletzt ermittelten W Minima werden in den Komponenten des
Vektors minvec abgespeichert. Sind die letzten W Minima nicht monoton ansteigend
(siehe Verzweigung 43), so wird nach Block 44 ein vorläufiger Schätzwert Pn(i) der
Leistung des Rauschsignalanteils aus dem Minimum der Minima der letzten W
Untergruppen, d.h. aus dem Minimum einer Gruppe, bestimmt. Es werden jeweils
zur Bildung einer Gruppe mit L=W*M aufeinanderfolgenden geglätteten
Leistungswerten Px,s(i) W aufeinanderfolgende Untergruppen zusammengefaßt. Die
Gruppen mit jeweils L Werten folgen lückenlos aufeinander und überlappen sich
jeweils mit L-M gelätteten Leistungen Px,s(i).Through the described program, M successive smoothed P x, s (i) samples x (i) of the speech signal x are combined into a subgroup. Within such a subgroup, the minimum of the smoothed power values P x, s (i) is determined by the operations carried out with
Für den Fall, daß die Minima von W aufeinanderfolgenden Untergruppen monoton
ansteigen (siehe Verzweigung 43), wird durch Block 45 zur Abschätzung des
aktuellen Schätzwertes Pn(i) der Leistung des Rauschsignalanteils jeweils das
Minimum der letzten Untergruppe mit M geglätteten Leistungswerten Px,s(i)
verwendet. Die Zeitspanne, mit der monoton ansteigende geglättete Leistungswerten
Px,s(i) auch eine Änderung der Schätzwerte SNR(i) bewirken, wird damit verkürzt.In the event that the minima of W successive subgroups increase monotonously (see branch 43), the minimum of the last subgroup with M smoothed power values P x is determined by
Fig. 8 verdeutlicht, wie die geglätteten Leistungswerte Px,s in Gruppen und Untergruppen zusammengefaßt werden. Es werden jeweils M geglättete Leistungswerte Px,s(i), die jeweils zu Abtastzeitpunkten i vorliegen, zu einer Untergruppe zusammengefaßt. Die Untergruppen grenzen aneinander. Für jede Untergruppe wird das Minimum der geglätteten Leistungswerte Px,s(i) bestimmt. Jeweils W Untergruppenminima werden in dem Vektor minvec abgespeichert. In der Regel, d.h. bei nicht monoton ansteigenden W Untergruppen Minima, werden W Untergruppen zu einer Gruppe mit L = W*M geglätteten Leistungswerten Px,s(i) zusammengefaßt. Nach jeweils M geglätteten Leistungen Px,s(i) wird aus dem Minimum der letzten W Untergruppenminima bzw. der letzten L geglätteten Leistungswerte Px,s(i) der Wert Pn(i) bestimmt, der zur Abschätzung der Rauschsignalleistung dient. In Fig. 8 sind acht Gruppen mit jeweils L Abtastwerten x(i) dargestellt, die jeweils W = 4 Untergruppen mit M geglätteten Leistungswerten Px,s(i) enthalten. Die acht Gruppen überlappen sich teilweise. So enthalten zwei aufeinanderfolgende Gruppen jeweils L-M gleiche geglättete Leistungswerte Px,s(i). Auf diese Weise wird ein guter Kompromiß zwischen dem erforderlichen Rechenaufwand und der jeweiligen Verzögerungszeit erreicht, mit der eine Aktualisierung eines Schätzwertes Pn(i) der Rauschsignalleistung zur Aktualisierung eines Schätzwertes SNR(i) des Signal/ Rauschleistungsverhältnisses erfolgt. Eine Realisierung mit aneinandergrenzenden, d.h. sich nicht überlappenden Gruppen ist auch denkbar. Allerdings ist dann bei verringertem Rechenaufwand die Zeitspanne zwischen zwei Schätzwerten SNR(i) vergrößert, so daß die Reaktionszeit auf sich ändernde SNR des Sprachsignals x(i) vergrößert ist.8 illustrates how the smoothed power values P x, s are combined in groups and subgroups. In each case, M smoothed power values P x, s (i), which are present at sampling times i, are combined into a subgroup. The subgroups are contiguous. The minimum of the smoothed power values P x, s (i) is determined for each subgroup. W subgroup minima are stored in the vector minvec. As a rule, ie in the case of non-monotonically increasing W subgroups minima, W subgroups are combined to form a group with L = W * M smoothed power values P x, s (i). After M smoothed powers P x, s (i), the value P n (i) is determined from the minimum of the last W subgroup minima or the last L smoothed power values P x, s (i), which is used to estimate the noise signal power. 8 shows eight groups each with L samples x (i), each of which contains W = 4 subgroups with M smoothed power values P x, s (i). The eight groups partially overlap. Two successive groups each contain the same smoothed power values P x, s (i). In this way, a good compromise is achieved between the required computational effort and the respective delay time with which an update of an estimated value P n (i) of the noise signal power takes place in order to update an estimated value SNR (i) of the signal / noise power ratio. Implementation with adjacent, ie non-overlapping groups is also conceivable. However, the time span between two estimated values SNR (i) is then increased with a reduced computing effort, so that the reaction time to changing SNR of the speech signal x (i) is increased.
Die beschriebene Sprachverarbeitungsvorrichtung weist damit eine Schätzvorrichtung
auf, die zum fortlaufenden Bilden von Schätzwerten SNR(i) des Signal-/ Rauschleistungsverhältnisses
von verrauschten Sprachsignalen x(i) geeignet ist.
Insbesondere sind keine Sprachpausen zur Abschätzung der Rauschsignalleistung
erforderlich. Die beschriebene Schätzvorrichtung nutzt den besonderen Zeitverlauf
von geglätteten Leistungswerten des Sprachsignals x(i) aus, der durch Spitzen und
dazwischenliegende Bereiche mit kleineren geglätteten Leistungswerten Px,s(i)
gekennzeichnet ist, deren zeitliche Ausdehnung von der jeweiligen Sprachquelle,
d.h. dem jeweiligen Sprecher, abhängt. Dabei werden die Bereiche zwischen den
Spitzen zur Abschätzung der Leistung des Rauschsignalanteils verwendet. Die
Gruppen mit jeweils L geglätteten Leistungswerten Px,s(i) müssen lückenlos
aufeinanderfolgen, d.h. sie müssen entweder aneinandergrenzen oder sich
überlappen. Weiterhin muß sichergestellt sein, daß mindestens ein Wert eines
zwischen zwei Spitzen liegenden Bereichs mit kleineren geglätteten Leistungswerten
Px,s(i) von jeder Gruppe erfaßbar ist, d.h. jede Gruppe muß soviele geglättete
Leistungswerte Px,s(i) enthalten, daß mindestens alle zu einer beliebigen Spitze
gehörenden Werte erfaßbar sind. Da die zeitlich ausgedehntesten Spitzen jeweils
durch die zeitlich ausgedehntesten Phoneme eines Sprachsignals, d.h. die Vokale,
abschätzbar sind, kann daraus die die Gruppengröße beschreibende Zahl L abgeleitet
werden. Für eine Abtastrate des Sprachsignals von 8 kHz liegt ein sinnvoller Wert
von L im Bereich zwischen 3000 und 8000. Ein vorteilhafter Wert für W ist 4. Bei
einer solchen Dimensionierung ergibt sich ein guter Kompromiß zwischen
Rechenaufwand und Reaktionsschnelligkeit des Funktionsblockes 7.The described speech processing device thus has an estimation device which is suitable for the continuous formation of estimated values SNR (i) of the signal / noise power ratio of noisy speech signals x (i). In particular, no speech pauses are required to estimate the noise signal power. The estimation device described uses the special time profile of smoothed power values of the speech signal x (i), which is characterized by peaks and intermediate areas with smaller smoothed power values P x, s (i), their temporal expansion from the respective speech source, ie the respective speaker , depends. The areas between the peaks are used to estimate the power of the noise signal component. The groups with L smoothed power values P x, s (i) must follow one another without gaps, ie they must either adjoin or overlap. Furthermore, it must be ensured that at least one value of an area lying between two peaks with smaller smoothed power values P x, s (i) can be recorded by each group, ie each group must contain so many smoothed power values P x, s (i) that at least all values belonging to any peak can be recorded. Since the most extended peaks can be estimated by the most extended phonemes of a speech signal, ie the vowels, the number L describing the group size can be derived from this. For a sampling rate of the speech signal of 8 kHz, a useful value of L is in the range between 3000 and 8000. An advantageous value for W is 4. With such a dimensioning, there is a good compromise between the computational effort and the speed of reaction of the
In Fig. 9 ist eine Verwendung der Sprachverarbeitungsvorrichtung aus Fig. 3 in
einem Mobilfunkendgerät 50 dargestellt. Die Sprachverarbeitungsmittel 20 bis 26
sind in einem Funktionsblock 51 zusammengefaßt, der aus den von den
Mikrophonen M1, M2 und M3 erzeugten Mikrophon- bzw. Sprachsignalen die
Summensignalwerte X(i) bildet. Die Mikrophone M1, M2 und M3 haben vorteilhaft
einen Abstand von 10 bis 60 cm, so daß in einer sogenannten "verhallten"
Umgebung (z.B. Auto, Büro) die Störsignalanteile der von den Mikrophonen M1,
M2 und M3 gelieferten Sprachsignale weitgehend unkorreliert sind. Dies gilt auch
beim Einsatz von nur zwei Mikrophonen wie in Fig. 1. Ein die Summensignalwerte
X(i) verarbeitender Funktionsblock 52 faßt alle übrigen Mittel des Mobilfunkendgerätes
50 zum Empfang, Verarbeiten und Senden von Signalen zusammen,
welche zur Kommunikation mit einer nicht dargestellten Basisstation dienen, wobei
das Senden und Empfangen von Signalen über eine an den Funktionsblock 52
gekoppelte Antenne 54 erfolgt. Weiterhin ist ein mit dem Funktionsblock 52
gekoppelter Lautsprecher 53 vorgesehen. Die akustische Kommunikation eines
Benutzers (Sprecher, Hörer) mit dem Mobilfunkendgerät 50 erfolgt über die
Mikrophone M1 bis M3 und den Lautsprecher 53, die Teile einer in das Mobilfunkendgerät
50 integrierten Freisprecheinrichtung sind. Die Anwendung eines solchen
Mobilfunkendgerätes 50 ist insbesondere in Kraftfahrzeugen von Vorteil, da dort das
Freisprechen über das Mobilfunkendgerät insbesondere durch Motor- oder
Fahrgeräusche (Rauschen) gestört ist.FIG. 9 shows a use of the speech processing device from FIG. 3 in
a
Claims (8)
- A speech processor provided for processing a first (x2(i)) and at least a further speech signal (x1(i), x3(i)) consisting of noise and speech signal components and available as sample values, comprising delay means (4, 23, 24) for delaying the sampled further speech signal (x1(i), x3(i)), comprising control means (3, 26)for forming gradient estimates (grad(i), sgrad(i)) by multiplying error values (e12(i), (e32(i), (e13(i), (e31(i)) for two speech signals (for example, x1(i) and x2(i)) by the output values of a digital filter (6), which filter causes a 90° phase shift to occur and is used for filtering one of the two speech signals (for example, x2(i)),for recursively determining delay estimates (T1'(i), T3'(i)) from the gradient estimates (grad(i), sgrad(i)), while the delay values (T2(i), T3(i)) used for setting the delay means (4, 23, 24) are formed from the delay estimates (T1'(i), T3'(i)) via a rounding operation, andfor forming at least one respective error value (e12(i), (e32(i), (e13(i), (e31(i)) for a specific sampling instant (i) from the difference between a speech signal estimate (x1int(i), x3int(i)) which estimate is used for estimating the further speech signal (x1(i), x3(i)) at an instant shifted in time by the delay estimate (T1'(i), T3'(i)) relative to the specific sampling instant (i), and is formed by interpolating sample values of the further speech signal (x1(i), x3(i)) and the sample value of another one of the speech signals to be processed (x1(i), x2(i), x3(i)) at the specific sampling instant (i), and an adder device (5, 25) for adding together the mutually time-shifted speech signals (x1(I), x2(I), x3(I)).
- A mobile radio terminal unit comprising a speech processor as claimed in Claim 1.
- A mobile radio terminal unit as claimed in Claim 2, characterized in that the digital filter (6) is a digital Hilbert transform.
- A mobile radio terminal unit as claimed in Claim 3, characterized in that smoothing means (12) are provided for smoothing the gradient estimates (grad(i)).
- A mobile radio terminal unit as claimed in one of the Claims 2 to 4, characterized in that the speech processor is provided for processing three speech signals (x1(i), x2(i), x3(i)).
- A mobile radio terminal unit as claimed in one of the Claims 2 to 5, characterized in that a linear combination of error values (e12(i) with (e13(i), e31(i) with e32(i)) is used for determining a delay estimate (T1'(i), T3'(i)) for the further speech signal (x1(i), x3(i)).
- A mobile radio terminal unit as claimed in one of the Claims 2 to 6, characterized in that the delay means (16, 27) are provided for delaying the first speech signal (x2(i)) by a fixed delay time (Tmax).
- A mMobile radio terminal unit as claimed in one of the Claims 2 to 7, characterized in that the speech processor is integrated with a hands-free facility (M1, M2, M3, 51, 52, 53).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4421853A DE4421853A1 (en) | 1994-06-22 | 1994-06-22 | Mobile terminal |
DE4421853 | 1994-06-22 |
Publications (3)
Publication Number | Publication Date |
---|---|
EP0689191A2 EP0689191A2 (en) | 1995-12-27 |
EP0689191A3 EP0689191A3 (en) | 1997-05-28 |
EP0689191B1 true EP0689191B1 (en) | 2001-05-23 |
Family
ID=6521236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP95201578A Expired - Lifetime EP0689191B1 (en) | 1994-06-22 | 1995-06-14 | Speech processing apparatus and mobile transceiver |
Country Status (4)
Country | Link |
---|---|
US (1) | US5647006A (en) |
EP (1) | EP0689191B1 (en) |
JP (1) | JPH0818473A (en) |
DE (2) | DE4421853A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535609B1 (en) * | 1997-06-03 | 2003-03-18 | Lear Automotive Dearborn, Inc. | Cabin communication system |
EP1184676B1 (en) * | 2000-09-02 | 2004-05-06 | Nokia Corporation | System and method for processing a signal being emitted from a target signal source into a noisy environment |
JP5931108B2 (en) * | 2014-03-20 | 2016-06-08 | 本田技研工業株式会社 | Navigation server and program |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3997772A (en) * | 1975-09-05 | 1976-12-14 | Bell Telephone Laboratories, Incorporated | Digital phase shifter |
DE3173306D1 (en) * | 1981-09-08 | 1986-02-06 | Ibm | Data receiving apparatus with listener echo canceller |
JP3268360B2 (en) * | 1989-09-01 | 2002-03-25 | モトローラ・インコーポレイテッド | Digital speech coder with improved long-term predictor |
US5126681A (en) * | 1989-10-16 | 1992-06-30 | Noise Cancellation Technologies, Inc. | In-wire selective active cancellation system |
US5400399A (en) * | 1991-04-30 | 1995-03-21 | Kabushiki Kaisha Toshiba | Speech communication apparatus equipped with echo canceller |
EP0517525A3 (en) * | 1991-06-06 | 1993-12-08 | Matsushita Electric Ind Co Ltd | Noise suppressor |
US5519637A (en) * | 1993-08-20 | 1996-05-21 | Mcdonnell Douglas Corporation | Wavenumber-adaptive control of sound radiation from structures using a `virtual` microphone array method |
US5359663A (en) * | 1993-09-02 | 1994-10-25 | The United States Of America As Represented By The Secretary Of The Navy | Method and system for suppressing noise induced in a fluid medium by a body moving therethrough |
US5473701A (en) * | 1993-11-05 | 1995-12-05 | At&T Corp. | Adaptive microphone array |
NL9302013A (en) * | 1993-11-19 | 1995-06-16 | Tno | System for rapid convergence of an adaptive filter when generating a time-variant signal to cancel a primary signal. |
US5581495A (en) * | 1994-09-23 | 1996-12-03 | United States Of America | Adaptive signal processing array with unconstrained pole-zero rejection of coherent and non-coherent interfering signals |
US5526426A (en) * | 1994-11-08 | 1996-06-11 | Signalworks | System and method for an efficiently constrained frequency-domain adaptive filter |
-
1994
- 1994-06-22 DE DE4421853A patent/DE4421853A1/en not_active Withdrawn
-
1995
- 1995-06-14 DE DE59509271T patent/DE59509271D1/en not_active Expired - Fee Related
- 1995-06-14 EP EP95201578A patent/EP0689191B1/en not_active Expired - Lifetime
- 1995-06-22 JP JP7156504A patent/JPH0818473A/en not_active Ceased
- 1995-06-22 US US08/493,401 patent/US5647006A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0689191A2 (en) | 1995-12-27 |
DE59509271D1 (en) | 2001-06-28 |
EP0689191A3 (en) | 1997-05-28 |
JPH0818473A (en) | 1996-01-19 |
US5647006A (en) | 1997-07-08 |
DE4421853A1 (en) | 1996-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0948237B1 (en) | Method for noise suppression in a microphone signal | |
DE69822128T2 (en) | ARRANGEMENT FOR PROCESSING AUDIO SIGNALS FROM MULTIPLE SOURCES | |
DE102010023615B4 (en) | Signal processing apparatus and signal processing method | |
EP0668007B1 (en) | Mobile radiotelephone set with handsfree device | |
EP0747880B1 (en) | System for speech recognition | |
EP1388147B1 (en) | Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance | |
EP1251493A2 (en) | Method for noise reduction with self-adjusting spurious frequency | |
DE112009001003T5 (en) | Noise cancellation system with two microphones | |
EP1143416A2 (en) | Time domain noise reduction | |
DE19831320A1 (en) | Digital adaptive filter for communications system, e.g. hands free communications in vehicles, has power estimation unit recursively smoothing increasing and decreasing input power asymmetrically | |
EP0614304A1 (en) | Process for improvement of acoustic feedback suppression in electro-acoustic devices | |
EP1189419B1 (en) | Method and device for eliminating the loudspeaker interference on microphone signals | |
EP1456839B1 (en) | Method and device for the suppression of periodic interference signals | |
EP1155561B1 (en) | Method and device for suppressing noise in telephone devices | |
DE69817461T2 (en) | Method and device for the optimized processing of an interference signal during a sound recording | |
WO1999041898A1 (en) | Method for improving acoustic noise attenuation in hand-free devices | |
EP0689191B1 (en) | Speech processing apparatus and mobile transceiver | |
EP0615226B1 (en) | Method for noise reduction in disturbed voice channels | |
EP0644527B1 (en) | Terminal for mobile radio | |
EP0855806B1 (en) | Echo suppressor for the speach input of a dialogue system | |
EP2315200B1 (en) | Adaptive MIMO filtering in dynamically adjusted transformation areas | |
EP1282297B1 (en) | Method and apparatus for echo and noise suppression | |
EP1142450B1 (en) | Method and device for adaptively modifying the characteristics of one-dimensional signals | |
DE19836995A1 (en) | Echo canceller and directional transformation method | |
EP0909029B1 (en) | Filter coefficients adaptation method and adaptive digital filter device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): DE FR GB |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): DE FR GB |
|
17P | Request for examination filed |
Effective date: 19971128 |
|
RAP3 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V. Owner name: PHILIPS CORPORATE INTELLECTUAL PROPERTY GMBH |
|
RIC1 | Information provided on ipc code assigned before grant |
Free format text: 7G 10L 21/02 A |
|
RTI1 | Title (correction) |
Free format text: SPEECH PROCESSING APPARATUS AND MOBILE TRANSCEIVER |
|
GRAG | Despatch of communication of intention to grant |
Free format text: ORIGINAL CODE: EPIDOS AGRA |
|
17Q | First examination report despatched |
Effective date: 20000809 |
|
GRAG | Despatch of communication of intention to grant |
Free format text: ORIGINAL CODE: EPIDOS AGRA |
|
GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): DE FR GB |
|
REF | Corresponds to: |
Ref document number: 59509271 Country of ref document: DE Date of ref document: 20010628 |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20010802 |
|
ET | Fr: translation filed | ||
REG | Reference to a national code |
Ref country code: GB Ref legal event code: IF02 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed | ||
REG | Reference to a national code |
Ref country code: FR Ref legal event code: D6 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 746 Effective date: 20021111 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20040628 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20040629 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20040813 Year of fee payment: 10 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050614 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20060103 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20060228 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20050614 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20060228 |