EP0449043A2 - Verfahren und Vorrichtung zur Sprachdigitalisierung - Google Patents

Verfahren und Vorrichtung zur Sprachdigitalisierung Download PDF

Info

Publication number
EP0449043A2
EP0449043A2 EP91103907A EP91103907A EP0449043A2 EP 0449043 A2 EP0449043 A2 EP 0449043A2 EP 91103907 A EP91103907 A EP 91103907A EP 91103907 A EP91103907 A EP 91103907A EP 0449043 A2 EP0449043 A2 EP 0449043A2
Authority
EP
European Patent Office
Prior art keywords
segments
signal
filter
speech
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP91103907A
Other languages
English (en)
French (fr)
Other versions
EP0449043A3 (en
Inventor
Arthur Schaub
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ascom Zelcom AG
Original Assignee
Ascom Zelcom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ascom Zelcom AG filed Critical Ascom Zelcom AG
Publication of EP0449043A2 publication Critical patent/EP0449043A2/de
Publication of EP0449043A3 publication Critical patent/EP0449043A3/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Definitions

  • the 100 percent quality corresponds to the well-known logarithmic pulse code modulation with a bit rate of 64 kilobits per second, which is at the upper end the important range for radio and telephony is from 2.4 to 64 kbit per second.
  • Logarithmic pulse code modulation belongs to the class of so-called waveform or waveform encoders, the principle of which is to approximate each individual sample as closely as possible.
  • the coding of the samples can be done in different ways, namely in such a way that the coding depends on the previous sample, or on parameters derived from the previous samples, so that one can take advantage of any characteristic of the speech signals can draw and there is the possibility, in this way, to improve the effectiveness of the processing method and to reduce the bit speed. Knowing the correlation function of a speech signal section, one can calculate an optimal filter that provides the best estimates for predicting a sample from previous samples. This filter is used in a feedback loop in order to obtain a quantization noise with a flat spectrum, that is to say without speech modulation.
  • the source coding In contrast to the waveform coding, there is the so-called source coding, which is called vocoding in English in connection with the speech coding.
  • the only issue here is to generate a signal during playback that sounds as similar as possible to the original, but in which the signal curve itself, i.e. the individual samples, can be very different from the original.
  • the signal is analyzed using a replica of the speech generation to derive parameters for a speech replication. These parameters are digitally transmitted to the receiving end, where they are used to control a synthesis device that corresponds to the simulation used for the analysis.
  • the source coding already generates 60 to 75% of the full speech quality at 2.4 kilobits per second, but it cannot exceed the saturation value even if the bit rate is increased as desired increase by 75%. This reduced quality is mainly noticeable in a not entirely natural sound and in difficult speaker recognition. The reason for this lies in the too simple model for speech synthesis.
  • the bit rate can be reduced from 64 kilobits to approximately 12 kilobits per second while maintaining the full speech quality, although the complexity of the coding algorithms increases accordingly.
  • the speech quality of the waveform coding declines rapidly below 12 kilobits per second.
  • the present invention now relates to a method for speech digitization using the waveform coding, with an encoder for digitization and a decoder for the reconstruction of the speech signal, in which the speech signal is divided into segments in the encoder and processed with the closest possible approximation of the samples, using known ones Sampled values a calculation of an estimated value for upcoming new samples takes place.
  • the invention is intended to close the gap between waveform and source coding in the range from approximately 3.6 to 12 kilobits per second, or in other words, a coding method is to be specified in which the speech quality is 100% when used from approximately 6 kilobits / s. is, to their Reaching the moderate computational effort customary for waveform coding is sufficient.
  • This object is achieved according to the invention in that the calculation of the estimated value takes place only in part of the segments and in the other part of the segments only parameters for a speech simulation in the sense of the source coding are derived, and that the individual signal segments are processed with a variable bit rate, these being processed Bit rates are assigned to different operating modes and each signal segment is classified into one of the operating modes.
  • the individual speech segments are coded with more or less bits as required, and a hybrid coding method is obtained in which the methods of source coding and waveform coding are combined.
  • the segment-wise processing with different bit rates together with the signal processing steps upstream and downstream of the signal quantization leads to an average bit rate of about 6 kilobits per second and to a voice quality that is 100% of that in telephony transmission.
  • the corresponding sampling rate is 7200 Hz, the bandwidth is 3400 Hz.
  • the length of the voice segments is 20 milliseconds, so that a segment comprises 144 samples.
  • the invention further relates to a device for performing the above method with an encoder and a decoder.
  • the device is characterized in that in the encoder an adaptive near-prediction filter for calculating the estimated value for the imminent new sample in one part of the segments, an adaptive remote prediction filter for use in voiced signal segments and means for examining the signal segments and are assigned to the individual operating modes.
  • the structure of the speech coder according to the invention with a variable bit rate is thus based on the one hand on the principle of adaptive-predictive coding (APC) and on the other hand on that of the linear predictive coding of the classic LPC vocoder with a bit rate of 2.4 kilobits per second.
  • APC adaptive-predictive coding
  • the typical data rates of the source coding enable a sufficiently high quality reproduction for many signal segments. This applies first of all to the clearly perceptible pauses between words and sentences, but also to the short pauses before plosive sounds (p, t, k, b, d and g). The latter are pauses within individual words, for example in the word "father" between a and t. Such signal intervals are referred to below as quiet segments and are assigned to a first operating mode, mode I. They are encoded with 24 bits, which results in a data rate of 1200 bits / s.
  • the hissing sounds can also be adequately reproduced with a low data rate of preferably 2400 bit / s.
  • These sounds have the common property that a continuous flow of air flows from the lungs through the trachea, pharynx and oral cavity, and that at a certain point an air turbulence results from a narrowing, the different sibilants differing by the location of this narrowing: At s it is the narrowing between the upper and lower teeth, with f that between the upper teeth and lower lip and with sch that between the tip of the tongue and the palate. In any case, it is a noise that experiences a slightly different spectral coloring according to the geometric arrangement of the speech organs.
  • the corresponding signal intervals are referred to below as fricative segments and are assigned to a second operating mode, mode II. They are encoded with 48 bits, which results in the aforementioned data rate of 2400 bits / s.
  • the normal segments have no signal properties that would allow particularly economical coding, such as the quiet and the fricative segments.
  • the normal segments do not show anything special that requires additional coding, like the voiced segments, which are explained as the last operating mode immediately afterwards.
  • the normal segments are assigned to a third operating mode, mode III, and encoded with 192 bits, which results in a data rate of 9600 bit / s.
  • the voiced sounds include all vowels (a, e, i, o, u, ä, ö, ü and y) and diphtongs (au, ei and eu) as well as the nasal sounds (m, n, and ng).
  • Their common property is the activity of the vocal cords, which modulate the air flow from the lungs by delivering periodic air blasts. This results in a quasi-periodic waveform.
  • the different voiced sounds are characterized by different geometrical arrangements of the speech organs, what leads to different spectral colors. A satisfactory reproduction of the voiced sounds is only possible if the approximate periodicity is also taken into account in addition to the coding method for the normal segments. For the voiced sounds assigned to a fourth operating mode, mode IV, this results in a data volume increased to 216 bits per segment and from this a data rate of 10800 bits / s.
  • a prerequisite for the use of the different operating modes with the respective data rate is a signal analysis which classifies each signal segment into one of the operating modes Mode I to Mode IV and initiates the appropriate signal processing.
  • the structure of the encoder with variable bit rate is based on the principle of adaptive-predictive coding (APC) on the one hand and on the other hand on that of the classic 2.4 kbit / s LPC vocoder.
  • a detailed description of adaptive-predictive coding can be found in the book "Digital Coding of Waveforms" by NS Jayant and P. Noll, Prentice Hall, Inc., Englewodd Cliffs, New Jersey 1984; Chapter 6: Differential PCM, pp. 252-350; Chapter 7: Noice Feedback Coding, pp. 351-371.
  • the encoder contains at its input a high-pass filter HP and at its output an adaptive filter 1 with the transfer function 1-A (z) and a stage 2 called near correlation.
  • the signal path leads from the output of filter 1 to one adaptive pre-filter 3 with the transfer function 1 / (1-A (z / ⁇ )), to a stage 4 designated with remote correlation and to an adaptive filter 5 with the transfer function 1-B (z), to which one designated with stage calculation Level 6.
  • the circuit contains a multiplexer 7, four summation points, an adaptive quantizer 8, a filter 9 with the transfer function A (z / ⁇ ) and a filter 10 with the transfer function B (z).
  • the decoder contains a demultiplexer 11, a decoder / quantizer 12, a noise source 13, three Summation points, a filter 9 with the transfer function A (z / ⁇ ), a filter 10 with the transfer function B (z) and an adaptive post-filter 14 with the transfer function (1-A (z / ⁇ ) / (1-A (z)) .
  • Table 2 below shows which basic algorithmic elements the encoder contains and which of the circuit elements shown in FIGS. 1 and 2 perform these functions:
  • the near-prediction filter which is also referred to as a predictor for linear predictive coding (LPC predictor), calculates, based on a few already known sample values, an estimate for the imminent new sample value.
  • the transfer function of the near-prediction filter is usually referred to as A (z).
  • the filter works in segments with another transfer function that is adapted to the signal curve; Because the signal form of a speech signal is constantly changing, new filter coefficients have to be calculated for each signal element. This calculation is carried out in the near correlation stage labeled 2.
  • a residual signal results which consists of the linearly unpredictable signal components.
  • the transfer function of this filtering is 1-A (z). Due to its unpredictability, the residual signal has properties of a random process, which can be seen in its approximately flat spectrum.
  • the adaptive filter 1 thus has the remarkable property of smoothing out the sound of the specific resonances, that is to say the so-called formants.
  • the filtering 1-A (z) with the filter 1 arranged at the input of the encoder takes place in each of the four operating modes (Table 1). Different filter orders are used for the different operating modes; the filter has order three for the quiet segments (mode I) and order eight for the other operating modes.
  • the prediction coefficients are also used in the further course of the coding filters 3 and 9 are required, which is symbolized in FIG. 1 by the broad arrows characterizing the data flow. Likewise, the prediction coefficients are used in the decoding of FIG. 2 for the filters 9 and 14. However, since the prediction filter can only be calculated in the encoder when the signal segment is present, the calculated coefficients must be encoded and stored together with further digital information so that the decoder can reconstruct the signal.
  • This coding of the coefficients is intended in FIG. 1 as a component of the near correlation stage 2. Their storage is symbolized by the data arrow to the multiplexer 7. The prediction coefficients then arrive from the demultiplexer 10 in FIG. 2 along the data arrows drawn in to the filters 9 and 14.
  • the adaptive remote prediction filter is also referred to as the pitch predictor in accordance with the English name for the fundamental frequency of the periodic excitation signal present in voiced sounds. Its use only makes sense in voiced segments (mode IV), and the actual filtering is always preceded by a signal analysis that decides for or against its use. This analysis takes place in remote correlation level 4. Other tasks at this stage are the calculation and coding of the coefficients of the remote prediction filter, which, like those of the near prediction filter, are stored as part of the digital information must be so that the decoder can reconstruct the waveform in voiced segments.
  • the transfer function of the remote prediction filter is designated B (z). It is implemented as a transversal filter; its filter order is three. In contrast to the near-prediction filter, it does not work on the immediately preceding signal values, but on those at intervals of a basic period M of the periodic excitation signal.
  • M also referred to as the pitch period, is a further task of the remote correlation stage 4.
  • the adaptive quantizer (Table 2) is composed of the stage calculation 6 and the quantizer 8. Its mode of operation is similar to that of a conventional analog / digital converter, with the difference that the adaptive quantizer does not work with a constant maximum signal amplitude, but uses a variable value that is periodically determined anew in the step calculation 6.
  • the level calculation which is carried out in all operating modes, divides each signal segment into sub-segments and calculates a new level value adapted to the signal curve for each sub-segment. Quiet segments are divided into two, the rest into three sub-segments. The level values are also encoded and saved.
  • the quantization and coding of the individual signal values takes place in the quantizer 8 and takes place with only a single bit per signal value, a positive signal value being coded with 1 and a negative signal value with 0. This means that this data has the meaning of sign bits.
  • the signal values at the output of quantizer 8 are the positive current step value for code 1 and the negative current step value for code word 0.
  • the quantization of the individual signal values only takes place in the normal and voiced segments. This leads to the remarkably low data rates of the quiet and fricative signal elements.
  • the decoder / quantizer 12 receives the sign bits for the reconstruction of the individual signal values only in the normal and voiced segments.
  • the noise source 13 is active, which supplies a pseudo-random signal of constant power, the values of which are multiplied by the current step value. This locally generated signal enables a qualitatively adequate reproduction of the quiet and fictional segments.
  • ⁇ PCM loop The signal paths in Fig. 1 with the quantizer 8, the predictors 9 and 10, and the four summation points are collectively referred to as ⁇ PCM loop.
  • the incoming voice signal goes directly to the ⁇ PCM loop, i.e. without going through filters 1 and 3, and it arrives in the ⁇ PCM loop the near-prediction filter A (z) is used instead of the filter 9 with the transfer function A (z / ⁇ ).
  • a prediction value is subtracted from the signal value at the output of the high-pass filter HP, which is composed of voiced segments from the near and the long-range prediction value.
  • the remote prediction filter makes no contribution in non-voiced segments.
  • the difference value is quantized in both cases, and at the output of the quantizer 8, the prediction value is added to the quantized difference value. This addition results in a quantized speech signal value that approximates the non-quantized speech signal value fed into the ⁇ PCM loop. In the decoder of FIG. 2, this approximate value is reconstructed using the stored digital information.
  • the quantized speech signal now goes directly to the loudspeaker without passing through the filter 14.
  • the predictors use the quantized speech signal as an input signal and that the predictors are arranged in a feedback loop. From Fig. 1 it can also be seen that the two predictors work in series, so that the output signal of the near-prediction filter is subtracted from the quantized speech signal and this difference reaches the remote prediction filter.
  • the quantized difference value differs from the non-quantized one by a slight rounding error.
  • the signal of the successive rounding errors is uncorrelated in this case and shows a flat spectrum.
  • This so-called quantization noise is included in the quantized speech signal. Its spectrum is composed of the spectrum of the original, non-quantized speech signal and the flat spectrum of the quantization noise. With fine quantization, the signal-to-noise ratio is so large that the quantization noise is barely perceptible.
  • the signal-to-noise ratio is so small that the quantization noise is perceived as disturbing.
  • the frequency domain shows that the quantization noise covers parts of the speech signal spectrum, which are frequency intervals between the formants. The formants themselves protrude from the quantization noise like mountain peaks.
  • the speech signal is processed before the ⁇ PCM loop in such a way that the formants are less pronounced.
  • the quantized signal must then undergo an inverse shaping before playback undergo so that it returns to the original sound.
  • the quantization noise then increases in the frequency intervals occupied with formants; there is therefore a rearrangement of the quantization noise within individual frequency intervals. Therefore, the shaping described is referred to as spectral shaping of the quantization noise (Table 2).
  • the signal-to-noise ratio in the formants may be reduced somewhat compared to the conditions in APC, but only moderately.
  • the ideal compromise is given when the quantization noise between the formants comes just below the level of the speech signal and still remains well below the signal spectrum in the formants. In this case, the quantized speech signal is perceived as practically free of interference (so-called masking effect).
  • the spectral shaping of the quantization noise is about moderately reforming the formants of the speech signal before it is fed into the ⁇ PCM loop and amplifying it again to the same extent after the decoding. This is done in the encoder by the successive filters 1 and 3, in the ⁇ PCM loop the prediction filter 9 is used because its transfer function is matched to the spectrally shaped signal. It has already been mentioned that the filter 1 smoothes the formants present in a signal segment; the inverse filter with the transfer function 1 / (1-A (z)) is consequently able to impress the corresponding formants again on a flat spectrum, with a single filter parameter which is between zero and one is sufficient to make the formants weaker in a controlled manner.
  • the filter 14 for inverse spectral shaping in the decoder should actually have the transfer function (1-A (z / ⁇ ) / (1-A (z)), but instead of ⁇ has the filter parameter ⁇ , which lies between zero and ⁇ , which means that the frequency intervals with better signal-to-noise ratio are slightly amplified compared to those with poorer distance
  • the filter 1-A (z / ⁇ ) does not smooth the quantized signal completely flat, and the subsequent filter 1 / (A (z)) characterizes a signal with a flat spectrum
  • the formants are present to the fullest extent. Since the formants are partially present in the input signal of the latter filter, they are overemphasized as desired by the filtering in comparison with the non-quantized speech signal.
  • An adaptive volume control is designated by g (see also FIG. 9), which is calculated from the k values of the filter and which is used to compensate for volume fluctuations caused by the different filter coefficients ⁇ and ⁇ en.
  • the filters 1, 3 for spectral shaping in the encoder and 14 in the decoder are active in all operating modes, whereby these measures which are essential for the subjectively perceived speech quality do not cause any additional data for storage.
  • the values once selected for the filter parameters ⁇ and ⁇ remain constant during use.
  • processing begins with the calculation of the autocorrelation coefficients; the subsequent decision separates the processing of the quiet from that of the other segments.
  • the autocorrelation coefficient r (0) serves as a measure of the energy contained in a segment, the decision as to whether it is a quiet segment is made in comparison with an adaptively tracked threshold ⁇ . If a fraction of the autocorrelation coefficient exceeds the threshold, then the threshold is raised to the value of that fraction. The decision for a quiet segment is made when the signal power becomes less than the current threshold.
  • the processing of the quiet segments comprises the calculation and coding of the coefficients of the near-prediction filter, the filtering 1-A (z) by the filter 1 (FIG. 1) and the calculation and coding of the quantization levels.
  • the filter 1 shown in Fig. 4 is implemented as a so-called lattice filter, the coefficients of which are the so-called reflection coefficients k 1, .... k m .
  • Structure and properties of the Lattice filters are in the book "Adaptive Filters” by CFN Cowan and PM Grant, Prentice Hall, Inc., Englewodd Cliffs, New Jersey, 1985, Chapter 5: Recursive Least-Squares Estimation and Lattice Filters, p. 91 -144. Since the filter order in the quiet segments is three, only three reflection coefficients are calculated and the remaining zero is set.
  • the calculation is based on the autocorrelation coefficients that have already been determined, whereby any of the known methods (Durbin-Levinson, Schur, Le Roux - Gueguen) can be used. It is of practical importance that monitoring of the filter stability is included: If the calculation for a reflection coefficient yields a value greater than one, then this and all higher-order coefficients are set to zero.
  • a first step the calculated values are reduced to value ranges that are relevant in practice, which represent intervals in which 99% of all values in an extensive speech sample accounted for. If a calculated coefficient is the minimum or exceeds the maximum value, the tabulated extreme value is then processed in its place. This limitation is not shown in the flowchart of FIG. 3, but it results in a more efficient use of the bits available for coding the coefficients.
  • the further steps include the calculation of the so-called log area ratio and the linear quantization / coding of these values. These two steps have the effect that the finite number of discrete values for each reflection coefficient which are possible as a result of the coding are distributed so sensibly over the value ranges mentioned that the rounding errors which result when the coefficients are quantized have as little noticeable effect on the reproduction signal as possible.
  • the quantized filter coefficients, and thus identical filters, are used in the encoder and decoder, which is essential for high signal quality.
  • two quantization levels are calculated for the quiet segments, the first level being valid for the first 10 ms and the second level being valid for the second 10 ms of the segment which has a total of 144 samples.
  • the quantization levels result from the mean absolute values of the signal values in the sub-segments. Four bits are available for coding for each level. A square-rooted quantization characteristic is used Use which results in a finer resolution for weak signals than for the louder signal elements.
  • FIG. 5 illustrates the data format with which the parameters of a quiet segment are stored.
  • the background is covered with stripes, the width of which corresponds to one bit.
  • the log area ratio of the first and second reflection coefficients k 1 and k 2 are encoded with five bits each, that of the third reflection coefficient k 3 with four bits.
  • the two quantization levels q1 and q2 are also coded with four bits each, so that the total amount of data amounts to 24 bits.
  • the data formats of the remaining segments are selected as integer multiples of 24; it is an adaptation to the word width of the Motorola signal processor DSP 56000.
  • the fricative segments are processed if the pitch analysis following filtering 1-A (z) does not detect a voiced signal curve and the autocorrelation coefficient r (1) is less than zero. This latter condition means that there is more energy in the higher-frequency part of the short-term spectrum than in the part with the lower frequencies, which in turn means that it is a hissing sound or breathing noises.
  • the processing of the fricative segments differs from that of the quiet segments in two ways: On the one hand, the filter 1-A (z) has a higher filter order, and this is eight as with the normal and voiced segments. And on the other hand, the number of quantization levels in adaptive quantization, also in accordance with the conditions in the normal and voiced segments, is three.
  • the processing of the eight reflection coefficients comprises the steps already explained for the quiet segments: limitation of the value ranges, calculation of the log area ratio, quantization with linear characteristic and back calculation.
  • a difference to the quiet segments is that the first three coefficients are encoded with a higher resolution.
  • the three quantization levels are then calculated; they are coded in the same way as for the quiet segments.
  • the data format of the fricative segments is shown in FIG. 6.
  • the coding of the first four reflection coefficients k1 to k4 is carried out with seven, six, five and four bits, that of the last four k5 to k8 with three bits each. Together with the code word for the operating mode and with the three quantization levels, this results in a data volume of 48 bits.
  • the processing of the normal segments is also only possible after a pitch examination, which could not detect a voiced signal curve.
  • the class of normal segments then includes all those segments that do not meet the condition r (1) less than zero for a fricative segment.
  • the processing of normal segments differs from that of fricative segments in that the sign bits of the individual signal values are determined and saved in the ⁇ PCM loop.
  • the spectral shaping of the input signal with filtering 1 / (1-A (z / ⁇ )) (Filter 3, Fig. 1) are completed.
  • the filter 3 (FIG. 7) is again a grating filter, but with the structure complementary to the filter 1 (FIG. 4), the filter parameter ⁇ being prepended to each delay element z ⁇ 1.
  • Fig. 8 shows the structure of the near-prediction filter 9 (Fig. 1) in the ⁇ PCM loop. It is again a grating filter with a structure similar to filter 1 (FIG. 5).
  • filter 1 the input signal on the upper signal path arrives at the output without delay and without scaling, so that the component A (z) corresponds to the sum of the partial signal coming from the lower to the upper signal path.
  • the prediction filter of FIG. 8 forms the estimated values.
  • the filter parameter ⁇ is again implemented as a multiplier before each delay element z ⁇ 1.
  • the data format of the normal segments is an extension of the data format of the fricative segments, with the sign bits determined in the ⁇ PCM loop being added as additional data. According to the subdivision of the segments into three sub-segments, these are combined in three groups of 48 bits each, which results in a total data amount of 192 bits.
  • the starting point for the detection of the voiced segments is the calculation of the correlation coefficients (pitch analysis, Fig. 3), where ⁇ 2 is calculated so that in the signal processor on the root can be dispensed with.
  • the possible pitch periods are limited to 14 to 141 sampling intervals, i.e. to 128 possible values, which leads to a 7-bit code word for the pitch period.
  • the decision for a voiced segment depends on three conditions: First, the square value of the largest correlation coefficient then it must be a positive correlation, and finally the quotient corresponding to the coefficient of a first order prediction filter must not exceed a certain maximum value of 1.3. This condition prevents the use of a prediction filter with very large amplification, which sometimes results in voiced segments that sound, and thereby protects the coding algorithm from possible instability.
  • the decision in the manner described for a voiced segment is only preliminary and means that in the next step the prediction coefficients ⁇ 1, ⁇ 0 and ⁇ +1 are calculated for a transverse pitch filter B (z). Following the calculation of the filter coefficients, the final decision for or against processing as a voiced segment is made.
  • the filter coefficients of the remote prediction filter or pitch predictor When calculating the coefficients of the remote prediction filter or pitch predictor, it is assumed that the basic period M of the quasi-periodic excitation of voiced sounds from the pitch examination is already known. The filter coefficients searched then result as a solution to a familiar optimization task in which the sum of the squares of errors is minimized. Due to the symmetrical structure of the matrix appearing in the equation, the solution can be calculated efficiently using the so-called Cholesky decomposition.
  • the filter coefficients are quantized using the previous conversions, extreme value limits and resolution according to Table 3. In exceptional cases, if the sum of the three filter coefficients is less than the tabulated minimum value of 0.1, the previous decision in favor of a voiced segment is dropped, but otherwise definitely confirmed.
  • the processing of the voiced segments differs from that of the normal segments by the additional use of the remote prediction filter in the ⁇ PCM loop.
  • the effect of the additional predictor must be taken into account appropriately, which is done by the previous filtering 1-B (z) of the signal that is otherwise used directly for the calculation.
  • the quantization levels are calculated in the manner indicated in the flowchart in FIG. 3, and their coding is carried out as in the other segments.
  • the coding of the pitch period and the coefficients of the remote prediction filter results in an additional 24 bits in addition to the data amount of the normal segments.
  • the decoder (FIG. 2) contains, in addition to parts which the coder also contains in terms of function, two special elements which do not occur in the coder, these are the noise source 13 and the filter 14.
  • the noise source is a 24 bit linear, shift register that generates a maximum length sequence of length 224 -1, in which the individual bits appear in pseudo-random order.
  • the definition of the shift register that is, the arrangement of the XOR feedback, is the book "Error-Correcting Codes" by WW Peterson, EJ Weldon, MIT Press, Cambridge, Massachusetts, 1972; Appendix C: Tables of Irreducible Polynomials over GF (2), pp. 472-492.
  • the mean absolute value of the successive random numbers is 1 ⁇ 2. Multiplication by the quantization level, which in turn was calculated as the mean absolute value, results in a synthetic excitation signal that is systematically too low by 6 dB, which sensibly compensates for the effects of fixed high-pass pre-filter and adaptive formant overemphasis, which are doubly reinforcing for fricative segments. Furthermore, this reduction in signal power in the quiet segments is subjectively perceived as increasing quality.
  • the adaptive filter 14 the structure of which is shown in FIG. 9, is used for inverse spectral shaping and overemphasis on the formants. It is a series connection of the two filter structures shown in FIGS. 4 and 7. If ⁇ is given a slightly smaller value than that in the first sub-filter If parameter ⁇ in the encoder, the formants partially present in the decoded speech signal are not completely smoothed out. The subsequent second sub-filter can impress a signal with a flat spectrum to the full extent of the formants contained in the original signal. Its application to the signal with a not completely flat spectrum brings about the desired overemphasis on the dominant signal components.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Die Sprachdigitalisierung erfolgt unter Anwendung sowohl der Signalform- wie auch der Quellencodierung, mit einem Codierer zur Digitalisierung und einem Decodierer zur Rekonstruktion des Sprachsignals. Im Codierer wird das Sprachsignal in Segmente unterteilt und in einem Teil der Segmente unter möglichst genauer Annäherung der Abtastwerte verarbeitet, wobei anhand von bekannten Abtastwerten eine Berechnung eines Schätzwertes für bevorstehende Abtastwerte erfolgt. Im anderen Teil der Segmente werden nur Parameter für eine Sprachnachbildung im Sinne der Quellencodierung abgeleitet. Die einzelnen Signalsegmente werden mit variabler Bitrate verarbeitet, wobei diese Bitraten verschiedenen Betriebsarten zugeordnet sind, und jedes Signalsegment wird in eine der Betriebsarten klassiert. Dadurch werden die einzelnen Sprachsegmente je nach Erfordernis mit mehr oder weniger Bit codiert, und man erhält ein hybrides Codierverfahren, welches die Quellencodierung und die Signalformcodierung vereinigt. Dies führt zusammen mit der Signalquantisierung vor- und nachgelagerten Signalverarbeitungsschritten zu einer durchschnittlichen Bitrate von 6 kBrt/s und einer Sprachqualität, die 100% derjenigen bei Telefonieübertragung entspricht. <IMAGE>

Description

  • Wegen der Beschränktheit der von den üblichen Sprachkanälen zugelassenen Datenübertragungsgeschwindigkeiten sind seit langem Bestrebungen zur Reduzierung der Bitrate durch entsprechende Sprachcodierung im Gange. Wenn man die Sprachqualität, das ist die Summe aus Verständlichkeit, Sprechererkennung und natürlichem Klang, in Relation zur Bitrate setzt, dann entspricht die 100 prozentige Qualität (= Telefoniequalität) der bekannten logarithmischen Pulscodemodulation mit einer Bitrate von 64 Kilobit pro Sekunde, welche am oberen Ende des für Funk und Telefonie bedeutenden Bereichs von 2,4 bis 64 kBit pro Sekunde liegt.
  • Die logarithmische Pulscodemodulation gehört zur Klasse der sogenannten Signalform- oder Kurvenformcodierer, deren Prinzip darin besteht, jeden einzelnen Abtastwert möglichst genau anzunähern. Die Codierung der Abtastwerte kann dabei auf unterschiedliche Arten erfolgen, nämlich so, dass die Codierung vom vorhergehenden Abtastwert abhängt, oder von Parametern, die von den vorhergehenden Abtastwerten abgeleitet wurden, so dass man Vorteile aus einer etwaigen Charakteristik der Sprachsignale ziehen kann und die Möglichkeit besteht, auf diese Weise die Wirksamkeit des Verarbeitungsverfahrens zu verbessern und die Bitgeschwindigkeit zu erniedrigen. Wenn man die Korrelationsfunktion eines Sprachsignalabschnitts kennt, kann man ein optimales Filter berechnen, das die besten Schätzwerte für die Vorhersage eines Abtastwertes aus vorhergehenden Abtastwerten liefert. Dieses Filter wird in einer Rückführschleife eingesetzt, um ein Quantisierungsgeräusch mit flachem Spektrum, das heisst ohne Sprachmodulation, zu erhalten.
  • Im Unterschied zur Signalformcodierung steht die sogenannte Quellencodierung, die im Englischen in Verbindung mit der Sprachcodierung als Vocoding bezeichnet wird. Hier geht es nur darum, bei der Wiedergabe ein Signal zu erzeugen, das möglichst ähnlich klingt wie das Original, bei dem aber der Signalverlauf selbst, also die einzelnen Abtastwerte, vom Original sehr verschieden sein kann. Es wird unter Benutzung einer Nachbildung der Spracherzeugung das Signal analysiert, um Parameter für eine Sprachnachbildung abzuleiten. Diese Parameter werden digital zur Empfangsseite übertragen, wo sie zur Steuerung einer Syntheseeinrichtung dienen, die der verwendeten Nachbildung der Analyse entspricht.
  • Die Quellencodierung erzeugt bei 2,4 Kilobit pro Sekunde bereits 60 bis 75% der vollen Sprachqualität, kann aber diese auch bei beliebiger Erhöhung der Bitrate nicht über den Sättigungswert von 75% steigern. Diese reduzierte Qualität macht sich hauptsächlich in einem nicht ganz natürlichen Klang und in erschwerter Sprechererkennung bemerkbar. Der Grund dafür liegt im zu einfachen Modell zur Sprachsynthese.
  • Bei der Signalformcodierung kann bei Aufrechterhaltung der vollen Sprachqualität die Bitrate von 64 Kilobit bis auf etwa 12 Kilobit pro Sekunde verkleinert werden, wobei allerdings die Komplexität der Codier-Algorithmen entsprechend zunimmt. Unterhalb von 12 Kilobit pro Sekunde nimmt die Sprachqualität der Signalformcodierung rasch ab.
  • Die vorliegende Erfindung betrifft nun ein Verfahren zur Sprachdigitalisierung unter Anwendung der Signalformcodierung, mit einem Codierer zur Digitalisierung und einem Decodierer zur Rekonstruktion des Sprachsignals, bei welchem im Codierer das Sprachsignal in Segmente unterteilt und unter möglichst genauer Annäherung der Abtastwerte verarbeitet wird, wobei anhand von bekannten Abtastwerten eine Berechnung eines Schätzwertes für bevorstehende, neue Abtastwerte erfolgt.
  • Durch die Erfindung soll die Lücke zwischen Signalform- und Quellencodierung im Bereich von etwa 3,6 bis 12 Kilobit pro Sekunde geschlossen, oder mit anderen Worten, es soll ein Codierungsverfahren angegeben werden, bei dessen Anwendung die Sprachqualität ab etwa 6 Kilobit/s 100% beträgt, wobei zu deren Erreichung der für Signalformcodierung übliche massvolle Rechenaufwand genügt.
  • Diese Aufgabe wird erfindungsgemäss dadurch gelöst, dass die Berechnung des Schätzwertes nur in einem Teil der Segmente erfolgt und im anderen Teil der Segmente nur Parameter für eine Sprachnachbildung im Sinn der Quellencodierung abgeleitet werden, und dass die einzelnen Signalsegmente mit variabler Bitrate verarbeitet werden, wobei diese Bitraten verschiedenen Betriebsarten zugeordnet sind und jedes Signalsegment in eine der Betriebsarten klassiert wird.
  • Dadurch werden die einzelnen Sprachsegmente je nach Erfordernis mit mehr oder weniger Bit codiert, und man erhält ein hybrides Codierverfahren, bei welchem die Methoden der Quellencodierung und der Signalformcodierung vereinigt sind. Die segmentweise Verarbeitung mit unterschiedlicher Bitrate führt zusammen mit den der Signalquantisierung vor- und nachgelagerten Signalverarbeitungsschritten zu einer durchschnittlichen Bitrate von etwa 6 Kilobit pro Sekunde und zu einer Sprachqualität, die 100% derjenigen bei der Telefonieübertragung beträgt. Die entsprechende Abtastrate beträgt 7200 Hz, die Bandbreite 3400 Hz. Die Länge der Sprachsegemente beträgt 20 Millisekunden, so dass ein Segment 144 Abtastwerte umfasst. Die Erfindung betrifft weiter eine Vorrichtung zur Durchführung des genannten Verfahrens mit einem Codierer und einem Decodierer.
  • Die erfindungsgemässe Vorrichtung ist dadurch gekennzeichnet, dass im Codierer ein adaptives Nah-Prädiktionsfilter zur Berechnung des Schätzwertes für den unmittelbar bevorstehenden, neuen Abtastwert in dem einen Teil der Segmente, ein adaptives Fern-Prädiktionsfilter für den Einsatz in stimmhaften Signalsegmenten und Mittel zur Untersuchung der Signalsegemente und zu deren Zuordnung zu den einzelnen Betriebsarten vorgesehen sind.
  • Der Aufbau des erfindungsgemässen Sprachcodierers mit variabler Bitrate basiert somit einerseits auf dem Prinzip der adaptiv-prädiktiven Codierung (APC) und andererseits auf jenem der linearen prädiktiven Codierung des klassischen LPC-Vocoders mit einer Bitrate von 2,4 Kilobit pro Sekunde.
  • Im folgenden wird die Erfindung anhand eines in den Figuren dargestellten Ausführungsbeispiels näher erläutert; es zeigen:
  • Fig. 1
    ein Blockschaltbild eines Codierers,
    Fig. 2
    ein Blockschaltbild eines Decodierers,
    Fig. 3
    das Flussdiagramm des Codierers,
    Fig. 4
    die Struktur eines ersten Filters,
    Fig. 5, 6
    Darstellung von Datenformaten; und
    Fig. 7-9
    Strukturen weiterer Filter.
  • Die typische Datenraten der Quellencodierung ermöglichen für viele Signalsegmente eine qualitativ ausreichende Wiedergabe. Das gilt zunächst einmal für die deutlich wahrnehmbaren Sprechpausen zwischen Wörtern und Sätzen, aber auch für die kurzen Sprechpausen vor Plosivlauten (p, t, k, b, d und g). Letzteres sind Pausen innerhalb einzelner Wörter, beispielsweise beim Wort "Vater" zwischen a und t. Solche Signalintervalle werden nachfolgend als leise Segmente bezeichnet und einer ersten Betriebsart, Modus I, zugeordnet. Sie werden mit 24 Bit codiert, was eine Datenrate von 1200 Bit/s ergibt.
  • Auch die Zischlaute (s, f und sch), sowie Atemgeräusche zwischen dem Sprechen, können mit einer geringen Datenrate von vorzugsweise 2400 Bit/s ausreichend wiedergegeben werden. Diese Laute haben die gemeinsame Eigenschaft, dass von der Lunge ein kontinuierlicher Luftstrom durch die Luftröhre, Rachen- und Mundhöhle strömt, und dass an einer bestimmten Stelle durch eine Verengung eine Luftturbulenz entsteht, wobei sich die verschiedenen Zischlaute durch den Ort dieser Verengung unterscheiden: Beim s ist es die Verengung zwischen oberer und unterer Zahnreihe, beim f diejenige zwischen oberer Zahnreihe und Unterlippe und beim sch diejenige zwischen Zungenspitze und Gaumen. In jedem Fall handelt es sich um ein Rauschen, das entsprechend der geometrischen Anordnung der Sprechorgane eine etwas verschiedene spektrale Färbung erfährt. Die entsprechenden Signalintervalle werden nachfolgend als frikative Segmente bezeichnet und einer zweiten Betriebsart, Modus II, zugeordnet. Sie werden mit 48 Bit codiert, was die schon erwähnte Datenrate von 2400 Bit/s ergibt.
  • Eine weitere Art von Signalintervallen, die nachfolgend als normal bezeichneten Segmente, weist keine Signaleigenschaften auf, die eine besonders sparsame Codierung zulassen würden, so wie die leisen und die frikativen Segmente. Die normalen Segmente zeigen aber auch keine Besonderheit, die einen zusätzlichen Codieraufwand erfordert, wie die stimmhaften Segmente, die als letzte Betriebsart gleich anschliessend erklärt werden. Die normalen Segmente werden einer dritten Betriebsart, Modus III, zugeordnet und mit 192 Bit codiert, was eine Datenrate von 9600 Bit/s ergibt.
  • Die stimmhaften Laute schliesslich umfassen alle Vokale (a, e, i, o, u, ä, ö, ü und y) und Diphtonge (au, ei und eu) sowie die Nasallaute (m, n, und ng). Ihre gemeinsame Eigenschaft besteht in der Aktivität der Stimmbänder, welche den Luftstrom aus den Lungen durch Abgabe periodischer Luftstösse modulieren. Damit ergibt sich eine quasi-periodische Signalform. Die verschiedenen stimmhaften Laute zeichnen sich durch unterschiedliche geometrische Anordnungen der Sprechorgane aus, was zu unterschiedlichen spektralen Färbungen führt. Eine qualitativ ausreichende Wiedergabe der stimmhaften Laute ist nur möglich, wenn zusätzlich zum Codierverfahren für die normalen Segmente die annähernde Periodizität mitberücksichtigt wird. Dadurch ergibt sich für die einer vierten Betriebsart, Modus IV, zugeordneten stimmhaften Laute eine auf 216 Bit pro Segment erhöhte Datenmenge und daraus eine Datenrate von 10800 Bit/s.
  • Die verschiedenen Betriebsarten und ihre Datenmengen sind in der nachfolgenden Tabelle 1 zusammengefasst:
    Figure imgb0001
  • Voraussetzung für die Anwendung der verschiedenen Betriebsarten mit der jeweiligen Datenrate ist eine Signalanalyse, welche jedes Signalsegment in eine der Betriebsarten Modus I bis Modus IV klassiert und die passende Signalverarbeitung einleitet.
  • Nachfolgend sollen nun anhand der Figuren 1 und 2 der Codierer und der Decodierer erläutert werden. Grundsätzlich basiert der Aufbau des Codierers mit variabler Bitrate einerseits auf dem Prinzip der adaptiv-prädiktiven Codierung (APC) und andererseits auf jenem des klassischen 2,4 kBit/s LPC-Vocoders. Eine ausführliche Beschreibung der adaptiv-prädiktiven Codierung findet sich im Buch "Digital Coding of Waveforms" von N.S. Jayant und P. Noll, Prentice Hall, Inc., Englewodd Cliffs, New Jersey 1984; Kapitel 6: Differential PCM, S. 252-350; Kapitel 7: Noice Feedback Coding, S. 351-371. Die dem LPC-Vocoder zugrunde liegenden Ideen sind in "Digital Processing of Speech Signals" von L.R. Rabiner und R.W. Schafer, Prentice Hall, Inc., Englewodd Cliffs, New Jersey, 1978; Kapitel 8: Linear Predictive Coding of Speech, S. 396-461, beschrieben.
  • Gemäss Fig. 1 enthält der Codierer an seinem Eingang ein Hochpassfilter HP und an dessen Ausgang ein adaptives Filter 1 mit der Transferfunktion 1-A(z) sowie eine mit Nah-Korrelation bezeichnete Stufe 2. Vom Ausgang des Filters 1 führt der Signalpfad zu einem adaptiven Vorfilter 3 mit der Transferfunktion 1/(1-A(z/γ)), zu einer mit Fernkorrelation bezeichneten Stufe 4 und zu einem adaptiven Filter 5 mit der Transferfunktion 1-B(z), an welches eine mit Stufen-Berechnung bezeichnete Stufe 6 anschliesst. Ausserdem enthält die Schaltung einen Multiplexer 7, vier Summationspunkte, einen adaptiven Quantisierer 8, ein Filter 9 mit der Transferfunktion A(z/γ) und ein Filter 10 mit der Transferfunktion B(z).
  • Der Decodierer enthält gemäss Fig. 2 einen Demultiplexer 11, einen Decodierer/Quantisierer 12, eine Rauschquelle 13, drei Summationspunkte, ein Filter 9 mit der Transferfunktion A(z/γ) ein Filter 10 mit der Transferfunktion B(z) und ein adaptives Nachfilter 14 mit der Transferfunktion (1-A(z/α)/(1-A(z)).
  • In der folgenden Tabelle 2 ist angegeben, welche algorithmischen Grundelemente der Codierer enthält, und von welchen der in den Fig. 1 und 2 dargestellten Schaltungselemente diese Funktionen wahrgenommen werden:
    Figure imgb0002
  • Das auch als Prädiktor zur linearen prädiktiven Codierung (LPC-Prädiktor) bezeichnete Nah-Prädiktionsfilter berechnet, ausgehend von einigen wenigen bereits bekannten Abtastwerten, einen Schätzwert für den unmittelbar bevorstehenden, neuen Abtastwert. Die Transferfunktion des Nah-Prädiktionsfilters wird üblicherweise mit A(z) bezeichnet. Das Filter arbeitet segmentweise mit einer anderen, dem Signalverlauf angepassten Transferfunktion; denn da sich die Signalform eines Sprachsignals fortwährend ändert, sind für jedes Signalelement neue Filterkoeffizienten zu berechnen. Diese Berechnung erfolgt in der mit 2 bezeichneten Stufe Nah-Korrelation.
  • Werden die vom Prädiktionsfilter berechneten Schätzwerte von den einzelnen Signalwerten subtrahiert, so ergibt sich ein Restsignal, das aus den linear nicht vorhersagbaren Signalanteilen besteht. Die Transferfunktion dieser Filterung ist 1-A(z). Das Restsignal hat aufgrund der Unvorhersagbarkeit Eigenschaften eines Zufallsprozesses, die sich in seinem näherungsweise flachen Spektrum zeigen. Somit hat das adaptive Filter 1 die bemerkenswerte Eigenschaft, die spezifischen Resonanzen, das sind die sogenannten Formanten, eines Lautes flachzuglätten.
  • Die Filterung 1-A(z) mit dem am Eingang des Codierers angeordneten Filter 1 findet in jeder der vier Betriebsarten (Tabelle 1) statt. Für die verschiedenen Betriebsarten gelangen unterschiedliche Filterordnungen zum Einsatz; für die leisen Segmente (Modus I) hat das Filter die Ordnung drei und für die anderen Betriebsarten die Ordnung acht. Die Prädiktionskoeffizienten werden im weiteren Verlauf der Codierung auch noch für die Filter 3 und 9 benötigt, was in Fig. 1 durch die breiten, den Datenfluss kennzeichnenden Pfeile symbolisiert ist. Ebenso werden die Prädiktionskoeffizienten beim Decodieren von Fig. 2 für die Filter 9 und 14 gebraucht. Da aber das Prädiktionsfilter nur im Codierer bei vorliegendem Signalsegment berechnet werden kann, müssen die berechneten Koeffizienten codiert und zusammen mit weiteren digitalen Informationen abgespeichert werden, damit der Decodierer das Signal rekonstruieren kann. Diese Codierung der Koeffizienten ist in Fig. 1 als ein Bestandteil der Nah-Korrelationsstufe 2 gedacht. Ihre Abspeicherung ist durch den Datenpfeil zum Multiplexer 7 symbolisiert. Vom Demultiplexer 10 in Fig. 2 gelangen die Prädiktionskoeffizienten dann entlang den eingezeichneten Datenpfeilen zu den Filtern 9 und 14.
  • Das adaptive Fern-Prädiktionsfilter wird entsprechend der englischen Bezeichnung für die Grundfrequenz des in stimmhaften Lauten vorhandenen, periodischen Anregungssignals auch als Pitch-Prädiktor bezeichnet. Sein Einsatz ist nur in stimmhaften Segmenten sinnvoll (Modus IV), und der eigentlichen Filterung geht in jedem Fall eine Signalanalyse voraus, die für oder gegen ihren Einsatz entscheidet. Diese Analyse findet in der Fern-Korrelationsstufe 4 statt. Weitere Aufgaben dieser Stufe sind die Berechnung und Codierung der Koeffizienten des Fern-Prädiktionsfilters, welche so wie jene des Nah-Prädiktionsfilters als Teil der digitalen Information gespeichert werden müssen, damit der Decodierer den Signalverlauf in stimmhaften Segmenten rekonstruieren kann.
  • Die Transferfunktion des Fern-Prädiktionsfilters ist mit B(z) bezeichnet. Es ist als Transversalfilter implementiert; seine Filterordnung beträgt drei. Im Unterschied zum Nah-Prädiktionsfilter arbeitet es nicht auf den unmittelbar vorangegangenen Signalwerten, sondern auf solchen im Abstand einer Grundperiode M des periodischen Anregungssignals. Die Bestimmung dieser auch als Pitch-Periode bezeichneten Grösse M ist eine weitere Aufgabe der Fern-Korrelationsstufe 4.
  • Der adaptive Quantisierer (Tabelle 2) setzt sich aus der Stufenberechnung 6 und dem Quantisierer 8 zusammen. Seine Arbeitsweise ähnelt derjenigen eines gewöhnlichen Analog/Digital-Wandlers, mit dem Unterschied, dass der adaptive Quantisierer nicht mit einer konstanten maximalen Signalamplitude arbeitet, sondern einen variablen Wert benützt, der in der Stufenberechnung 6 periodisch neu ermittelt wird.
  • Die Stufenberechnung, die in allen Betriebsarten erfolgt, unterteilt jedes Signalsegment in Teilsegmente und berechnet für jedes Teilsegment einen neuen, dem Signalverlauf angepassten Stufenwert. Leise Segmente werden in zwei, die übrigen in drei Teilsegmente unterteilt. Die Stufenwerte werden ebenfalls codiert und abgespeichert.
  • Die Quantisierung und Codierung der einzelnen Signalwerte findet im Quantisierer 8 statt und erfolgt mit nur einem einzigen Bit pro Signalwert, wobei ein positiver Signalwert mit 1 und ein negativer Signalwert mit 0 codiert wird. Damit haben diese Daten die Bedeutung von Vorzeichenbits. Die Signalwerte am Ausgang des Quantisierers 8 sind der positive aktuelle Stufenwert für den Code 1 und der negative aktuelle Stufenwert für das Codewort 0. Die Quantisierung der einzelnen Signalwerte findet nur in den normalen und stimmhaften Segmenten statt. Dieser Sachverhalt führt zu den auffallend geringen Datenraten der leisen und frikativen Signalelemente.
  • Der Decodierer/Quantisierer 12 erhält die Vorzeichenbits zur Rekonstruktion der einzelnen Signalwerte nur in den normalen und stimmhaften Segmenten. In den leisen und frikativen Segmenten ist die Rauschquelle 13 aktiv, welche ein pseudo-zufälliges Signal konstanter Leistung liefert, dessen Werte mit dem aktuellen Stufenwert multipliziert werden. Dieses lokal erzeugte Signal ermöglicht eine qualitativ ausreichende Wiedergabe der leisen und fikativen Segmente.
  • Die Signalpfade in Fig. 1 mit dem Quantisierer 8, den Prädiktoren 9 und 10, sowie den vier Summationspunkten werden zusammen als △PCM-Schleife bezeichnet. Im gewöhnlichen APC-Schema gelangt das eintreffende Sprachsignal direkt zur △PCM-Schleife, also ohne die Filter 1 und 3 zu durchlaufen, und es gelangt in der △PCM-Schleife anstelle des Filters 9 mit der Transferfunktion A(z/γ) das Nah-Prädiktionsfilter A(z) zum Einsatz.
  • Gemäss Fig. 1 wird vom Signalwert am Ausgang des Hochpassfilters HP ein Prädiktionswert subtrahiert, der sich in stimmhaften Segementen aus dem Nah- und dem Fernprädiktionswert zusammensetzt. In nicht stimmhaften Segmenten liefert das Fern-Prädiktionsfilter keinen Beitrag. Der Differenzwert wird in beiden Fällen quantisiert, und am Ausgang des Quantisierers 8 wird der Prädiktionswert zum quantisierten Differenzwert addiert. Diese Addition ergibt einen quantisierter Sprachsignalwert, der den in die △PCM-Schleife eingespeisten und nicht quantisierten Sprachsignalwert approximiert. Im Decodierer von Fig. 2 wird mit Hilfe der abgespeicherten digitalen Informationen genau dieser Näherungswert rekonstruiert. Beim gewöhnlichen APC- Schema gelangt nun das quantisierte Sprachsignal direkt zum Lautsprecher, ohne das Filter 14 zu durchlaufen.
  • Das Besondere am APC-Schema liegt darin, dass den Prädiktoren das quantisierte Sprachsignal als Eingangssignal dient, und dass die Prädiktoren in einer Rückführschleife angeordnet sind. Aus Fig. 1 ist auch ersichtlich, dass die beiden Prädiktoren in Serie arbeiten, so dass das Ausgangssignal des Nah-Prädiktionsfilters vom quantisierten Sprachsignal subtrahiert wird und diese Differenz in das Fern-Prädiktionsfilter gelangt.
  • Bei genügend feiner Quantisierung mit mehreren Bit pro Signalwert unterscheidet sich der quantisierte Differenzwert vom nicht quantisierten durch einen geringfügigen Rundungsfehler. Das Signal der aufeinanderfolgenden Rundungsfehler ist in diesem Fall unkorreliert und zeigt ein flaches Spektrum. Dieses sogenannte Quantisierungsrauschen ist im quantisierten Sprachsignal additiv enthalten. Sein Spektrum setzt sich also aus dem Spektrum des ursprünglichen, nicht quantisierten Sprachsignals und dem flachen Spektrum des Quantisierungsrauschens zusammen. Bei feiner Quantisierung ist der Signal/Rausch-Abstand so gross, dass man das Quantisierungsrauschen gar nicht oder nur leise wahrnimmt.
  • Bei grober Quantisierung mit einem oder zwei Bit pro Signalwert ist dagegen der Rauschabstand so klein, dass das Quantisierungsrauschen als störend wahrgenommen wird. Im Frequenzbereich zeigt sich, dass das Quantisierungsrauschen Teile des Sprachsignalspektrums überdeckt, wobei es sich um Frequenzintervalle zwischen den Formanten handelt. Die Formanten selbst ragen wie Bergspitzen aus dem Quantisierungsrauschen heraus.
  • Um das Quantisierungsrauschen zwischen den Formanten unter das Niveau des Sprachsignalspektrums absinken zu lassen, wird das Sprachsignal vor der △PCM-Schleife so bearbeitet, dass die Formanten weniger ausgeprägt vorhanden sind. Vor der Wiedergabe muss dann das quantisierte Signal einer inversen Formung unterzogen werden, damit es wieder den ursprünglichen Klang annimmt. Im Vergleich mit dem gewöhnlichen APC-Schema erhöht sich dann das Quantisierungsrauschen in den mit Formanten besetzten Frequenzintervallen; es findet also eine Umlagerung des Quantisierungsrauschens innerhalb einzelner Frequenzintervalle statt. Daher wird die beschriebene Formung als spektrale Formung des Quantisierungsrauschens (Tabelle 2) bezeichnet.
  • Aufgrund von physiologischen Gegebenheiten des menschlichen Wahrnehmungsapparates darf der Rauschabstand in den Formanten im Vergleich zu den Verhältnissen bei APC wohl etwas verkleinert werden, aber nur massvoll. Der ideale Kompromiss ist dann gegeben, wenn das Quantisierungsrauschen zwischen den Formanten knapp unter das Niveau des Sprachsignals gelangt und in den Formanten immer noch deutlich unter dem Signalspektrum bleibt. In diesem Fall wird das quantisiete Sprachsignal als praktisch störungsfrei wahrgenommen (sogenannter Maskierungseffekt).
  • Ein wesentlicher Teil der Erfindung besteht nun darin, dass es gelungen ist, diesen Maskierungseffekt bei der bereits beschriebenen spärlichen Quantisierung überhaupt zu erreichen. Das gelingt durch den kombinierten Einsatz
    • einer festen Hochpass-Vorfilterung (f3db = 700..1000 Hz) zusammen mit
    • der adaptiven spektralen Formung des Quantisierungsrauschens, realisiert durch die adaptive Vorfilterung (1-A(z))/1-A(z/γ)) und die adaptive Nachfilterung (1-A(z/α))/(1-A(z)), die ihrerseits
    • infolge α kleiner γ durch eine Formanten-Ueberbetonung die Maskierung verstärkt und zugleich die durch das feste Hochpassfilter veränderte Klangfarbe der Vokale weitgehend kompensiert, wogegen andererseits
    • einer zu starken Ueberbetonung der frikativen Segmente durch diese vorgängigen Verarbeitungsschritte mittels einer reduzierten Signalleistung der synthetischen Rauschquelle entgegengewirkt wird.
  • Bei der spektralen Formung des Quantisierungsrauschens geht es also darum, die Formanten des Sprachsignals vor der Einspeisung in die △PCM-Schleife massvoll zurückzubilden und im Anschluss an die Decodierung wieder im gleichen Mass zu verstärken. Im Codierer geschieht dies durch die aufeinanderfolgenden Filter 1 und 3, in der △PCM-Schleife gelangt das Prädiktionsfilter 9 zum Einsatz, da seine Transferfuntkion auf das spektral geformte Signal abgestimmt ist. Es wurde schon erwähnt, dass das Filter 1 die in einem Signalsegement vorhandenen Formanten glättet; das inverse Filter mit der Transferfunktion 1/(1-A(z)) ist folglich in der Lage, einem flachen Spektrum die entsprechenden Formanten wieder einzuprägen, wobei ein einzelner Filterparameter , welcher zwischen null und eins liegt, genügt, um die Formanten in kontrollierter Weise schwächer auszubilden.
  • Das Filter 14 zur inversen spektralen Formung im Decodierer müsste eigentlich die Transferfunktion (1-A(z/γ)/(1-A(z)) aufweisen, besitzt aber anstelle von γ den Filterparameter α, welcher zwischen null und γ liegt, wodurch die Frequenzintervalle mit besserem Rauschabstand gegenüber jenen mit schlechterem Abstand etwas verstärkt werden. Das Filter 1-A(z/α) glättet das quantisierte Signal nicht vollständig flach, und das nachfolgende Filter 1/(A(z)) prägt einem Signal mit flachem Spektrum die Formanten in vollem Ausmass ein. Da beim Eingangssignal des letzteren Filters die Formanten ansatzweise vorhanden sind, werden sie durch die Filterung im Vergleich mit dem nicht quantisierten Sprachsignal wie gewünscht überbetont. Mit g ist eine adaptive Lautstärkensteuerung bezeichnet (siehe auch Fig. 9), die sich aus den k-Werten des Filters berechnet und die zum Ausgleich von Lautstärkeschwankungen dient, die durch die unterschiedlichen Filterkoeffizienten α und γ verursacht werden.
  • Die Filter 1, 3 zur spektralen Formung im Codierer und 14 im Decodierer sind in allen Betriebsarten aktiv, wobei diese für die subjektiv empfundene Sprachqualität wesentlichen Massnahmen keine zusätzlichen Daten zur Abspeicherung verursachen. Die einmal gewählten Werte für die Filterparameter γ und α bleiben bei der Anwendung konstant.
  • Die einzelnen Signalverarbeitungsschritte im Codierer sind aus dem Flussdiagramm von Figur 3 ersichtlich. Dieses zeigt die Anordnung von Verarbeitungssequenzen und Entscheidungen, wobei die Entscheidungen eine allmähliche Aufgliederung in die separate Verarbeitung der vier verschiedenen Betriebsarten (Tabelle 1) bewirken.
  • Darstellungsgemäss beginnt die Verarbeitung mit der Berechnung der Autokorrelationskoeffizienten; die nachfolgende Entscheidung trennt die Verarbeitung der leisen von jener der übrigen Segmente.
  • Der Autokorrelationskoeffizient r(0) dient als Mass für die in einem Segment enthaltene Energie, wobei der Entscheid, ob es sich um ein leises Segment handelt, im Vergleich mit einer adaptiv nachgeführten Schwelle Θ erfolgt. Wenn ein Bruchteil des Autokorrelationskoeffizienten die Schwelle übertrifft, dann wird die Schwelle auf den Wert dieses Bruchteils angehoben. Der Entscheid für ein leises Segement fällt, wenn die Signalleistung kleiner als die momentane Schwelle wird.
  • Die Verarbeitung der leisen Segmente umfasst die Berechnung und Codierung der Koeffizienten des Nah-Prädiktionsfilters, die Filterung 1-A(z) durch das Filter 1 (Fig. 1) und die Berechnung und Codierung der Quantisierungsstufen.
  • Das in Fig. 4 dargestellte Filter 1 ist als sogenanntes Gitterfilter (englisch: Lattice-Filter) implementiert, dessen Koeffizienten die sogenannten Reflektionskoeffizienten k₁,.... km sind. Struktur und Eigenschaften der Lattice-Filter sind im Buch "Adaptive Filters" von C.F.N. Cowan und P.M. Grant, Prentice Hall, Inc., Englewodd Cliffs, New Jersey, 1985, Kapitel 5: Recursive Least-Squares Estimation and Lattice Filters, S. 91-144, beschrieben. Da in den leisen Segmenten die Filterordnung drei beträgt, werden nur drei Reflektionskoeffizienten berechnet und die übrigen null gesezt.
  • Die Berechnung erfolgt ausgehend von den bereits ermittelten Autokorrelationskoeffizienten, wobei irgendeines der bekannten Verfahren (Durbin-Levinson, Schur, Le Roux - Gueguen) angewendet werden kann. Von praktischer Bedeutung ist dabei, dass eine Ueberwachung der Filterstabilität miteingeschlossen ist: Wenn die Berechnung für einen Reflektionskoeffizienten dem Betrag nach einen Wert grösser eins liefert, dann wird dieser und alle Koeffizienten höherer Ordnung null gesetzt.
  • Nach der Berechnung der Reflektionskoeffizienten folgen verschiedene Schritte zu ihrer Quantisierung und Codierung. In einem ersten Schritt werden die berechneten Werte auf in der Praxis relevante Wertebereiche reduziert, welche Intervalle darstellen, in die 99% aller Werte einer umfangreichen Sprachprobe entfielen. Wenn ein berechneter Koeffizient den minimalen oder maximalen Wert überschreitet, dann wird an seiner Stelle der tabellierte Extremwert weiterverarbeitet. Diese Begrenzung ist im Flussdiagramm von Fig. 3 nicht ausgewiesen, sie bewirkt aber einen effizienteren Einsatz der zur Codierung der Koeffizienten zur Verfügung stehenden Bits.
  • Die weiteren Schritte umfassen die Berechnung der sogenannten Log Area Ratio und die lineare Quantisierung/Codierung dieser Werte. Diese beiden Schritte bewirken, dass die infolge der Codierung möglichen endlich vielen, diskreten Werte für jeden Reflektionskoeffizienten so sinnvoll auf die genannten Wertebereiche verteilt werden, dass sich die Rundungsfehler, die sich beim Quantisieren der Koeffizienten ergeben, im Wiedergabesignal möglichst wenig bemerkbar machen. Im Codierer und Decodierer gelangen die quantisierten Filterkoeffizienten, und damit identische Filter, zum Einsatz, was für eine hohe Signalqualität unerlässlich ist.
  • Im Anschluss an die Filterung 1-A(z) werden für die leisen Segmente zwei Quantisierungsstufen berechnet, wobei die erste Stufe für die ersten 10 ms und die zweite Stufe für die zweiten 10 ms des Segments gilt, welches total 144 Abtastwerte aufweist. Die Quantisierungsstufen ergeben sich als mittlere Absolutwerte der Signalwerte in den Teilsegmenten. Für die Codierung stehen für jede Stufe vier Bit zur Verfügung. Es kommt eine quadratwurzelförmige Quantisierungskennlinie zum Einsatz, welche für schwache Signale eine feinere Auflösung ergibt als für die lauteren Signalelemente.
  • In Fig. 5 ist das Datenformat illustriert, mit dem die Parameter eines leisen Segments abgespeichert werden. Der Hintergrund ist mit Streifen belegt, deren Breite einem Bit entspricht. Zur Bezeichnung der aktuellen Betriebsart sind zwei Bit erforderlich, die Log Area Ratio des ersten und des zweiten Reflektionskoeffizienten k₁ und k₂ sind mit je fünf Bit codiert, jene des dritten Reflektionskoeffizienten k₃ mit vier Bit. Die beiden Quantisierungsstufen q₁ und q₂ sind ebenfalls mit je vier Bit codiert, so dass sich die gesamte Datenmenge auf 24 Bit beläuft. Die Datenformate der übrigen Segmente sind als ganzzahlige Vielfache von 24 gewählt; es handelt sich dabei um eine Anpassung an die Wortbreite des Motorola Signalprozessors DSP 56000.
  • Aus dem Flussdiagramm des Codierers (Fig. 3) ist ersichtlich, dass die Verarbeitungssequenz vom Schur-Algorithmus bis zur Filterung 1-A(z) für die leisen und die übrigen Segmente auf den ersten Blick übereinstimmen. Der Unterschied besteht, wie schon erwähnt, nur in der Filterordnung.
  • Für die nicht leisen Sprachsegmente führt die Signalverarbeitung anschliessend an die Filterung 1-A(z) zunächst zum gemeinsamen Block Pitch-Untersuchung. Erst anschliessend an diese erfolgen die Verzweigungen, die zu einer Aufgliederung in die verbleibenden drei Betriebsarten führen. Bevor nun die Verarbeitung der stimmhaften Segmente erläutert wird, wird zuerst diejenige der frikativen und der normalen Segmente beschrieben.
  • Zur Verarbeitung der frikativen Segmente gelangt man, wenn die Pitch-Untersuchung im Anschluss an die Filterung 1-A(z) keinen stimmhaften Signalverlauf detektiert und der Autokorrelationskoeffizienten r(1) kleiner als null ist. Diese letztere Bedingung bedeutet nämlich, dass im höherfrequenten Teil des Kurzzeit-Spektrums mehr Energie ist als im Teil mit den tieferen Frequenzen, und das bedeutet wiederum, dass es sich um einen Zischlaut oder um Atemgeräusche handelt.
  • Die Verarbeitung der frikativen Segmente unterscheidet sich von derjenigen der leisen Segmente in zwei Punkten: Einerseits weist das Filter 1-A(z) eine höhere Filterordnung auf, und zwar beträgt diese wie bei den normalen und stimmhaften Segmenten acht. Und andererseits beträgt die Anzahl der Quantisierungsstufen bei der adaptiven Quantisierung, ebenfalls in Uebereinstimmung mit den Verhältnissen bei den normalen und stimmhaften Segmenten, drei.
  • Die Verarbeitung der acht Reflektionskoeffizienten umfasst die bereits für die leisen Segmente erläuterten Schritte: Begrenzung der Wertebereiche, Berechung der Log Area Ratio, Quantisierung mit linearer Kennlinie und Rückrechnung. Ein Unterschied zu den leisen Segmenten besteht darin, dass die ersten drei Koeffizienten mit höherer Auflösung codiert werden. Dann erfolgt die Berechnung der drei Quantisierungsstufen; ihre Codierung erfolgt gleich wie bei den leisen Segmenten.
  • Das Datenformat der frikativen Segmente ist in Fig. 6 abgebildet. Die Codierung der ersten vier Reflektionskoeffizienten k₁ bis k₄ erfolgt mit sieben, sechs, fünf und vier Bit, jene der letzten vier k₅ bis k₈ mit je drei Bit. Zusammen mit dem Codewort für die Betriebsart und mit den drei Quantisierungsstufen ergibt das eine Datenmenge von 48 Bit.
  • Zur Verarbeitung der normalen Segmente gelangt man ebenfalls erst im Anschluss an eine Pitch-Untersuchung, die keinen stimmhaften Signalverlauf erkennen konnte. Die Klasse der normalen Segmente umfasst dann alle jene Segmente, welche die Bedingung r(1) kleiner null für ein frikatives Segment nicht erfüllen.
  • Die Verarbeitung der normalen Segmente unterscheidet sich von jener der frikativen Segmente dadurch, dass in der △PCM-Schleife die Vorzeichenbits der einzelnen Signalwerte ermittelt und abgespeichert werden. Dazu muss vorgängig die spektrale Formung des Eingangssignals mit der Filterung 1/(1-A(z/γ)) (Filter 3, Fig. 1) vervollständigt werden. Das Filter 3 (Fig. 7) ist wiederum ein Gitterfilter, aber mit der zum Filter 1 (Fig. 4) komplementären Struktur, wobei der Filterparameter γ jedem Verzögerungsglied z⁻¹ multiplikativ vorangestellt ist.
  • Fig. 8 zeigt die Struktur des Nah-Prädiktionsfilters 9 (Fig. 1) in der △PCM-Schleife. Es handelt sich wieder um ein Gitterfilter mit einer dem Filter 1 (Fig. 5) ähnlichen Struktur. Beim Filter 1 gelangt das Eingangssignal auf dem oberen Signalpfad ohne Verzögerung und ohne Skalierung zum Ausgang, womit also der Anteil A(z) der Summe der vom unteren zum oberen Signalpfad gelangenden Teilsignal entspricht. Auf genau diese Weise bildet das Prädiktionsfilter von Fig. 8 die Schätzwerte. Die Implementierung des Filterparameters γ erfolgt wieder als Multiplikator vor jedem Verzögerungsglied z⁻¹.
  • Das Datenformat der normalen Segmente ergibt sich als Erweiterung des Datenformats der frikativen Segmente, wobei als zusätzliche Daten die in der △PCM-Schleife ermittelten Vorzeichenbits dazukommen. Entsprechend der Unterteilung der Segmente in drei Teilsegemente sind diese in drei Gruppen zu je 48 Bits zusammengefasst, woraus sich eine Gesamtdatenmenge von 192 Bits ergibt.
  • Ausgangspunkt für die Detektion der stimmhaften Segmente ist die Berechnung der Korrelationskoeffizienten (Pitch-Untersuchung, Fig. 3), wobei ρ² berechnet wird, damit im Signalprozessor auf das Wurzelziehen verzichtet werden kann. Die möglichen Pitch-Perioden sind auf 14 bis 141 Abtastintervalle, also auf 128 mögliche Werte, beschränkt, was zu einem 7 Bit Codewort für die Pitch-Periode führt.
  • Die Entscheidung für ein stimmhaftes Segment hängt von drei Bedingungen ab: Einmal muss der Quadratwert des grössten Korrelationskoeffizienten
    Figure imgb0003

    übersteigen, dann muss es sich um eine positive Korrelation handeln, und schliesslich darf der dem Koeffizienten eines Prädiktionsfilters erster Ordnung entsprechende Quotient einen bestimmten Maximalwert von 1,3 nicht übersteigen. Diese Bedingung verhindert den Einsatz eines Prädiktionsfilters mit sehr grosser Verstärkung, was sich gelegentlich in anklingenden stimmhaften Segmenten ergibt, und bewahrt dadurch den Codieralgorithmus vor möglicher Instabilität.
  • Der auf die beschriebene Weise getroffene Entscheid für ein stimmhaftes Segment ist erst vorläufig und bedeutet, dass im nächsten Schritt die Prädiktionskoeffizienten β₋₁, β₀ und β₊₁ für ein transversales Pitch-Filter B(z) berechnet werden. Im Anschluss an die Berechnung der Filterkoeffizienten fällt dann der definitive Entscheid für oder gegen die Verarbeitung als stimmhaftes Segment.
  • Bei der Berechnung der Koeffizienten des Fern-Prädiktionsfilters oder Pitch-Prädiktors wird vorausgesetzt, dass die Grundperiode M der quasi-periodischen Anregung stimmhafter Laute aus der Pitch-Untersuchung bereits bekannt ist. Die gesuchten Filterkoeffizienten ergeben sich dann als Lösung einer gewohnten Optimierungsaufgabe, bei der die Summe der Fehlerquadrate minimiert wird. Infolge der symmetrischen Struktur der in der Gleichung auftretenden Matrix, kann die Lösung effizient mit der sogenannten Cholesky-Zerlegung berechnet werden. Die Quantisierung der Filterkoeffizienten erfolgt mit den nach Tabelle 3 vorgängigen Umrechnungen, Extremwertbegrenzungen und Auflösung. Im Ausnahmefall, wenn die Summe der drei Filterkoeffizienten kleiner als der tabellierte Mindestwert von 0,1 ausfällt, wird die bisherige Entscheidung zugunsten eines stimmhaften Segmentes fallengelassen, andernfalls aber definitiv bestätigt.
    Figure imgb0004
  • Die Verarbeitung der stimmhaften Segmente unterscheidet sich von derjenigen der normalen Segmente durch den zusätzlichen Einsatz des Fern-Prädiktionsfilters in der △PCM-Schleife. Bei der Berechnung der Quantisierungsstufe muss die Wirkung des zusätzlichen Prädiktors angemessen berücksichtigt werden, was durch die vorgängige Filterung 1-B(z) des sonst direkt zur Berechnung herangezogenen Signals erfolgt. Die Berechnung der Quantisierungsstufen erfolgt auf die im Flussdiagramm von Fig. 3 angegebenen Art, ihre Codierung erfolgt wie bei den übrigen Segementen. Die Codierung der Pitch-Periode und der Koeffizienten des Fern-Prädiktionsfilters ergibt zur Datenmenge der normalen Segmente zusätzliche 24 Bits.
  • Der Decodierer (Fig. 2) enthält neben Teilen, welche der Codierer funktionsmässig mitenthält, zwei besondere Elemente, die im Codierer nicht vorkommen, es sind das die Rauschquelle 13 und das Filter 14.
  • Bei der Rauschquelle handelt es sich um ein 24 Bit lineares, rückgekoppeltes Schieberegister, dass eine Maximallängensequenz der Länge 2²⁴ -1 erzeugt, in welcher die einzelnen Bits in pseudo-zufälliger Reihenfolge erscheinen. Die Definition des Schieberegisters, das heisst die Anordnung der XOR-Rückführung ist dem Buch "Error-Correcting Codes" von W.W. Peterson, E.J. Weldon, MIT Press, Cambridge, Massachusetts, 1972; Appendix C: Tables of Irreducible Polynomials over GF(2), S. 472-492, entnommen.
  • Es werden je vier aufeinanderfolgende Bits zu einer Zufallszahl zusammengefasst, die als binäre Bruchzahl interpretiert wird. Diese Zufallszahlen werden mit einem festen fünften, rechts anschliessenden (LSB)Bit=1 symmetrisch um null angeordnet. Das Zufallssignal der Rauschquelle das sich aus den aufeinanderfolgenden Zufallszahlen zusammensetzt, wird mit der für jedes Teilsegement codierten Quantisierungsstufe multipliziert. Auf diese Weise ergibt sich das sogenannte synthetische Anregungssignal in den leisen und frikativen Segmenten.
  • Der mittlere Absolutwert der aufeinanderfolgenden Zufallszahlen beträgt ½. Durch Multiplikation mit der Quantisierungsstufe, die ihrerseits als mittlerer Absolutwert errechnet wurde, ergibt sich damit ein systematisch um 6 dB zu leises synthetisches Anregungssignal, womit die für frikative Segmente zweifach verstärkenden Wirkungen von festen Hochpass-Vorfilter und adaptiver Formanten-Ueberbetonung sinnvoll kompensiert werden. Im weiteren wird diese Absenkung der Signalleistung in den leisen Segmenten subjektiv als qualitätssteigernd empfunden.
  • Das adaptive Filter 14 dessen Struktur in Fig. 9 dargestellt ist, dient der inversen spektralen Formung und Ueberbetonung der Formanten. Es handelt sich um eine Serieschaltung der beiden in den Fig. 4 und 7 dargestellten Filter-Strukturen. Gibt man α im ersten Teilfilter einen etwas kleineren Wert als dem Parameter γ im Codierer, so werden die im decodierten Sprachsignal teilweise vorhandenen Formanten nicht ganz flach geglättet. Das nachfolgende zweite Teilfilter vermag einem Signal mit flachem Spektrum die im ursprünglichen Signal enthaltenen Formanten in voller Stärke einzuprägen. Seine Anwendung auf das Signal mit nicht vollständig flachem Spektrum bewirkt die gewünschte Ueberbetonung der dominanten Signalanteile.

Claims (15)

  1. Verfahren zur Sprachdigitalisierung unter Anwendung der Signalformcodierung, mit einem Codierer zur Digitalisierung und mit einem Decodierer zur Rekonstruktion des Sprachsignals, bei welchem im Codierer das Sprachsignal in Segmente unterteilt und unter möglichst genauer Annäherung der Abtastwerte verarbeitet wird, wobei anhand von bekannten Abtastwerten eine Berechnung eines Schätzwertes für bevorstehende, neue Abtastwerte erfolgt, dadurch gekennzeichnet, dass die Berechnung des Schätzwertes nur in einem Teil der Segmente erfolgt und im anderen Teil der Segmente nur Parameter für eine Sprachnachbildung im Sinn der Quellencodierung abgeleitet werden, und dass die einzelnen Sprachsegmente mit variabler Bitrate verarbeitet werden, wobei diese Bitraten verschiedenen Betriebsarten zugeordnet sind und jedes Signalelement in eine der Betriebsarten klassiert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Signalquantisierung mit einem oder zwei Bit pro Abtastwert erfolgt, und dass dieser Signalverarbeitungsschritte vor- und nachgelagert werden, durch welche das Quantisierungsgeräusch weitgehend der Wahrnehmung entzogen und der natürliche Klang der Sprache bewahrt wird.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die vor- und nachgelagerten Signalverarbeitungsschritte eine feste Hochpassfilterung (HP), eine adaptive Vorfilterung (1, 3), eine adaptive Nachfilterung (14) und eine Abschwächung des Anregungssignals in Segmenten mit Zischlauten umfasst.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass vier Betriebsarten festgelegt werden, eine erste für nachfolgend als leise Segmente bezeichnete Sprechpausen, eine zweite für nachfolgend als frikative Segmente bezeichnete Zischlaute, eine dritte für nachfolgend als normale Segmente bezeichnete Signalsegmente, die keine besonders sparsame Codierung zulassen, und eine vierte für nachfolgend als stimmhafte Segmente bezeichnete stimmhafte Laute.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die leisen Segmente mit 24 Bit pro Segment, die frikativen Segmente mit 48 Bit pro Segment, die normalen Segmente mit 192 Bit pro Segment und die stimmhaften Segmente mit 216 Bit pro Segment codiert werden.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass als Mass für die in einem Segment enthaltene Energie der Autokorrelationskoeffizient (r(0)) verwendet wird, und dass der Entscheid, ob es sich um ein leises Segment handelt, durch einen Vergleich des Autokorrelationskoeffizienten mit einer adaptiv nachgeführten Schwelle erfolgt.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die nicht als leise bewerteten Segmente einer sogenannten Pitch-Untersuchung zur Detektion eines stimmhaften Signalverlaufs unterzogen werden, und dass von den als nicht stimmhaft bewerteten Signalelementen diejenigen mit einem Autokorrelationskoeffizienten (r(1)) kleiner null als frikative Segmente bewertet werden.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass in allen Betriebsarten eine Stufenberechnung durchgeführt wird, bei welcher jedes Signalsegment in Teilsegmente unterteilt und für jedes Teilsegment ein neuer, dem Signalverlauf angepasster Stufenwert berechnet wird, wobei leise Segmente in zwei und die übrigen Segmente in drei Teilsegmente unterteilt werden.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei den normalen und stimmhaften Segmenten nach der Stufenberechnung eine adaptive Quantisierung der einzelnen Signalwerte mit dem bei der Stufenberechnung ermittelten, dem Signalverlauf angepassten Stufenwert erfolgt.
  10. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1, mit einem Codierer und einem Decodierer, dadurch gekennzeichnet, dass im Codierer ein adaptives Nah-Prädiktionsfilter (9) zur Berechnung des Schätzwertes für den unmittelbar bevorstehenden, neuen Abtastwert in dem einen Teil der Segmente, ein adaptives Fern- Prädiktionsfilter (10) für den Einsatz in stimmhaften Signalelementen und Mittel zur Untersuchung der Signalelemente und zu deren Zuordnung zu den einzelnen Betriebsarten vorgesehen sind.
  11. Vorrichtung nach Anspruch 10, gekennzeichnet durch einen adaptiven Quantisierer (6, 8) zur Unterteilung der Signalsegmente in Teilsegmente und zur Berechnung eines dem Signalverlauf angepassten Stufenwertes.
  12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass der Quantisierer (8) und die beiden Prädiktionsfilter (9, 10) zusammen mit vier Summationspunkten eine sogenannte △PCM-Schleife bilden, dass das Eingangssignal des Nah-Prädiktionsfilters (9) durch das quantisierte Sprachsignal gebildet ist, und dass das Ausgangssignal des Nah-Prädiktionsfilters vom quantisierten Sprachsignal subtrahiert wird und diese Differenz in das Fern-Prädiktionsfilter (10) gelangt.
  13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass der PCM-Schleife eine festes Hochpassfilter (HP) und adaptive Vorfilter (1, 3) vorgeschaltet sind, dass im Decodierer eine synthetische Rauschquelle (13) und ein adaptives Nachfilter (14) angeordnet sind, dessen Filterkoeffizient (α) kleiner ist als derjenige (γ) des einen Vorfilters (3), und dass die synthetische Rauschquelle mit einer reduzierten Signalleistung betrieben wird.
  14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die beiden Vorfilter (1, 3) und das Nachfilter (14) durch sogenannte Gitter-Filter gebildet sind.
  15. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass das Fern-Prädiktionsfilter (10) durch ein Transversalfilter gebildet ist.
EP19910103907 1990-03-22 1991-03-14 Method and apparatus for speech digitizing Ceased EP0449043A3 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH95690A CH680030A5 (de) 1990-03-22 1990-03-22
CH956/90 1990-03-22

Publications (2)

Publication Number Publication Date
EP0449043A2 true EP0449043A2 (de) 1991-10-02
EP0449043A3 EP0449043A3 (en) 1992-04-29

Family

ID=4199089

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19910103907 Ceased EP0449043A3 (en) 1990-03-22 1991-03-14 Method and apparatus for speech digitizing

Country Status (3)

Country Link
EP (1) EP0449043A3 (de)
CH (1) CH680030A5 (de)
FI (1) FI911010A (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933803A (en) * 1996-12-12 1999-08-03 Nokia Mobile Phones Limited Speech encoding at variable bit rate
EP0588932B1 (de) * 1991-06-11 2001-11-14 QUALCOMM Incorporated Vocoder mit veraendlicher bitrate

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ICASSP '88, (1988 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 11. - 14. April 1988), Band 1, Seiten 631-634, IEEE, New York, US; D.J. ZARKADIS et al.: "A 16kb/s APC system with adaptive postfilter and evaluation of its performence" *
ICASSP '89, (1989 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEE CH, AND SIGNAL PROCESSING, Glasgow, 23. - 26. Mai 1989), Band 1, Seiten 156-159, IEEE, New York, US; T. TANIGUCHI et al.: "Multimode coding: Application to CELP" *
ICC '87, (IEEE INTERNATIONAL CONFERENCE ON COMMUNICATIONS '87, Seattle, Washington, 7. - 10. Juni 1987), Band 1, Seiten 418-424, IEEE, New York, US; Y. YATSUZUKA et al.: "Hardware implementation of 9.6/16 kbit/s APC-MLQ speech codec and its applications for mobile satellite communications" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0588932B1 (de) * 1991-06-11 2001-11-14 QUALCOMM Incorporated Vocoder mit veraendlicher bitrate
US5933803A (en) * 1996-12-12 1999-08-03 Nokia Mobile Phones Limited Speech encoding at variable bit rate

Also Published As

Publication number Publication date
EP0449043A3 (en) 1992-04-29
FI911010A0 (fi) 1991-02-28
FI911010A (fi) 1991-09-23
CH680030A5 (de) 1992-05-29

Similar Documents

Publication Publication Date Title
EP2022043B1 (de) Informationssignalcodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
DE60209861T2 (de) Adaptive Postfilterung zur Sprachdekodierung
DE60217522T2 (de) Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE102008042579B4 (de) Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE19715126A1 (de) Sprachsignal-Codiervorrichtung
DE19722705A1 (de) Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE DE DK ES FR GB IT NL SE

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE DE DK ES FR GB IT NL SE

17P Request for examination filed

Effective date: 19920817

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

17Q First examination report despatched

Effective date: 19951213

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 19960624