DE4231918C1 - Procedure for coding speech signals - Google Patents

Procedure for coding speech signals

Info

Publication number
DE4231918C1
DE4231918C1 DE19924231918 DE4231918A DE4231918C1 DE 4231918 C1 DE4231918 C1 DE 4231918C1 DE 19924231918 DE19924231918 DE 19924231918 DE 4231918 A DE4231918 A DE 4231918A DE 4231918 C1 DE4231918 C1 DE 4231918C1
Authority
DE
Germany
Prior art keywords
mode
speech
channel
bit rate
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19924231918
Other languages
German (de)
Inventor
Joerg-Martin Dipl Ing Mueller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
ANT Nachrichtentechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANT Nachrichtentechnik GmbH filed Critical ANT Nachrichtentechnik GmbH
Priority to DE19924231918 priority Critical patent/DE4231918C1/en
Priority to AU49434/93A priority patent/AU4943493A/en
Priority to PCT/DE1993/000839 priority patent/WO1994007313A1/en
Application granted granted Critical
Publication of DE4231918C1 publication Critical patent/DE4231918C1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/04Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
    • H04B14/046Systems or methods for reducing noise or bandwidth

Abstract

A process for coding speech signals to be transmitted by an emitter over a limited transmission capacity (BBR) channel to a receiver with speech coder and channel coder is characterized in that the speech coder and the channel coder have each two different modes. In the first mode, the speech signal is coded by the speech coder with a lower bit rate (B1) than in a second mode (B0), in the first mode the bit rate difference (B0-B1) with respect to the bit rate (B0) of the second mode is made available for the channel coder, and this additional bit rate difference is used by the channel coder for transmitting supplementary redundance information. An improved quality of speech transmission is thus obtained, useful for example for mobile radiotelephones.

Description

Die Erfindung bezieht sich auf ein Verfahren für die Codierung von Sprachsignalen gemäß Oberbegriff des Anspruches 1. Solche Sprachcodierverfahren sind bekannt, beispielsweise durch die deutsche Patentschrift 38 34 871.The invention relates to a method for coding of speech signals according to the preamble of claim 1. Such Speech coding methods are known, for example through the German patent 38 34 871.

Allen Sprachcodierungsverfahren ist gemeinsam eine Prädiktionsanalyse des Eingangssignals (Linear Prediction Coder, LPC). Dabei wird das Sprachsignal am Eingang des Encoders im Rahmen einer bestimmten Dauer von z. B. 20-30 ms unterteilt. Jeder Sprachrahmen wird im Encoder einer linearen Prädiktionsanalyse unterworfen, welche lineare Abhängigkeiten im Sprachsignal entfernt. Die lineare Prädiktion wird mit Hilfe von FIR-Filtern (Finite Impulse Response) durchgeführt. Die Koeffizienten dieser Filter werden in jedem Rahmen neu ermittelt, d. h. es handelt sich hier um adaptive Filter. Bei den bekannten CELP-Verfahren (Code-Excited-Linear- Prediction) und SELP (Stochastically-Excited-Linear- Prediction) werden zwei Arten linearer Prädiktion eingesetzt, die lineare Kurzzeitprädiktion und die lineare Langzeitprädiktion. Die Filterkoeffizienten des Kurzzeitprädiktors werden einmal pro Sprachrahmen ermittelt, während die Koeffizienten des Langzeitprädiktors dagegen typischerweise viermal pro Sprachrahmen ermittelt werden. Bei der Analyse-durch-Synthese-Methode wird in Rückkopplungsschleifen das sogenannte Residuum, das Fehlersignal der LPC-Analyse, mit verschiedenen Varianten erzeugt und weiterverarbeitet. Beispielsweise wird beim CELP- Verfahren das Residuum durch eine gaußverteilte Zufallsfolge erzeugt, wobei ein Codebuch, das die Zufallsvektoren enthält, durchsucht und derjenige Vektor ausgewählt wird, der den kleinsten Fehler im synthetisierten Sprachsignal erzeugt. Zu übertragen sind dann nur die Adressen der ausgewählten Vektoren im Codebuch.All speech coding methods have one thing in common Prediction analysis of the input signal (linear prediction Coder, LPC). The speech signal at the input of the Encoders within a certain period of z. B. 20-30 ms divided. Each speech frame becomes a linear one in the encoder Prediction analysis subjected to what linear dependencies removed in the voice signal. The linear prediction is with Using FIR (Finite Impulse Response) filters. The coefficients of these filters are new in every frame determined, d. H. these are adaptive filters. In the known CELP methods (code-excited linear Prediction) and SELP (Stochastically Excited Linear Prediction) two types of linear prediction are used, the linear short-term prediction and the linear Long-term prediction. The filter coefficients of the Short-term predictors are determined once per language frame, while the coefficients of the long-term predictor against it typically four times per language frame. The analysis-by-synthesis method uses Feedback loops the so-called residual, the Error signal of the LPC analysis, with different variants generated and processed. For example, the CELP Proceed the residue using a Gaussian random sequence generated, a code book containing the random vectors  searched and the vector is selected that the smallest error in the synthesized speech signal generated. To only the addresses of the selected ones are transferred Vectors in the code book.

Bei der Sprachübertragung wird allgemein eine gute Sprachqualität gefordert, dies sowohl bei fehlerfreien als auch bei gestörten Kanälen. Um den Kanalstörungen entgegenzuwirken, wird bei digitalen Sprachübertragungen den Bits aus dem Sprachencoder eine Redundanz R hinzugefügt, dies wird Kanalcodierung genannt, um auf der Empfangsseite Übertragungsfehler korrigieren zu können. Da die Kanalkapazität eine vorgegebene und nicht veränderbare Systemgröße ist, können bei bestimmten Kanalstörungen Übertragungsfehler nicht mehr korrigiert werden, weshalb die Qualität bzw. Verständlichkeit des empfangenen Sprachsignals darunter leidet.Voice transmission is generally a good one Speech quality required, both with error-free and even with disturbed channels. To the channel interference To counteract this will be the case with digital voice transmissions Bits from the language encoder added a redundancy R, this is called channel coding to on the receiving side To be able to correct transmission errors. Since the Channel capacity a predetermined and not changeable System size is can with certain channel interference Transmission errors can no longer be corrected, which is why the Quality or intelligibility of the received speech signal suffer from.

Der vorliegenden Erfindung lag die Aufgabe zugrunde, ein Sprachcodierverfahren der eingangs genannten Art anzugeben, welches in der Lage ist, die Qualität bzw. Verständlichkeit der über einen Kanal übertragenen Sprache sowohl bei störungsfreiem als auch bei gestörtem Kanal zu erhöhen, d. h. sowohl die Sprachqualität bei fehlerfreier Übertragung als auch die Robustheit des Sprachübertragungssystems zu steigern.The present invention was based on the object Specify speech coding methods of the type mentioned at the outset, which is capable of quality or intelligibility the language transmitted over a channel in both to increase interference-free as well as in the event of a disturbed channel, d. H. both the voice quality with error-free transmission as also to increase the robustness of the voice transmission system.

Diese Aufgabe wurde gelöst durch die Merkmale des Hauptanspruchs. Vorteilhafte Ausgestaltungen ergeben sich durch die Unteransprüche.This task was solved by the characteristics of the Main claim. Advantageous configurations result through the subclaims.

Die Erfindung geht aus von der Erkenntnis, daß ein Sprachsignal in drei Klassen eingeteilt werden kann:The invention is based on the knowledge that a Voice signal can be divided into three classes:

  • 1. stimmlos1. voiceless
  • 2. stimmhaft2. voiced
  • 3. Übergänge zwischen stimmlos und stimmhaft bzw. umgekehrt.3. Transitions between unvoiced and voiced or vice versa.

In den Fällen 1 und 3 sind die Koeffizienten des Langzeitprädiktors sehr starken Schwankungen unterworfen, so daß die mehrmalige Neuberechnung pro Sprachrahmen aus Gründen der Sprachqualität unbedingt erforderlich ist. Dieser Betriebsfall wird im folgenden mit Mode 0 bezeichnet. Im stimmhaften Fall dagegen (im folgenden mit Mode 1 bezeichnet) schwanken die Parameter nur sehr wenig, so daß ohne Verschlechterung der Sprachqualität hierfür weniger Bits zu übertragen sind, d. h. eine unter Umständen wesentlich kleinere Bitrate benötigt wird. Beispielsweise kann durch die Differenzcodierung ein viertel bis drei achtel der Sprachencoder-Bitrate eingespart werden. Diese eingesparte Bitrate wird beim erfindungsgemäßen Verfahren der Kanalcodierung zur Verfügung gestellt. Wenn also diese kleinere Bitrate zur Codierung der stimmhaften Sprachabschnitte verwendet wird, so kann dies statistisch gesehen für etwa 45 bis 50% der gesamten Sprachübertragung erfolgen, wodurch die Sprachqualität des Sprachcodecs bei fehlerfreiem Kanal nicht verschlechtert wird, die Qualität bei gestörtem Kanal jedoch wesentlich erhöht wird.In cases 1 and 3 the coefficients of the Long-term predictors are subject to very strong fluctuations, so that the repeated recalculation per language frame for reasons the voice quality is absolutely necessary. This Operating mode is referred to below as mode 0. in the voiced case, however (hereinafter referred to as mode 1) the parameters fluctuate very little, so without Deterioration in voice quality means fewer bits for this transferred, d. H. possibly a much smaller one Bit rate is needed. For example, through the Differential coding a quarter to three eighth of the Language encoder bit rate can be saved. This saved Bit rate is available in the channel coding method according to the invention posed. So if this smaller bit rate to encode the voiced language sections is used, so this can statistically, for about 45 to 50% of the total Voice transmission take place, which reduces the voice quality of the Speech codecs are not deteriorated when the channel is free of errors, however, the quality is significantly increased if the channel is disturbed becomes.

Darüberhinaus wird zusätzlich vorgeschlagen, den Mode 1 unabhängig von der Statistik des Spracheingangssignals zu erzwingen, wenn die Kanalstörungen ein gewisses Maß übertreffen und damit die Verständlichkeit sehr stark dezimiert werden würde. Durch das erfindungsgemäße Verfahren wird die Robustheit und damit die Qualität bzw. Verständlichkeit bei gestörtem bzw. stark gestörtem Kanal wesentlich erhöht. Wenn ein Maß für die Höhe der Störung als Signal vorhanden ist, so kann mit Hilfe dessen die Empfangsqualität bereits im Sender gesteuert werden. Dies ist beispielsweise bei Verfügbarkeit eines Rückkanals möglich, über den ein entsprechendes Signal als Maß für die Güte des Empfangssignals vom Empfänger zum Sender rückübertragen wird.Furthermore, additionally suggested the Mode 1 regardless of the To force statistics of the input speech signal when the Channel disturbances exceed a certain level and thus the Intelligibility would be decimated very much. By the The inventive method is the robustness and thus the Quality or intelligibility when disturbed or strong disturbed channel significantly increased. If a measure of the height the disturbance is present as a signal, with the help of it the reception quality can already be controlled in the transmitter. This is possible, for example, if a return channel is available, via which a corresponding signal as a measure of the quality of the Received signal is transmitted back from the receiver to the transmitter.

Es folgt nun die Beschreibung der Erfindung anhand der Figuren.There now follows the description of the invention with reference to FIG Characters.

Fig. 1 und die Fig. 2 zeigen Blockschaltbilder für Sprach- und Kanalencoder bzw. -decoder mit variabler Bitrate. Fig. 1 and Fig. 2 show block diagrams for speech and channel coders or decoders with variable bit rate.

Fig. 3 demonstriert ein Funkübertragungssystem mit Rückkanal, und in Fig. 3 demonstrates a radio transmission system with return channel, and in

Fig. 4 ist die Struktur eines Sprachencoders mit variabler Bitrate detaillierter gezeichnet. Fig. 4 shows the structure of a variable bit rate speech encoder in more detail.

In Fig. 5 schließlich ist ein Ablaufdiagramm eines Differenzcodierungsentscheiders dargestellt.Finally, FIG. 5 shows a flowchart of a differential coding decision maker.

Die Figuren sind Ausführungsbeispiele im Hinblick auf die Anwendung des Verfahrens im Mobilfunk. Hierbei ist die Kanalkapazität BBR beim GSM-Full-Rate-System 22,8 kBit/sec. und beim GSM-Half-Rate-System 11,4 kBit/sec. (GSM steht für Group Speciale Mobile).The figures are exemplary embodiments with regard to the Application of the method in mobile radio. Here is the Channel capacity BBR with the GSM full rate system 22.8 kbit / sec. and with the GSM half-rate system 11.4 kbit / sec. (GSM stands for Group Speciale Mobile).

Gemäß dem erfindungsgemäßen Verfahren wird die Kanalcodierung auf Sende- und Empfangsseite an die Bitrate des Sprachcodecs angepaßt. Der Modus, in dem der Sprachencoder arbeitet, wird mit einem sogenannten Modebit signalisiert. Dieses Modebit muß auf der Empfangsseite im Kanaldecoder rekonstruiert werden. Die Fig. 1 und 2 geben einen Überblick über Sende- und Empfangsteil. Gemäß Fig. 1 wird die Bitrate des Encoderteils von zwei Blöcken gesteuert. Das ist zum einen der Stimmhaft/Stimmlos-Entscheider SH/SL, welcher das Spracheingangssignal s(n) statistisch auswertet. Als Ergebnis wird dem Sprachencoder SE mitgeteilt, ob ein Sprachrahmen stimmhaft oder stimmlos ist. Bei stimmhaften Sprachabschnitten wird der Encoder in den Mode 1 versetzt, in dem Differenzcodierung der Pitchanalyseparameter verwendet wird. Diese Differenzcodierung der Pitchanalyseparameter kann auch unabhängig von der Statistik des Eingangssignales erzwungen werden durch entsprechende Einstellung der hierfür relevanten Parameter im Block Außensteuerung AS. Damit kann der Prozentsatz der mit Mode 1, also Differenzcodierung, übertragenen Sprachrahmen erhöht und eine optimale Einstellung zwischen Sprachqualität und Robustheit des Kanals erreicht werden. Praktisch benutzt das erfindungsgemäße Verfahren zwei Kanalencoder KE0 und KE1, welche die vom Sprachencoder erzeugten codierten Sprachparameter und das Modebit im Mode 0 mit der Bitrate B0 und im Mode 1 mit der Bitrate B1, wobei B0 größer B1 ist, codieren. Der Empfänger gemäß Bild 2 enthält eine Baueinheit zur Modebestimmung, welche das zu decodierende Kanalsignal im Mode 0 auf den Kanaldecoder KD0 und im Mode 1 auf den Kanaldecoder KD1 umschaltet. Die Ausgangssignale der beiden Kanaldecoder werden durch den anschließenden nachfolgenden Sprachdecoder SD zum Ausgangssprachsignal s(n) decodiert.According to the method according to the invention, the channel coding on the transmitting and receiving sides is adapted to the bit rate of the speech codec. The mode in which the language encoder works is signaled with a so-called mode bit. This mode bit must be reconstructed on the receiving side in the channel decoder. Figs. 1 and 2 provide an overview of transmitter and receiver. Referring to FIG. 1, the bit rate of the encoder part is controlled by two blocks. On the one hand, this is the voiced / unvoiced decision maker SH / SL, who statistically evaluates the speech input signal s (n). As a result, the language coder SE is informed whether a language frame is voiced or unvoiced. In the case of voiced speech sections, the encoder is switched to mode 1, in which differential coding of the pitch analysis parameters is used. This differential coding of the pitch analysis parameters can also be forced independently of the statistics of the input signal by appropriate setting of the parameters relevant for this in the block external control AS. This means that the percentage of speech frames transmitted with mode 1, i.e. differential coding, can be increased and an optimal setting between speech quality and robustness of the channel can be achieved. In practice, the method according to the invention uses two channel encoders KE0 and KE1, which encode the coded speech parameters generated by the speech encoder and the mode bit in mode 0 with bit rate B0 and in mode 1 with bit rate B1, where B0 is greater than B1. The receiver according to Figure 2 contains a module for mode determination, which switches the channel signal to be decoded in mode 0 to the channel decoder KD0 and in mode 1 to the channel decoder KD1. The output signals of the two channel decoders are decoded into the output speech signal s (n) by the subsequent speech decoder SD.

Die Fig. 3 zeigt ein Funkübertragungssystem mit Rückkanal, wobei die Bausteine gemäß Fig. 1 und 2 vereinfacht enthalten sind. Die Empfangsqualität wird an dem Modulatorausgang des Empfängers festgestellt und zum Sender übertragen. Die Empfangsqualitätssignale wirken direkt auf eine Außensteuerung AS, durch welche der Sprachencoder SE in den Modus mit Differenzcodierung umschaltbar ist. Bei schlechter Empfangsqualität kann dabei der Prozentsatz an deltacodierten Sprachrahmen (Mode 1) erhöht werden. Damit verschlechtert sich zwar die Sprachqualität leicht, die Robustheit gegenüber Übertragungsfehlern und damit die Qualität beim Empfänger wird jedoch verbessert. Bei Verbesserung der Empfangsqualität wird der Anteil an Mode-1-Sprachrahmen auf den Normalanteil zurückgefahren, und die Sprachqualität wird entsprechend besser. Es ist somit möglich, den Sprachcodec in einfacher Weise dynamisch an die Kanalverhältnisse anzupassen. In Fig. 4 ist ein Teil der Blockstruktur des Sprachencoders dargestellt. Die Blöcke Anregungsanalyse und LPC-Analyse (LPC steht für Linear Predictive Coded) sind wie in bekannten CELP- Verfahren (siehe Literaturstelle 1) ausgeführt. Die Ermittlung der Langzeitprädiktionsparameter erfolgt nach der ebenfalls bekannten Closed-Loop-Methode (Literaturstelle 2). Die Parameter der LPC-Analyse werden beispielsweise einmal pro Sprachrahmen (z. B. 20 ms) und die Langzeitprädiktionsanalyse Nsub Mal (z. B. alle 5 ms) pro Rahmen ermittelt. Ein Sprachabschnitt, für den die Langzeitprädiktions-Parameter ermittelt werden, wird als Sprachunterrahmen bezeichnet. Bei der "Closed Loop"-Methode kann der Langzeitprädiktor als ein adaptives Codebuch dargestellt werden. Das Codebuch besteht dabei aus z. B. 256 Signalen FIG. 3 shows a radio transmission system with a return channel, the modules according to FIGS. 1 and 2 being contained in simplified form. The reception quality is determined at the modulator output of the receiver and transmitted to the transmitter. The received quality signals act directly on an external control AS, through which the language encoder SE can be switched to the mode with differential coding. If the reception quality is poor, the percentage of delta-coded speech frames (mode 1) can be increased. Although the voice quality deteriorates slightly, the robustness against transmission errors and thus the quality at the receiver is improved. If the reception quality improves, the proportion of Mode 1 speech frames is reduced to the normal proportion, and the speech quality is correspondingly better. It is thus possible to dynamically adapt the speech codec to the channel conditions in a simple manner. In FIG. 4, a part of the block structure is illustrated of the speech encoder. The blocks excitation analysis and LPC analysis (LPC stands for Linear Predictive Coded) are carried out as in known CELP methods (see reference 1). The long-term prediction parameters are determined using the likewise known closed-loop method (reference 2). The parameters of the LPC analysis are determined, for example, once per speech frame (e.g. 20 ms) and the long-term prediction analysis N sub times (e.g. every 5 ms) per frame. A speech section for which the long-term prediction parameters are determined is referred to as a speech subframe. In the "closed loop" method, the long-term predictor can be represented as an adaptive code book. The code book consists of z. B. 256 signals

die aus Anregungssignalen von zurückliegenden Sprachunterrahmen gebildet werden. Durch Skalierung dieses Signalesthose from previous excitation signals Language subframes are formed. By scaling this Signals

a * a(n,P)a * a (n, P)

und anschließender LPC-Synthesefilterung ergibt sich das Vorhersagesignaland subsequent LPC synthesis filtering this results Prediction signal

Die Fehlerenergie zwischen Vorhersagesignal und Sprachsignal s(n) dient als Maß für die Güte der PrädiktionThe error energy between the prediction signal and the speech signal s (n) serves as a measure of the quality of the prediction

Im folgenden werden nur die Funktionsblöcke beschrieben, die für den Sprachcodec mit variabler Bitrate relevant sind:In the following only the function blocks are described that relevant for the speech codec with variable bit rate:

  • - Stimmhaft/Stimmlos-Entscheider:
    Ermittlung, ob der betrachtete Sprachrahmen mit N Sprachabtastwerten (s(n), n=0, N-1) stimmhaft oder stimmlos ist.
    Eine Ausführungsform dieses Entscheiders ist eine "Open loop"-Pitchanalyse, die in drei Schritten durchgeführt wird:
    • 1) Berechnung der Autokorrelationsfunktion
    • 2) Berechnung des "Open Loop" - Prädiktionsgewinns GOL
    • 3) Entscheidung auf stimmlos (SH=0), wenn GOL < TG
    - Voiced / voiced decision maker:
    Determining whether the speech frame under consideration with N speech samples (s (n), n = 0, N-1) is voiced or unvoiced.
    One embodiment of this decision maker is an "open loop" pitch analysis which is carried out in three steps:
    • 1) Calculation of the autocorrelation function
    • 2) Calculation of the "Open Loop" prediction gain G OL
    • 3) Decision to leave voiceless (SH = 0) if G OL <T G
  • Entscheidung auf stimmhaft (SH=1), wenn GOL TGTG ist eine Schwelle, die im Modul "Außensteuerung" fest oder bei Verwendung eines Rückkanals dynamisch eingestellt wird.
    Wenn auf stimmhaft (SH=1) entschieden wurde, wird zusätzlich die optimale "Open Loop"-Pitchperiode PSH ausgegeben.
    Decision on voiced (SH = 1) if G OL T G T G is a threshold that is fixed in the "External control" module or dynamically when using a return channel.
    If a decision has been made as voiced (SH = 1), the optimal "open loop" pitch period P SH is also output.
  • - "Çlosed Loop" - Pitchanalyse-Einheit.
    Diese Einheit ermittelt folgende Parameter:
    • 1) Popt: optimale Pitchperiode
    • 2) αopt: optimaler Skalierungsfaktor für den adaptiven Codebuchvektor
    • 3) Eopt: minimale Fehlerenergie des "Closed Loop"- Pitchprädiktors
    • 4) PΔ: Optimale Delta-Pitchperiode, die unter der Bedingung berechnet wurde, daß eine Deltacodierung zur Pitchperiode des letzten Sprachunterrahmens mit einer vorgegebenen Anzahl von Bits möglich ist.
    • 5) αΔ: Optimaler Delta-Skalierungsfaktor für den adaptiven Codebuchvektor, der unter der Bedingung berechnet wurde, daß eine Deltacodierung zum Wert des Skalierungsfaktors des letzten Sprachunterrahmens mit einer vorgegebenen Anzahl von Bits möglich ist.
    • 6) EΔ: Fehlerenergie des "Closed Loop"-Pitchprädiktors, wenn die Pitchperiode und der Skalierungsfaktor zu den entsprechenden Werten des letzten Sprachunterrahmens mit einer vorgegebenen Anzahl von Bits differenzcodiert werden.
    • 7) PSH: Pitchperiode aus dem "Stimmhaft/Stimmlos"- Entscheider. Im stimmhaften Fall legt dieser Wert im ersten Sprachunterrahmen die Deltaumgebung für den "Closed Loop"-Pitch fest.
    - "Çlosed Loop" - pitch analysis unit.
    This unit determines the following parameters:
    • 1) P opt : optimal pitch period
    • 2) α opt : optimal scaling factor for the adaptive codebook vector
    • 3) E opt : minimum error energy of the "closed loop" pitch predictor
    • 4) P Δ : optimal delta pitch period, which was calculated on the condition that a delta coding for the pitch period of the last speech subframe is possible with a predetermined number of bits.
    • 5) α Δ : optimal delta scaling factor for the adaptive codebook vector, which was calculated on the condition that a delta coding to the value of the scaling factor of the last speech subframe is possible with a predetermined number of bits.
    • 6) E Δ : error energy of the "closed loop" pitch predictor if the pitch period and the scaling factor are differentially encoded with the corresponding values of the last speech subframe with a predetermined number of bits.
    • 7) P SH : Pitch period from the "Voiced / Unvoiced" decision maker. In the voiced case, this value defines the delta environment for the "closed loop" pitch in the first language subframe.
  • - Außensteuerungs-Einheit.
    Hier sind die Parameter TS(i) i=1 . . .NsubundTGdefiniert, mittels denen eine Differenzcodierung erzwungen werden kann. Diese Parameter sind entweder fest eingestellt oder können durch Auswertung der Rückkanalinformation zeitlich variiert werden.
    Eine mögliche feste Einstellung von TS(i) ist (Nsub=4):TS(1)=0.95 TS(2)=0.9 TS(3)=0.85 TS(4)=0.8
    - External control unit.
    Here the parameters T S (i) i = 1. . .N sub and T G are defined by means of which a differential coding can be forced. These parameters are either fixed or can be varied in time by evaluating the return channel information.
    A possible fixed setting of T S (i) is (N sub = 4): T S (1) = 0.95 T S (2) = 0.9 T S (3) = 0.85 T S (4) = 0.8
  • - Differenzcodierungs-Entscheider
    Ein detailliertes Ablaufdiagramm dieser Einheit als Funktion der beschriebenen Parameter ist in Fig. 5 dargestellt:
    • - Ist SH=1 (stimmhaft), dann werden die Langzeitprädiktionsparameter so berechnet, daß eine Differenzcodierung mit einer vorgegebenen Anzahl von Bits möglich ist.
    • - Ist SH=0 (stimmlos), dann kann über die Außensteuerungsparameter T(i) eine Differenzcodierung erzwungen werden.
      Solange die Bedingung EΔ · T(i) < Eopterfüllt ist, wird eine Deltacodierung durchgeführt. Wird diese Bedingung verletzt, dann wird das Mode-Bit auf Null gesetzt (Mode=0), und der betreffende Sprachrahmen wird ohne Deltacodierung übertragen.
    - Differential coding decision maker
    A detailed flow diagram of this unit as a function of the parameters described is shown in FIG. 5:
    • - If SH = 1 (voiced), the long-term prediction parameters are calculated so that differential coding with a predetermined number of bits is possible.
    • - If SH = 0 (unvoiced), a differential coding can be forced via the external control parameters T (i).
      As long as the condition E Δ * T (i) <E opt is met, a delta encoding is performed. If this condition is violated, the mode bit is set to zero (mode = 0) and the relevant speech frame is transmitted without delta coding.
  • - Langzeitparameter-Codierung
    Diese Einheit führt, falls "Mode=1" entschieden wurde, eine Differenzcodierung der Langzeitparameter durch. Die Differenzcodierung wird angewandt auf die Pitchperiode und auf den Skalierungsfaktor, indem die Differenz zwischen dem aktuellen und dem zuletzt berechneten Parameter codiert und übertragen wird.
    Folgendes Zahlenbeispiel soll die Bitraten-Einsparung dokumentieren (Nsub=4): Beträgt die Rahmendauer 20 msec, so ist die Bitrate zur Übertragung der Langzeitprädiktionsparameter in Mode 0 2,4 kbit/sec und in Mode 1 1,8 kbit/sec. Bei Übertragung in Mode 1 kann für den ersten Parameter eines Sprachunterrahmens keine Differenzcodierung durchgeführt werden, weshalb an dieser Stelle keine Bitrate eingespart werden kann.
    - Long-term parameter coding
    If "Mode = 1" was decided, this unit carries out differential coding of the long-term parameters. The difference coding is applied to the pitch period and to the scaling factor by coding and transmitting the difference between the current and the last calculated parameter.
    The following numerical example should document the bit rate savings (N sub = 4): If the frame duration is 20 msec, the bit rate for transmitting the long-term prediction parameters is 2.4 kbit / sec in mode 0 and 1.8 kbit / sec in mode 1. When transmitting in mode 1, no differential coding can be carried out for the first parameter of a speech subframe, which is why no bit rate can be saved at this point.

Literatur:Literature:

  • [1] Atal, Remde: Code-Excited Linear Prediction (CELP): High Quality Speech at very low Bitrates. Proc. ICASSP 85, S. 937-940[1] Atal, Remde: Code-Excited Linear Prediction (CELP): High Quality speech at very low bit rates. Proc. ICASSP 85, pp. 937-940
  • [2] Singhal, Atal: Improving Performance of Multi-Pulse LPC Coders at Low Bitrates, Proc. ICASSP 88, S. 155-158[2] Singhal, Atal: Improving Performance of Multi-Pulse LPC Coders at Low Bitrates, Proc. ICASSP 88, pp. 155-158

Claims (7)

1. Verfahren für die Codierung von Sprachsignalen zur Übertragung von einem Sender über einen Kanal mit begrenzter Übertragungskapazität (BBR) zu einem Empfänger, mit Sprachencoder und Kanalencoder, dadurch gekennzeichnet,
daß der Sprachencoder und der Kanalencoder jeweils zwei verschiedene Modi aufweisen,
daß in einem ersten Modus (Mode 1) das Sprachsignal durch den Sprachencoder mit kleinerer Bitrate (B1) als in einem zweiten Modus (Mode 0, B0) codiert wird,
daß in dem ersten Modus (Mode 1) die Differenzbitrate (B0-B1) zur Bitrate (B0) des zweiten Modus (Mode 0) dem Kanalencoder zur Verfügung gestellt wird und
daß durch den Kanalencoder diese zusätzliche Differenzbitrate zur Übertragung von weiterer Redundanzinformation ausgenutzt wird.
1. A method for coding voice signals for transmission from a transmitter over a channel with limited transmission capacity (BBR) to a receiver, with language encoder and channel encoder, characterized in that
that the language encoder and the channel encoder each have two different modes,
that in a first mode (mode 1) the speech signal is encoded by the speech encoder with a lower bit rate (B1) than in a second mode (mode 0, B0),
that in the first mode (mode 1) the differential bit rate (B0-B1) to the bit rate (B0) of the second mode (mode 0) is made available to the channel encoder and
that this additional differential bit rate is used by the channel encoder for the transmission of further redundancy information.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß festgestellt wird, ob das Sprachsignal stimmhaft ist, und daß bei stimmhaftem Sprachsignal auf den ersten Modus (Mode 1) geschaltet wird.2. The method according to claim 1, characterized in that it is determined whether the speech signal is voiced, and that switched to the first mode (mode 1) with a voiced speech signal becomes. 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß festgestellt wird, wie hoch die Empfangsqualität am Ort des Empfängers ist,
daß ein Signal als ein Maß für die Empfangsqualität erzeugt wird und
daß in Abhängigkeit dieses Signals bei einer bestimmten minderen Empfangsqualität und schlechter im ersten Modus (Mode 1) gearbeitet wird.
3. The method according to claim 1, characterized in
that it is determined how high the reception quality is at the location of the receiver,
that a signal is generated as a measure of the reception quality and
that depending on this signal with a certain lower reception quality and worse in the first mode (mode 1).
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß ein Rückkanal vom Empfänger zum Sender vorgesehen ist, vermittels dem die Empfangsqualität zum Sprachencoder des Senders übertragen wird.4. The method according to claim 3, characterized in that a return channel from the receiver to the transmitter is provided, by means of the reception quality to the language encoder of the Transmitter is transmitted. 5. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Schwelle der Empfangsqualität, deren Übertritt eine Umschaltung auf den anderen Modus bewirkt, variabel ist.5. The method according to claim 2 or 3, characterized in that the threshold of reception quality, the crossing of which is a Switching to the other mode causes variable. 6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß im ersten Modus (Mode 1) mit Differenzcodierung gearbeitet wird, in dem nur die Differenz zwischen dem letzten und dem aktuellen Sprachparameter der Pitchanalyse ermittelt, codiert und übertragen wird.6. The method according to any one of the preceding claims, characterized featured, that in the first mode (mode 1) with differential coding, in which only the difference between the last and the current Language parameters of the pitch analysis determined, coded and is transmitted. 7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Sprachencoder nach einer der CELP- oder RELP- Prädiktions-Methoden arbeitet.7. The method according to any one of the preceding claims, characterized featured, that the language encoder according to one of the CELP or RELP Prediction methods works.
DE19924231918 1992-09-24 1992-09-24 Procedure for coding speech signals Expired - Fee Related DE4231918C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE19924231918 DE4231918C1 (en) 1992-09-24 1992-09-24 Procedure for coding speech signals
AU49434/93A AU4943493A (en) 1992-09-24 1993-09-11 Speech codec
PCT/DE1993/000839 WO1994007313A1 (en) 1992-09-24 1993-09-11 Speech codec

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19924231918 DE4231918C1 (en) 1992-09-24 1992-09-24 Procedure for coding speech signals

Publications (1)

Publication Number Publication Date
DE4231918C1 true DE4231918C1 (en) 1993-12-02

Family

ID=6468675

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19924231918 Expired - Fee Related DE4231918C1 (en) 1992-09-24 1992-09-24 Procedure for coding speech signals

Country Status (3)

Country Link
AU (1) AU4943493A (en)
DE (1) DE4231918C1 (en)
WO (1) WO1994007313A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0698268A1 (en) * 1994-02-17 1996-02-28 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
DE19781710B3 (en) * 1996-04-26 2013-03-07 Telefonaktiebolaget Lm Ericsson (Publ) Call setup method in a digital cellular radio communication system

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2718906B1 (en) 1994-04-13 1996-05-24 Alcatel Mobile Comm France Method for adapting the air interface in a radiocommunication system with mobiles, base station, mobile station and corresponding transmission mode.
FI97504C (en) * 1994-12-19 1996-12-27 Nokia Telecommunications Oy Data communication method, data communication system and cellular radio system
CN1106085C (en) * 1996-04-26 2003-04-16 德国汤姆逊-布朗特公司 Method and apparatus for encoding of digitalized audio signal
EP0803989B1 (en) * 1996-04-26 1999-06-16 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding of a digitalized audio signal

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3834871C1 (en) * 1988-10-13 1989-12-14 Ant Nachrichtentechnik Gmbh, 7150 Backnang, De Method for encoding speech

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2964344B2 (en) * 1988-06-08 1999-10-18 富士通株式会社 Encoding / decoding device
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3834871C1 (en) * 1988-10-13 1989-12-14 Ant Nachrichtentechnik Gmbh, 7150 Backnang, De Method for encoding speech

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Atal, Remde: Code-Excited Linear Prediction (CELP): High Quality Speech at very low Bitrates. Proc. ICASSP 85, S. 937-940 *
Singhal, Atal: Improving Performance of Multi- Pulse LPC Coders at Low Bitrates, Proc. ICASSP 88, S. 155-158 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0698268A1 (en) * 1994-02-17 1996-02-28 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
EP0698268A4 (en) * 1994-02-17 1998-03-04 Motorola Inc Method and apparatus for mitigating audio degradation in a communication system
DE19781710B3 (en) * 1996-04-26 2013-03-07 Telefonaktiebolaget Lm Ericsson (Publ) Call setup method in a digital cellular radio communication system

Also Published As

Publication number Publication date
WO1994007313A1 (en) 1994-03-31
AU4943493A (en) 1994-04-12

Similar Documents

Publication Publication Date Title
DE60219351T2 (en) SIGNAL MODIFICATION METHOD FOR EFFICIENT CODING OF LANGUAGE SIGNALS
DE602004007786T2 (en) METHOD AND DEVICE FOR QUANTIZING THE GAIN FACTOR IN A VARIABLE BITRATE BROADBAND LANGUAGE CODIER
DE69828725T2 (en) Speech coding and decoding system
DE2945414C2 (en) Speech signal prediction processor and method of processing a speech power signal
DE69837822T2 (en) Method and device for decoding speech signals
DE69926821T2 (en) Method for signal-controlled switching between different audio coding systems
DE69932575T2 (en) LANGUAGE CODIER AND LANGUAGE DECODER
DE69836624T2 (en) AUDIO CODERS AND DECODERS
DE69932460T2 (en) Speech coder / decoder
EP1025646A2 (en) Methods and devices for encoding audio signals and methods and devices for decoding a bit stream
DE60017763T2 (en) METHOD AND DEVICE FOR OBTAINING A TARGET BITRATE IN A LANGUAGE CODIER
DE60309651T2 (en) Method for speech coding by means of generalized analysis by synthesis and speech coder for carrying out this method
DE19647298A1 (en) Digital speech coder excitation data determining method
DE10296562T5 (en) noise reduction
EP1080464B1 (en) Method and device for voice encoding
DE60028500T2 (en) speech decoding
DE60024080T2 (en) CODING OF LANGUAGE SEGMENTS WITH SIGNAL TRANSITIONS THROUGH INTERPOLATION OF MULTI PULSE EXTRACTION SIGNALS
DE69827313T2 (en) Method for coding the random component vector in an ACELP coder
DE4231918C1 (en) Procedure for coding speech signals
DE60109111T2 (en) Speech decoder for high-quality decoding of signals with background noise
DE69922388T2 (en) Linear-predictive analysis-by-synthesis coding method and encoder
DE69823398T2 (en) Multi-pulse-excited speech coder / decoder
EP0697125B1 (en) Process for vector quantization, especially of voice signals
EP0697124B1 (en) Vector coding process, especially for voice signals
EP0697123B1 (en) Process for conditioning data, especially coded voice signal parameters

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee
8370 Indication of lapse of patent is to be deleted
8327 Change in the person/name/address of the patent owner

Owner name: ROBERT BOSCH GMBH, 70469 STUTTGART, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110401