DE10124420C1 - Verfahren zur Codierung und zur Übertragung von Sprachsignalen - Google Patents

Verfahren zur Codierung und zur Übertragung von Sprachsignalen

Info

Publication number
DE10124420C1
DE10124420C1 DE10124420A DE10124420A DE10124420C1 DE 10124420 C1 DE10124420 C1 DE 10124420C1 DE 10124420 A DE10124420 A DE 10124420A DE 10124420 A DE10124420 A DE 10124420A DE 10124420 C1 DE10124420 C1 DE 10124420C1
Authority
DE
Germany
Prior art keywords
gain factor
speech signal
signal
speech
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10124420A
Other languages
English (en)
Inventor
Tim Fingscheidt
Herve Taddei
Imre Varga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10124420A priority Critical patent/DE10124420C1/de
Priority to CN02814429.5A priority patent/CN100508027C/zh
Priority to DE50211294T priority patent/DE50211294D1/de
Priority to PCT/DE2002/001598 priority patent/WO2002095734A2/de
Priority to US10/478,142 priority patent/US20040148162A1/en
Priority to EP02740316A priority patent/EP1388146B1/de
Application granted granted Critical
Publication of DE10124420C1 publication Critical patent/DE10124420C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Abstract

Die Erfindung betrifft ein Verfahren zur Codierung von Sprachsignalen, insbesondere von sogenannten "Sprach-Onset"-Abschnitten. Durch Festsetzen des ersten Verstärkungsfaktors wird die Datenmenge zur Darstellung der Gesamtheit von erstem oder adaptivem verstärkungsfaktor und adaptivem Codebucheintrag reduziert, wodurch andere Parameter, welche im Zuge der Sprachcodierung auftreten, genauer dargestellt werden können. Die Erfindung betrifft weiterhin ein Verfahren zur Übertragung von derart codierten Sprachsignalen.

Description

Die Erfindung betrifft ein Verfahren zur Codierung von Sprachsignalen unter Anwendung des Analyse-durch Synthese- Verfahrens, bei dem das originäre Sprachsignal mit einem aus einem Anregungssignal mit Hilfe eines Synthesefilters erzeug­ ten, synthetisierten Sprachsignals verglichen wird. Das Anre­ gungssignal ist parametrisiert, wobei die Parameter durch o­ bigen Abgleich angepasst werden.
Desweiteren betrifft die Erfindung ein Verfahren zur Übertragung von Sprachsignalen.
Ein derartiges Verfahren ist im Prinzip aus DE 696 10 915 T2 bekannt.
In digitalen Sprachkommunikationssystemen wie dem Festnetz, dem Internet, oder einem digitalen Mobilnetz werden Sprachco­ dierverfahren eingesetzt, um die zu übertragende Bitrate zu senken. Die Sprachcodierverfahren liefern üblicherweise einen Bitstrom sprachcodierter Bits, der in Rahmen aufgeteilt ist, die jeweils beispielsweise 20 ms des Sprachsignals repräsen­ tieren. Die Bits innerhalb eines Rahmens repräsentieren im allgemeinen einen bestimmten Satz an Parametern. Ein Rahmen wiederum ist vielfach in Subrahmen aufgeteilt, so dass manche Parameter einmal pro Rahmen, andere einmal pro Subrahmen ü­ bertragen werden. Als Beispiel sei der US-TDMA Enhanced Full­ rate (EFR) Sprachcodec mit 7.4 kbps gegeben, das heißt 148 Bit pro 20 ms-Rahmen. Ein Rahmen besteht hier aus 4 Subrah­ men.
Im folgenden wird anhand dieses Sprachcodierverfahrens exem­ plarisch die Bedeutung der in sogenannten CELP-Codern (code­ excited linear prediction) auftretenden Parameter vorge­ stellt:
  • - 10 Koeffizienten eines sogenannten LPC-Synthese-Filters (linear predictive coding). Sie werden mit 26 Bit/Rahmen quantisiert. Das Filter repräsentiert die spektrale Einhül­ lende des Sprachsignals im Bereich des aktuellen Rahmens. Das Anregungssignal für dieses Filter setzt sich additiv aus einem mit einem sogenannten "adaptiven Verstärkungsfak­ tor" g_1 gewichteten sogenannten "adaptiven Anregungssig­ nal" S_a und einem mit einem sogenannten "festen Verstär­ kungsfaktor" g_2 gewichteten sogenannten "festen Anregungs­ signal" S_f zusammen.
  • - Mittels 4 × 17 Bit werden vier Subrahmen des festen Anre­ gungssignals quantisiert. Die feste Anregung S_f besteht aus einem Eintrag des sogenannten "festen Codebuchs", wel­ cher mit dem festen Verstärkungsfaktor g_2 gewichtet ist. Die Einträge des festen Codebuchs bestehen je aus einer Pulssequenz, die nur zu wenigen Zeitpunkten von Null ver­ schieden ist.
  • - Mittels 2 × 8 Bit und 2 × 5 Bit werden vier Werte einer Sprach­ grundfrequenz repräsentiert. Das adaptive Anregungssignal in sogenannten Analyse-durch-Synthese CELP-Codierverfahren bestimmt sich aus dem Anregungssignal des LPC- Synthesefilters, verzögert um eine Periode der Sprachgrund­ frequenz. Alle möglichen quantisierten Sprachgrundfrequen­ zen konstituieren das sogenannte "adaptive Codebuch", das die entsprechend verschobenen Anregungssignale enthält.
  • - Mittels 4 × 7 Bit werden vier Verstärkungsfaktorpaare pro Rahmen vektorquantisiert. Der "adaptive Verstärkungsfaktor" wird auf das adaptive Anregungssignal angewandt, der "feste Verstärkungsfaktor" wird auf das feste Anregungssignal an­ gewandt. Das Gesamtanregungssignal des LPC-Synthese-Filters setzt sich dann, wie oben bereits erwähnt, additiv aus den gewichteten adaptiven und festen Anregungssignalen zusam­ men.
Die Einträge eines Codebuches werden allgemein Codewörter o­ der Codevektoren genannt.
Das adaptive Codebuch nennt sich "adaptiv", weil die in ihm enthaltenen Codevektoren keine Konstanten darstellen oder gar abgespeichert vorliegen, sondern sie werden für jeden Subrah­ men adaptiv aus der Vergangenheit des Gesamtanregungssignals des LPC-Synthesefilters bestimmt. Das feste Codebuch ist in­ sofern "fest", als seine Codevektoren entweder fest abgespei­ chert vorliegen (Rauschanregung) oder zumindest über determi­ nierte Rechenvorschriften errechnet werden (algebraisches Co­ debuch), die nicht abhängig von dem jeweiligen Subrahmen sind. Die jeweils zugeordneten Verstärkungsfaktoren werden üblicherweise auch als "adaptiv" beziehungsweise "fest" be­ zeichnet. Es ist anzumerken, dass alle 4 Parametertypen, a­ daptives und festes Anregungssignal, sowie adaptiver und fes­ ter Verstärkungsfaktor, selbstverständlich in jedem Subrahmen zu bestimmen sind, und in diesem Sinne alle "adaptiver Natur" sind. Im weiteren soll jedoch an der zuvor eingeführten Ter­ minologie - die auch in der Literatur üblich ist - festgehal­ ten werden beziehungsweise anstelle von "adaptiver Verstär­ kungsfaktor" der Begriff "erster Verstärkungsfaktor" und an­ stelle von "fester Verstärkungsfaktor" der Begriff zweiter Verstärkungsfaktor verwendet werden.
Das Anregungssignal S' soll nach einer LPC-Synthese-Filterung möglichst genau den zu dieser Zeit auftretenden Sprachab­ schnitt, das Sprachsignal S, widerspiegeln.
Die Parameter g_1, g_2, S_a, S_f werden also so gewählt, dass damit das Sprachsignal S möglichst gut dargestellt werden kann.
Das Anregungssignal S' = g_1.S_a + g_2.S_f approximiert somit nach LPC-Synthese-Filterung auf der Empfängerseite das Sprachsignal.
Der Beitrag der einzelnen Summanden g_1.S_a beziehungsweise g_2.S_f zum gesamten Anregungssignal S' variiert in Abhän­ gigkeit von den sprachlichen Besonderheiten des Sprachsignal­ abschnittes.
Sprachsignale enthalten Folgen von Rahmen oder Subrahmen, in denen sie als stationär, also ohne zeitliche Entwicklung ih­ rer statistischen Eigenschaften modelliert werden können. Hierbei handelt es sich um periodische Abschnitte, die bei­ spielsweise Vokale darstellen können. Diese Periodizität fließt über den Beitrag g_1.S_a in das gesamte Anregungssig­ nal S' ein.
Es gibt jedoch auch zutiefst nicht-stationäre Sprachsignalab­ schnitte, wie beispielsweise sogenannte "Onsets" beziehungs­ weise "Sprach-Onsets". Hierbei handelt es sich etwa um Plo­ sivlaute am Anfang eines Wortes. In diesem Fall stellt der Summand g_2.S_f den dominanten Beitrag zum Anregungssignal S' dar.
Die statistischen Eigenschaften eines Rahmens oder Subrahmens mit einem Onset lassen sich in der Regel nicht aus zurücklie­ genden Rahmen oder Subrahmen schätzen. Bei einem Onset ist insbesondere keine Langzeitperiodizität festzustellen, das heißt der Wert einer Sprachgrundfrequenz ist völlig aussage- und nutzlos. Der sich aus adaptivem Verstärkungsfaktor und Eintrag des adaptiven Codebuchs zusammensetzende Beitrag, der ja eine Langzeitperiodizität im Sprachsignal zum Ausdruck bringt, ist demnach bei Onsets eher hinderlich als nützlich zur Codierung des Sprachsignalabschnittes. Der Beitrag eines adaptiven Anregungssignals zum Gesamtanregungssignal bei On­ sets kann regelrecht schaden: Findet sich überhaupt keine Pe­ riodizität, das heißt kein geeignetes adaptives Anregungssig­ nal im Rahmen der adaptiven Codebuchsuche, so ergibt sich der optimale adaptive Verstärkungsfaktor zu Null.
Oftmals werden nun adaptiver und fester Verstärkungsfaktor g_1 und g_2 als Zahlenpaar (g_1, g_2) mittels eines weiteren Codebuches für die Verstärkungsfaktoren quantisiert. In die­ sem Fall einer parallelen, voneinander abhängigen Quantisie­ rung der Parameter spricht man von Vektorquantisierung. Die­ ses Codebuch hat natürlich nur eine beschränkte Größe, typi­ scherweise 7 Bits, wodurch sich also 27 = 128 Einträge realisieren lassen, deren Indizes beispielsweise von 0 bis 127 laufen.
Es werden an den Empfänger nur die Indizes übertragen, wo­ durch sich im Vergleich zur herkömmlichen Übertragung nach skalarer Quantisierung von g_1 und g_2 separat eine Datenkom­ pression ergibt. Unter skalarer Quantisierung wird eine indi­ viduelle, voneinander unabhängige Quantisierung der Parameter verstanden. Die Anzahl der Einträge in diesem Codebuch ist wie oben bereits gesagt, begrenzt.
Daher werden als Eintrag in dieses Codebuch diejenigen Zah­ lenpaare (g_1, g_2) verwendet, durch deren Gesamtheit, also Zahlenpaare mit Index 0-127, sich alle möglichen auftretenden Kombinationen von g_1 und g_2 bestmöglich darstellen lassen. Diese stehen dann herkömmlicherweise einer sogenannten Vek­ torquantisierung zur Verfügung. Bei einem adaptiven Verstär­ kungsfaktor g_1 = 0 können prinzipiell beliebige Werte des festen Verstärkungsfaktors g_2 auftreten, da bei nicht­ periodischen Sprachabschnitten wie bereits dargelegt, eben der adaptive Anteil g_1.S_a wesentlich kleiner ist als der feste Anteil, somit das Anregungssignal S' für das LPC- Synthese-Filter durch letzteren bestimmt wird und der feste Anteil in diesem Fall nicht aus in der Vergangenheit liegen­ den Werten berechnet werden kann.
Um also auch in diesem Fall g_1 = 0 eine optimale Anpassung des Anregungssignales S' nach LPC-Synthesefilterung über eine Anpassung der Parameter g_1, g_2, S_1, S_2 an das ursprüngli­ che Sprachsignal S vornehmen zu können, müßten sehr viele Wertepaare (g_1 = 0, g_2) in das Codebuch aufgenommen werden, was natür­ lich aus Speicherplatzgründen nicht möglich ist.
Insofern erhält man bei einer Anpassung der Parameter im Fal­ le g_1 = 0 zumeist einen nicht gut passenden Wert für g_2. Das führt zu unerwünschten Signalanteilen im gesamten Anre­ gungssignal S' nach der Quantisierung.
Die meisten konventionell verwendeten Sprachcodierer lösen dieses Problem überhaupt nicht.
Manche Sprachcodierer, so zum Beispiel der GSM Enhanced- Fullrate-Coder (GSM-EFR), führen eine Skalarquantisierung der Verstärkungsfaktoren durch. Das heißt in diesem Falle, dass der adaptive Verstärkungsfaktor mit 4 Bit pro Subrahmen und der feste Verstärkungsfaktor mit 5 Bit pro Subrahmen indivi­ duell und unabhängig voneinander quantisiert werden. Das hat den Vorteil, dass bei bestimmten nicht-stationären Sprachab­ schnitten, beispielsweise bei den Onsets, der adaptive Ver­ stärkungsfaktor leicht zu Null quantisiert werden kann, und der feste Verstärkungsfaktor einen davon unabhängigen Wert nach Quantisierung annehmen kann. Es hat aber gegenüber der Vektorquantisierung den Nachteil geringerer Codiereffizienz: Im GSM-EFR-Coder benötigt man 4 + 5 = 9 Bit für die Verstär­ kungsfaktoren, bei einer Vektorquantisierung reichen 7 Bit aus.
Ein weiterer Nachteil hier ist auch, dass keine zusätzlichen Bits zur Verfügung stehen, um die feste Anregung beziehungs­ weise den festen Verstärkungsfaktor entsprechend genauer zu quantisieren. Die Bits des adaptiven Codebuchs, das heißt der Sprachgrundfrequenz, bleiben im Falle, dass der adaptive Ver­ stärkungsfaktor zu Null gewählt wurde, ungenutzt.
Der GSM-Halfrate-Coder (GSM-HR) arbeitet demgegenüber in meh­ reren Modi. Ein Modus sieht vor, dass in bestimmten Subrah­ men, beispielsweise solchen, die Onsets darstellen, das adap­ tive Codebuch durch ein zweites festes Codebuch ersetzt wird. Das löst zwar in gewisser Weise das Problem, erfordert aber eine relativ hohe Komplexität und auch Speicherbedarf für das zweite Codebuch. Auch steigt die Anfälligkeit gegenüber Bit­ fehlern bei der Übertragung, da modusabhängig ein völlig neu­ er Codecparameter genutzt wird. Überdies muss bei dem GSM-HR- Codec die Abschaltung des adaptiven Codebuchs explizit über Modusbits signalisiert werden.
Der vorliegenden Erfindung liegt also die Aufgabe zugrunde, ein Verfahren zur Codierung und zur Übertragung anzugeben, das speicherplatz-sparend, effizient und wenig fehleranfällig arbeitet, insbesondere komplexitäts- und codier-effizient abläuft und zugleich eine hohe Signalqualität nach der Decodie­ rung aufweist.
Diese Aufgabe wird durch die unabhängigen Ansprüche 1 und 6 gelöst, Weiterbildungen ergeben sich aus den unabhängigen An­ sprüchen.
Erfindungsgemäß wird bei bestimmten Werten eines Signalklas­ sifikators der Wert des ersten Verstärkungsfaktors, welcher einem adaptiven Codebuch zugeordnet ist, festgesetzt.
Dadurch lässt sich eine Reduktion der Datenmenge erreichen, die zur Darstellung der Gesamtheit von erstem Verstärkungs­ faktor und adaptiven Codebucheintrag benötigt wird.
Das Sprachsignal wird in einzelne Zeitabschnitte zerlegt. Diese Abschnitte können beispielsweise Rahmen (Frames) oder Sub-Rahmen (Sub-Frames) darstellen.
Der Signalklassifikator sagt beispielsweise aus, ob ein sta­ tionärer oder ein nicht-stationärer Sprachabschnitt vorliegt, also ob es sich etwa um einen Sprach-Onset handelt.
Liegt nun ein derartiger Fall vor, so kann dem ersten Ver­ stärkungsfaktor ein durch den Signalklassifikator festgeleg­ ter Wert zugeordnet werden. Beispielsweise durch entsprechen­ de Indizierung kann dieser Wert des ersten Verstärkungsfak­ tors derart festgelegt werden, daß diese Darstellung des Wer­ tes weniger Bits benötigt als eine herkömmliche Darstellung. Ebenso ist es natürlich alternativ, optional oder zusätzlich möglich, eine Kompression zu erzielen, indem, wenn der erste Verstärkungsfaktor festgelegt wird, die Darstellung des Ein­ trags des adaptiven Codebuchs komprimiert wird. Somit ergibt sich eine im Vergleich zum Stand der Technik codier- effiziente Darstellung zumindest eines Parameters, der im Zu­ ge der Sprachcodierung auftritt.
Insbesondere erweist sich dieses Verfahren als vorteilhaft, wenn der erste Verstärkungsfaktor auf Null festgesetzt wird. Dadurch wird die Qualität des sprach-decodierten Signals er­ höht, da, wie eingangs dargelegt, beispielsweise weniger Quantisierungsfehlersignalanteile bei nicht-stationären Sprachabschnitten auftreten.
Eine andere Weiterbildung sieht vor, daß der zweite Verstär­ kungsfaktor skalar quantisiert ist, falls der erste Verstär­ kungsfaktor festgesetzt ist. Beispielsweise kann dann die Auflösung der Quantisierung des zweiten Verstärkungsfaktors erhöht werden.
Somit kann beispielsweise im Falle von Sprach-Onsets, die durch den festen Anteil der Anregung g_2.S_f dargestellt werden, ein erweiterter Wertebereich für den zweiten Verstär­ kungsfaktor zugelassen werden, was eine genauere Beschreibung eines derartigen Sprachsignalabschnittes ermöglicht.
In einer anderen Weiterbildung ist es vorgesehen, daß der Co­ dierer mit einer festen Datenrate arbeitet, das heisst, für einen Abschnitt eines Sprachsignals ist eine feste Datenmenge vorgesehen. Die erzielte Reduktion der Datenmenge zur Dar­ stellung des ersten Verstärkungsfaktors und alternativ oder optional des adaptiven Codebuch-Eintrages, kann dahingehend ausgenutzt werden, daß der nun nicht mit Daten belegte Anteil der Datenmenge zur Darstellung anderer Parameter verwendet wird, welche bei der Sprachcodierung auftreten.
In einer anderen Weiterbildung ist vorgesehen, daß der Sprachabschnitt mit einer reduzierten Datenmenge dargestellt wird. Dieses Verfahren kann insbesondere bei der Verwendung eines Codierverfahrens mit variabler Bitrate Anwendung fin­ den.
Desweiteren betrifft die Erfindung ein Verfahren zur Übertra­ gung von Sprachsignalen, die gemäß einem der vorhergehenden Ansprüche codiert sind. Wesentlich ist hierbei, daß der erste Verstärkungsfaktor oder/und der adaptive Code­ buch-Eintrag nicht übertragen wird.
Insbesondere weist dieses Verfahren Vorteile auf, wenn dem Empfänger, beispielsweise dem Decodierer, durch eine Information angezeigt wird, daß diese Reduktion in der Datenmenge zur Darstellung einzelner Parameter vorgenommen wurde.
Diese Information kann beispielsweise einen Anteil des durch die Reduktion nicht mit Daten belegten Datenmenge belegen o­ der auch zusätzlich zu der Datenmenge des Rahmens oder Sub- Rahmens gesendet werden.
Im folgenden wird die Erfindung anhand einiger Ausführungs­ beispiele erläutert, die teilweise durch Figuren erläutert werden.
Es zeigen
Fig. 1 einen Überblick über das Analyse-durch-Synthese- Prinzip in der Sprachcodierung,
Fig. 2 die Verwendung von adaptivem und festem Codebuch mit den zughörigen Verstärkungsfaktoren.
Fig. 1 zeigt den schematischen Ablauf einer Sprachcodierung nach dem Analyse-durch-Synthese-Prinzip.
Im wesentlichen wird das originäre Sprachsignal 10 mit einem synthetisierten Sprachsignal 11 verglichen. Das synthetisier­ te Sprachsignal 11 soll derart sein, daß die Abweichung zwi­ schen dem synthetisierten Sprachsignal 11 und dem originären Sprachsignal 10 minimal ist. Diese Abweichung wird gegebenen­ falls noch spektral gewichtet. Dies geschieht über ein Wich­ tungsfilter W(z). Das synthetisierte Sprachsignal wird mit Hilfe eines LPC-Synthesefilters H(z) hergestellt. Dieses Syn­ thesefilter wird über ein Anregungssignal 12 angeregt. Die Parameter dieses Anregungssignales 12 (und gegebenenfalls auch die Koeffizienten des LPC-Synthesefilters) werden letzt­ lich übertragen und sollten daher möglichst effizient codiert sein.
Die Erfindung zielt also auf eine möglichst effiziente Dar­ stellung der Parameter ab, welche den Anregungsgenerator be­ schreiben.
In Fig. 2 ist der Anregungsgenerator ohne nachgeschaltetem LPC-Synthese-Filter im Detail zu sehen.
Das Anregungssignal 12 setzt sich zusammen aus einem adapti­ ven Anteil, mittels dem überwiegend periodische Sprachab­ schnitte dargestellt werden und einem festen Anteil, der zur Darstellung nichtperiodischer Abschnitte dient. Dies wurde im einzelnen bereits eingangs dargelegt. Zur Darstellung des a­ daptiven Anteils dient das adaptive Codebuch 1, dessen Ein­ träge mit einem ersten Verstärkungsfaktor 3 gewichtet werden. Die Einträge des adaptiven Codebuchs 1 sind durch die vorher­ gehenden Sprachabschnitte festgelegt. Dies geschieht über ei­ ne Rückkoppelschleife 2. Der erste Verstärkungsfaktor 3 wird durch die Anpassung an das originäre Sprachsignal 10 be­ stimmt. Das feste Codebuch 4 enthält, wie der Name schon sagt, Einträge, welche nicht von einem vorhergehenden Zeitab­ schnitt bestimmt sind. Jeder Eintrag im Codebuch, das soge­ nannte Codewort, ein algebraischer Codevektor, ist eine Puls­ sequenz, die nur zu wenigen, definierten Zeitpunkten Werte ungleich 0 aufweist. Es wird dieser Eintrag oder Anregungsse­ quenz gewählt, mittels der die Abweichung des synthetisierten Signals 11 zum originären Sprachsignal 10 minimiert wird. Der dem festen Codebuch zugeordnete Verstärkungsfaktor 5 wird dementsprechend festgelegt.
Zunächst ist vorgesehen, dass für jeden Rahmen ein sogenann­ ter Signalklassifikator berechnet wird. Dieser Signalklassi­ fikator kann beispielsweise eine binäre Entscheidung liefern, ob das adaptive Codebuch genutzt werden soll oder nicht. Zu diesem Zweck kann es sich um einen Onset-Erkenner handeln. Es ist vorgesehen, dass in Abhängigkeit von dem Klassifikator der adaptive Verstärkungsfaktor zu Null gesetzt wird, das heißt die adaptive Anregung nicht in das Gesamtanregungssig­ nal des LPC-Synthesefilters eingeht. Es ist darüber hinaus vorgesehen, dass zumindest ein Parameter nicht mehr übertra­ gen wird. Hierfür gibt es mehrere sinnvolle Alternativen:
  • - Wird beispielsweise der Wert 0 für den adaptiven Verstär­ kungsfaktor übertragen, so muss der adaptive Codebucheintrag (das heißt die Sprachgrundfrequenz) nicht mehr übertragen werden, da er ja auf Empfangsseite eh mit einer Null multip­ liziert würde.
  • - Wird beispielsweise das Nullsetzen der adaptiven Anregung dem Decoder durch ein reserviertes Wort des adaptiven Code­ buchs (das heißt der Sprachgrundfrequenz) signalisiert, so braucht der adaptive Verstärkungsfaktor nicht mehr übertragen zu werden. Im Falle einer Vektorquantisierung von adaptivem und festem Verstärkungsfaktor könnte der feste Verstärkungs­ faktor beispielsweise skalar quantisiert werden.
  • - Wird der Klassifikator durch ein explizites Bit übertragen, so kann im Falle eines Onsets sogar auf die Übertragung von adaptivem Codebucheintrag (Sprachgrundfrequenz) und adaptivem Verstärkungsfaktor verzichtet werden.
Vorteil jeder dieser möglichen Realisierungen ist, dass im Vergleich zur State-of-the-Art eine geringere Zahl an Bits übertragen werden kann. Bei Codierverfahren mit fester Bitra­ te können diese Bits nun genutzt werden, um die Quantisierung des festen Verstärkungsfaktors, und/oder die Quantisierung der festen Anregung, und/oder die Quantisierung der LPC- Koeffizienten zu verbessern. Im allgemeinen kann jeder verbleibende Codec-Parameter potentiell von einer verbesser­ ten Quantisierung profitieren. Im Gegensatz zum GSM-HR-Coder ist kein neuer Parameter vorgesehen (das heißt kein zweites festes Codebuch), stattdessen aber die verbesserte Quantisie­ rung bereits vorhandener Parameter. Dies spart Rechenkomple­ xität, Speicherbedarf, und ermöglicht die Berücksichtigung spezifischer Eigenarten von Subrahmen mit Onsets. Durch ge­ schickte Einbettung der zusätzlich nutzbaren Bits in die Quantisierungstabellen anderer Codecparameter kann zudem speichereffizient codiert werden.
Zusammenfassend lässt sich sagen, daß durch das Nullsetzen der adaptiven Anregung im Falle eines Onsets, und durch Nut­ zung freiwerdender Bits der adaptiven Anregung beziehungsweisedes adaptiven Verstärkungsfaktors eine verbesserte Quanti­ sierung verbleibender Codec-Parameter erzielt werden kann.
Eine geschickte Einbettung der zusätzlich freiwerdenden Bits soll im Folgenden kurz skizziert werden. Angenommen, das Nullsetzen der adaptiven Anregung wird durch ein reserviertes Wort im adaptiven Codebuch signalisiert. Dann kann der feste Verstärkungsfaktor, der zuvor mit 7 Bit gemeinsam mit dem a­ daptiven Verstärkungsfaktor vektor-quantisiert wurde, bei in etwa gleichem Quantisierungsfehler beispielsweise skalar mit 5 Bit quantisiert werden. Die mit 5 Bit quantisierten Werte des festen Verstärkungsfaktors könnten sich aus einer 25%- Untermenge des 7 Bit-Vektorcodebuchs ergeben, und zwar eine mit beliebigen 5 Bit aus den 7 Bit adressierbare Untermenge. Eine solche Realisierung des 5 Bit Skalarquantisierers spart zusätzlichen Speicher. Die freiwerdenden 2 Bit können nun beispielsweise zur genaueren Quantisierung der festen Anre­ gung genutzt werden.

Claims (7)

1. Verfahren zur Codierung von in Sprachsignalabschnitte zer­ teilten Sprachsignalen,
unter Anwendung des Analyse-durch-Synthese-Verfahrens, bei dem das originäre Sprachsignal mit einem aus einem Anre­ gungssignal mit Hilfe eines Synthesefilters erzeugten syn­ thetisierten Sprachsignals verglichen wird,
wobei das durch mehrere Parameter gebildete Anregungssig­ nal für das Synthesefilter aus zumindest einem Eintrag ei­ nes adaptiven Codebuchs mit einem zugehörigen ersten Ver­ stärkungsfaktor und zumindest einem Eintrag aus einem fes­ ten Codebuch mit einem zugehörigen zweiten Verstärkungs­ faktor gebildet wird,
wobei der jeweilige Sprachsignalabschnitt hinsichtlich sprachlicher Besonderheiten durch einen Signalklassifika­ tor klassifiziert wird,
wobei in Abhängigkeit vom Ergebnis der Klassifizierung des Signalklassifikators der Wert des ersten Verstärkungsfak­ tors festgesetzt wird und
die übrigen zur Bestimmung des Anregungssignals vorgesehe­ nen Parameter zur Angleichung des synthetisierten Sprach­ signals an das originäre Sprachsignal entsprechend ange­ passt werden.
2. Verfahren nach Anspruch 1, bei dem der erste Verstärkungs­ faktor auf Null festgesetzt wird.
3. Verfahren nach einem der Ansprüche 1 oder 2, bei dem der zweite Verstärkungsfaktor skalar quantisiert wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem für einen Sprachsignalabschnitt eine vorher festgelegte Da­ tenmenge reserviert ist und aufgrund der Reduzierung der Datenmenge zur Darstellung der Gesamtheit von erstem Verstär­ kungsfaktor und dem Eintrag des adaptiven Codebuchs zumindest ein anderer Parameter, welcher bei der Sprachcodierung auf­ tritt, einen größeren Teil der vorher festgelegten Datenmenge beansprucht.
5. Verfahren nach Anspruch 1, bei dem für die Darstellung des Sprachsignalabschnittes aufgrund der Festsetzung des ersten Verstärkungsfaktors eine geringere Anzahl von Bits benötigt wird.
6. Verfahren zur Übertragung von Sprachsignalen, welche nach einem der Ansprüche 1 bis 5 codiert sind, bei dem der adapti­ ve Codebucheintrag oder/und der erste Verstärkungsfaktor nicht übertragen wird.
7. Verfahren nach Anspruch 6, bei dem einem Empfänger durch eine dafür reservierte Information angezeigt wird, daß der erste Verstärkungsfaktor auf einen dem Empfänger bekannten Wert gesetzt ist.
DE10124420A 2001-05-18 2001-05-18 Verfahren zur Codierung und zur Übertragung von Sprachsignalen Expired - Fee Related DE10124420C1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10124420A DE10124420C1 (de) 2001-05-18 2001-05-18 Verfahren zur Codierung und zur Übertragung von Sprachsignalen
CN02814429.5A CN100508027C (zh) 2001-05-18 2002-05-02 语音信号的编码方法
DE50211294T DE50211294D1 (de) 2001-05-18 2002-05-02 Verfahren zur codierung und zur übertragung von sprachsignalen
PCT/DE2002/001598 WO2002095734A2 (de) 2001-05-18 2002-05-02 Verfahren zur steuerung des verstärkungsfaktors eines prädiktiven sprachkodieres
US10/478,142 US20040148162A1 (en) 2001-05-18 2002-05-02 Method for encoding and transmitting voice signals
EP02740316A EP1388146B1 (de) 2001-05-18 2002-05-02 Verfahren zur codierung und zur übertragung von sprachsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10124420A DE10124420C1 (de) 2001-05-18 2001-05-18 Verfahren zur Codierung und zur Übertragung von Sprachsignalen

Publications (1)

Publication Number Publication Date
DE10124420C1 true DE10124420C1 (de) 2002-11-28

Family

ID=7685379

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10124420A Expired - Fee Related DE10124420C1 (de) 2001-05-18 2001-05-18 Verfahren zur Codierung und zur Übertragung von Sprachsignalen
DE50211294T Expired - Lifetime DE50211294D1 (de) 2001-05-18 2002-05-02 Verfahren zur codierung und zur übertragung von sprachsignalen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50211294T Expired - Lifetime DE50211294D1 (de) 2001-05-18 2002-05-02 Verfahren zur codierung und zur übertragung von sprachsignalen

Country Status (5)

Country Link
US (1) US20040148162A1 (de)
EP (1) EP1388146B1 (de)
CN (1) CN100508027C (de)
DE (2) DE10124420C1 (de)
WO (1) WO2002095734A2 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005000828A1 (de) 2005-01-05 2006-07-13 Siemens Ag Verfahren zum Codieren eines analogen Signals
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
DK2102619T3 (en) * 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
CN103383846B (zh) * 2006-12-26 2016-08-10 华为技术有限公司 改进语音丢包修补质量的语音编码方法
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
CN105229736B (zh) * 2013-01-29 2019-07-19 弗劳恩霍夫应用研究促进协会 用于选择第一编码算法与第二编码算法中的一个的装置及方法
RU2644123C2 (ru) 2013-10-18 2018-02-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
EP3058568B1 (de) 2013-10-18 2021-01-13 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Konzept zur codierung eines audiosignals und zur decodierung eines audiosignals mit sprachbezogenen spektralformungsinformationen
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69610915T2 (de) * 1995-05-03 2001-03-15 Ericsson Telefon Ab L M Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6330531B1 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Comb codebook structure
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69610915T2 (de) * 1995-05-03 2001-03-15 Ericsson Telefon Ab L M Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese

Also Published As

Publication number Publication date
CN1533564A (zh) 2004-09-29
WO2002095734A3 (de) 2003-11-20
EP1388146A2 (de) 2004-02-11
DE50211294D1 (de) 2008-01-10
WO2002095734A2 (de) 2002-11-28
EP1388146B1 (de) 2007-11-28
US20040148162A1 (en) 2004-07-29
CN100508027C (zh) 2009-07-01

Similar Documents

Publication Publication Date Title
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE60217522T2 (de) Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE4492048C2 (de) Vektorquantisierungs-Verfahren
EP2022043B1 (de) Informationssignalcodierung
DE19604273C2 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69825180T2 (de) Audiokodier- und dekodierverfahren und -vorrichtung
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE10124420C1 (de) Verfahren zur Codierung und zur Übertragung von Sprachsignalen
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
DE69033510T3 (de) Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE19722705A1 (de) Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung
DE19743662A1 (de) Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
WO1999063522A1 (de) Verfahren und anordnung zur sprachcodierung
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE69821895T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE60109111T2 (de) Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen
DE69922388T2 (de) Linear-prädiktives Analyse-durch-Synthese-Kodierverfahren und Kodierer
DE69820515T2 (de) Vorrichtung zur Sprachcodierung unter Verwendung eines Mehrimpulsanregungssignals
DE19641619C1 (de) Verfahren zur Synthese eines Rahmens eines Sprachsignals
DE4315319C2 (de) Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern
EP1390946B1 (de) Verfahren zur schätzung eines codecparameters

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee