DE10124420C1 - Verfahren zur Codierung und zur Übertragung von Sprachsignalen - Google Patents
Verfahren zur Codierung und zur Übertragung von SprachsignalenInfo
- Publication number
- DE10124420C1 DE10124420C1 DE10124420A DE10124420A DE10124420C1 DE 10124420 C1 DE10124420 C1 DE 10124420C1 DE 10124420 A DE10124420 A DE 10124420A DE 10124420 A DE10124420 A DE 10124420A DE 10124420 C1 DE10124420 C1 DE 10124420C1
- Authority
- DE
- Germany
- Prior art keywords
- gain factor
- speech signal
- signal
- speech
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Abstract
Die Erfindung betrifft ein Verfahren zur Codierung von Sprachsignalen, insbesondere von sogenannten "Sprach-Onset"-Abschnitten. Durch Festsetzen des ersten Verstärkungsfaktors wird die Datenmenge zur Darstellung der Gesamtheit von erstem oder adaptivem verstärkungsfaktor und adaptivem Codebucheintrag reduziert, wodurch andere Parameter, welche im Zuge der Sprachcodierung auftreten, genauer dargestellt werden können. Die Erfindung betrifft weiterhin ein Verfahren zur Übertragung von derart codierten Sprachsignalen.
Description
Die Erfindung betrifft ein Verfahren zur Codierung von
Sprachsignalen unter Anwendung des Analyse-durch Synthese-
Verfahrens, bei dem das originäre Sprachsignal mit einem aus
einem Anregungssignal mit Hilfe eines Synthesefilters erzeug
ten, synthetisierten Sprachsignals verglichen wird. Das Anre
gungssignal ist parametrisiert, wobei die Parameter durch o
bigen Abgleich angepasst werden.
Desweiteren betrifft die Erfindung ein Verfahren zur
Übertragung von Sprachsignalen.
Ein derartiges Verfahren ist im Prinzip aus DE 696 10 915 T2
bekannt.
In digitalen Sprachkommunikationssystemen wie dem Festnetz,
dem Internet, oder einem digitalen Mobilnetz werden Sprachco
dierverfahren eingesetzt, um die zu übertragende Bitrate zu
senken. Die Sprachcodierverfahren liefern üblicherweise einen
Bitstrom sprachcodierter Bits, der in Rahmen aufgeteilt ist,
die jeweils beispielsweise 20 ms des Sprachsignals repräsen
tieren. Die Bits innerhalb eines Rahmens repräsentieren im
allgemeinen einen bestimmten Satz an Parametern. Ein Rahmen
wiederum ist vielfach in Subrahmen aufgeteilt, so dass manche
Parameter einmal pro Rahmen, andere einmal pro Subrahmen ü
bertragen werden. Als Beispiel sei der US-TDMA Enhanced Full
rate (EFR) Sprachcodec mit 7.4 kbps gegeben, das heißt 148
Bit pro 20 ms-Rahmen. Ein Rahmen besteht hier aus 4 Subrah
men.
Im folgenden wird anhand dieses Sprachcodierverfahrens exem
plarisch die Bedeutung der in sogenannten CELP-Codern (code
excited linear prediction) auftretenden Parameter vorge
stellt:
- - 10 Koeffizienten eines sogenannten LPC-Synthese-Filters (linear predictive coding). Sie werden mit 26 Bit/Rahmen quantisiert. Das Filter repräsentiert die spektrale Einhül lende des Sprachsignals im Bereich des aktuellen Rahmens. Das Anregungssignal für dieses Filter setzt sich additiv aus einem mit einem sogenannten "adaptiven Verstärkungsfak tor" g_1 gewichteten sogenannten "adaptiven Anregungssig nal" S_a und einem mit einem sogenannten "festen Verstär kungsfaktor" g_2 gewichteten sogenannten "festen Anregungs signal" S_f zusammen.
- - Mittels 4 × 17 Bit werden vier Subrahmen des festen Anre gungssignals quantisiert. Die feste Anregung S_f besteht aus einem Eintrag des sogenannten "festen Codebuchs", wel cher mit dem festen Verstärkungsfaktor g_2 gewichtet ist. Die Einträge des festen Codebuchs bestehen je aus einer Pulssequenz, die nur zu wenigen Zeitpunkten von Null ver schieden ist.
- - Mittels 2 × 8 Bit und 2 × 5 Bit werden vier Werte einer Sprach grundfrequenz repräsentiert. Das adaptive Anregungssignal in sogenannten Analyse-durch-Synthese CELP-Codierverfahren bestimmt sich aus dem Anregungssignal des LPC- Synthesefilters, verzögert um eine Periode der Sprachgrund frequenz. Alle möglichen quantisierten Sprachgrundfrequen zen konstituieren das sogenannte "adaptive Codebuch", das die entsprechend verschobenen Anregungssignale enthält.
- - Mittels 4 × 7 Bit werden vier Verstärkungsfaktorpaare pro Rahmen vektorquantisiert. Der "adaptive Verstärkungsfaktor" wird auf das adaptive Anregungssignal angewandt, der "feste Verstärkungsfaktor" wird auf das feste Anregungssignal an gewandt. Das Gesamtanregungssignal des LPC-Synthese-Filters setzt sich dann, wie oben bereits erwähnt, additiv aus den gewichteten adaptiven und festen Anregungssignalen zusam men.
Die Einträge eines Codebuches werden allgemein Codewörter o
der Codevektoren genannt.
Das adaptive Codebuch nennt sich "adaptiv", weil die in ihm
enthaltenen Codevektoren keine Konstanten darstellen oder gar
abgespeichert vorliegen, sondern sie werden für jeden Subrah
men adaptiv aus der Vergangenheit des Gesamtanregungssignals
des LPC-Synthesefilters bestimmt. Das feste Codebuch ist in
sofern "fest", als seine Codevektoren entweder fest abgespei
chert vorliegen (Rauschanregung) oder zumindest über determi
nierte Rechenvorschriften errechnet werden (algebraisches Co
debuch), die nicht abhängig von dem jeweiligen Subrahmen
sind. Die jeweils zugeordneten Verstärkungsfaktoren werden
üblicherweise auch als "adaptiv" beziehungsweise "fest" be
zeichnet. Es ist anzumerken, dass alle 4 Parametertypen, a
daptives und festes Anregungssignal, sowie adaptiver und fes
ter Verstärkungsfaktor, selbstverständlich in jedem Subrahmen
zu bestimmen sind, und in diesem Sinne alle "adaptiver Natur"
sind. Im weiteren soll jedoch an der zuvor eingeführten Ter
minologie - die auch in der Literatur üblich ist - festgehal
ten werden beziehungsweise anstelle von "adaptiver Verstär
kungsfaktor" der Begriff "erster Verstärkungsfaktor" und an
stelle von "fester Verstärkungsfaktor" der Begriff zweiter
Verstärkungsfaktor verwendet werden.
Das Anregungssignal S' soll nach einer LPC-Synthese-Filterung
möglichst genau den zu dieser Zeit auftretenden Sprachab
schnitt, das Sprachsignal S, widerspiegeln.
Die Parameter g_1, g_2, S_a, S_f werden also so gewählt, dass
damit das Sprachsignal S möglichst gut dargestellt werden
kann.
Das Anregungssignal S' = g_1.S_a + g_2.S_f approximiert
somit nach LPC-Synthese-Filterung auf der Empfängerseite das
Sprachsignal.
Der Beitrag der einzelnen Summanden g_1.S_a beziehungsweise
g_2.S_f zum gesamten Anregungssignal S' variiert in Abhän
gigkeit von den sprachlichen Besonderheiten des Sprachsignal
abschnittes.
Sprachsignale enthalten Folgen von Rahmen oder Subrahmen, in
denen sie als stationär, also ohne zeitliche Entwicklung ih
rer statistischen Eigenschaften modelliert werden können.
Hierbei handelt es sich um periodische Abschnitte, die bei
spielsweise Vokale darstellen können. Diese Periodizität
fließt über den Beitrag g_1.S_a in das gesamte Anregungssig
nal S' ein.
Es gibt jedoch auch zutiefst nicht-stationäre Sprachsignalab
schnitte, wie beispielsweise sogenannte "Onsets" beziehungs
weise "Sprach-Onsets". Hierbei handelt es sich etwa um Plo
sivlaute am Anfang eines Wortes. In diesem Fall stellt der
Summand g_2.S_f den dominanten Beitrag zum Anregungssignal
S' dar.
Die statistischen Eigenschaften eines Rahmens oder Subrahmens
mit einem Onset lassen sich in der Regel nicht aus zurücklie
genden Rahmen oder Subrahmen schätzen. Bei einem Onset ist
insbesondere keine Langzeitperiodizität festzustellen, das
heißt der Wert einer Sprachgrundfrequenz ist völlig aussage-
und nutzlos. Der sich aus adaptivem Verstärkungsfaktor und
Eintrag des adaptiven Codebuchs zusammensetzende Beitrag, der
ja eine Langzeitperiodizität im Sprachsignal zum Ausdruck
bringt, ist demnach bei Onsets eher hinderlich als nützlich
zur Codierung des Sprachsignalabschnittes. Der Beitrag eines
adaptiven Anregungssignals zum Gesamtanregungssignal bei On
sets kann regelrecht schaden: Findet sich überhaupt keine Pe
riodizität, das heißt kein geeignetes adaptives Anregungssig
nal im Rahmen der adaptiven Codebuchsuche, so ergibt sich der
optimale adaptive Verstärkungsfaktor zu Null.
Oftmals werden nun adaptiver und fester Verstärkungsfaktor
g_1 und g_2 als Zahlenpaar (g_1, g_2) mittels eines weiteren
Codebuches für die Verstärkungsfaktoren quantisiert. In die
sem Fall einer parallelen, voneinander abhängigen Quantisie
rung der Parameter spricht man von Vektorquantisierung. Die
ses Codebuch hat natürlich nur eine beschränkte Größe, typi
scherweise 7 Bits, wodurch sich also 27 = 128 Einträge realisieren
lassen, deren Indizes beispielsweise von 0 bis 127
laufen.
Es werden an den Empfänger nur die Indizes übertragen, wo
durch sich im Vergleich zur herkömmlichen Übertragung nach
skalarer Quantisierung von g_1 und g_2 separat eine Datenkom
pression ergibt. Unter skalarer Quantisierung wird eine indi
viduelle, voneinander unabhängige Quantisierung der Parameter
verstanden. Die Anzahl der Einträge in diesem Codebuch ist
wie oben bereits gesagt, begrenzt.
Daher werden als Eintrag in dieses Codebuch diejenigen Zah
lenpaare (g_1, g_2) verwendet, durch deren Gesamtheit, also
Zahlenpaare mit Index 0-127, sich alle möglichen auftretenden
Kombinationen von g_1 und g_2 bestmöglich darstellen lassen.
Diese stehen dann herkömmlicherweise einer sogenannten Vek
torquantisierung zur Verfügung. Bei einem adaptiven Verstär
kungsfaktor g_1 = 0 können prinzipiell beliebige Werte des
festen Verstärkungsfaktors g_2 auftreten, da bei nicht
periodischen Sprachabschnitten wie bereits dargelegt, eben
der adaptive Anteil g_1.S_a wesentlich kleiner ist als der
feste Anteil, somit das Anregungssignal S' für das LPC-
Synthese-Filter durch letzteren bestimmt wird und der feste
Anteil in diesem Fall nicht aus in der Vergangenheit liegen
den Werten berechnet werden kann.
Um also auch in diesem Fall g_1 = 0 eine optimale Anpassung
des Anregungssignales S' nach LPC-Synthesefilterung über eine
Anpassung der Parameter g_1, g_2, S_1, S_2 an das ursprüngli
che Sprachsignal S vornehmen zu können, müßten sehr viele
Wertepaare
(g_1 = 0, g_2) in das Codebuch aufgenommen werden, was natür
lich aus Speicherplatzgründen nicht möglich ist.
Insofern erhält man bei einer Anpassung der Parameter im Fal
le g_1 = 0 zumeist einen nicht gut passenden Wert für g_2.
Das führt zu unerwünschten Signalanteilen im gesamten Anre
gungssignal S' nach der Quantisierung.
Die meisten konventionell verwendeten Sprachcodierer lösen
dieses Problem überhaupt nicht.
Manche Sprachcodierer, so zum Beispiel der GSM Enhanced-
Fullrate-Coder (GSM-EFR), führen eine Skalarquantisierung der
Verstärkungsfaktoren durch. Das heißt in diesem Falle, dass
der adaptive Verstärkungsfaktor mit 4 Bit pro Subrahmen und
der feste Verstärkungsfaktor mit 5 Bit pro Subrahmen indivi
duell und unabhängig voneinander quantisiert werden. Das hat
den Vorteil, dass bei bestimmten nicht-stationären Sprachab
schnitten, beispielsweise bei den Onsets, der adaptive Ver
stärkungsfaktor leicht zu Null quantisiert werden kann, und
der feste Verstärkungsfaktor einen davon unabhängigen Wert
nach Quantisierung annehmen kann. Es hat aber gegenüber der
Vektorquantisierung den Nachteil geringerer Codiereffizienz:
Im GSM-EFR-Coder benötigt man 4 + 5 = 9 Bit für die Verstär
kungsfaktoren, bei einer Vektorquantisierung reichen 7 Bit
aus.
Ein weiterer Nachteil hier ist auch, dass keine zusätzlichen
Bits zur Verfügung stehen, um die feste Anregung beziehungs
weise den festen Verstärkungsfaktor entsprechend genauer zu
quantisieren. Die Bits des adaptiven Codebuchs, das heißt der
Sprachgrundfrequenz, bleiben im Falle, dass der adaptive Ver
stärkungsfaktor zu Null gewählt wurde, ungenutzt.
Der GSM-Halfrate-Coder (GSM-HR) arbeitet demgegenüber in meh
reren Modi. Ein Modus sieht vor, dass in bestimmten Subrah
men, beispielsweise solchen, die Onsets darstellen, das adap
tive Codebuch durch ein zweites festes Codebuch ersetzt wird.
Das löst zwar in gewisser Weise das Problem, erfordert aber
eine relativ hohe Komplexität und auch Speicherbedarf für das
zweite Codebuch. Auch steigt die Anfälligkeit gegenüber Bit
fehlern bei der Übertragung, da modusabhängig ein völlig neu
er Codecparameter genutzt wird. Überdies muss bei dem GSM-HR-
Codec die Abschaltung des adaptiven Codebuchs explizit über
Modusbits signalisiert werden.
Der vorliegenden Erfindung liegt also die Aufgabe zugrunde,
ein Verfahren zur Codierung und zur Übertragung anzugeben,
das speicherplatz-sparend, effizient und wenig fehleranfällig
arbeitet, insbesondere komplexitäts- und codier-effizient abläuft
und zugleich eine hohe Signalqualität nach der Decodie
rung aufweist.
Diese Aufgabe wird durch die unabhängigen Ansprüche 1 und 6
gelöst, Weiterbildungen ergeben sich aus den unabhängigen An
sprüchen.
Erfindungsgemäß wird bei bestimmten Werten eines Signalklas
sifikators der Wert des ersten Verstärkungsfaktors, welcher
einem adaptiven Codebuch zugeordnet ist, festgesetzt.
Dadurch lässt sich eine Reduktion der Datenmenge erreichen,
die zur Darstellung der Gesamtheit von erstem Verstärkungs
faktor und adaptiven Codebucheintrag benötigt wird.
Das Sprachsignal wird in einzelne Zeitabschnitte zerlegt.
Diese Abschnitte können beispielsweise Rahmen (Frames) oder
Sub-Rahmen (Sub-Frames) darstellen.
Der Signalklassifikator sagt beispielsweise aus, ob ein sta
tionärer oder ein nicht-stationärer Sprachabschnitt vorliegt,
also ob es sich etwa um einen Sprach-Onset handelt.
Liegt nun ein derartiger Fall vor, so kann dem ersten Ver
stärkungsfaktor ein durch den Signalklassifikator festgeleg
ter Wert zugeordnet werden. Beispielsweise durch entsprechen
de Indizierung kann dieser Wert des ersten Verstärkungsfak
tors derart festgelegt werden, daß diese Darstellung des Wer
tes weniger Bits benötigt als eine herkömmliche Darstellung.
Ebenso ist es natürlich alternativ, optional oder zusätzlich
möglich, eine Kompression zu erzielen, indem, wenn der erste
Verstärkungsfaktor festgelegt wird, die Darstellung des Ein
trags des adaptiven Codebuchs komprimiert wird. Somit ergibt
sich eine im Vergleich zum Stand der Technik codier-
effiziente Darstellung zumindest eines Parameters, der im Zu
ge der Sprachcodierung auftritt.
Insbesondere erweist sich dieses Verfahren als vorteilhaft,
wenn der erste Verstärkungsfaktor auf Null festgesetzt wird.
Dadurch wird die Qualität des sprach-decodierten Signals er
höht, da, wie eingangs dargelegt, beispielsweise weniger
Quantisierungsfehlersignalanteile bei nicht-stationären
Sprachabschnitten auftreten.
Eine andere Weiterbildung sieht vor, daß der zweite Verstär
kungsfaktor skalar quantisiert ist, falls der erste Verstär
kungsfaktor festgesetzt ist. Beispielsweise kann dann die
Auflösung der Quantisierung des zweiten Verstärkungsfaktors
erhöht werden.
Somit kann beispielsweise im Falle von Sprach-Onsets, die
durch den festen Anteil der Anregung g_2.S_f dargestellt
werden, ein erweiterter Wertebereich für den zweiten Verstär
kungsfaktor zugelassen werden, was eine genauere Beschreibung
eines derartigen Sprachsignalabschnittes ermöglicht.
In einer anderen Weiterbildung ist es vorgesehen, daß der Co
dierer mit einer festen Datenrate arbeitet, das heisst, für
einen Abschnitt eines Sprachsignals ist eine feste Datenmenge
vorgesehen. Die erzielte Reduktion der Datenmenge zur Dar
stellung des ersten Verstärkungsfaktors und alternativ oder
optional des adaptiven Codebuch-Eintrages, kann dahingehend
ausgenutzt werden, daß der nun nicht mit Daten belegte Anteil
der Datenmenge zur Darstellung anderer Parameter verwendet
wird, welche bei der Sprachcodierung auftreten.
In einer anderen Weiterbildung ist vorgesehen, daß der
Sprachabschnitt mit einer reduzierten Datenmenge dargestellt
wird. Dieses Verfahren kann insbesondere bei der Verwendung
eines Codierverfahrens mit variabler Bitrate Anwendung fin
den.
Desweiteren betrifft die Erfindung ein Verfahren zur Übertra
gung von Sprachsignalen, die gemäß einem der vorhergehenden
Ansprüche codiert sind. Wesentlich ist hierbei,
daß der erste Verstärkungsfaktor oder/und der adaptive Code
buch-Eintrag nicht übertragen wird.
Insbesondere weist dieses Verfahren Vorteile auf, wenn dem
Empfänger, beispielsweise dem Decodierer, durch eine Information
angezeigt wird, daß diese Reduktion in der Datenmenge
zur Darstellung einzelner Parameter vorgenommen wurde.
Diese Information kann beispielsweise einen Anteil des durch
die Reduktion nicht mit Daten belegten Datenmenge belegen o
der auch zusätzlich zu der Datenmenge des Rahmens oder Sub-
Rahmens gesendet werden.
Im folgenden wird die Erfindung anhand einiger Ausführungs
beispiele erläutert, die teilweise durch Figuren erläutert
werden.
Es zeigen
Fig. 1 einen Überblick über das Analyse-durch-Synthese-
Prinzip in der Sprachcodierung,
Fig. 2 die Verwendung von adaptivem und festem Codebuch mit
den zughörigen Verstärkungsfaktoren.
Fig. 1 zeigt den schematischen Ablauf einer Sprachcodierung
nach dem Analyse-durch-Synthese-Prinzip.
Im wesentlichen wird das originäre Sprachsignal 10 mit einem
synthetisierten Sprachsignal 11 verglichen. Das synthetisier
te Sprachsignal 11 soll derart sein, daß die Abweichung zwi
schen dem synthetisierten Sprachsignal 11 und dem originären
Sprachsignal 10 minimal ist. Diese Abweichung wird gegebenen
falls noch spektral gewichtet. Dies geschieht über ein Wich
tungsfilter W(z). Das synthetisierte Sprachsignal wird mit
Hilfe eines LPC-Synthesefilters H(z) hergestellt. Dieses Syn
thesefilter wird über ein Anregungssignal 12 angeregt. Die
Parameter dieses Anregungssignales 12 (und gegebenenfalls
auch die Koeffizienten des LPC-Synthesefilters) werden letzt
lich übertragen und sollten daher möglichst effizient codiert
sein.
Die Erfindung zielt also auf eine möglichst effiziente Dar
stellung der Parameter ab, welche den Anregungsgenerator be
schreiben.
In Fig. 2 ist der Anregungsgenerator ohne nachgeschaltetem
LPC-Synthese-Filter im Detail zu sehen.
Das Anregungssignal 12 setzt sich zusammen aus einem adapti
ven Anteil, mittels dem überwiegend periodische Sprachab
schnitte dargestellt werden und einem festen Anteil, der zur
Darstellung nichtperiodischer Abschnitte dient. Dies wurde im
einzelnen bereits eingangs dargelegt. Zur Darstellung des a
daptiven Anteils dient das adaptive Codebuch 1, dessen Ein
träge mit einem ersten Verstärkungsfaktor 3 gewichtet werden.
Die Einträge des adaptiven Codebuchs 1 sind durch die vorher
gehenden Sprachabschnitte festgelegt. Dies geschieht über ei
ne Rückkoppelschleife 2. Der erste Verstärkungsfaktor 3 wird
durch die Anpassung an das originäre Sprachsignal 10 be
stimmt. Das feste Codebuch 4 enthält, wie der Name schon
sagt, Einträge, welche nicht von einem vorhergehenden Zeitab
schnitt bestimmt sind. Jeder Eintrag im Codebuch, das soge
nannte Codewort, ein algebraischer Codevektor, ist eine Puls
sequenz, die nur zu wenigen, definierten Zeitpunkten Werte
ungleich 0 aufweist. Es wird dieser Eintrag oder Anregungsse
quenz gewählt, mittels der die Abweichung des synthetisierten
Signals 11 zum originären Sprachsignal 10 minimiert wird. Der
dem festen Codebuch zugeordnete Verstärkungsfaktor 5 wird
dementsprechend festgelegt.
Zunächst ist vorgesehen, dass für jeden Rahmen ein sogenann
ter Signalklassifikator berechnet wird. Dieser Signalklassi
fikator kann beispielsweise eine binäre Entscheidung liefern,
ob das adaptive Codebuch genutzt werden soll oder nicht. Zu
diesem Zweck kann es sich um einen Onset-Erkenner handeln. Es
ist vorgesehen, dass in Abhängigkeit von dem Klassifikator
der adaptive Verstärkungsfaktor zu Null gesetzt wird, das
heißt die adaptive Anregung nicht in das Gesamtanregungssig
nal des LPC-Synthesefilters eingeht. Es ist darüber hinaus
vorgesehen, dass zumindest ein Parameter nicht mehr übertra
gen wird. Hierfür gibt es mehrere sinnvolle Alternativen:
- - Wird beispielsweise der Wert 0 für den adaptiven Verstär kungsfaktor übertragen, so muss der adaptive Codebucheintrag (das heißt die Sprachgrundfrequenz) nicht mehr übertragen werden, da er ja auf Empfangsseite eh mit einer Null multip liziert würde.
- - Wird beispielsweise das Nullsetzen der adaptiven Anregung dem Decoder durch ein reserviertes Wort des adaptiven Code buchs (das heißt der Sprachgrundfrequenz) signalisiert, so braucht der adaptive Verstärkungsfaktor nicht mehr übertragen zu werden. Im Falle einer Vektorquantisierung von adaptivem und festem Verstärkungsfaktor könnte der feste Verstärkungs faktor beispielsweise skalar quantisiert werden.
- - Wird der Klassifikator durch ein explizites Bit übertragen, so kann im Falle eines Onsets sogar auf die Übertragung von adaptivem Codebucheintrag (Sprachgrundfrequenz) und adaptivem Verstärkungsfaktor verzichtet werden.
Vorteil jeder dieser möglichen Realisierungen ist, dass im
Vergleich zur State-of-the-Art eine geringere Zahl an Bits
übertragen werden kann. Bei Codierverfahren mit fester Bitra
te können diese Bits nun genutzt werden, um die Quantisierung
des festen Verstärkungsfaktors, und/oder die Quantisierung
der festen Anregung, und/oder die Quantisierung der LPC-
Koeffizienten zu verbessern. Im allgemeinen kann jeder
verbleibende Codec-Parameter potentiell von einer verbesser
ten Quantisierung profitieren. Im Gegensatz zum GSM-HR-Coder
ist kein neuer Parameter vorgesehen (das heißt kein zweites
festes Codebuch), stattdessen aber die verbesserte Quantisie
rung bereits vorhandener Parameter. Dies spart Rechenkomple
xität, Speicherbedarf, und ermöglicht die Berücksichtigung
spezifischer Eigenarten von Subrahmen mit Onsets. Durch ge
schickte Einbettung der zusätzlich nutzbaren Bits in die
Quantisierungstabellen anderer Codecparameter kann zudem
speichereffizient codiert werden.
Zusammenfassend lässt sich sagen, daß durch das Nullsetzen
der adaptiven Anregung im Falle eines Onsets, und durch Nut
zung freiwerdender Bits der adaptiven Anregung beziehungsweisedes
adaptiven Verstärkungsfaktors eine verbesserte Quanti
sierung verbleibender Codec-Parameter erzielt werden kann.
Eine geschickte Einbettung der zusätzlich freiwerdenden Bits
soll im Folgenden kurz skizziert werden. Angenommen, das
Nullsetzen der adaptiven Anregung wird durch ein reserviertes
Wort im adaptiven Codebuch signalisiert. Dann kann der feste
Verstärkungsfaktor, der zuvor mit 7 Bit gemeinsam mit dem a
daptiven Verstärkungsfaktor vektor-quantisiert wurde, bei in
etwa gleichem Quantisierungsfehler beispielsweise skalar mit
5 Bit quantisiert werden. Die mit 5 Bit quantisierten Werte
des festen Verstärkungsfaktors könnten sich aus einer 25%-
Untermenge des 7 Bit-Vektorcodebuchs ergeben, und zwar eine
mit beliebigen 5 Bit aus den 7 Bit adressierbare Untermenge.
Eine solche Realisierung des 5 Bit Skalarquantisierers spart
zusätzlichen Speicher. Die freiwerdenden 2 Bit können nun
beispielsweise zur genaueren Quantisierung der festen Anre
gung genutzt werden.
Claims (7)
1. Verfahren zur Codierung von in Sprachsignalabschnitte zer
teilten Sprachsignalen,
unter Anwendung des Analyse-durch-Synthese-Verfahrens, bei dem das originäre Sprachsignal mit einem aus einem Anre gungssignal mit Hilfe eines Synthesefilters erzeugten syn thetisierten Sprachsignals verglichen wird,
wobei das durch mehrere Parameter gebildete Anregungssig nal für das Synthesefilter aus zumindest einem Eintrag ei nes adaptiven Codebuchs mit einem zugehörigen ersten Ver stärkungsfaktor und zumindest einem Eintrag aus einem fes ten Codebuch mit einem zugehörigen zweiten Verstärkungs faktor gebildet wird,
wobei der jeweilige Sprachsignalabschnitt hinsichtlich sprachlicher Besonderheiten durch einen Signalklassifika tor klassifiziert wird,
wobei in Abhängigkeit vom Ergebnis der Klassifizierung des Signalklassifikators der Wert des ersten Verstärkungsfak tors festgesetzt wird und
die übrigen zur Bestimmung des Anregungssignals vorgesehe nen Parameter zur Angleichung des synthetisierten Sprach signals an das originäre Sprachsignal entsprechend ange passt werden.
unter Anwendung des Analyse-durch-Synthese-Verfahrens, bei dem das originäre Sprachsignal mit einem aus einem Anre gungssignal mit Hilfe eines Synthesefilters erzeugten syn thetisierten Sprachsignals verglichen wird,
wobei das durch mehrere Parameter gebildete Anregungssig nal für das Synthesefilter aus zumindest einem Eintrag ei nes adaptiven Codebuchs mit einem zugehörigen ersten Ver stärkungsfaktor und zumindest einem Eintrag aus einem fes ten Codebuch mit einem zugehörigen zweiten Verstärkungs faktor gebildet wird,
wobei der jeweilige Sprachsignalabschnitt hinsichtlich sprachlicher Besonderheiten durch einen Signalklassifika tor klassifiziert wird,
wobei in Abhängigkeit vom Ergebnis der Klassifizierung des Signalklassifikators der Wert des ersten Verstärkungsfak tors festgesetzt wird und
die übrigen zur Bestimmung des Anregungssignals vorgesehe nen Parameter zur Angleichung des synthetisierten Sprach signals an das originäre Sprachsignal entsprechend ange passt werden.
2. Verfahren nach Anspruch 1, bei dem der erste Verstärkungs
faktor auf Null festgesetzt wird.
3. Verfahren nach einem der Ansprüche 1 oder 2, bei dem der
zweite Verstärkungsfaktor skalar quantisiert wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem
für einen Sprachsignalabschnitt eine vorher festgelegte Da
tenmenge reserviert ist und aufgrund der Reduzierung der Datenmenge
zur Darstellung der Gesamtheit von erstem Verstär
kungsfaktor und dem Eintrag des adaptiven Codebuchs zumindest
ein anderer Parameter, welcher bei der Sprachcodierung auf
tritt, einen größeren Teil der vorher festgelegten Datenmenge
beansprucht.
5. Verfahren nach Anspruch 1, bei dem für die Darstellung des
Sprachsignalabschnittes aufgrund der Festsetzung des ersten
Verstärkungsfaktors eine geringere Anzahl von Bits benötigt
wird.
6. Verfahren zur Übertragung von Sprachsignalen, welche nach
einem der Ansprüche 1 bis 5 codiert sind, bei dem der adapti
ve Codebucheintrag oder/und der erste Verstärkungsfaktor
nicht übertragen wird.
7. Verfahren nach Anspruch 6, bei dem einem Empfänger durch
eine dafür reservierte Information angezeigt wird, daß der
erste Verstärkungsfaktor auf einen dem Empfänger bekannten
Wert gesetzt ist.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10124420A DE10124420C1 (de) | 2001-05-18 | 2001-05-18 | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
CN02814429.5A CN100508027C (zh) | 2001-05-18 | 2002-05-02 | 语音信号的编码方法 |
DE50211294T DE50211294D1 (de) | 2001-05-18 | 2002-05-02 | Verfahren zur codierung und zur übertragung von sprachsignalen |
PCT/DE2002/001598 WO2002095734A2 (de) | 2001-05-18 | 2002-05-02 | Verfahren zur steuerung des verstärkungsfaktors eines prädiktiven sprachkodieres |
US10/478,142 US20040148162A1 (en) | 2001-05-18 | 2002-05-02 | Method for encoding and transmitting voice signals |
EP02740316A EP1388146B1 (de) | 2001-05-18 | 2002-05-02 | Verfahren zur codierung und zur übertragung von sprachsignalen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10124420A DE10124420C1 (de) | 2001-05-18 | 2001-05-18 | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10124420C1 true DE10124420C1 (de) | 2002-11-28 |
Family
ID=7685379
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10124420A Expired - Fee Related DE10124420C1 (de) | 2001-05-18 | 2001-05-18 | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
DE50211294T Expired - Lifetime DE50211294D1 (de) | 2001-05-18 | 2002-05-02 | Verfahren zur codierung und zur übertragung von sprachsignalen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50211294T Expired - Lifetime DE50211294D1 (de) | 2001-05-18 | 2002-05-02 | Verfahren zur codierung und zur übertragung von sprachsignalen |
Country Status (5)
Country | Link |
---|---|
US (1) | US20040148162A1 (de) |
EP (1) | EP1388146B1 (de) |
CN (1) | CN100508027C (de) |
DE (2) | DE10124420C1 (de) |
WO (1) | WO2002095734A2 (de) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005000828A1 (de) | 2005-01-05 | 2006-07-13 | Siemens Ag | Verfahren zum Codieren eines analogen Signals |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
DK2102619T3 (en) * | 2006-10-24 | 2017-05-15 | Voiceage Corp | METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS |
CN103383846B (zh) * | 2006-12-26 | 2016-08-10 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
CN105229736B (zh) * | 2013-01-29 | 2019-07-19 | 弗劳恩霍夫应用研究促进协会 | 用于选择第一编码算法与第二编码算法中的一个的装置及方法 |
RU2644123C2 (ru) | 2013-10-18 | 2018-02-07 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации |
EP3058568B1 (de) | 2013-10-18 | 2021-01-13 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Konzept zur codierung eines audiosignals und zur decodierung eines audiosignals mit sprachbezogenen spektralformungsinformationen |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69610915T2 (de) * | 1995-05-03 | 2001-03-15 | Ericsson Telefon Ab L M | Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657418A (en) * | 1991-09-05 | 1997-08-12 | Motorola, Inc. | Provision of speech coder gain information using multiple coding modes |
GB2312360B (en) * | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6330531B1 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Comb codebook structure |
US6192335B1 (en) * | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
AU4201100A (en) * | 1999-04-05 | 2000-10-23 | Hughes Electronics Corporation | Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system |
US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
US6510407B1 (en) * | 1999-10-19 | 2003-01-21 | Atmel Corporation | Method and apparatus for variable rate coding of speech |
-
2001
- 2001-05-18 DE DE10124420A patent/DE10124420C1/de not_active Expired - Fee Related
-
2002
- 2002-05-02 DE DE50211294T patent/DE50211294D1/de not_active Expired - Lifetime
- 2002-05-02 WO PCT/DE2002/001598 patent/WO2002095734A2/de active IP Right Grant
- 2002-05-02 CN CN02814429.5A patent/CN100508027C/zh not_active Expired - Fee Related
- 2002-05-02 US US10/478,142 patent/US20040148162A1/en not_active Abandoned
- 2002-05-02 EP EP02740316A patent/EP1388146B1/de not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69610915T2 (de) * | 1995-05-03 | 2001-03-15 | Ericsson Telefon Ab L M | Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese |
Also Published As
Publication number | Publication date |
---|---|
CN1533564A (zh) | 2004-09-29 |
WO2002095734A3 (de) | 2003-11-20 |
EP1388146A2 (de) | 2004-02-11 |
DE50211294D1 (de) | 2008-01-10 |
WO2002095734A2 (de) | 2002-11-28 |
EP1388146B1 (de) | 2007-11-28 |
US20040148162A1 (en) | 2004-07-29 |
CN100508027C (zh) | 2009-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60201766T2 (de) | Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung | |
DE60217522T2 (de) | Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung | |
DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
EP2022043B1 (de) | Informationssignalcodierung | |
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69825180T2 (de) | Audiokodier- und dekodierverfahren und -vorrichtung | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE602004006211T2 (de) | Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem | |
DE10124420C1 (de) | Verfahren zur Codierung und zur Übertragung von Sprachsignalen | |
DE69820362T2 (de) | Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen | |
DE69033510T3 (de) | Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE19722705A1 (de) | Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung | |
DE19743662A1 (de) | Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms | |
WO1999063522A1 (de) | Verfahren und anordnung zur sprachcodierung | |
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE69821895T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE60109111T2 (de) | Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen | |
DE69922388T2 (de) | Linear-prädiktives Analyse-durch-Synthese-Kodierverfahren und Kodierer | |
DE69820515T2 (de) | Vorrichtung zur Sprachcodierung unter Verwendung eines Mehrimpulsanregungssignals | |
DE19641619C1 (de) | Verfahren zur Synthese eines Rahmens eines Sprachsignals | |
DE4315319C2 (de) | Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern | |
EP1390946B1 (de) | Verfahren zur schätzung eines codecparameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |