HINTERGRUND DER ERFINDUNG
-
Die vorliegende Erfindung bezieht sich auf
Sprachparameter-Codierer zum hochwertigen Codieren der Sprachsignal-
Spektrumparameter bei niedrigen Bitraten.
-
Als Sprachparameter-Codierung, d. h. Codierung des
Sprachsignal-Spektrumparameters bei niedrigen Bitraten
wie etwa 2 kB/s, ist VQ-SQ bekannt gewesen: das Vektor-
Skalar-Quantisierungsverfahren, das die LSP-Koeffizienten
(Linienspektrumpaar-Koeffizienten) als Spektrumparameter
verwendet. Was ein spezifisches Verfahren anbelangt, ist
es möglich, zum Beispiel auf T. Moriya u. a., "Transform
Coding of Speech using a Weighted Vector Quantizer", IEEE
J. Sel. Areas, Commun., S. 425-431, 1988 (Literatur 1)
Bezug zu nehmen. In diesem Verfahren wird der
LSP-Koeffizient, der als Spektrumparameter für jeden Rahmen
erhalten wird, einmal quantisiert und mit einem vorher
gebildeten Vektorquantisierungs-Codebuch decodiert, wobei
hierauf ein Fehlersignal zwischen dem ursprünglichen LSP
und dem quantisierten decodierten LSP skalar quantisiert
wird. Als das Vektorquantisierungs-Codebuch wird durch
Training mit Bezug auf eine große Menge von
Spektrumparameter-Datenbanken vorbereitend ein Codebuch derart
gebildet,. daß es 2B (B ist die Anzahl der Bits für die
Spektrumparameter-Quantisierung) verschiedene Code-Vektoren
enthält. Was das Trainingsverfahren des Codebuches
anbelangt, ist es möglich, zum Beispiel auf Linde u. a., "An
Algorithm for Vector Quantization Design", IEEE Trans.,
COM-28, S. 84-95, 1980 (Literatur 2) Bezug zu nehmen.
-
Ferner gibt es als ein leistungsfähigeres wohlbekanntes
Codierungs-Verfahren ein
Vektorteilungs-Quantisierungsverfahren, bei dem die Dimensionen (zum Beispiel 10
Dimensionen) des LSP-Parameters in mehrere Teile (z. B.
jeder von 5 Dimensionen) unterteilt werden, wobei ein
Vektorquantisierungs-Codebuch für die Quantisierung jedes
Teils durchsucht wird. Für die Einzelheiten dieses
Verfahrens ist es möglich, zum Beispiel auf K. K. Paliwal
u. a., "Efficient Vector Quantization of LPC Parameters
at 24 Bits/Frame", IEEE Trans. Speech and Audio
Processing, S. 3-14, 1993 (Literatur 3) Bezug zu nehmen.
-
Um die Bitrate der Spektrumparameter-Codierung auf 1 kB/s
oder weniger zu vermindern, ist es erforderlich, die
Bitanzahl der Spektrumparameter-Quantisierung auf 20 Bit
pro Rahmen (bei einer Rahmenlänge von 20 ms) oder weniger
zu vermindern, während die Verzerrung, die durch die
Spektrumparameter-Quantisierung verursacht wird,
innerhalb der Wahrnehmungsgrenze der Hörerfassung gehalten
wird. In den Verfahren des Standes der Technik ist es
wegen der fehlenden Widerspiegelung der
Hörerfassungscharakteristiken durch das Verzerrungsmaß schwierig gewesen,
so zu verfahren, was folglich zu einer großen
Verschlechterung der Sprachqualität bei einer Verkleinerung der
Bitanzahl der Quantisierung auf 20 oder weniger führte.
ZUSAMMENFASSUNG DER ERFINDUNG
-
Es ist eine Aufgabe der vorliegenden Erfindung, einen
Sprachparameter-Codierer zu schaffen, der die obigen
Probleme lösen und die Spektrumparameter bei einer Bitrate
von 1 kB/s oder weniger mit einer verhältnismäßig kleinen
Menge an Operationen und Speicherkapazität codieren kann.
-
Gemäß der vorliegenden Erfindung wird ein
Sprachparameter-Codierer geschaffen, mit: einer
Spektrumparameter-Berechnungseinheit zum Ableiten eines Spektrumparameters,
der die Spektrumeinhüllende eines diskreten
Eingangssprachsignals darstellt, durch Unterteilen dieses Signals
in Rahmen, wovon jeder eine vorgegebene Zeitlänge
besitzt, einer Gewichtungskoeffizient-Berechnungseinheit
zum Ableiten eines einem Hörmaskierungs-Schwellenwert
entsprechenden Gewichtungskoeffizienten durch Ableiten
desselben aus dem Sprachsignal, und einer
Spektrumparameter-Quantisierungseinheit zum Empfangen des
Gewichtungskoeffizienten und des Spektrumparameters und zum
Quantisieren des Spektrumparameters durch Durchsuchen eines
Codebuches, um die Gewichtungsverzerrung auf der
Grundlage des Gewichtungskoeffizienten zu minimieren.
-
Kang u. a., "Application of Line-Spectrum Pairs to Low-
Bit-Rate Speech Encoders", ICASSP 85 Proceedings, März
1985, S. 244-247 offenbart einen
Sprachparameter-Codierer, wie er im Anspruch 1 beansprucht wird, in dem jedoch
der Gewichtungskoeffizient nicht von irgendeiner
Hörmaskierungs-Schwelle abgeleitet wird.
-
Andere Aufgaben und Merkmale werden aus der folgenden
Beschreibung unter Bezugnahme auf die beigefügte Zeichnung
deutlich.
KURZBESCHREIBUNG DER ZEICHNUNG
-
Fig. 1 ist ein Blockschaltplan, der eine erste Ausführung
des Sprachparameter-Codierers gemäß der vorliegenden
Erfindung zeigt;
-
Fig. 2 zeigt eine Struktur der
Gewichtungskoeffizient-Berechnungseinheit 150 in Fig. 1;
-
Fig. 3 ist ein Blockschaltplan, der eine zweite
Ausführung der vorliegenden Erfindung zeigt;
-
Fig. 4 zeigt eine Struktur der
Gewichtungskoeffizient-Berechnungseinheit 300 in Fig. 3; und
-
Fig. 5 ist ein Blockschaltplan, der eine dritte
Ausführung der vorliegenden Erfindung zeigt.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGEN
-
Der Sprachparameter-Codierer gemäß einer Ausführung der
vorliegenden Erfindung wird nun beschrieben. In der
folgenden Beschreibung wird angenommen, daß als
Spektrumparameter der LSP verwendet wird. Es ist jedoch ebensogut
möglich, andere wohlbekannte Parameter zu verwenden, zum
Beispiel den PARCOR, das Cepstrum, das Mel-Cepstrum usw.
Was die Art und Weise des Ableitens vom LSP anbelangt,
ist es möglich, auf Sugamura u. a., "Quantizer design in
LSP speech analysis-synthesis", IEEE J. Sel. Areas,
Commun., S. 432-440, 1988 (Literatur 4) Bezug zu nehmen.
-
Das Sprachsignal wird in Rahmen (von z. B. 20 ms)
unterteilt, wobei der LSP in der
Spektrumparameter-Berechnungseinheit abgeleitet wird. Ferner leitet die
Gewichtungskoeffizient-Berechnungseinheit den Hörmaskierungs-
Schwellenwert aus dem Sprachsignal für einen Rahmen ab,
wobei sie aus derartigen Wertdaten einen
Gewichtungskoeffizienten ableitet. Durch die Fourier-Transformation des
Sprachsignals wird speziell das Leistungsspektrum
abgeleitet, wobei die Leistungssumme mit Bezug auf das
Leistungsspektrum für jede Frequenzgruppe abgeleitet wird.
Was die unteren und oberen Grenzfrequenzen jeder
Frequenzgruppe anbelangt, ist es möglich, auf E. Zwicker
u. a., "Psychoacoustics", Springer-Verlag, 1990 (hier als
Literatur 5 bezeichnet) Bezug zu nehmen. Dann berechnet
die Einheit das Ausbreitungsspektrum durch Faltung der
Ausbreitungsfunktion mit der Frequenzgruppenleistung.
Dann berechnet sie durch Kompensation des
Ausbreitungsspektrums durch einen vorgegebenen Schwellenwert für jede
Frequenzgruppe das Maskierungs-Schwellenwertspektrum Pmi
(i = 1, ..., B, wobei B die Anzahl der Frequenzgruppen
ist). Was spezifische Beispiele für die
Ausbreitungsfunktion und den Schwellenwert anbelangt, ist es möglich, auf
J. Johnston u. a., "Transform coding of Audio Signals
using Perceptual Noise Criteria", IEEE J. Sel. Areas in
Commun., S. 314-323, 1988 (hier als Literatur 6
bezeichnet) Bezug zu nehmen. Die Transformation von Pmi in die
lineare Frequenzachse wird ausgeführt, um als
Gewichtungskoeffizient A(f) ausgegeben zu werden.
-
Die Spektrumparameter-Quantisierungseinheit quantisiert
den Spektrumparameter, um die
Gewichtungsquantisierungsverzerrung nach Formel (1) zu minimieren.
-
Dj = [A(fi)(fi - fij)]² (1)
-
Hier sind fi und fij der Eingangs-LSP-Parameter i-ten
Grades bzw. der Code-Vektor j-ten Grades in einem
Spektrumparameter-Codebuch einer vorgegebenen Anzahl von
Bits, M ist der Grad des Spektrumparameters und A(fi) ist
der Gewichtungskoeffizient, der z. B. durch Formel (2)
ausgedrückt werden kann.
-
A(fi) = Q/Pm(fi) (2)
-
Q = Z [1/Pm(fi)] (3)
-
Ein Spektrumparameter-Codebuch wird unter Verwendung des
in der Literatur 2 gezeigten Verfahrens im voraus
entwickelt.
-
Beim Ableiten des Maskierungs-Schwellenwertes kann die
Gewichtungskoeffizient-Berechnungseinheit gemäß der
vorliegenden Erfindung anstelle des Ableitens des
Leistungsspektrums durch die Fourier-Transformation des
Sprachsignals die Leistungsspektrumeinhüllende durch die Fourier-
Transformation der Spektrumparameter (zum Beispiel des
linearen Vorhersagekoeffizienten) ableiten und dabei den
Maskierungs-Schwellenwert aus der
Leistungsspektrumeinhüllenden durch das obige Verfahren ableiten und dann den
Gewichtungskoeffizienten ableiten.
-
Ferner ist es in der Spektrumparameter-Berechnungseinheit
gemäß der vorliegenden Erfindung möglich, die lineare
Transformation des Spektrumparameters auszuführen, um die
Hörerfassungscharakteristiken vor der Quantisierung der
Spektrumparameter in der obigen Art und Weise zu
erfüllen. Was die Hörerfassungscharakteristiken anbelangt, ist
es wohlbekannt, daß die Frequenzachse nichtlinear ist und
daß die Auflösung für niedrigere Bänder höher und für
höhere Bänder höher ist. Unter den wohlbekannten Verfahren
der nichtlinearen Transformation, die derartige
Charakteristiken erfüllt, befindet sich die Mel-Transformation.
Was die Mel-Transformation der Spektrumparameter
anbelangt, sind die Transformation von dem Leistungsspektrum
und die Transformation von der Autokorrelationsfunktion
wohlbekannt. Für die Einzelheiten dieser Verfahren ist es
möglich, z. B. auf Strube u. a., "Linear prediction on a
warped frequency scale", J. Acoust. Soc. Am.,
S. 1071-1076, 1980 (Literatur 7) Bezug zu nehmen.
-
Ferner ist es wohlbekannt, die direkte Mel-Transformation
des LSP-Koeffizienten auszuführen. Mit Bezug auf den LSP,
der mel-transformiert worden ist, wird die Quantisierung
des Spektrumparameters durch Anwendung der Formeln (1)
bis (3) ausgeführt. Hier wird mit Bezug auf den
nichtlinear transformierten LSP ein
Vektorquantisierungs-Codebuch im voraus durch Training gebildet. Für die Art und
Weise der Bildung des Vektorquantisierungs-Codebuches ist
es möglich, auf die oben angegeben Literatur 2 Bezug zu
nehmen.
-
Fig. 1 ist ein Blockschaltplan, der eine erste Ausführung
des Sprachparameter-Codierers gemäß der vorliegenden
Erfindung zeigt. In Fig. 1 wird auf der Sendeseite ein
Sprachsignal, das in einen Eingangsanschluß 100
eingegeben wird, für einen Rahmen (von z. B. 20 ms) in einem
Pufferspeicher 110 gespeichert.
-
Eine Spektrumparameter-Berechnungseinheit 130 berechnet
die linearen Vorhersagekoeffizienten αi (i = 1, ..., M,
wobei M der Grad der Vorhersage ist) für einen
vorgegebenen Grad P als Parameter, die eine Spektrumcharakteristik
des Rahmensprachsignals X(n) darstellen, durch dessen
wohlbekannte LPC-Analyse. Ferner führt sie die
Transformation des linearen Vorhersagekoeffizienten in den LSP-
Parameter fi gemäß der Literatur 4 aus.
-
Die Gewichtungskoeffizient-Berechnungseinheit 150 leitet
einen Hörmaskierungs-Schwellenwert aus dem Sprachsignal
ab, wobei sie ferner einen Gewichtungskoeffizient
ableitet. Fig. 2 zeigt die Struktur der
Gewichtungskoeffizient-Berechnungseinheit 150.
-
In Fig. 2 empfängt eine Fourier-Transformationseinheit
200 das Rahmensprachsignal und führt dessen Fourier-
Transformation bei einer vorgegebenen Anzahl an Punkten
durch die Multiplikation des Eingangs mit einer
vorgegebenen Fensterfunktion (zum Beispiel Hamming-Fenster) aus.
Eine Leistungsspektrum-Berechnungseinheit 210 berechnet
das Leistungsspektrum P(w) für die Ausgabe der Fourier-
Transformationseinheit 200 auf der Grundlage von Formel
(4).
-
P(w) = Re[X(w)]² + Im[X(w)]² (4)
-
(w = 0, ..., π)
-
Hier sind Re[X(w)] und Im [X(w)] die Real- bzw.
Imaginärteile des Spektrums im Ergebnis der Fourier-
Transformation, wobei w die Kreisfrequenz ist. Eine
Einheit 220 zur Berechnung des Spektrums des kritischen
Bandes führt die Berechnung von Formel (5) unter Verwendung
von P(w) aus.
-
Bi = P(w) (5)
-
Hier ist Bi das Frequenzgruppenspektrum des i-ten Bandes,
wobei bli und bhi die unteren bzw. oberen Grenzfrequenzen
der i-ten Frequenzgruppe sind. Für spezifische Frequenzen
ist es möglich, auf die Literatur 5 Bezug zu nehmen.
-
Anschließend wird die Faltung der Ausbreitungsfunktion
mit dem Frequenzgruppenspektrum auf der Grundlage der
Formel (6) ausgeführt.
-
Ci = Bi sprd(j,i) (6)
-
Hier ist sprd(j,i) die Ausbreitungsfunktion, für
spezifische Werte von ihr ist es möglich, auf die Literatur 4
Bezug zu nehmen, während bmax die Anzahl der
Frequenzgruppen ist, die bis zur Kreisfrequenz enthalten sind.
Die Einheit 220 zur Berechnung des Spektrums des
kritischen Bandes stellt die Ausgabe Ci bereit.
-
Eine Maskierungs-Schwellenwertspektrum-Berechnungseinheit
230 berechnet das Maskierungs-Schwellenwertspektrum Thi
auf der Grundlage der Formel (7).
-
Thi = CiTi (7)
-
Hier gilt
-
Ti = 10-(Oi/10) (8)
-
Oi = α(14,5 + i) + (1 - α)5,5 (9)
-
α = min[N(NG/R), 1,0] (10)
-
NG = 10 log&sub1;&sub0; [1 - ki²] (11)
-
Hier ist ki der K-Parameter des i-ten Grades, der in
einem wohlbekannten Verfahren aus dem eingegebenen linearen
Vorhersagekoeffizienten abzuleiten ist, M ist der Grad
der linearen Vorhersageanalyse und R ist eine vorgegebene
Konstante.
-
Das Maskierungs-Schwellenwertspektrum aus der Betrachtung
des absoluten Schwellenwertes ist durch die Formel (12)
gegeben.
-
Thi' = max[Thi, absthi] (12)
-
Hier ist absthi der absolute Schwellenwert in der i-ten
Frequenzgruppe, für die es möglich ist, auf die Literatur
5 Bezug zu nehmen.
-
Eine Gewichtungskoeffizient-Berechnungseinheit 240 leitet
mit der Transformation der Frequenzachse von der Burke-
Achse zu der Hertz-Achse mit Bezug auf das Maskierungs-
Schwellenwertspektrum Th·i (i = 1, ..., bmax) das
Spektrum Pm(f) ab, wobei sie dann den Gewichtungskoeffizient
A(f) auf der Grundlage der Formeln (2) und (8) ableitet
und liefert.
-
Wieder in Fig. 1 empfängt die
Spektrumparameter-Quantisierungseinheit 160 den LSP-Koeffizienten fi und den
Gewichtungskoeffizienten A(f) von den Spektrumparameter-
bzw. Gewichtungs-Berechnungseinheiten 130 bzw. 150, wobei
sie den Index j des Code-Vektors zum Minimieren des
Grades der Gewichtungsverzerrung auf der Grundlage der
Formel (1) durch die Durchsuchung des Codebuches 170
liefert. In dem Codebuch 170 sind vorgegebene Sorten der
LSP-Parameter-Code-Vektoren fi gespeichert (d. h., 2B
Sorten, B ist die Bitanzahl des Codebuches).
-
Fig. 3 ist ein Blockschaltplan, der eine zweite
Ausführung der vorliegenden Erfindung zeigt. In Fig. 3 arbeiten
die Elemente, die durch Bezugszeichen gleich denjenigen
in Fig. 1 bezeichnet sind, auf dieselbe Art und Weise wie
diese, deshalb werden sie nicht beschrieben. Diese
Ausführung weicht von der Ausführung nach Fig. 1 in einer
Gewichtungskoeffizient-Berechnungseinheit 300 ab.
-
Fig. 4 zeigt die
Gewichtungskoeffizient-Berechnungseinheit 300. In Fig. 4 führt eine
Fourier-Transformationseinheit 310 nicht eine Fourier-Transformation des
Sprachsignals x(n) sondern des Spektrumparameters (hier des
nichtlinearen Vorhersagekoeffizienten αi) aus.
-
Fig. 5 ist ein Blockschaltplan, der eine dritte
Ausführung der vorliegenden Erfindung zeigt. In dem Schaltplan
der Spektrumparameter-Berechnungseinheit arbeiten die
Elemente, die durch Bezugszeichen gleich denjenigen in
Fig. 1 bezeichnet sind, auf dieselbe Art und Weise wie
diese, deshalb werden sie nicht beschrieben. Diese
Ausführung weicht von der Ausführung nach Fig. 1 in einer
Spektrumparameter-Berechnungseinheit 400, einer
Gewichtungskoeffizient-Berechnungseinheit 500 und einem
Codebuch 410 ab.
-
Die Spektrumparameter-Berechnungseinheit 400 leitet die
LSP-Parameter durch die nichtlineare Transformation des
LSP-Parameters ab, um in Übereinstimmung mit den
Hörerfassungscharakteristiken zu sein. Hier wird die Mel-
Transformation als die nichtlineare Transformation
verwendet, wobei der Mel-LSP-Parameter fmi und der lineare
Vorhersagekoeffizient αi bereitgestellt werden.
-
Eine Gewichtungskoeffizient-Berechnungseinheit 500 leitet
die Gewichtungskoeffizienten aus dem
Maskierungs-Schwellenwertspektrum Th·i (i = 1, ..., bmax) ab. Zu diesem
Zeitpunkt leitet sie das Spektrum Pm(fm) durch die
Transformation der Frequenzachse von der Burke-Achse zu der
Hertz-Achse ab, wobei sie den Gewichtungskoeffizienten
A'(fm) durch Einsetzen dieses Spektrums in die Formeln
(2) und (3) ableitet und liefert.
-
Die Gewichtungskoeffizient-Berechnungseinheit 500 kann
die Fourier-Transformation nicht von dem Sprachsignal
x(n) sondern von dem linearen Vorhersagekoeffizienten a1
ausführen. In dem Codebuch 170 wird durch Studieren mit
Bezug auf die Mel-Transformations-LSP im voraus ein
Codebuch entwickelt.
-
In den obigen Ausführungen ist es möglich,
leistungsfähigere Verfahren für die Quantisierung der LSP-Parameter zu
verwenden, zum Beispiel solche wohlbekannten Verfahren
wie ein Mehrstufen-Vektorquantisierungsverfahren, ein
Vektorteilungs-Quantisierungsverfahren in der Literatur
3, ein Verfahren, in dem die Vektorquantisierung nach der
Vorhersage von der vorigen guantisierten LSP-Folge
ausgeführt wird, und so weiter. Ferner ist es möglich die
Matrixquantisierung, die Gitter- oder
Trellis-Quantisierung, die endliche Vektorquantisierung usw. zu
übernehmen. Für die Einzelheiten dieser Quantisierungsverfahren
ist es möglich, auf Gray u. a., "Vector quantization",
IEEE ASSP Mag., S. 4-29, 1984 (Literatur 8) Bezug zu
nehmen. Ferner ist es möglich, andere wohlbekannte Parameter
als den zu quantisierenden Spektrumparameter zu
verwenden, wie z. B. den K-Parameter, das Cepstrum, das Mel-
Cepstrum usw. Ferner ist es für die nichtlineare
Transformation, die die Hörerfassungscharakteristiken
darstellt, ebensogut möglich, andere
Transformationsverfahren zu verwenden, zum Beispiel die Burke-Transformation.
Für die Einzelheiten ist es möglich, auf die Literatur 5
Bezug zu nehmen. Ferner ist es für die Berechnung des
Maskierungs-Schwellenwertspektrums ebensogut möglich,
an
dere wohlbekannte Verfahren zu verwenden. In der
Gewichtungskoeffizient-Berechnungseinheit ist es möglich, eine
Bandteilungsfiltergruppe anstelle der
Fourier-Transformation zum Vermindern der Menge der Operationen zu
verwenden. Ferner ist es wohlbekannt, daß die Hörerfassung
empfindlicher für Frequenzfehler bei niedrigeren Frequenzen
und weniger empfindlich bei höheren Frequenzen ist.
Aufgrund dieser Tatsache ist es für den
Gewichtungsverzerrungsgrad nach Formel (13) in der Durchsuchung des LSP-
Codebuches möglich.
-
Dj = [A(fi)B(fi)(fi - fij)]² (13)
-
Wie oben beschrieben worden ist, wird gemäß der
vorliegenden Erfindung für die Quantisierung des
Spektrumparameters des Sprachsignals ein Gewichtungskoeffizient gemäß
dem Hörmaskierungs-Schwellenwert abgeleitet, wobei die
Quantisierung ausgeführt wird, um den
Gewichtungsverzerrungsgrad zu minimieren. Folglich ist die Verzerrung
weniger durch die Ohren wahrnehmbar, wobei es möglich ist,
die Spektrumparameter-Quantisierung bei niedrigeren
Bitraten als im Stand der Technik zu erhalten.
-
Ferner ist gemäß der vorliegenden Erfindung die
Quantisierung mit dem Gewichtungsverzerrungsgrad nach der
nichtlinearen Transformation des Spektrumparameters
erreichbar, um in Übereinstimmung mit den
Hörerfassungscharakteristiken zu sein und auf diese Weise eine weitere
Verkleinerung der Bitrate zu erlauben.
-
Fachleuten werden Änderungen in der Konstruktion
einfallen, wobei mehrere offensichtliche verschiedene
Modifikationen und Ausführungen hergestellt werden
können, ohne von dem Geltungsbereich der Erfindung, wie er
beansprucht ist, abzuweichen. Die in der vorangehenden
Beschreibung und der beigefügten Zeichnung dargelegte
Materie wird nur zum Zweck der Erläuterung dargeboten. Es
ist deshalb beabsichtigt, daß die vorangehende
Beschreibung als erläuternd anstatt als einschränkend betrachtet
wird.