DE2945414C2 - Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals - Google Patents

Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals

Info

Publication number
DE2945414C2
DE2945414C2 DE2945414A DE2945414A DE2945414C2 DE 2945414 C2 DE2945414 C2 DE 2945414C2 DE 2945414 A DE2945414 A DE 2945414A DE 2945414 A DE2945414 A DE 2945414A DE 2945414 C2 DE2945414 C2 DE 2945414C2
Authority
DE
Germany
Prior art keywords
signal
speech
formant
difference signal
quantization error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2945414A
Other languages
English (en)
Other versions
DE2945414A1 (de
Inventor
Bishnu Saroop Murray Hill N.J. Atal
Manfred Robert Prof. 3400 Göttingen Schroeder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Application granted granted Critical
Publication of DE2945414C2 publication Critical patent/DE2945414C2/de
Expired legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/04Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
    • H04B14/046Systems or methods for reducing noise or bandwidth
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M3/00Conversion of analogue values to or from differential modulation
    • H03M3/04Differential modulation with several bits, e.g. differential pulse code modulation [DPCM]
    • H03M3/042Differential modulation with several bits, e.g. differential pulse code modulation [DPCM] with adaptable step size, e.g. adaptive differential pulse code modulation [ADPCM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Erzeugung der Bewertun.(jsfiiter-Parametersignale /i, 4... fp, fP+ 1 einen Satz dieser Signale entsprechend der Beziehung
— - — —* ■ ■
/H-I . P
liefert, wobei z~> eine vorgegebene Verzögerungseinheit darstellt, a* das k-te, formantbezogene Voraussageparametersignal und ρ die Anzahl der formantbezogenen Voraussageparametersignale sind.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Bildung des formantbewerteien Quantisierfehlerleistungssignals (w„) die Filterung des Quantisierfehlerleistungssignals (e„) entsprechend der Beziehung __ _
d„'—b\ d„'-m+1 + indn -m + tnda' ~m-1 + q
beinhaltet, wobei w„ der augenblickliche Wert des formantbewerteten Quantisierfehlerleistungssignals und e„ der augenblickliche Wert des Quantisierf ehlerleistungssignals sind.
9. Verfahren nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß ein Satz von tonhöhenbezoger.en Voraussageparametersignalen (B=b\,tn,bü und eines auf die Tonhöhenperiode bezogenen Signals fm; für jedes interval! gebildet wird, das die Modifizierung des Differenzsignals (d„) die Erzeugung eines dem vorausgesagten Wert des Differenzsignals (d„) entsprechenden Signals
40
beinhaltet und daß das vorausgesagte Differenzsignal (da) vom Differenzsignal (d„) subtrahiert, um die auf die Tonhöhe bezogene Redundanz im modifizierten Differenzsignals (q„) zu verringern.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die Bildung eines dem vorausgesagten Wert des Differenzsignals (d„) entsprechenden Signals (d„') aus dem vorhergehenden Teil des quantisierten modifizierten Differenzsignals (q„), den tonhöhenbezogenen Voraussageparametersignalen (B = b\, b-t, fa) und dem auf die Tonhöhenperiode bezogenen Signal ^erfolgt, und daß das augenblickliche quantisierte modifizierte Differenzsignal π) mit dem vorausgesagten Wert (d„') des Differenzsignals kombiniert wird.
Die vorliegende Erfindung bezieht sich auf einen Sprachsignal-Voraussageprozessor nach dem Oberbegriff des Patentanspruchs 1 und ein entsprechendes Verfahren zur Verarbeitung eines Sprachleistungssignals nach dem Oberbegriff des Patentanspruchs 6.
Die Codierung von Signalen zur Übertragung über Digitalkanäle in Fem-prech- oder anderen Nr.chrichtcnübertragungsanlagen erfordert die Abtastung eines Eingangssignals, das Quantisieren der Abtasfverte und die Erzeugung eines Digitalcode für jeden quantisierten Abtastwert Sprachsignale sind in hohem Maß korreliert und enthalten daher einen Anteil, der sich aus ihren vergangenen Werten voraussagen läßt. Wenn also der Sender und der Empfänger je Einrichtung zur Bildung des vorausgesagten A.iteils des in hohem Maße korreherten Sprachsignals enthalten, muß nur der unvorausgesagte Teil das Sprachsignals codiert und übertragen werden. Demgemäß führt eine Voraussagecodierung von Sprachsignalen zu einer wirksamen Ausnutzung von Digitalkanälen ohne Signalverschlechterung.
Eine bekannte Sprachsignal-Voraussagecodierung entsprechend den US-PSen 35 02 986 und 36 31 520 beinhaltet die Erzeugung von Voraussageparametern aus einer Folge von Sprachsignalabtastungen und die Bildung eines Voraussagewertes für jede Sprachsignalabtastung aus den erzeugten Farametern und den vorhergehenden Sprachsignalabtastungen. Die Differenz zwischen jeden Abtastwert und seinem vorausgesagten Wert wird quantisiert, digital couiert und zu einem Empfänger übertragen, in dem das Differenzsignal decodiert und mit
dem entsprechenden, im Empfänger gebildeten Voraussagewert kombiniert wird. Auf diese Weise wird nur derjenige Signalanteil, der sich nicht aus dem bereits codierten Signal voraussagen läßt, quantisiert und übertragen, wodurch Einsparungen der Kanalkapazität erreicht werden. Die Einsparungen spiegeln sich in einer verringerten Bitrate wieder, die zur Übertragung nur des nicht vorausgesagten Teils des redundanten Sprachsignals im Gegensatz zu der wesentlich höheren Bitrate zur Übertragung des direkt codierten Sprachsignals erforderlich ist.
Die Quantisierung von Signalabtastwerten wird durch selektives Erzeugen eines Signals entsprechend demjenigen Pegel einer Anzahl von vorgegebenen Amplitudenpegeln erreicht, welche der Amplitude des Signalabtastwertes am nächsten ist. Die dabei erzeugten Quantisierungsfehler verzerren das übertragene Signal und ίο bewirken ein Quantisierungsrauschen. Entsprechend der US-PS 29 27 962 kann das Quantisierungsrauschen dadurch verringert werden, daß ein Fehlersignal gebildet wird, welches der Differenz zwischen den quantisierten und nicht quantisierten Signalabtastwerten entspricht, und die Signalabtastwerte auf eine vorbestimmte Weise abhängig von dem Fehlersignal modifiziert werden. Die gesamte Quantisierungsrauschleistung wird zwar durch die Modifizieranordnungen nicht beeinflußt, die Rauschleistung kann aber in einem bestimmten Teil des Signalspektrums konzentriert werden, wo ihre Auswirkungen möglichst klein sind. Eine Rückkopplungs-Filteranordnung, die dieses Prinzip bei der Codierung von Fernsprechsignalen verwendet, um das Quantisierungsrauschen in den oberen Frequenzbereich des Signalbandes zu bringen, ist in einem Aufsatz »Synthesis of Optimal Filters for a Feedback Quantization System« von E. G. Kimme und F. F. Kuo in IEEE Transactions on Circuit Theory, September 1963. Seiten 405—413 beschrieben.
Die vorerwähnten Anordnungen zur Verringerung des Quantisierungsfehlers, die generell die Fehlerleistung in festen Abschnitten des Frequenzspektrums konzentrieren, führen nicht zu einer optimalen Rauschverringerung für Sprachsignal-Codieranordnungen. Das ergibt sich aus der Natur des Sprachsignalspektrums, das eine Vielzahl von zeitveränderlichen Formantfrequenzteilen enthält, die den Teilen der Kurzzeit-Spektralhüllkurve entsprechen, in denen die Sprachenergie konzentriert ist, sowie den Zwischenformantteilen. In stimmhaften Bereichen der Sprache stehen die Formantteile in direkter Beziehung zu Resonanzen im Vokaltrakt. Die Sprachsignalleistung ist daher in diesen Formantanteilen konzentriert, während die Zwischenformantbereiche eine wesentlich kleinere Sprachsignalleistung enthalten. Eine Konzentration der Quantisierfehlerleistung in einem bestimmten festen Abschnitt des Frequenzspektrums berücksichtigt nicht die Beziehung zwischen dem Quantisierungsrauschspektrum und dem sich ändernden Sprachspektrum, so daß merkbare Rauscheinflüsse verbleiben.
Der Erfindung liegt die Aufgabe zugrunde, einen Sprachsignal-Voraussageprozessor sowie ein entsprechendes Verfahren zur Verarbeitung eines Sprachleistungssignals zu schaffen, die eine weitgehende Verringerung des empfangsseitig störenden Quantisierungsrauschens in den stimmlosen Zwischenformantbereichen zu ermöglichen.
Die Lösung der Aufgabe ist für den Sprachsignal-Voraussageprozessor in Anspruch 1 und für das Verfahren in Anspruch 6 angegeben.
Weiterbildung der Erfindung sind Gegenstand der Unteransprüche.
Die Redundanz aufgrund der Formantstruktur des Sprachsignais wird durch Subtrahieren des vorausgcsägien
Wertes des augenblicklichen Sprachsignals, das abhängig von den formantbezogenen Voraussageparametersignalen abgeleitet worden ist, von dem tatsächlichen Wert des augenblicklichen Sprachsignals beseitigt. Eine tonhöhenbezogene Redundanz verbleibt jedoch in dem sich ergebenden Differenzsignal entsprechend der Erläuterung in der US-PS 37 40 476 (ä DE-OS 22 33 872). Entsprechend einer Weiterbildung der Erfindung wird ein Satz von tonhöhenbezogenen Voraussageparametersignalen für jedes gewählte Intervall erzeugt. Das quantisierte Signal wird mit den tonhöhenbezogenen Voraussageparametersignalen kombiniert, um ein vorausgesagtes Differenzsignal zu bilden. Dieses vorausgesagte Differenzsignal wird an die Modifizierschaltung für das Differenzsignal gegeben, um die tonhöhenbezogene Redundanz des quantisierten Signals zu verringern.
In den Zeichnungen zeigen:
F i g. 1 das Blockschaltbild eines Voraussageprozessors als Ausführungsbeispiel der Erfindung;
F i g. 2 das Blockschaltbild einer Voraussagedecodierschaltung, die in Verbindung mit der Schaltung nach F i g. 1 benutzt wird;
F i g. 3 das Blockschaltbild des Voraussagerechners nach F i g. 1;
Fig.4 ein genaueres Blockschaltbild des Filterkoeffizientengenerators und der Speicherschaltung nach Fig. 1;
F i g. 5 ein genaueres Blockschaltbild der Formant-Voraussageeinrichtungen nach F i g. 1 und 2;
F i g. 6 ein genaueres Blockschaltbild des Bewertungsfüters nach F i g. 1;
F i g. 7 ein genaueres Blockschaltbild der Sprachperiodizitäts-Voraussageeinrichtungen nach F i g. 1 und 2;
F i g. 8 Kurvenformen zur Erläuterung der Arbeitsweise des Voraussagerechners nach F i g. 3;
F i g. 9 eine graphische Darstellung der Quantisierungsrauschverringerung bei der Schaltung nach F i g. 1;
F i g. 10 Signalkurvenformen, die bei der Schaltung nach F i g. 1 gewonnen worden sind
Ein Voraussageprozessor zur Erläuterung der Erfindung ist in F i g. 1 dargestellt Ein Sprachsignal s(t) einer Sprachsignalquelle 101 wird an eine Filter- und Abtastschaltung 103 gegeben, in der das Signal φ) über ein Tiefpaßfilter läuft durch ein Vorverzerrungs-Netzwerk für hohe Frequenzen modifiziert und mit einer vorbestimmten Rate abgetastet wird Die Schaltung 103 kann ein Tiefpaßfilter mit einer Grenzfrequenz von 4 kHz, ein Vorverzerrungs-Netzwerk mit einem bei 700 Hz beginnenden Anstieg von 6 dB pro Oktave sowie ein Abtaster mit einer Abtastrate CL1 von 8 kHz enthalten. Die aufeinanderfolgenden Signalabtastwerte von der Filter- und Abtastschaltung 103 werden an einen Analog-Digitalwandler 105 gegeben, in welchem für jeden Signalabiastwert ein zur Verwendung im Prozessor geeignetes digitales Sprachleistungssignal Sn erzeugt wird
Die aufeinanderfolgenden Sprachleistungssignale Sn vom Wandler 105 werden direkt an einen Eingang eines
Voraussageparameterrechners 135 sowie über eine Verzögerung 106 an den Signaleingang einer Formantvoraussageeinrichtung 107 und an den positiven Eingang einer Subtrahierschaltung 109 angelegt. Die Verzögerung 106 kann ein Schieberegister oder andere bekannte Verzögerungseinrichtungen enthalten. Die Voraussageeinrichtung 107 spricht auf die verzögerten Signale s„ und einen vorgegebenen Satz von fnrmantbezogenen Voraussageparatnetersignalen A — βι, β2· ■ ■ ■ a^,... ap an, die vom Rechner 135 gewonnen wurden sind, um einen Voraussagewert
S J«-* α* (1)
für jeden Abtastwert zu erzeugen, wobei ak das k-le lineare Voraussageparametersignal und ρ die Ordnung der Voraussageeinrichtung sind. In bekannte: Weise sagt die Formantvoraussageeinrichtung 107 den augenblicklichen Wert jedes Signals s„ auf der Basis der bewerteten Summe einer Anzahl von vorhergehenden Abtastwerten entsprechend dem Ausdruck 1) voraus. Die Voraussage beruht auf der K.urzzeit-Spektralhüllkurve des Sprachsignals und die Voraussageparametersignale a\,a-i,... ap stehen in Beziehung zur Formantstruktur der Vokaltrakt-Übertragungsfunktion.
F i g. 5 zeigt ein bekanntes Transversalfilter, das als Formant-Voraussageeinrichtung 107 benutzt werden kann. Die Voraussageeinrichtung gemäß F i g. 5 läßt sich wie folgt anhand einer z-Transformation kennzeichnen
*»i
wobei z-1 eine Verzögerung um ein Abtastwertintervall und a\, 32,... a*,... ap die ρ Voraussageparameterkoeffizienten sind. In F i g. 5 ist ρ = 10. Das Schieberegister 503 ist ein 10-stufiges Schieberegister, das mit der Abtastrate CL 1 von 8 kHz betrieben wird und die aufeinanderfolgenden Signale Sn von der Verzögerungsschaltung 106 über die Leitung 501 aufnimmt. Das Ausgangssignal der ersten Schieberegisterstufe auf der Leitung 504-1 wird einem Eingang eines Multiplizierers 505-1 zugeführt. Auf entsprechende Weise werden die Ausgangssignale der weiteren Schieberegisterstufen auf den Leitungen 504-2 bis 504-10 Multiplizierern 505-2 bis 505-10 zugeführt. Lineare Voraussageparametersignale A = a\, a2, ... aio vom Rechner 135 werden an die Multiplizierer 501-1 bis 505-10 über die Leitung 510 angelegt. Jeder Multiplizierer bildet das Produkt sn-k 3k, und die Produkte werden jeweils paarweise in Addierern 507-2 bis 507-10 summiert, so daß ein Signal, das die Summe der Produkte entsprechend Gleichung 1) darstellt, auf der Ausgangsleitur.g 512 zur Verfügung steht.
Das vorausgesagte Signal auf der Leitung 511 gelangt an den negativen Eingang einer Subtrahierschaltung 109, in der es von dem augenblicklichen codierten Signal Sn subtrahiert wird. Das sich ergebende Differenzsignal
d„ = s„- 2j s„-.kak (3)
entspricht dem Sprachsignal, dessen Formantredundanz entfernt ist. Die Beseitigung der Formantredundanz ist in F i g. 10 dargestellt, in der die Kurve 1001 einen Teil eines Sprachsignals aus der Quelle 101 zeigt, das sowohl eine Formantredundanz als auch eine Redundanz bezüglich der Tonhöhenperiode besitzt Die Kurve 1003 entspricht dem Differenzsignal gemäß Gleichung 3), bei dem die vorausgesagte Formantkomponente aus dem Sprachsignal entfernt ist, die Redundanz bezüglich der Tonhöhenperiode jedoch noch enthalten ist.
Das Differenzsignal d„ der Subtrahierschaltung 109 wird an eine Modifizierschaltung 137 gegeben, die eine Sprachperiodizitäts-Voraussageeinrichtung 128 enthält die die im Differenzsignal verbleibende Redundanz bezüglich der Tonhöhenperiode entfernt, sowie ein Bewertungsfilter 120, das das Quantisierungsrauschen im Differenzsignal neu verteilt, um dessen Wahrnehmbarkeit zu verringern. Das modifizierte Differenzsignal qn am Ausgang der Modifizierschaltung 137 wird an den Eingang eines Quantisierers 111 gegeben, der in bekannter Weise abhängig von der Größe jedes Differenzsignals an seinem Eingang eine von einer Gruppe von vorgegebenen Amplitudenstufen auswählt Im Quantisierer 111 ist die Schrittgröße Δ, nämlich die Differenz zwischen den Amplitudenstufen des Quantisierers, durch die statistischen Eigenschaften des modifizierten Differenzsignals an bestimmt und sie wird im Voraussageparameterrechner 135 erzeugt
Das quantisierte modifizierte Differenzsignal q„ des am Ausgangquantisierers 111 wird über einen Digitalcodierer 112 einer Subtrahierschaltung 113 sowie einem Addierer 13t zugeführt Der Addierer 131 und die Sprachperiodizitäts-Voraussageeinrichtung 128 bilden ein vorausgesagtes Differenzsignal d„' für jedes Differenzsignal d„ unter Ansprechen auf einen Satz von vorhergehenden Differenzsignalen, Quantisierer-Ausgangssignalen qn und Voraussageparametersignalen B=b\,bi,bi sowie eines Signals m, das die Tonhöhenperiode des augenblicklichen Sprachsignalsegmentes darstellt Der Addierer 131 bildet die Summe aus dem Signal ήη und dem vorausgesagten Differenzsignal d„' und gibt diese Summe an die Voraussageeinrichtung 128. Diese erzeugt einen Voraussagewert des augenblicklichen Differenzsignals entsprechend
m -x + qB (4a)
und ist gekennzeichnet in Form einer z-Transformation durch die Funktion
wobei z-m eine Verzögerung von m Abtastwerten angibt b\, bi und b$ sind Signale, die durch Minimieren des
,; quadratischen Mittelwertes des Voraussagefehlers zwischen dem Differenzsignal d„ und seinem vorausgesagten
?« Wert d„ bestimmt sind.
I1' Die Signale m und b\, bi und 63 werden im Rechner 135 für jedes Sprachsignalintervall erzeugt. Das
!7; Voraussagedifferenzsignal d„' wird vom Differenzsignal d„ in der Subtrahierschaltung 126 abgezogen, so daß die
la 5 Redundanz bezüglich der Tonhöhenperiode aus dem Differenzsignal entfernt wird. Die Kurve 1005 in F i g. 10 fj zeigt das Differenzsignal nach der Entfernung der auf die Tonhöhenperiode bezogenen Redundanz in der
■'] Subtrahierschaltung 126. Im Gegensatz zur Sprachkurvenform 1001 und der Differenzsignal-Kurvenform 1003
[j] ist die Kurve I0OS ihrer Natur nach rauschähnlich, wodurch die Beseitigung sowohl der Formantredundanz als
|| auch der auf die Tonhöhenperiode bezogenen Redundanz angezeigt wird.
i.j 10 F i g. 7 zeigt die Voraussageeinrichtung 128 genauer. In der Schaltung nach F i g. 7 weist das Schieberegister $ 703 120 Stufen auf, die die aufeinanderfolgenden Abtastwerte vom Addierer 131 aufnehmen. Die 120 Stufen
; stellen einen Zeitabschnitt von 15 ms dar, welches das voraussichtlich längste Tonhöhenintervall ist. Das Ausgangssignal jeder Schieberegisterstufe wird an eine Wählerschaltung 705 gegeben, die selektiv drei aufeinander W: folgende Schieberegisterstufen-Ausgangssignale unter Ansprechen auf ein auf die Tonhöhenperiode bezogenes
ζ, 15 Signal m vom Rechner 135 gemäß Gleichungen 4a) und 4b) weiterleitet. Das Ausgangssignal der am weitesten ;.; links liegenden Schieberegisterstufe gelangt an den Multiplizierer 706-1. Auf entsprechende Weise werden die
F·: Ausgangssignale der benachbarten, gewählten Schieberegisterstufen an Multiplizierer 706-2 bzw. 706-3 ange-
.?: legt. Die Voraussageparametersignale b\, tn und Ö3 werden vom Rechner 135 über eine Leitung 711 den
|| Multiplizierern 706-1, 706-2 und 706-3 zugeführt. Die Produktsignale der Multiplizierer 706-1, 706-2 und 706-3
f. 20 werden in Addierern 707-2 und 707-3 summiert, so daß der Voraussagewert für das augenblickliche Ditterenzsi- ]f\ gnal auf der Leitung 712 erscheint.
§s Der Voraussageparameterrechner 135 erzeugt die Voraussageparametersignale, die für die Formantvoraus-
IJ sageeinrichtung 107 und die Sprach-Periodizitäts-Voraussageeinrichtung 128 erforderlich sind, sowie die
|j Schrittgröße Δ und andere Signale, die im Codierer verwendet werden. Sprachsignale sind in bekannter Weise
' 25 nicht stationär. Die zeitveränderlichen Eigenschaften der Sprache ändern sich jedoch verhältnismäßig langsam,
'.} so daß es genügt, die Voraussageparametersignale für eine Abtastrate von 8 kHz alle 10 ms an das sich ändernde
j Signal anzupassen. Demgemäß erhält der Voraussageparameterrechner 135 Sprachleistungssignale Sn während
I jedes Zeitrahmens von 10 ms und liefert Voraussageparametersignale zur Anpassung von sich ändernden
ff Signalbedingungen für jeden 10-ms-Zeitrahmen.
% 30 F i g. 3 zeigt eine Verarbeitungsanordnung, die zur Verwendung als Rechner 135 geeignet ist. Entsprechend fe der Darstellung in F i g. 3 nimmt ein Prozessor 309 gespeicherte Signalinformationen vom Abtastspeicher 320
<w und dauernd gespeicherte Programminformationen aus Festwertspeichern 303 und 305 über eine Steuereinrich-
P tung 307 auf. Unter Ansprechen auf die empfangenen Signale und die Programminformationen erzeugt der
U Prozessor 309 einen Satz von formantbezogenen linearen Voraussageparametersignalen A = a\,a2,... a\o, einen
f$ 35 Satz tonhöhenbezogener Voraussageparametersignale B =b\, bi, bi, einen Satz teilkorrelierte Formantkoeffij| zientensignale rm=r\, ft,... no sowie ein Effektivwertsignal 2 R, ein auf die Tonhöhenperiode bezogenes Signal
I m und ein Schrittgrößensignal Δ zur Verwendung in den weiteren Abschnitten der Schaltung gemäß F i g. 1. Die
gj Ausgangssignaie des Prozessors 309 werden entsprechend der Darstellung in F i g. 3 in Ausgangsspeicherr. 331
bis 336 abgelegt.
40 Das Steuergerät 307 in Fig.3 kann jeden 10-ms-Zeitrahmen des Sprachsignals in eine Folge von 3 vorbestimmten Zeitperioden unterteilen, die je einem bestimmten Operationsmodus zugeordnet sind. Die Operationsmoden sind in F i g. 8 gezeigt Taktimpulse CL 2 vom Taktgeber 140 in F i g. 1 haben einen Abstand vo;. 10 ms und bestimmen die 10-ms-Zeitrahmen. In F i g. 8 tritt ein CL 2-Taktimpuls zum Zeitpunkt tu dem Anfang eines 10-ms-Zeitrahmens, auf. Dieser CL 2-Taktimpuls bringt das Steuergerät 307 in seinen Dateneingangsmodus, wie 45 die Kurve 805 zeigt Während des Dateneingangsmodus ist das Steuergerät 307 mit dem Prozessor 309 und dem Sprachabtastspeicher 320 verbunden. Unter Ansprechen auf Steuersignale vom Steuergerät 307 werden die 80 «„-Signale, die während des vorhergehenden 10-ms-Zeitrahmens in den Abtastspeicher 320 eingegeben worden sind, über die Eingangs/Ausgangsschnittstelle 318 zum Datenspeicher 316 übertragen. Entsprechend der Kurvenform 805 wird der Dateneingangsmodus zum Zeitpunkt h beendet, wenn 80 «„-Signale vom Speicher 320 an 50 vorbestimmte Adressen im Datenspeicher 316 gegeben worden sind. Während der Übertragung der gespeicherten 80 «„-Signale zum Datenspeicher 316 werden die «„-Signale des augenblicklichen Zeitrahmens unter Steuerung von Taktimpulsen CL1 in den Speicher 320 eingeschrieben.
Kurz nach dem Zeitpunkt i2 wird das Steuergerät 307 in seinen Formantvoraussageparametermodus gebracht, wie durch die Kurvenform 807 gezeigt Während des Formantvoraussageparametermodus ist der Vor-55 aussageparameter-Programmspeicher 303 mit dem Zentralprozessor 312 über das Steuergerät 307, die Steuergerät-Schnittstellenschaltung 310 und den Bus 340 verbunden. Abhängig von den permanent gespeicherten Befehlen aus dem Festwertspeicher (ROM) 303 erzeugt der Prozessor 309 die teilkorrelierten Formantkoeffizientensignale rm=r\, r-i,... no und die linearen formantbezogenen Voraussageparametersignale A =a\ bis aio· Die Signale A und rm werden zu den Speichern 331 bzw. 333 übertragen.
60 In bekannter Weise werden die Parametersignale durch Bildung der Covarianz-Matrix P erzeugt, deren Terme lauten:
80
PU = Σ S*-iSn-j, (5)
it-l 65
/ = 1,2,...,10, J= 1,2,..., 10,
iowie durch Sprachkorrelationsfaktoren
(6)
Es werden dann die Faktoren g\ bis g\o gemäß
8\ = C|
gl C2
S)J ClO
(7)
10
berechnet, wobei Tdie untere Dreiecksmatrix ist, die durch die Dreiecks-Dekomposition von
(8) 20
gewonnen wird. Die teilkorrelierten Formantkoeffizientensignale rm werden dann erzeugt entsprechend
_ Sm
(9)
wobei
25
30
der Energie des Sprachsignals in dem 10-ms-Zeitrahmen entspricht. Die linearen Voraussageparametersignale A = ai, a2,... ajo werden aus den Formantkoeffizientensignalen rm entsprechend der rekursiven Formel
a, (m) = a, (m -\) + rm am_, (m-\) ao(o)= Ij = 1,2,..., m = 1,2,..., 10
(10)
gebildet. Die im Prozessor 309 während des Formantvoraussageparametermodus erzeugten Formantkoeffizientensignale rm und die linearen Voraussageparametersignale A werden vom Datenspeicher 316 zu den Speichern 331 und 333 zur Verwendung während des nächsten 10-ms-Zeitrahmens übertragen. Die Signale A wenden außerdem zum Filterkoeffizientengenerator und -speicher 122 gegeben. Während des Formantvoraussageparametermodus zählt das Steuergerät 307 die CL 1-Taktimpulse vom Taktgeber 140, um den Beendigungszeitpunkt des Modus zu bestimmen.
Zum Zeitpunkt f3, nach der Übertragung der Signale rm und A zu den Speichern 331 und 333, wird das Steuergerät 307 in seinen Tonhöhenvoraussageparametermodus gebracht, wie durch die Kurve 809 angegeben. Zwischen den Zeitpunkten f3 und U verbindet das Steuergerät 307 den Tonhöhenvoraussage-Programmspeicher 305 über die Steuergerät-Schnittstellenschaltung 310 und den Bus 340 mit dem Zentralprozessor 312. Die Befehle im ROM 305 bilden die tonhöhenbezogenen Voraussageparametersignale S =b\, tu, bi sowie das tonhöhenbezogene Signal m zur Verwendung in der Sprach-Periodizitäts-Voraussageeinheit 128 in F i g. 1. Der Prozessor 309 berechnet während des Tonhöhenvoraussagemodus die Korrelationen zwischen den Differenzsignalen dn und dn -1 über ein vorgegebenes Intervall entsprechend Gleichung 11)
Σ d.d.-,
/i-l
/=41,42,..., 120,
(H)
35
40
45
50
55
Σ dl Σ dl-,
/ι-! η-1
um den Zeitindex / zu bestimmten, für den i ein Maximum ist Der Zeitpunkt, zu dem / ein Maximum (m) ist, wird vom Datenspeicher 316 unter Steuerung des Steuergerätes 307 übertragen.
Der Prozessor 309 berechnet außerdem die tonhöhenbezogenen Voraussageparametersignale B = b\, bi und bi auf der Basis einer Minimierung von
(d„-bi d„-m+\ - b2 d„-m -
(2)
Der Faktor 2 R für den Spitzenwertbegrenzer 124 wird berechnet entsprechend
1 W
*=ö„ Σ Vm-Ih d.-mH-bidm-m-bidm-m-Jl. (13)
.-ι
Der Schrittgrö?enf aktor Δ wird ebenfalls zur Verwendung im Quantisierer 111 gemäß
A = 1,224 R (14)
ίο für einen dreistufigen Quantisierer berechnet, und zwar entsprechend der Erläuterung in dem Aufsatz »Quantizing for Minimum Distortion« von Joel Max, in IRE Transactions on Information Theory, Band ΓΤ-6, Seiten 7-121, März 1960,2 R und Δ werden zum Zeitpunkt U zu den Speichern 334 bzw. 336 übertragen. Während des 10-ms-Zeitrahmens zwischen den Zeitrahmen t\ und fs entsprechen die Ausgangssignale der Speicher 331 bis 336 den Signalwerten Sn, die in dem 10-ms-Zeitrahmen vor dem Zeitpunkt fi gewonnen worden sind. Zum Zsitpunkt fs werden die zwischen den Zeitpunkten fi und U in diese Speicher eingegebenen Parametersignale abhängig von einem Steuersignal aus dem Steuergerät 307 an die Speicherausgänge gelegt Im nachfolgenden Zeitrahmen steuern die zwischen den Zeitpunkten ft und fs berechneten Parametersignale den Codierer in Fig. 1. Da die Abtastsignale vom Analog-Digitalwandler 105 in der Verzögerungsschaltung 106 für eine Zeitspanne von 10 ms verzögert worden sind, entsprechen die Parametersignale vom Rechner 135 den Signalen Sn, die in den Vorhersageeinrichtungen 107,128 sowie im Quantisierer 111 verarbeitet werden.
Das Ausgangssignal des Digitalcodierers 112, das vom Quantisierer 111 abgeleitet wird, umfaßt eine Folge von quantisierten Signalen ήΛ die die nicht vorausgesagte Komponente des Sprachsignais darstellen, d.h. das Sprachsignal, aus dem die Formantredundanz und die auf die Tonhöhe bezogene Redundanz entfernt worden sind. Da die vorbestimmten Amplitudenpegel, die im Quantisierer 111 benutzt werden, nicht gleich der Größe der an den Quantisierer 111 angelegten Signale q„ ist, ist eine Verzerrung oder ein Quantisierungsrauschen in Form eines Quantisierfehlerleistungssignals e„ entsprechend
e„ = Qn - q„ (15)
im Ausgangssignal q„ des Digitalcodierer 112 vorhanden. Die Verzerrung wird dann über den Nachrichtenkanal 150 übertragen und erscheint im rekonstruierten Sprachsignal ^y am Ausgang der Decodierschaltung in F i g. 2. Das Quantisierungsrauschen im übertragenen Signal kann durch eine wirksame Voraussage verringert werden. Eine solche Verringerung stellt jedoch nicht sicher, daß die wahrnehmbare Verzerrung im rekonstruierten Sprachsignal klein ist, da die Verzerrung vom Spektrum des Quantisierungsrauschens mit Bezug auf das Sprachspektrum abhängt Das Sprachsignalspektrum ist durch zeitveränderliche Formambereiche gekennzeichnet, d. h. Bereiche, in denen die Sprachsignalleistung konzentriert ist, und durch Zwischenformantbereiche, in
u\»ti\»ti uiw hji£ii<iii\.ioiuiig T\.tiiaiuiijiuiu/ig ilivui lg tot. L.J1I ijrpiovilbo ^[n.ivu Ulli IUi i.iii\»ii t Wi \,iii\~a ^pia\.i»igiiaij zeigt die Kurve 901 in F i g. 9. Die Frequenzen des Quantisierfehlerleistungssignals e„ sind jedoch im allgemeinen gleichmäßig verteilt wie die Kurve 903 angibt
Anhand der Kurven 901 und 903 in F i g. 9 läßt sich leicht erkennen, daß das Quantisierungsrauschen gemäß Kurve 903 niedriger ist als die Sprachsignalleistung in den Formantbereichen, aber in den Zwischenformantbereichen vorherrscht in denen der Sprachsignalpegei niedrig ist Im einzelnen übersteigt das Quantisierungsrauschen gemäß Kurve 903 das Sprachsignal im Zwischenformantbereich zwischen den Formantspitzen der Frequenzen Z3 und /f> Darüberhinaus ist das Verhältnis des Sprachsignals zum Quantisierungsrauschen, das bei den Formanten verhältnismäßig hoch ist wesentlich kleiner in den Zwischenformantbereichen des Sprachspektrums. In bekannter Weise kann das Quantisierungsrauschspektrum durch Filtern mit der Beschränkung verändert werden, daß das mittlere Quantisierungsrauschen konstant bleibt
Bekannte Filteranordnungen-verwenden Kennlinien, die das Quantisierungsrauschen entweder zu den oberen Frequenzbereichen des Frequenzspektrums schieben oder den Effektivwert des Rauschens minimieren. Solche
so Filteranordnungen sind jedoch zeitlich unveränderlich und daher nicht in der Lage, das wahrnehmbare Rauschen in einem Sprachsignal zu verringern, bei dem sich die Formanten zeitlich verschieben. Entsprechend der Erfindung wird ein adaptives Rückkopplungsfilter mit Kennlinien verwendet, die durch die formantbezogenen Voraussageparametersignale gesteuert werden. Das adaptive Filter konzentriert das Quantisierungsrauschen in den Formantteilen des Sprachspektrums auf zeitliche veränderliche Weise, so daß das Quantisierungsrauschen immer durch die Formanten des sich ändernden Sprachsignals maskiert wird. Das gewünschte, neu verteilte Quantisierungsrauschspektrum zeigt die Kurve 905. Wie die Kurve 905 erkennen läßt, ist die Quantisierungsrauschleistung in den Formantteilen des Sprachsignalspektrums der Kurve 901 konzentriert, so daß die Quantisierungsrauschleistung in den Zwischenformantbereichen verringert ist, in denen der wahrnehmbare Rauscheinfluß groß ist Demgemäß wird das Verhältnis des Sprachsignals zum Quantisierungsfehler über das Sprachsignalspektrum oberhalb eines brauchbaren, vorbestimmten Wertes gehalten. Auf diese Weise wird die wahrnehmbare Verzerrung aufgrund des Quantisierungsfehlerrauschens verringert
In F i g. 1 enthält die Anordnung zur Maskierung des Quantisierungsrauschens ein adaptives Bewertungsfilter 120, das in der Subtrahierschaltung 113 erzeugte Quantisierungsfehlerleistungssignal e„ entsprechend Parametersignaien vom Filterkoeffizientengenerator 122 modifiziert. Diese Parametersignale werden abhängig von den Voraussageparametersignalen A =ai, ai,... ap gebildet, die im Rechner 135 erzeugt werden. Die Verzerrung aufgrund der Quantisierung in der Schaltung gemäß Fig. 1 ist das Quantisierfehlerleistungssignal e„ gemäß Gleichung (15), modifiziert durch die Übertragungsfunktionen der Formantvoraussageeinrichtung und des Rückkopplungsfilters 120 entsprechend der Angabe im Ausdruck (16):
a-n α -λ)
(16)
E stellt die Kurzzeit-Fouriertransformation des Signals e„ dar. F gibt die Kurzzeit-Fouriertransformation der Übertragungsfunktion des Bewertungsfilters 120 und P5 die Kurzzeit-Fouriertransformation der Übertragungsfunktion der Formantvoraiissageeinrichtung 107 an. Demgemäß kann das Quantisierungsrauschleistungsspektrum entsprechend Gleichung (16) neu geformt werden. Es wurde gefunden, daß die in Form einer z-Transformation angegebene Funktion
\-F 1+z"
1-P1 2
dasjenige Filterverhalten ergibt, welches zu der Verteilung des Rauschspektrums gemäß Kurve 905 führt.
Gleichung (17) läßt sich reduzieren auf
(17)
(18)
Da die Übertragungsfunktion der Formantvoraussageeinrichtung 107 als z-Transformation lautet
10
ft-Σ
akz
wird die Filterübertragungsfunktion der Gleichung (18) zu
11 IO
Jt-I
(19)
(20)
Aus Gleichung (20) ergeben sich die Parametersignale zur Steuerung des Bewertungsfilters 120 zu
25
30
Λ =y K
und
/ι ι —r-
(21)
Wie eine Prüfung der Gleichung (21) zeigt, stehen die Filterparametersignale f\ bis f\ ι in direkter Beziehung zu den Voraussageparametersignalen ai bis aio- Wenn sich die Voraussageparametersignale ai bis aio abhängig vom zeitveränderlichen Sprachsignal ändern, werden die Filterparametersignale f\ bis /Ή modifiziert, so daß das Quantisierungsrauschspektrum der Kurve 905 den sich ändernden Formanteigenschaften des Sprachsignalspektrums gemäß Kurve 901 folgt. Auf diese Weise wird das Quantisierungsrauschspektrum im Signal Qn immer durch den Formantfrequenzteil des Sprachsignals maskiert, und es wird ein maximales Verhältnis des Sprachsignals zum Quantisierungsrauschen über das gesamte Sprachspektrum aufrechterhalten.
Der Filterkoeffizientengenerator und -speicher 122 ist genauer in Fig.4 gezeigt. Gemäß Fig.4 wird das Voraussageparametersignal a\ direkt an eine durch zwei teilende Schaltung 422-1 angelegt, die ein schieberegister enthalten kann, das um eine Stelle nach rechts schiebt. Das Ausgangssignal der Schaltung 422-1 ist das Filterparametersignal f\. Die Parametersignale a\ und a-i werden In der Addierschaltung 420-2 summiert und das Ergebnis in der Schallung 422-2 durch 2 dividiert. Auf ähnliche Weise summiert der Addierer 420-3 die Parametersignale a-i und <7), so daß das Ausgangssignal der durch 2 teilenden Schaltung 422-3 das Filterparametersignal fj ist. Auf entsprechende Weise werden die Filterparametersignale U bis /9 durch ähnliche Einrichtungen erzeugt, die in Fig.4 nicht dargestellt sind. Das Filterparametersignal /Io wird durch die durch 2 teilende Schaltung 422-10 gebildet, die ihr Eingangssignal vom Addierer 420-10 erhält. Das Parametersignal aio wird in der Schaltung 422-11 zur Erzeugung des Filterparametersignals /i 1 durch 2 geteilt.
Die Filterparametersignale F = /i bis f\ \ werden entsprechend Gleichung (21) in der Schaltung nach F i g. 4 erzeugt und dann zum Eingangsnbschnitt des Speichers 430 während des 10-ms-Rahmens vor der Verwendung dieser Filterparametersignale im Bewertungsfilter 120 übertragen, A.m Beginn des nächsten 10-ms-Rahmens werden unter Ansprechen auf das CL 2-Taktsignal vom Taktgeber 140 die Filterparametersignale im Eingangsabschnitt des Speichers 430 zu dessen Ausgangsabschnitt übertragen. Auf diese Weise werden die Filterparametersignale im richtigen 10-ms-Zeitrahmen jedes Satzes von 80 Signalen Sn im Filter 120 zugeordnet.
Die Filterkoeffizientensignale (\ bis f\\ von der Generator- und Speicherschaltung 122 werden über die Leitung 123 zum Filter 120 gegeben. Die Bewertungsfilterschaltung 120 ist im einzelnen in Fig.6 dargestellt. Gemäß Fig.6 gelangen die Signale e„ vom Subtrahierer 113 sequenziell über die Leitung 601 zum 11-stufigen Schieberegister 603. Die Signale e„ werden sequenziell in bekannter Weise durch Taktimpulse CL 1 vom
35
40
45
50
55
Taktgeber 140 nach rechts verschoben. Die Füterparametersignale /i bis /n werden über die Leitung 610 zu den Multiplizierern 605-1 bis 605-11 übertragen. Die Fehlersignale ea e„-i, ...e„-u gelangen von den Stufen des Schieberegisters 603 über Leitungen 604-1 bis 604-11 zu Multiplizierern 605-1 bis 605-11. Der Multiplizierer 605-1 bildet einen Voraussagecode /i · e» Auf entsprechende Weise bildet der Multiplizierer 605-11 den Voraussagecode fue„_u. Die Ausgangssignale der Multiplizierer 605-1 bis 605-11 werden nacheinander in den Addierern 607-2 bis 607-11 summiert, wodurch das formantbewertete Quantisierfehlerleistungssignal
Wn= Σ W* (22)
auf der Leitung 612 erscheint
Das Signal w„ wird über die Spitzenwertbegrenzungsschaltung 124 an den Subtrahierer 126 angelegt In der Spitzenwertbegrenzungsschaltung 124 wird das Signal w„ mit dem Faktor 2 R vom Speicher 337 des Rechners 135 verglichen. Wenn der augenblickliche Wert des Signals
\wn\<2R (23)
ist, wird das Signal w direkt zum Subtrahierer 126 geführt Wenn jedoch
|w„|>2Ä (24)
ist, wird das Signal 2 R zum Subtrahierer 126 weitergeführi, falls das Signal w„ positiv ist Das Signa! -2 R gelangt an den Subtrahierer 126, wenn w„ negativ ist Auf diese Weise wird das vom Fehlerbewertungsfilter 120 zum Subtrahierer 126 gelieferte Rückkopplungssignal auf den doppelten Wert des Effektivwertes des Differenzsignals d„ begrenzt
Das modifizierte Differenzsignal qtt am Ausgang des Subtrahierers 126 entspricht den nicht vorausgesagten Komponenten des Sprachsignals, modifiziert durch das rückkopplungsgefilterte Quantisierungsfehlrrleistungssignal e„. Das sich ergebende Ausgangssignal ήπ des Digitalcodierers 112 stellt die quantisierte, nicht vorausgesagte Komponente des Sprachsignals mit einem modifizierten Quantisierungsrauschspektrum dar. Das Signal q„ wird an die Multiplexer- und Modulatorschaltung 115 zusammen mit den Signalen B, m, rm und dem Schrittgrößensignal Δ angelegt Die Schaltung 115 bildet ein moduliertes Signal, das über den Nachrichtenkanal 150 zur Decoderschaltu' 2 gemäß F i g. 2 übertragen wird.
Die in F i g. 2 gezeigte Decoderschaltung nimmt das übertragene Signal vom Nachrichtenkanal 150 auf und erzeugt ein Abbild des Sprachsignals s(t)das ursprünglich von der Quelle 110 an die Schaltung in F i g. 1 gegeben worden ist In F i g. 2 spricht die Demodulator- und Demultiplexerschaltung 201 auf das übertragene Signal vom Nachrichtenkanal 150 an und liefen das Signal qn und das Schrittgrößensignal Δ zum Digitaldecoder 203. Der Decoder 203 veranlaßt in bekannter Weise eine maßstäbliche Beeinflussung des Signals Q11 durch das Schrittgrößensigna! Δ, und das maßstäblich beeinflußte, quantisierte Signal wird an einen Eingang der Addierschaltung 2OS angelegt. Das andere Einganssignal der Addierschaltung 205 stammt von der Sprachperiodizitäts-Voraussageschaltung 217.
Die tonhöhenbezogenen Voraussageparametersignale B = b\, fo, bi und das Signal m vom Demultiplexer und Demodulator 201 für jeden 10-ms-Zeitrahmen werden im Tonhöhenkoeffizientenspeicher 213 gespeichert und von dort an die Vorhersageeinrichtung 217 gegebe". Die Vorhersageeinrichtung 217 ist identisch mit der Vorhersageeinrichtung 128 in F i g. 1, die im einzelnen in F i g. 7 dargestellt ist. Unter Ansprechen auf die Folge von Signalen vom Addierer 205 und die Signale b\, b2, Ö3 und m vom Speicher 213 bildet die Voraussageeinrichtung 217, die tonhöhenbezogene Voraussagekomponente des Sprachsignals und legt diese Komponente an den Addierer 205 an. Das Ausgangssignal des Addierers 205 stellt das Erregungssignal dar und umfaßt die nichtvorausgesagte Komponente und die tonhöhenbezogene, vorausgesagte Komponente des Sprachsignals. Das Erregungssignal vom Addierer 205 gelangt dann an einen Eingang des Addierers 207, dessen anderes Eingangssignal aus der Formantvoraussageeinrichtung 219 gewonnen wird. Auf vorteilhafte Weise benötigt die Erregungssignalbildung unter Verwendung der Sprachperiodizitäts-Voraussageeinrichtung 217 keine Feststellung der stimmhaften und stimmlosen Abschnitte des Sprachsignals oder die Verwendung einer Rauschquelle für eine stimmlose Erregung.
Die teilkorrelierten Formantkoeffizientensignale rm jedes 10-ms-Zeitrahmens vom Demultiplexer 201 werden zum Koeffizientenwandler und -speicher 215 übertragen. Der Wandler 215 wandelt die Signale rm in die formantbezogenen linearen Voraussageparametersignale A — a\, a^,... a\o um. Der Koeffizientenwandler 215 kann einen Prozessor enthalten, beispielsweise den Prozessor, der im Rechner 135 in Fig. 1 benutzt wird, oder andere bekannte Mikroprozessoranordnungen.
Der Wandler 205 bildet die Voraussageparametersignale a\,a7,... ato aus den Signalen rm entsprechend der rekursiven Formel in Gleichung 10). Die Signale rm werden zum Empfänger in Fig. 2 übertragen, da sich dadurch in bekannter Weise eine verbesserte Stabilität ergibt.
Die Formantvoraussageeinrichtung 219 ist identisch mit der Voraussageeinheit 107 in F i g. 1, die im einzelnen in Fig.5 gezeigt ist. Unter Ansprechen auf die Folge von Erregungssignalen aus dem Addierer 207 und die Voraussageparametersignale a\, ai,... aio vom Wandler 205 erzeugt die Formantvoraussageeinrichtung 219die vorausgesagte Formantkomponente des Sprachsignals. Das Ausgangssignal des Addierers 207 entspricht dann dem quantisierten Sprachleistungssignal Sn. Das Ausgangssignal des Addierers 207 wird an das Filier 209 gegeben, das ein Deemphasis-Netzwerk komplementär zum Preemphasis-Netzwerk im Filter 103 sowie ein Tiefpaßfilter aufweist, das den Filteranordnungen des Filters 103 in F i g. 1 entspricht. Die Folge von Signalab-
tastwerten vom Filter 209 wird durch den Digital-Analogwandler 211 in das rekonstruierte analoge Sprachsignal
s(t) umgewandelt.
Die Erfindung ist unter Bezugnahme auf ein Ausführungsbeispiel beschrieben worden. Es lassen sich zahlreiche Abänderungen treffen. Beispielsweise kann der Eingang der Formantvoraussageeinrichtung 107 in F i g. 1
mit dem Digitalcodierer 112 statt mit der Verzögerungsschaltung 106 verbunden werden. Auf diese Weise wird
der vorausgesagte Wert des Sprachsignals aus dem quantisierten Differenzsignal qn statt aus dem Sprachleistungssignal Sn gebildet
Hierzu 5 Blatt Zeichnungen
11

Claims (6)

Patentansprüche:
1. Sprachsignal-Voraussageprozessor mit einem Voraussageparameterrechner (135), der ein Sprachleistungssignal fsn) in gewählten Zeitintervallen analysiert unter Erzeugung einer Gruppe von formantbezoge-
nen Voraussageparametersignalen (A = a\, a2,... ak) jedes Zeitintervalls, mit einer Voraussageeinrichtung (107), die auf die formantbezogenen Voraussageparametersignale (A) und das Sprachleistungssignal (s„) anspricht und von letzterem einen Wert voraussagt, mit einer ersten Subtrahierschaltung (109), welche die Differenz zwischen dem augenblicklichen Sprachleistungssignal (s„) und seinem vorausgesagten Wert bildet und ein Differenzsignal (d„) erzeugt, mit einer Modifizierschaltung (137) zur Abänderung des Differenzsignals (da) in ein modifiziertes Differenzsignal (q„), mit einem Quantisierer (111, Ϊ12), der unter Ansprechen auf das modifizierte Differenzsignal (q„) ein quantisiertes, modifiziertes Differenzsignal (q„) erzeugt, und mit einer zweiten Subtrahierschaltung (113) zur Bildung eines Quantisierfehlerleistungssignals (e„) entsprechend der Differenz zwischen dem quantisierten, modifizierten und dem nicht quantisierten, modifizierten Differenzsignal, dadurch gekennzeichnet, daß die Modifizierschaltung (137) eine Einrichtung (122) aufweist, die unter Ansprechen auf die formantbezogenen Voraussageparametersignale (A) einen Satz von Bewertungsfilter-Parametersignalen (f\, f2,... fp, fp+ 1) erzeugt, ein adaptives Bewertungsfilter (120), das unter Ansprechen auf die Bewertungsfilter-Parametersignale (f\, h,...fp. fp+\) und das Quantisierfehlerleistungssignal (e„) ein formantbewertetes Quantisierfehlerleistungssignal (w„) bildet, und eine dritte Subtrahierschaltung (126), die das formantbewertete Quantisierfehlerleistungssignal (Vn), welches in einem Spitzenwertbegrenzer (124) begrenzt wird, von dem Differenzsignal CcZn) subtrahiert, um den Quantisierfehler in den Formantabschnitten des Sprachsignalleistungsspektrum zu konzentrieren und das Sprachleistungssignal-Quantisierfehlerleistungssignal-Verhältnis über das Sprachsignalleistungsspektrum oberhalb eines vorgegebenen Wertes zu halten, wodurch der Quantisierfehler durch die Sprachsignalformanten maskiert wird.
2. Voraussageprozessor nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung (122) zur Erzeugung der Bewertungsfilter-Parametersignale /ι, f2, ... fp, fp+\ einen Satz dieser Signale entsprechend der Beziehung
erzeugt, wobei z~' eine Verzögerungseinheit darstellt, at das Jt-te, formantbezogene Voraussageparametersignal und ρ div Anzahl der Voraussageparametersignale sind.
3. Voraussageprozeosor ns^h Anspruch 2, dadurch gekennzeichnet, daß das adaptive Bewertungsfiltcr (120) zur Erzeugung des (ormantbewerteten Quantisierungsfehlerleistungssignals (w„) eine Transversalfilterschaltung aufweist, die ein form otbewertetes Quantisierfehlerleistungssignal
p+\
w» = Σ fken-k
erzeugt, wobei w„ der Wert des augenblicklichen formantbewerteten Quantisierungsfehleneidtungssignals und e„ der Wert des augenblicklichen Quantisierfehlerleistungssignals sind.
4. Voraussageprozessor nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß der Voraussageparameterrechner (135) einen Satz von tonhöhenbezogenen Voraussageparametersignalen (B —b\, bi, bi) und ein auf die Tonhöhenperiode bezogenes Signal (m) erzeugt, daß die Modifizierschaltung (137) eine Sprachperiodizitätsvoraussageeinrichtung (128) aufweist, die unter Ansprechen auf das quantisierte modifizierte Differenzsignal π) die tonhöhenbezogenen Voraussageparametersignale (B) und das auf die Tonhöhenperiode bezogene Signal (m) ein dem vorausgesagten Wert des Differenzsignals (d„) entsprechendes, vorausgesagtes Differenzsignal
d„' = b\d„'-m+ ι + fodn'-m+bjdn'-n,-. ι + q„
erzeugt und daß die dritte Subtrahierschaltung (126) das vorausgesagte Differenzsignal ^cZn') vom Differem:- signal (dn) subtrahiert, um die auf die Tonhöhe bezogene Redundanz im modifizierten Differenzsignal (q„) zu verringern.
5. Voraussageprozessor nach Anspruch 4, dadurch gekennzeichnet, daß eine Sprachperiodizitäts-Voraussageeinrichtung (217) vorgesehen ist, die abhängig vom modifizierten quantisierten Differenzsignal (q„) den tonhöhenbezogenen Voraussageparametersignalen (B) und dem auf die Tonhöhenperiode bezogenen Signal (m) ein Signal erzeugt, das dem vorausgesagten Wert ^cZn') des Differenzsignals (d„) entspricht, und eine Einrichtung (205) aufweist, um den vorausgesagten Wert (d„') des Differenzsignals mit dem quantisierten
modifizierten Differenzsignal (3„) zu kombinieren.
6. Verfahren zur Verarbeitung eines Sprachleistungssignals mit den Verfahrensschritten:
a) Analyse des Sprachleistungssignals in gewählten Zeitintervallen zur Erzeugung eines Satzes von formantbezogenen Voraussageparametersignalen (A = a\, a-i,... a*) für jedes Zeitintervall;
b) Erzeugen eines Differenzsignals (d„), das die Differenz zwischen dem augenblicklichen Sprachleistungs;-signal und seinem vorausgesagten Wert darstellt, und zwar abhängig von dem Sprachleistungssignal (sn) und den formantbezogenen Voraussageparametersignalen (A);
c) Modifizieren des Differenzsignals (d„)\
d) Quantisieren des modifizierten Differenzsignals (q„);
e) Bilden eines Quantisierfehlerleistungssignals (ea) durch Subtraktion des nicht quantisierten, modifizierten Differenzsignals (q„) von dem quantisierten, modifizierten Differenzsignal (qa),
dadurch gekennzeichnet, daß die Modifizierung des Differenzsignals (d„) folgende weiteren Verfahrens schritte umfaßt:
f) Erzeugen eines Satzes von Bewertungsfüter-Parametersignalen (f\Ji,... fp, fp* 1) unter Ansprechen auf die formantbezogenen Parametersignale (A);
g) Bewerten des Quantisierfehlerleistungssignals (ett) mit den Bewertungsfilter-Parametersignalen (/i, /2,... fp, fp+ ,) unter Erzeugung eines formantbewerteten Quantisierfehlersignals (Wn);
h) Subtrahieren des formantbewerteten Quantisierfehlersignals (w„) von dem Differenzsignal (d„% um den Quantisierfehier in den Formantabschnitten des Sprachleistungsspektrums zu konzentrieren und das Sprachleistungssignal-Quantisierfehlerleistungssignalverhältnis über das Sprachsignalleistungsspektrum oberhalb eines vorgegebenen Wertes zu halten, wodurch der Quantisierfehier durch die Sprachsignalformanten maskiert wird.
DE2945414A 1978-04-07 1979-03-28 Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals Expired DE2945414C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/894,329 US4133976A (en) 1978-04-07 1978-04-07 Predictive speech signal coding with reduced noise effects

Publications (1)

Publication Number Publication Date
DE2945414C2 true DE2945414C2 (de) 1985-09-05

Family

ID=25402929

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2945414A Expired DE2945414C2 (de) 1978-04-07 1979-03-28 Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals

Country Status (8)

Country Link
US (1) US4133976A (de)
EP (1) EP0012766A1 (de)
JP (1) JPS5912186B2 (de)
CA (1) CA1119724A (de)
DE (1) DE2945414C2 (de)
FR (1) FR2475264B1 (de)
GB (1) GB2036515B (de)
WO (1) WO1979000901A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19729494A1 (de) * 1997-07-10 1999-01-14 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
NL180895C (nl) * 1978-11-30 1987-05-04 Philips Nv Analoog-digitaal-omzetter.
USRE32124E (en) * 1980-04-08 1986-04-22 At&T Bell Laboratories Predictive signal coding with partitioned quantization
US4354057A (en) * 1980-04-08 1982-10-12 Bell Telephone Laboratories, Incorporated Predictive signal coding with partitioned quantization
US4509150A (en) * 1980-12-31 1985-04-02 Mobil Oil Corporation Linear prediction coding for compressing of seismic data
US4381428A (en) * 1981-05-11 1983-04-26 The United States Of America As Represented By The Secretary Of The Navy Adaptive quantizer for acoustic binary information transmission
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4617676A (en) * 1984-09-04 1986-10-14 At&T Bell Laboratories Predictive communication system filtering arrangement
US4675863A (en) 1985-03-20 1987-06-23 International Mobile Machines Corp. Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels
FR2579356B1 (fr) * 1985-03-22 1987-05-07 Cit Alcatel Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
USRE34247E (en) * 1985-12-26 1993-05-11 At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4726037A (en) * 1986-03-26 1988-02-16 American Telephone And Telegraph Company, At&T Bell Laboratories Predictive communication system filtering arrangement
US4933675A (en) * 1987-03-19 1990-06-12 Beard Terry D Audio digital/analog encoding and decoding
US4862168A (en) * 1987-03-19 1989-08-29 Beard Terry D Audio digital/analog encoding and decoding
FR2624675B1 (fr) * 1987-12-15 1990-05-11 Charbonnier Alain Dispositif et procede de traitement d'un signal de base echantillonne, en particulier representatif de sons
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
DE68927483T2 (de) * 1988-02-29 1997-04-03 Sony Corp Verfahren und Einrichtung zur Digitalsignalverarbeitung
US4882585A (en) * 1988-03-17 1989-11-21 Beard Terry D Method and apparatus for high resolution analog-digital-analog transformations
JPH0797753B2 (ja) * 1989-01-24 1995-10-18 日本ビクター株式会社 符号化出力データ量の制御方式
JPH02309820A (ja) * 1989-05-25 1990-12-25 Sony Corp デイジタル信号処理装置
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
US5263119A (en) * 1989-06-29 1993-11-16 Fujitsu Limited Gain-shape vector quantization method and apparatus
JPH0365822A (ja) * 1989-08-04 1991-03-20 Fujitsu Ltd ベクトル量子化符号器及びベクトル量子化復号器
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
US5195168A (en) * 1991-03-15 1993-03-16 Codex Corporation Speech coder and method having spectral interpolation and fast codebook search
US5546383A (en) * 1993-09-30 1996-08-13 Cooley; David M. Modularly clustered radiotelephone system
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US6047035A (en) * 1998-06-15 2000-04-04 Dspc Israel Ltd. Method and device for quantizing the input to soft decoders
US6360239B1 (en) * 1999-01-13 2002-03-19 Creative Technology Ltd. Noise-shaped coefficient rounding for FIR filters
DE10026872A1 (de) 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
US7254532B2 (en) * 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision
AU2003274864A1 (en) * 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
DE102005039621A1 (de) * 2005-08-19 2007-03-01 Micronas Gmbh Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
US8335684B2 (en) * 2006-07-12 2012-12-18 Broadcom Corporation Interchangeable noise feedback coding and code excited linear prediction encoders
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
EP3079151A1 (de) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer und verfahren zur codierung eines audiosignals
US10308447B2 (en) * 2016-08-12 2019-06-04 Sierra Pacific Industries Stick placer assembly

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2927962A (en) * 1954-04-26 1960-03-08 Bell Telephone Labor Inc Transmission systems employing quantization
US3502986A (en) * 1967-12-14 1970-03-24 Bell Telephone Labor Inc Adaptive prediction for redundancy removal in data transmission systems
US3631520A (en) * 1968-08-19 1971-12-28 Bell Telephone Labor Inc Predictive coding of speech signals
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NICHTS-ERMITTELT *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19729494A1 (de) * 1997-07-10 1999-01-14 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte

Also Published As

Publication number Publication date
JPS5912186B2 (ja) 1984-03-21
GB2036515A (en) 1980-06-25
WO1979000901A1 (en) 1979-11-15
FR2475264B1 (fr) 1986-08-01
GB2036515B (en) 1982-08-18
US4133976A (en) 1979-01-09
EP0012766A1 (de) 1980-07-09
CA1119724A (en) 1982-03-09
FR2475264A1 (fr) 1981-08-07
JPS55500402A (de) 1980-07-10

Similar Documents

Publication Publication Date Title
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
DE3244476C2 (de)
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE19647298C2 (de) Kodiersystem
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69113866T2 (de) Sprachdecoder.
DE69526007T2 (de) Postfilter und Verfahren zur Postfilterung
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69331079T2 (de) CELP-Vocoder
DE69736446T2 (de) Audio Dekodierverfahren und -vorrichtung
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE3784942T2 (de) Duplex-datenuebertragung.
DE2233872C2 (de) Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69900786T2 (de) Sprachkodierung
DE3853161T2 (de) Vektorquantisierungscodierer.
DE69633944T2 (de) Verfahren und gerät zum kodieren von digitalen daten
DE3302503A1 (de) Anlage und verfahren zur sprachverarbeitung
DE3736193C2 (de)
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE69329568T2 (de) Verfahren zur Sprachkodierung
DE19715126A1 (de) Sprachsignal-Codiervorrichtung
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms

Legal Events

Date Code Title Description
D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN