DE3041423C1 - Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals - Google Patents
Verfahren und Vorrichtung zur Verarbeitung eines SprachsignalsInfo
- Publication number
- DE3041423C1 DE3041423C1 DE3041423A DE3041423A DE3041423C1 DE 3041423 C1 DE3041423 C1 DE 3041423C1 DE 3041423 A DE3041423 A DE 3041423A DE 3041423 A DE3041423 A DE 3041423A DE 3041423 C1 DE3041423 C1 DE 3041423C1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- signals
- speech
- excitation
- spectral components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 title claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 57
- 230000005284 excitation Effects 0.000 claims description 48
- 230000004044 response Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000007493 shaping process Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000015654 memory Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Telephonic Communication Services (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Verarbeitung eines Sprachsignals gemäß dem Oberbegriff des
Patentanspruchs 1 sowie eine Sprachverarbeitungsschaltung zur Durchführung dieses Verfahrens gemäß dem Oberbegriff des Patentanspruchs.
Die effiziente Verwendung von Übertragungskanälen
ist von erheblicher Bedeutung in digitalen Nachrichtensystemen
mit großer Bandbreite der Kanäle. Demzufolge
wurden Codier-, Decodier- und Multiplex-Einrichtungen
entwickelt, um die Bitrate jedes auf den Kanal gegebenen
Signals zu minimieren. Die Verringerung der Signalbitrate
erlaubt eine Reduzierung der Kanalbandbreite oder eine
Erhöhung der Anzahl der Signale, die im Multiplexbetrieb
auf den Kanal gegeben werden können.
Wenn Sprachsignale auf einem digitalen Kanal
übertragen werden, kann die Kanaleffektivität durch
Kompression des Sprachsignals vor der Übertragung und
durch eine Nachbildung der Sprache aus dem komprimierten
Sprachsignal nach der Übertragung verbessert werden. Eine
Sprachkompression für digitale Kanäle entfernt Redundanzen
im Sprachsignal, so daß die wesentliche Sprachinformation
mit reduzierter Bitrate codiert werden kann. Die Bitrate
der Sprachübertragung kann dabei zur Beibehaltung einer
gewünschten Sprachqualität gewählt werden.
Die aus der US-PS 6 24 302 bekannte Einrichtung
zur digitalen Sprachcodierung schließt eine lineare
Voraussageanalyse des Eingangssprachsignals ein, bei der
die Sprache in aufeinanderfolgende Intervalle unterteilt
und ein Satz von Parametersignalen erzeugt wird, die für
das Sprachintervall repräsentativ sind. Diese Parametersignale
umfassen einen Satz von linearen Voraussagekoeffizienten
entsprechend der spektralen Hüllkurve des
Sprachintervalls, sowie Grundton- und Stimmhaft-Stimmlos-
Signale, die der Spracherregung entsprechen. Die Parametersignale
werden mit einer wesentlich niedrigeren Bitrate
codiert als es zur Codierung des Sprachsignals als
Ganzes notwendig ist. Die codierten Parametersignale werden
über einen digitalen Kanal zu einem Bestimmungsort
übertragen, an dem eine Nachbildung des Eingangssprachsignals
durch Synthese aus den Parametersignalen gebildet
wird. Die Synthetisiereinrichtung umfaßt die Erzeugung
eines Erregungssignals aus den decodierten Grundfrequenz-
und Stimmhaft-Stimmlos-Signalen sowie die Modifizierung
des Erregungssignals durch die Hüllkurve, die repräsentativ
für die Voraussagekoeffizienten in einem Voraussagefilter
ist.
Während die vorstehende Grundton-erregte lineare
Voraussagecodierung sehr effizient hinsichtlich einer
Reduzierung der Bitrate ist, weist die Sprachnachbildung
mittels des Synthetisierers eine mit der menschlichen
Sprache noch nicht vergleichbare Qualität auf. Die
Synthetisierungsqualität beruht im allgemeinen auf Ungenauigkeiten
in den erzeugten Signalen für die linearen
Voraussagekoeffizienten, welche die spektrale Voraussage-
Hüllkurve erzeugen, die von der tatsächlichen spektralen
Hüllkurve abweicht und zu Ungenauigkeiten in den Grundton-
und Stimmhaft-Stimmlos-Signalen führt. Diese Abweichungen
treten als Ergebnis von Differenzen zwischen
dem menschlichen Stimmtrakt und dem Allpolfiltermodell
des Codierers und infolge von Differenzen zwischen der
menschlichen Spracherregung und den Einrichtungen des
Codierers für den Grundton und den Stimmhaft-Stimmlos-
Zustand auf. Eine Verbesserung der Sprachqualität machte
es bisher erforderlich, eine Codiertechnik verfügbar zu
haben, die bei weitaus größeren Bitraten arbeitet als dies
das Grundton-erregte lineare Voraussagecodierschema
leistet.
Aus der US-PS 38 75 587 ist auch ein Sprachprozessor
in Form eines Vocoders bekannt, bei dem ein
Signal für die Grundfrequenzperiode unter Ansprechen auf
ein Vorhersagefehlersignal erzeugt wird. Dabei wird auch
erläutert, auf welche Weise sich große Änderungen des
Signals für die Grundfrequenzperiode außerhalb der Intervallgrenzen
verhindern lassen. Bekannt ist schließlich
auch ein Verfahren zur Beeinflussung von Erregungsimpulsen
in einem LPC-Sprachsynthetisierer zur Verringerung von
Brummeffekten, vergl. US-Journal of the Acoustical
Society of America, 1978, Heft 3, Seiten 918 bis 924.
Der Erfindung liegt ausgehend vom Stand der
Technik die Aufgabe zugrunde, einen natürlichen Sprachklang
in einem digitalen Sprachcodierer bei relativ
niedrigen Bitraten zu erzeugen.
Die Lösung der Aufgabe
ist im Patentanspruch 1 angegeben. Weiterbildungen des
Verfahrens sowie Schaltungsanordnungen zur Durchführung
des Verfahrens sind Gegenstand der Unteransprüche.
Die von dem Synthetisierer erzeugte Erregung
während stimmhafter Abschnitte des Sprachsignals ist
eine Folge von nach der Grundtonperiode separierten
Impulsen. Es wurde erkannt, daß Änderungen im Verlauf des
Erregungsimpulses die Qualität der synthetisierten Sprachnachbildung
beeinflussen. Ein fester bzw. bestimmter Verlauf
des Erregungsimpulses beeinflußt jedoch nicht eine
natürliche Nachbildung des Sprachklangs. Aber besondere
Erregungsimpulsformen bewirken eine Verbesserung ausgewählter
Besonderheiten. Es wurde gefunden, daß Ungenauigkeiten
in den die linearen Voraussagekoeffizienten betreffenden
Signalen, die im Voraussageanalysator erzeugt
werden, durch Umformung des Erregungssignals aus dem
Voraussagesynthetisierer derart korrigiert werden können,
daß die Fehler in den Voraussagekoeffizienten kompensiert
werden. Die sich daraus ergebende Codiereinrichtung
erzeugt Nachbildungen der Sprachsignale mit natürlicher
Klangfarbe bei Bitraten, die wesentlich niedriger als bei
anderen Codiersystemen sind, wie z. B. bei PCM oder bei
der adaptiven Voraussagecodierung.
Ein Ausführungsbeispiel der Erfindung wird anhand der Fig. 1 bis 8
erläutert.
Fig. 1 stellt ein Blockdiagramm einer Sprachsignal-Codierschaltung
zur Erläuterung der Erfindung dar;
Fig. 2 stellt ein Blockdiagramm einer Sprachsignal-Decodierschaltung
zur Erläuterung der Erfindung dar;
Fig. 3 zeigt ein Blockdiagramm eines Voraussagefehler-
Signalgenerators, wie er in der Schaltung nach Fig. 1
verwendbar ist;
Fig. 4 zeigt ein Blockdiagramm eines Sprachintervall-Parameterrechners,
wie er in der Schaltung nach Fig. 1
verwendbar ist;
Fig. 5 zeigt ein Blockdiagramm eines Rechners für ein spektrales
Voraussagefehlersignal, der in der Schaltung
nach Fig. 1 verwendbar ist;
Fig. 6 zeigt ein Blockdiagramm eines Sprachsignal-Erregungsgenerators,
wie er in der Schaltung nach Fig. 2 verwendbar
ist;
Fig. 7 zeigt ein detailliertes Blockdiagramm eines Generators
für spektrale Voraussagefehler-Koeffizienten
nach Fig. 2, und
Fig. 8 zeigt Impulsdiagramme, welche die Arbeitsweise des Rechners
für die Sprachintervallparameter gemäß Fig. 4
erläutern.
Eine Sprachsignal-Codierschaltung zur Erläuterung der Erfindung
ist in Fig. 1 dargestellt. Eine Sprachsignalquelle 101,
die ein Mikrophon, ein Telefon oder andere akustische Wandler
enthält, erzeugt ein Sprachsignal. Das Sprachsignal s(t)
aus der Sprachsignalquelle 101 wird einem Filter und einer
Abtastschaltung 103 zugeführt, wobei das Signal s(t) gefiltert
und bei einer vorbestimmten Rate abgetastet wird. Die
Schaltung 103 kann z. B. ein Tiefpaßfilter mit einer Grenzfrequenz
von 4 kHz und einen Abtaster für eine Abtastfrequenz
von mindestens 8 kHz aufweisen. Die Folge der Signalabtastwerte
S n wird einem Analog-Digitalwandler 105 zugeführt, wobei
jeder Abtastwert in einen digitalen Code s n umgesetzt
wird, der für den Codierer geeignet ist. Der A/D-Wandler 105
bewirkt auch die Unterteilung der codierten Signalabtastwerte
in aufeinanderfolgende Zeitintervalle oder Rahmen mit einer
Dauer von 10 ms.
Die Signalproben S n von dem A/D-Wandler 105 werden auf den
Eingang eines Voraussagefehlersignalgenerators 122 über eine Verzögerung
120 und über die Leitung 107 auf den Eingang eines
Intervallparameterrechners 130 gegeben. Der Parameterrechner
130 bildet einen Satz von Signalen, der die Eingangssprache
charakterisiert, jedoch bei einer wesentlich kleineren
Bitrate als das Sprachsignal selbst übertragen werden
kann. Die Reduzierung der Bitrate ist möglich, weil die natürliche
Sprache quasistationär über Intervalle von 10 bis 20 ms
verteilt ist. Für jedes Intervall in diesem Bereich kann ein
einzelner Satz von Signalen erzeugt werden, welche den Informationsinhalt
des Sprachintervalls repräsentieren. Bekanntlich
können die die Sprache repäsentierenden Signale einen
Satz von Vorhersage-Koeffizientensignalen sowie das Grundtonsignal
und das Stimmhaft-Stimmlos-Signal enthalten. Die Vorhersage-
Koeffizientensignale charakterisieren den Stimmtrakt
während des Sprachintervalls, während die Grundton- und
Stimmhaft-Stimmlos-Signale die impulsförmige Erregung der
Stimmritze für den Stimmtrakt charakterisieren.
Der Intervallparameterrechner 130 ist genauer in
Fig. 4 dargestellt. Die Schaltung gemäß Fig. 4 enthält eine
Steuerschaltung 401 und einen Prozessor 410. Der Prozessor 410
empfängt die Sprachabtastwerte S n jedes der aufeinanderfolgenden
Intervalle und erzeugt einen Satz von die linearen
Vorhersagekoeffizienten betreffenden Signalen, einen Satz von
Reflexionskoeffizientensignalen, ein Grundfrequenzsignal und
ein Stimmhaft-Stimmlos-Signal in Abhängigkeit von den Sprachabtastwerten
des Intervalls. Die erzeugten Signale werden in
den Speichern 430, 432, 434 bzw. 436 gespeichert. Der Prozessor
410 kann
bekannte Prozessoren oder Mikroprozessoren
enthalten. Der Arbeitsablauf des Prozessors
410 wird von dem in den Festwertspeichern 403, 405 und 407
gespeicherten Programm gesteuert.
Die Steuerschaltung 401 in Fig. 4 ist so ausgelegt, daß sie
jedes Sprachintervall von 10 ms in eine Folge von mindestens
vier vorbestimmten Zeitabschnitten unterteilt. Jedem Zeitabschnitt
ist eine besondere Betriebsart zugeordnet. Die Folge
der Betriebsarten ist in Fig. 8 illustriert.
Die Kurve 801 zeigt die Taktimpulse CL1, die
mit der Abtastrate erscheinen. Die Kurve 803 zeigt die
Taktimpulse CL2, die am Anfang jedes Sprachintervalls erscheinen.
Die zum Zeitpunkt t₁ erscheinenden Taktimpulse CL1 bringen
die Steuereinrichtung 401 in die für den Dateneingang vorgesehene
Betriebsart, wie die Kurve 805 zeigt.
Während des Dateneingangs ist die Steuereinrichtung
401 mit dem Prozessor 410 und dem Sprachsignalspeicher
409 verbunden. In Abhängigkeit von den Steuersignalen der
Steuerschaltung 401 werden die 80 während des vorausgehenden
Sprachintervalls von 10 ms im Sprachsignalspeicher
eingespeicherten Abtastcodes über die Eingangs/Ausgangsschnittstellenschaltung
420 in den Datenspeicher 418 überführt.
Während die gespeicherten 80 Abtastwerte des vorhergehenden
Sprachintervalls in den Datenspeicher 418 überführt werden,
werden die Abtastwerte des augenblicklichen Sprachintervalls
über die Leitung 107 in den Sprachsignalspeicher 409 eingespeichert.
Zur Überführung der Abtastwerte des
vorausgehenden Intervalls in den Datenspeicher 418 schaltet
die Steuerschaltung in Abhängigkeit vom Taktimpuls CL1 zur
Zeit t₂ in ihre Betriebsweise zur Erzeugung eines Vorhersagekoeffizienten.
Zwischen den Zeitpunkten t₂ und t₃ ist die
Steuerschaltung mit dem LPC-Programmspeicher 403 und über
die Steuerschaltungsschnittstelle 412 mit dem Zentralprozessor
414 und dem arithmetischen Prozessor 416 verbunden.
Auf diese Weise ist der LPC-Programmspeicher 402 mit dem
Prozessor 410 verbunden. Ansprechend auf die permanent gespeicherten
Befehle im Festwertspeicher 403 erzeugt der Prozessor
410 Korrelationskoeffizientensignale R = r₁, r₂, . . .,
r₁₂, und Vorhersage-Koeffizientensignale A = a₁, a₂, . . .,
a₁₂. Bekanntlich ist der partielle Korrelationskoeffizient
das Negative des Reflexionskoeffizienten. Die Signale R und
A werden vom Prozessor 410 über die Eingangs-Ausgangs-
Schnittstelle 420 in den Speicher 432 bzw. 430 überführt.
Die im ROM 403 gespeicherten Instruktionen für die Erzeugung
der den Reflexionskoeffizienten und linearen Vorhersagekoeffizienten
betreffenden Signale sind im Anhang 1 in der Programmiersprache
Fortran aufgelistet. Bekanntlich werden die
Reflexionskoeffizientensignale R dadurch erzeugt, daß zunächst
die co-variante Matrix P mit den Gliedern:
und Sprachkorrelationsfaktoren:
gebildet wird. Dann werden Faktoren g₁ bis g₁₀ berechnet
entsprechend:
wobei T die untere Dreiecksmatrix ist, die durch die Dreiecksauflösung
von
erhalten wird. Die partiellen Korrelationskoeffizienten
werden dann gemäß:
erzeugt.
c₀ entspricht der Energie des Sprachsignals im 10-ms-Intervall.
Lineare Vorhersagekoeffizientensignale A = a₁, a₂,
. . ., a₁₂ werden dann von den partiellen Vorhersagekoeffizientensignalen
r m gemäß der rekursiven Formel:
a₁ (m) = a i (m-1) + r m a m-1(m-1)
j = 1, 2, . . ., 12
berechnet.
Die den partiellen Korrelationskoeffizienten betreffenden
Signale R und die den linearen Vorhersagekoeffizienten betreffenden
Signale A werden in dem Prozessor 410 erzeugt,
während die Daten für die Betriebsweise zur Erzeugung des
linearen Vorhersagekoeffizienten vom Datenspeicher 418 in
die Speicher 430 und 432 zur nachfolgenden Verwendung überführt
werden.
Nachdem die den partiellen Korrelationskoeffizienten betreffenden
Signale R und die den linearen Vorhersagekoeffizienten
betreffenden Signale A in den Speichern 430 und 432 zur
Zeit t₃ untergebracht sind, ist die Betriebsweise zur Erzeugung
des linearen Vorhersagekoeffizienten beendet, und es
beginnt die Betriebsweise zur Erzeugung der periodischen
Grundfrequenzsignals. Zu diesem Zeitpunkt ist die Steuerschaltung
in ihre Grundfrequenzbetriebsweise geschaltet,
wie die Kurve 809 zeigt. Bei dieser Betriebsweise
ist der Speicher 405 für das Grundfrequenzprogramm
mit der Steuerschaltungsschnittstelle 412 des Prozessors
410 verbunden. Der Prozessor 410 wird dann durch die im
ROM 405 permanent gespeicherten Befehle gesteuert, so daß
ein den Grundton repräsentierendes Signal für das vorausgehende
Sprachintervall in Abhängigkeit von den Sprachabtastwerten
im Datenspeicher 418 erzeugt wird. Die im ROM 405 permanent
gespeicherten Befehle sind im Anhang 2 in der Programmsprache
Fortran aufgelistet. Das durch die Operationen
des zentralen Prozessors 414 und des arithmetischen Prozessors
416 erzeugte, den Grundton repräsentierende Signal wird
über die Eingangs/Ausgangsschnittstelle 420 vom Datenspeicher
418 zum Grundfrequenzsignalspeicher 434 überführt. Zum Zeitpunkt
t₄ ist das die Grundfrequenz repräsentierende Signal
in den Speicher 434 gespeichert und die Betriebsweise für
die Grundfrequenz beendet.
Zum Zeitpunkt t₄ wird die Steuerschaltung 401 von ihrer
Grundton-Betriebsweise in ihre Betriebsweise für das Stimmhaft-
Stimmlos-Signal, die die Kurve 811
zeigt, umgeschaltet. Zwischen den Zeitpunkten t₄ und t₅
ist der ROM 407 mit dem Prozessor 410 verbunden. Der ROM 407
enthält permanent gespeicherte Signale, die einer Folge von
Steuerbefehlen zur Bestimmung des Stimmhaft-Stimmlos-Charakters
entsprechen, und zwar von einer Analyse der Sprachabtastwerte
des vorausgehenden Sprachintervalls. Das im ROM 407 permanent
gespeicherte Programm ist im Anhang 3 in der Programmsprache
Fortran aufgelistet. Ansprechend auf die Befehle des
ROM 407 analysiert der Prozessor 410 die Sprachabtastwerte
des vorausgehenden Intervalls, wie es im Aufsatz "A Pattern-
Recognition Approach to Voiced-Unvoiced-Silence Classification
with Applications to Speech Rocognition" von B. S. Atal
und L. R. Rabiner, veröffentlicht in IEEE Transactions on
Acoustics, Speech and Signal Processing, Band ASSP-24, Nr. 3,
Juni 1976, beschrieben ist. Im arithmetischen Prozessor 416
wird dann ein Signal V erzeugt, welches das Sprachintervall
als stimmhaftes oder stimmloses Intervall charakterisiert.
Das resultierende Signal wird im Datenspeicher 418 untergebracht
und von dort zum Zeitpunkt t₅ über die Eingangs/Ausgangsschnittstelle
420 in den Speicher 436 für die Stimmhaft-
Stimmlos-Signale überführt. Die Steuerschaltung 401 trennt
zum Zeitpunkt t₅ den ROM 407 vom Prozessor 410, und die Betriebsweise
zur Erzeugung des Sprachsignals ist damit beendet,
was durch die Wellenform 811 angezeigt ist. Die Reflexionskoeffizientensignale
R und die Grundfrequenz- und
Stimmhaft-Stimmlos-Signale P und V aus den Speichern 432,
434 und 436 werden über die Verzögerungseinrichtungen 137,
138 und 139 in Abhängigkeit von den Taktimpulsen CL2, die
zur Zeit t₆ erscheinen, dem Parametersignalcodierer 140 in
Fig. 1 zugeführt. Während die Nachbildung der Eingangssprache
aus den Signalen für den Reflexionskoeffizienten, die Grundfrequenz
und den Stimmhaft-Stimmlos-Zustand, die von dem
Parameterrechner 130 erhalten werden, synthetisiert werden
kann, weist die resultierende Sprache nicht die natürlichen
Eigenschaften der menschlichen Stimme auf. Der künstliche
Charakter der aus den vorgenannten Signalen des Rechners 130
abgeleiteten Sprache ist in erster Linie das Ergebnis von
Fehlern in den Vorhersage-Reflexionskoeffizienten, die im
Parameterrechner 130 erzeugt werden. Gemäß der Erfindung werden
diese Fehler in den Vorhersagekoeffizienten im Vorhersage-
Fehlergenerator 122 erfaßt. Signale, die das Spektrum des
Vorhersagefehlers für jedes Intervall repräsentieren, werden
im Generator 124 und dem Codierer 126 für die spektralen
Vorhersagefehlersignale erzeugt bzw. codiert. Die spektralen
Codierersignale werden zusammen mit den Signalen für den
Reflexionskoeffizienten, die Grundfrequenz und den Stimmhaft-
Stimmlos-Zustand des Parametercodierers 140 im Multiplexer
150 verarbeitet. Die Einbeziehung der spektralen Vorhersage-
Fehlersignale in das codierte Ausgangssignal des
Sprachcodierers in Fig. 1 für jedes Sprachintervall erlaubt
die Kompensation der Fehler in den linearen Vorhersageparametern
während der Codierung im Sprachcodierer nach
Fig. 2. Die resultierende Sprachnachbildung aus dem Codierer
gemäß Fig. 2 weist einen natürlichen Klang auf.
Das Vorhersagefehlersignal wird im Generator 122 erzeugt,
der im Detail in Fig. 3 dargestellt ist. In der Schaltung
gemäß Fig. 3 werden die Signalabtastwerte vom A/D-Wandler
105 auf der Leitung 312 empfangen, nachdem die Signalabtastwerte
in der Verzögerungseinrichtung 120 um ein Sprachintervall
verzögert wurden. Die verzögerten Signalabtastwerte
werden auf das Schieberegister 301 gegeben, das die eingehenden
Abtastwerte mit der Taktfrequenz CL1 von 8 kHz verschiebt.
Jede Stufe des Schieberegisters 301 gibt ein Ausgangssignal
auf einen der Multiplizierer 303-1 bis 303-12. Die den linearen
Vorhersagekoeffizienten repräsentierenden Signale für
die Intervalle a₁, a₂ . . . , a₁₂, die den dem Schieberegister
301 zugeführten Abtastwerten entsprechen, werden vom Speicher
430 über die Leitung 315 auf die Multiplizierer 303-1
bis 303-12 gegeben. Die Ausgangssignale der Multiplizierer
303-1 bis 303-12 werden in den Addierern 305-2 bis 305-12
aufsummiert, so daß das Ausgangssignal des Addierers 305-12
das vorausgesagte Sprachsignal
darstellt.
Der Subtrahierer 320 empfängt die aufeinanderfolgenden
Sprachsignalabtastwerte s n von der Leitung 312 und den vorausgesagten
Wert für die aufeinanderfolgenden Sprachabtastwerte
vom Ausgang des Addierers 305-12 und bildet ein Differenzsignal d n , das dem Voraussagefehler entspricht.
Die Folge der Voraussagefehlersignale für jedes Sprachintervall
wird vom Subtrahierer 320 dem Generator 124 für das
spektrale Vorhersagefehlersignal zugeführt. Der Signalgenerator
124, der im Detail in 5 dargestellt ist, weist
einen Spektralanalysator 504 und Spektralabtaster 513 auf.
In Abhängigkeit vom Vorhersage-Fehlerabtastwert d n auf der
Leitung 501 erzeugt der Analysator 504 einen Satz von 10 Signalen,
c(f₁), c(f₂), . . ., c(f10). Jedes dieser Signale stellt
eine spektrale Komponente des Voraussagefehlersignals dar.
Die spektralen Frequenzkomponenten f₁, f₂, . . ., f₁₀ werden
vorbestimmt und festgelegt. Diese vorbestimmten Frequenzen
werden so gewählt, daß sie den Frequenzbereich des Sprachsignals
gleichmäßig überdecken. Für jede vorbestimmte Frequenz
f i wird die Folge der Abtastwerte d n des Vorhersagefehlersignals
des Sprachintervalls auf den Eingang eines Cosinusfilters,
das eine Mittenfrequenz f k und eine Impulscharakteristik
aufweist, die gegeben ist durch:
wenn T = Abtastintervall = 125 µsec,
f₀ = Frequenzabstand der Mittenfrequenz des Filters = 300 Hz,
k = 0, 1, . . ., 26,
und auf den Eingang eines Sinusfilters der gleichen Mittenfrequenz und einer Impulscharakteristik von gegeben.
f₀ = Frequenzabstand der Mittenfrequenz des Filters = 300 Hz,
k = 0, 1, . . ., 26,
und auf den Eingang eines Sinusfilters der gleichen Mittenfrequenz und einer Impulscharakteristik von gegeben.
Das Cosinusfilter 503-1 und das Sinusfilter 505-1 haben die
Mittenfrequenz f₁, die 300 Hz betragen kann. Das Cosinusfilter
503-2 und das Sinusfilter 502-2 haben eine gemeinsame
Mittenfrequenz f₂, die 600 Hz betragen kann. Das Cosinusfilter
503-10 und das Sinusfilter 505-10 haben eine Mittenfrequenz
f₁₀, die 3000 Hz betragen kann.
Das Ausgangssignal des Cosinusfilters 503-1 wird im Quadrierer
507-1 mit sich selbst multipliziert, während das Ausgangssignal
des Sinusfilters 505-1 im Quadrierer 509-1 mit sich
selbst multipliziert wird. Die Summe der in den Schaltungen
507-1 und 509-1 quadrierten Signale wird im Addierer 510-1
gebildet, und die Quadratwurzelschaltung 512-1 erzeugt das
spektrale Komponentensignal, das der Frequenz f₁ entspricht.
In ähnlicher Weise wirken die Filter 503-2, 505-2, die Quadrierer
507-2 und 509-2, der Addierer 510-2 und die Quadratwurzelschaltung
512-2 zusammen, um die der Frequenz f₁ entsprechende
spektrale Komponente c(f₂) zu bilden. In ähnlicher
Weise wird das der Frequenz f₁₀ zugeordnete spektrale
Komponentensignal von der Quadratwurzelschaltung 512-10 erhalten.
Die spektralen Vorhersagefehlersignale von den Ausgängen
der Schaltungen 512-1 bis 512-10 werden den Abtastern
513-1 bis 513-10 zugeführt.
In jeder Abtastschaltung wird das spektrale Vorhersagefehlersignal
am Ende jedes Sprachintervalls durch das Taktsignal
CL2 abgetastet und gespeichert. Der Satz von spektralen Vorhersagefehlersignalen
der Abtaster 513-1 bis 513-10 werden
parallel dem Signalcodierer 126 zugeführt, dessen Ausgangssignale
zum Multiplexer 150 überführt werden. Auf diese
Weise empfängt der Multiplexer 150 Reflexionskoeffizientensignale
R sowie Grundfrequenz- und Stimmhaft-Stimmlos-
Signale P und V für jedes Sprachintervall vom Parametersignalcodierer
140 und auch die codierten spektralen Vorhersagefehlersignale
c(f n ) für das gleiche Intervall vom Signalcodierer
126. Die dem Multiplexer 150 zugeführten Signale
definieren die Sprache jedes Intervalls in Form einer multiplexierten
Kombination von Parametersignalen. Die multiplexierten
Parametersignale werden über den Kanal 180 mit einer
wesentlich niedrigeren Bitrate übertragen als die codierten
8 kHz Sprachsignalabtastwerte, von denen die Parametersignale
abgeleitet werden.
Die nach dem Multiplexverfahren auf dem Nachrichtenkanal 180
übertragenen codierten Parametersignale werden dem Sprachdecodierer
nach Fig. 2 zugeführt, wobei eine Nachbildung des
Sprachsignals aus der Sprachquelle 101 durch Synthese gebildet
wird. Der Übertragungskanal 180 ist mit dem Eingang des
Demultiplexers 201 verbunden, der die codierten Parametersignale
jedes Sprachintervalls auswählt. Die codierten spektralen
Vorhersagefehlersignale des Intervalls werden auf den
Decodierer 203 gegeben. Das codierte Grundfrequenzsignal wird
dem Decodierer 205 zugeführt, das codierte Stimmhaft-Stimmlos-
Signal wird auf den Decodierer 207 und die codierten Reflexionskoeffizientensignale
des Intervalls auf den Decodierer
209 gegeben.
Die spektralen Signale vom Decodierer 203, das Grundfrequenzsignal
vom Decodierer 205 und das Signal vom Decodierer 207
werden in den Speichern 213, 215 bzw. 217 gespeichert. Die
Ausgangssignale dieser Speicher werden dann im Erregungssignalgenerator
220 kombiniert, der ein den Vorhersagefehler
kompensierendes Erregungssignal an den Eingang des Synthetisierers
für den linearen Vorhersagekoeffizienten liefert.
Der Synthetisierer empfängt Vorhersagekoeffizientensignale
a₁, a₂, . . ., a₁₂ vom Koeffizientenwandler und Speicher 219,
dessen Koeffizienten von den Reflexionskoeffizientensignalen
des Decodierers 209 abgeleitet sind.
Der Erregungssignalgenerator 220 ist im Detail in Fig. 6 dargestellt.
Die Schaltung gemäß Fig. 6 weist einen Erregungsimpulsgenerator
618 und einen Erregungsimpulsformer 650 auf.
Der Erregungsimpulsgenerator empfängt die den Grundton repräsentierenden
Signale vom Speicher 215, welche Signale dem
Impulsgenerator 620 zugeführt werden. Ansprechend auf das
Grundfrequenzsignal liefert der Impulsgenerator eine Folge
gleichförmiger Impulse. Diese gleichförmigen Impulse werden
durch die Grundfrequenzperioden separiert, die durch das die
Grundfrequenz repräsentierende Signal vom Speicher 215 definiert
sind. Das Ausgangssignal des Impulsgenerators 620 wird
auf den Schalter 624 gegeben, der auch die Ausgangssignale
des Generators 622 für weißes Rauschen empfängt. Der Schalter
624 spricht auf das Stimmhaft-Stimmlos-Signal vom Speicher
217 an. Für den Fall, daß das Stimmhaft-Stimmlos-Signal in
einem Zustand ist, der einen stimmhaften Intervall entspricht,
wird der Ausgang des Impulsgenerators 620 mit dem Eingang des
Impulsformers 650 verbunden. Wenn das Stimmhaft-Stimmlos-
Signal ein stimmloses Signal anzeigt, verbindet der Schalter
624 den Ausgang des Rauschgenerators 622 mit dem Eingang der
Schaltung 650 zur Formung des Erregungsimpulses.
Das Erregungssignal vom Schalter 624 wird dem Generator 603
für die Erzeugung der spektralen Komponenten zugeführt, der
ein Filterpaar für jede vorbestimmte Frequenz f₁, f₂, . . .,
f₁₀ aufweist. Das Filterpaar besteht aus einem Cosinusfilter
mit einer Charakteristik gemäß Gleichung (8) und einem Sinusfilter
mit einer Charakteristik gemäß Gleichung (9). Das Cosinusfilter
603-11 und das Sinusfilter 603-12 liefern spektrale
Komponentensignale für die vorbestimmte Frequenz f₁. In
ähnlicher Weise liefern das Cosinusfilter 603-21 und das Sinusfilter
603-22 die spektralen Komponentensignale für die
Frequenz f₂ und schließlich das Cosinusfilter 603- n 1 und das
Sinusfilter 603-n 2 die spektralen Komponenten für die Frequenz
f₁₀.
Die spektralen Vorhersagefehlersignale vom Sprachcodierer
nach Fig. 1 werden zusammen mit dem Grundfrequenzsignal vom
Codierer auf den Generator 601 für den Filteramplitudenkoeffizienten
gegeben. Der im Detail in Fig. 7 dargestellte Generator
601 erzeugt einen Satz von spektralen Koeffizientensignalen
für jedes Sprachintervall. Diese spektralen Koeffizientensignale
definieren das Spektrum des Vorhersagefehlersignals
für das Sprachintervall. Die Schaltung 610 kombiniert die
spektralen Komponentensignale des Komponentengenerators 603
mit den spektralen Koeffizientensignalen des Koeffizientengenerators
601. Das von der Schaltung 610 kombinierte Signal
ist eine Folge von den Vorhersagefehler kompensierenden Erregungsimpulsen,
die der Synthetisiererschaltung 630 zugeführt
werden.
Der Koeffizientengenerator gemäß Fig. 7 weist einen Gruppenverzögerungsspeicher
707, einen Phasensignalgenerator 703
und einen Generator 705 für spektrale Koeffizienten auf. Der
Gruppenverzögerungsspeicher 701 speichert einen Satz vorbestimmter
Verzögerungszeiten τ₁, τ₂, . . ., τ₁₀. Diese Verzögerungen
werden experimentell durch eine Analyse der repräsentativen
Sprechweise ausgewählt. Die Verzögerungen entsprechen
einer mittleren Gruppenverzögerungscharakteristik einer
repräsentativen Aussprache, die als ebenso gut für andere Aussprachen
gefunden wurde.
Der Phasensignalgenerator 703 erzeugt eine Gruppe von Phasensignalen
Φ₁, Φ₂, . . ., Φ₁₀ entsprechend dem Ausdruck:
und zwar in Abhängigkeit von dem die Grundfrequenz repräsentierenden
Signal auf der Leitung 710 und den Gruppenverzögerungssignalen
τ₁, τ₂, . . ., τ₁₀ des Speichers 701. Wie aus
Gleichung (10) ersichtlich, sind die Phasen für die spektralen
Koeffizientensignale eine Funktion der Gruppenverzögerungssignale
und des Grundfrequenz-Periodensignals vom Sprachcodierer
in Fig. 1. Die Phasensignale Φ₁, Φ₂, . . ., Φ₁₀ werden
dem Koeffizientengenerator 705 über die Leitung 730 zugeführt.
Der Generator 705 empfängt vom Speicher 213 über die Leitung
720 auch die spektralen Vorhersagefehlersignale. Im Generator
705 wird für jede vorbestimmte Frequenz ein spektrales Koeffizientensignal
gemäß:
H i,1 = C(f i ) cos Φ i i = 1, 2, . . ., 10
und
gebildet.
Wie aus den Gleichungen (10) und (11) hervorgeht, können der
Phasensignalgenerator 703 und der Koeffizientengenerator 705
bekannte arithmetische Schaltungen umfassen.
Die Ausgangssignale des Koeffizientengenerators 705 werden
über die Leitung 740 der Kombinierschaltung 610 zugeführt.
In der Schaltung 610 wird das spektrale Komponentensignal
vom Cosinusfilter 603-11 in dem Multiplizierer 607-11 mit
dem spektralen Koeffizientensignal H 1,1 und das spektrale
Komponentensignal vom Sinusfilter 603-12 im Multiplizierer
607-12 mit dem spektralen Koeffizientensignal H 1,2 multipliziert.
In ähnlicher Weise kombiniert der Multiplizierer 607-21
das spektrale Komponentensignal vom Cosinusfilter 603-21 und
das spektrale Koeffizientensignal H 2,1 von der Schaltung 601,
während der Multiplizierer 607-22 das spektrale Komponentensignal
vom Sinusfilter 603-22 und das spektrale Koeffizientensignal
H 2,2 kombiniert. In gleicher Weise werden die Komponenten-
und Koeffizientensignale der vorbestimmten Frequenz
f₁₀ in den Multiplizierern 607-n 1 und 607-n 2 kombiniert. Die
Ausgangssignale der Multiplizierer in der Schaltung 610 werden
auf Addierer 609-11 bis 609-n 2 gegeben, so daß die kumulative
Summe sämtlicher Multiplizierer gebildet wird und auf
der Ader 670 verfügbar ist. Das Signal auf der Ader 670 kann
dargestellt werden durch:
wobei C(f k ) die Amplitude jeder vorbestimmten Frequenzkomponente,
f k die vorbestimmte Frequenz der Cosinus- und Sinusfilter
und Φ k die Phase der vorbestimmten Frequenzkomponente
gemäß Gleichung (10) ist. Das Erregungssignal der Gleichung
(12) ist eine Funktion des Vorhersagefehlers des Sprachintervalls,
von dem er abgeleitet ist, und kann Fehler in den linearen
Vorhersagekoeffizienten kompensieren, die dem Synthetisierer
230 während des betreffenden Sprachintervalls zugeführt
werden.
Der LPC-Synthetisierer 230 kann eine bekannte Allpol-Filterschaltung
enthalten, um eine LPC-Synthese durchzuführen, wie
sie im Aufsatz "Speech Analysis and Synthesis by Linear Prediction
of the Speech Wave" von B. S. Atal und S. L. Hanauer,
veröffentlicht in "Journal of the Acoustical Society of
America", Band 50, Teil 2, Seiten 637-655, August 1971, beschrieben
ist. Gemeinsam ansprechend auf die den Vorhersagefehler
kompensierenden Erregungsimpulse und die linearen Vorhersagekoeffizienten
für die aufeinanderfolgenden Sprachintervalle
erzeugt der Synthetisierer 230 eine Folge von codierten
Sprachsignalabtastwerten n , die auf den Eingang des
D/A-Wandlers 240 gegeben werden. Der D/A-Wandler 240 erzeugt
ein abgetastetes Signal n , das eine Nachbildung des Sprachsignals
ist, das den Sprachcodierer der Fig. 2 zugeführt wird.
Das abgetastete Signal vom Wandler 240 wird in einem Tiefpaß
250 gefiltert, und das Ausgangssignal (t) des Filters 250
wird als analoge Nachbildung über den Verstärker 252 auf den
Lautsprecher 254 gegeben.
Claims (11)
1. Verfahren zur Verarbeitung eines
Sprachsignals mit folgenden Schritten:
- a) Analysieren des Sprachsignals einschließlich Unterteilung des Sprachsignals in aufeinanderfolgende Zeitintervalle und Erzeugen eines Satzes von ersten Signalen, die die Voraussageparameter, die Grundfrequenz und den Stimmhaft- Stimmlos-Zustand des Sprachsignals für jedes Intervall repräsentieren;
- b) Erzeugen eines Voraussagefehlersignals in Abhängigkeit vom Sprachsignal und den ersten Signalen des Intervalls;
- c) Synthetisieren einer Nachbildung des Sprachsignals unter Erzeugen eines Erregungssignals in Abhängigkeit vom Grundfrequenzsignal und dem Stimmhaft-Stimmlos-Signals und Kombinieren des Erregungssignals mit den ersten Signalen,
dadurch gekennzeichnet, daß
beim Schritt a) ein Satz von zweiten Signalen erzeugt wird,
die die Spektralkomponenten des Vorhersagefehlersignals
repräsentieren und daß beim Schritt c) das Erregungssignal
zusätzlich in Abhängigkeit von den zweiten Signalen gebildet
wird.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß beim Schritt c) zunächst ein
vorläufiges Erregungssignal in Abhängigkeit von den
Grundfrequenz- und Stimmhaft-Stimmlos-Signalen gebildet
wird, das dann unter Verwendung der zweiten Signale zum
endgültigen Erregungssignal umgeformt wird.
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß zunächst eine Folge von vorläufigen
Erregungsimpulsen in Abhängigkeit von den Grundfrequenz-
und Stimmhaft-Stimmlos-Signalen gebildet wird,
die dann unter Verwendung der zweiten Signale zu einer
Folge von endgültigen Erregungsimpulsen umgeformt
werden.
4. Verfahren nach einem der Ansprüche
1 bis 3, dadurch gekennzeichnet, daß bei der Erzeugung
des zweiten Signals eine Vielzahl von Spektralkomponenten
des Vorhersagefehlersignals jeweils für eine vorbestimmte
Frequenz erzeugt wird und daß die Spektralkomponenten
während des Intervalls abgetastet werden, um die
zweiten Signale zu erzeugen.
5. Verfahren nach Anspruch 3 und 4,
dadurch gekennzeichnet, daß die Umformung der vorläufigen
Erregungsimpulse die Bildung einer Vielzahl von Spektralkomponenten
des Erregungssignals umfaßt, die den vorbestimmten
Frequenzen entsprechen, daß eine Vielzahl von
den vorbestimmten Frequenzen entsprechenden Spektralkomponenten
eines Vorhersagefehler-Koeffizientensignals
in Abhängigkeit von dem Grundfrequenzsignal und den
zweiten Signalen erzeugt wird, und daß die Spektralkomponenten
das Erregungssignal mit den Spektralkomponenten
des Vorhersagefehler-Koeffizientensignals kombiniert
werden, um die endgültigen Erregungsimpulse zu bilden.
6. Sprachverarbeitungsschaltung zur
Durchführung des Verfahrens nach Anspruch 1, mit einem
Sprachanalysator, der eine Einrichtung zur Unterteilung
des Sprachsignals in die aufeinanderfolgenden Zeitintervalle
und eine Einrichtung aufweist, die in Abhängigkeit
vom Sprachsignal jedes Intervalls den Satz von
ersten Signalen erzeugt, welche die Voraussageparameter,
die Grundfrequenz und den Stimmhaft-Stimmlos-Zustand des
Sprachsignals repräsentieren, mit einer Einrichtung, die
abhängig vom Sprachsignal und den ersten Signalen für
jedes Intervall das Voraussagefehlersignal erzeugt, mit
einem Sprachsynthetisierer einschließlich eines Erregungsgenerators,
der in Abhängigkeit von dem Grundfrequenz- und
dem Stimmhaft-Stimmlos-Signal das Erregungssignal erzeugt,
und mit einer Einrichtung, die abhängig von dem Erregungssignal
und den ersten Signalen die Nachbildung des Sprachsignals erzeugt,
dadurch gekennzeichnet, daß
der Sprachanalysator eine Einrichtung (124, 126) aufweist,
die ansprechend auf das Voraussagefehlersignal den Satz
von zweiten Signalen erzeugt, die die Spektralkomponenten
des Vorhersagefehlersignals repräsentieren, und daß der
Erregungsgenerator (220) unter Ansprechen auf das Grundfrequenz-
und das Stimmhaft-Stimmlos-Signal sowie die zweiten
Signale das Erregungssignal erzeugt.
7. Sprachverarbeitungsschaltung nach
Anspruch 6, dadurch gekennzeichnet, daß der Erregungsgenerator
(220) eine Einrichtung (618) aufweist, die ansprechend
auf das Grundfrequenz- und das Stimmhaft-Stimmlos-
Signal ein vorläufiges Erregungssignal erzeugt, und daß
eine Einrichtung (650) vorgesehen ist, die in Abhängigkeit
von den zweiten Signalen das vorläufige Erregungssignal zum
endgültigen Erregungssignal umformt.
8. Sprachverarbeitungsschaltung nach
Anspruch 7, dadurch gekennzeichnet, daß die das vorläufige
Erregungssignal erzeugende Einrichtung (618) Einrichtungen
(620, 622, 624) umfaßt, die unter Ansprechen auf das
Grundfrequenz- und das Stimmhaft-Stimmlos-Signal eine Folge
von Erregungsimpulsen erzeugen und daß die Einrichtung (650)
zur Signalformung eine Einrichtung (601, 603, 610) umfaßt,
die ansprechend auf das zweite Signal die vorläufigen Erregungsimpulse
in eine Folge von endgültigen Erregungsimpulsen umformt.
9. Sprachverarbeitungsschaltung nach Anspruch
8, dadurch gekennzeichnet, daß die Einrichtung (124, 126)
zur Erzeugung des zweiten Signals eine Einrichtung (504)
aufweist, die eine Vielzahl von Spektralkomponenten des
Vorhersagefehlersignals für jeweils eine vorbestimmte
Frequenz erzeugt und daß eine Einrichtung (513) zum Abtasten
der Spektralkomponenten während des Intervalls
vorgesehen ist, die die zweiten Signale erzeugt.
10. Sprachverarbeitungsschaltung nach Anspruch
8 und 9, dadurch gekennzeichnet, daß die Einrichtung
(601, 603, 610) zum Umformen der vorläufigen Erregungsimpulse
eine Einrichtung (603) aufweist, die eine Vielzahl
von Spektralkomponenten des Erregungssignals entsprechend
den vorbestimmten Frequenzen bildet, daß eine Einrichtung
(601) vorgesehen ist, die ansprechend auf das
Grundfrequenzsignal und die zweiten Signale eine Vielzahl
von Spektralkomponenten des Vorhersagefehler-Koeffizientensignals
entsprechend den vorbestimmten Frequenzen
erzeugt, und daß eine Einrichtung (610) zum Kombinieren
der Spektralkomponenten des Erregungssignals mit den
Spektralkomponenten des Vorhersagefehler-Koeffizientensignals
vorgesehen ist, um die endgültigen Erregungsimpulse
zu erzeugen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/025,731 US4220819A (en) | 1979-03-30 | 1979-03-30 | Residual excited predictive speech coding system |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3041423C1 true DE3041423C1 (de) | 1987-04-16 |
Family
ID=21827763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3041423A Expired DE3041423C1 (de) | 1979-03-30 | 1980-03-24 | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals |
Country Status (8)
Country | Link |
---|---|
US (1) | US4220819A (de) |
JP (1) | JPS5936275B2 (de) |
DE (1) | DE3041423C1 (de) |
FR (1) | FR2452756B1 (de) |
GB (1) | GB2058523B (de) |
NL (1) | NL8020114A (de) |
SE (1) | SE422377B (de) |
WO (1) | WO1980002211A1 (de) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL188189C (nl) * | 1979-04-04 | 1992-04-16 | Philips Nv | Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting. |
JPS57500901A (de) * | 1980-05-19 | 1982-05-20 | ||
US4544919A (en) * | 1982-01-03 | 1985-10-01 | Motorola, Inc. | Method and means of determining coefficients for linear predictive coding |
US4520499A (en) * | 1982-06-25 | 1985-05-28 | Milton Bradley Company | Combination speech synthesis and recognition apparatus |
JPS59153346A (ja) * | 1983-02-21 | 1984-09-01 | Nec Corp | 音声符号化・復号化装置 |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
CA1223365A (en) * | 1984-02-02 | 1987-06-23 | Shigeru Ono | Method and apparatus for speech coding |
US4704730A (en) * | 1984-03-12 | 1987-11-03 | Allophonix, Inc. | Multi-state speech encoder and decoder |
JPS60239798A (ja) * | 1984-05-14 | 1985-11-28 | 日本電気株式会社 | 音声信号符号化/復号化装置 |
CA1255802A (en) * | 1984-07-05 | 1989-06-13 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses |
US4675863A (en) | 1985-03-20 | 1987-06-23 | International Mobile Machines Corp. | Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels |
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US4776014A (en) * | 1986-09-02 | 1988-10-04 | General Electric Company | Method for pitch-aligned high-frequency regeneration in RELP vocoders |
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
US5202953A (en) * | 1987-04-08 | 1993-04-13 | Nec Corporation | Multi-pulse type coding system with correlation calculation by backward-filtering operation for multi-pulse searching |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
US4896361A (en) * | 1988-01-07 | 1990-01-23 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
AU620384B2 (en) * | 1988-03-28 | 1992-02-20 | Nec Corporation | Linear predictive speech analysis-synthesis apparatus |
JPH0782359B2 (ja) * | 1989-04-21 | 1995-09-06 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置及び音声符号化・復号化装置 |
US5261027A (en) * | 1989-06-28 | 1993-11-09 | Fujitsu Limited | Code excited linear prediction speech coding system |
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
JPH0365822A (ja) * | 1989-08-04 | 1991-03-20 | Fujitsu Ltd | ベクトル量子化符号器及びベクトル量子化復号器 |
US5054075A (en) * | 1989-09-05 | 1991-10-01 | Motorola, Inc. | Subband decoding method and apparatus |
AU644119B2 (en) * | 1989-10-17 | 1993-12-02 | Motorola, Inc. | Lpc based speech synthesis with adaptive pitch prefilter |
US5195168A (en) * | 1991-03-15 | 1993-03-16 | Codex Corporation | Speech coder and method having spectral interpolation and fast codebook search |
US5265190A (en) * | 1991-05-31 | 1993-11-23 | Motorola, Inc. | CELP vocoder with efficient adaptive codebook search |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
US5357567A (en) * | 1992-08-14 | 1994-10-18 | Motorola, Inc. | Method and apparatus for volume switched gain control |
US5546383A (en) * | 1993-09-30 | 1996-08-13 | Cooley; David M. | Modularly clustered radiotelephone system |
US5621852A (en) * | 1993-12-14 | 1997-04-15 | Interdigital Technology Corporation | Efficient codebook structure for code excited linear prediction coding |
US5761633A (en) * | 1994-08-30 | 1998-06-02 | Samsung Electronics Co., Ltd. | Method of encoding and decoding speech signals |
JP3137176B2 (ja) * | 1995-12-06 | 2001-02-19 | 日本電気株式会社 | 音声符号化装置 |
US5839098A (en) | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
EP1093230A4 (de) * | 1998-06-30 | 2005-07-13 | Nec Corp | Sprachkodierer |
US7171355B1 (en) | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
US7110942B2 (en) * | 2001-08-14 | 2006-09-19 | Broadcom Corporation | Efficient excitation quantization in a noise feedback coding system using correlation techniques |
US6751587B2 (en) | 2002-01-04 | 2004-06-15 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US7206740B2 (en) * | 2002-01-04 | 2007-04-17 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US8473286B2 (en) * | 2004-02-26 | 2013-06-25 | Broadcom Corporation | Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure |
EP2309776B1 (de) * | 2009-09-14 | 2014-07-23 | GN Resound A/S | Hörgerät mit Mitteln mit adaptivem Rückkopplungsausgleich |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2928902A (en) * | 1957-05-14 | 1960-03-15 | Vilbig Friedrich | Signal transmission |
US3979557A (en) * | 1974-07-03 | 1976-09-07 | International Telephone And Telegraph Corporation | Speech processor system for pitch period extraction using prediction filters |
JPS6051720B2 (ja) * | 1975-08-22 | 1985-11-15 | 日本電信電話株式会社 | 音声の基本周期抽出装置 |
-
1979
- 1979-03-30 US US06/025,731 patent/US4220819A/en not_active Expired - Lifetime
-
1980
- 1980-03-24 WO PCT/US1980/000309 patent/WO1980002211A1/en active Application Filing
- 1980-03-24 GB GB8038036A patent/GB2058523B/en not_active Expired
- 1980-03-24 DE DE3041423A patent/DE3041423C1/de not_active Expired
- 1980-03-24 JP JP55500774A patent/JPS5936275B2/ja not_active Expired
- 1980-03-24 NL NL8020114A patent/NL8020114A/nl not_active Application Discontinuation
- 1980-03-25 FR FR8006592A patent/FR2452756B1/fr not_active Expired
- 1980-11-25 SE SE8008245A patent/SE422377B/sv not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
Non-Patent Citations (1)
Title |
---|
US-Journal of the Acoustical Society of America, 1978, H. 3, S. 918-924 * |
Also Published As
Publication number | Publication date |
---|---|
FR2452756B1 (fr) | 1985-08-02 |
JPS56500314A (de) | 1981-03-12 |
GB2058523A (en) | 1981-04-08 |
NL8020114A (nl) | 1981-01-30 |
GB2058523B (en) | 1983-09-14 |
SE8008245L (sv) | 1980-11-25 |
FR2452756A1 (fr) | 1980-10-24 |
JPS5936275B2 (ja) | 1984-09-03 |
US4220819A (en) | 1980-09-02 |
SE422377B (sv) | 1982-03-01 |
WO1980002211A1 (en) | 1980-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE3244476C2 (de) | ||
DE3036680C2 (de) | Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
EP0175752B1 (de) | Verbesserte einrichtung für lpc-sprachverarbeitung mit mehrimpulsanregung | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE68911287T2 (de) | Codierer/decodierer. | |
DE69527410T2 (de) | CELP-Koder und -Dekoder und Verfahren dazu | |
DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
DE60120766T2 (de) | Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69227650T2 (de) | Digitaler Sprachkodierer | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE69426860T2 (de) | Sprachcodierer und Verfahren zum Suchen von Codebüchern | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen | |
DE69132956T2 (de) | Sprachcodierung durch lineare Prädiktion mit Anhebung der Hochfrequenzen | |
DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE68917584T2 (de) | Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung. | |
DE68923771T2 (de) | Sprachübertragungssystem unter Anwendung von Mehrimpulsanregung. | |
DE19722705A1 (de) | Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung | |
DE69028434T2 (de) | System zur Codierung von Breitbandaudiosignalen | |
DE3019823C2 (de) | ||
DE69230398T2 (de) | Verfahren und einrichtung zur prioritätszuweisung für sprachblöcke in einem linearen prädiktionskodierer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |