DE3244476C2 - - Google Patents
Info
- Publication number
- DE3244476C2 DE3244476C2 DE3244476A DE3244476A DE3244476C2 DE 3244476 C2 DE3244476 C2 DE 3244476C2 DE 3244476 A DE3244476 A DE 3244476A DE 3244476 A DE3244476 A DE 3244476A DE 3244476 C2 DE3244476 C2 DE 3244476C2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- signals
- generated
- speech
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000005284 excitation Effects 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- FTGYKWAHGPIJIT-UHFFFAOYSA-N hydron;1-[2-[(2-hydroxy-3-phenoxypropyl)-methylamino]ethyl-methylamino]-3-phenoxypropan-2-ol;dichloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CN(C)CCN(C)CC(O)COC1=CC=CC=C1 FTGYKWAHGPIJIT-UHFFFAOYSA-N 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Analogue/Digital Conversion (AREA)
Description
Die Erfindung betrifft ein Verfahren zum Verarbeiten eines
Sprachmusters nach dem Oberbegriff des Anspruchs 1.
Digital arbeitende Sprach-Nachrichtensysteme mit
Sprachspeicher- und Sprachausgabeeinrichtungen setzen
Signalkompression ein, um die zum Speichern und/oder
Übertragen benötigte Bitrate zu verringern. Ein Sprachmuster
enthält bekanntlich Redundanz, die für seine nach außen in
Erscheinung tretende Qualität nicht entscheidend ist.
Das Entfernen von redundanten Komponenten des Sprachmusters
verringert die zum Zusammensetzen einer Kopie der Sprache
benötigte Anzahl von Digitalcodes beträchtlich. Die
subjektiv empfundene Qualität der Sprachkopie hängt jedoch von
den Kompressions- und Codierungsmethoden ab.
Ein bekanntes digitales Sprachcodierungssystem, wie es
z. B. in der US-PS 36 24 302 beschrieben ist, beinhaltet
die lineare Voraussage- oder Prädiktoranalyse eines
eingegebenen Sprachsignals. Das Sprachsignal wird in
aufeinanderfolgende Intervalle aufgeteilt, und es wird
ein für die Sprache in dem Intervall repräsentativer
Satz von Parametern erzeugt. Der Parametersatz enthält
lineare Prädiktorkoeffizientensignale, die kennzeichnend
sind für die Spektralhüllkurve der Sprache in dem
Intervall, sowie Tonhöhen- und Stimmhaftigkeitssignale,
die der Spracherregung entsprechen. Diese Parametersignale
können mit einer viel geringeren Bitrate codiert
werden als die Sprachsignal-Wellenform selbst. Aus den
Parametersignalcodes wird durch Synthese eine Kopie des
eingegebenen Sprachsignals gebildet. Die Syntheseeinrichtung
enthält im allgemeinen ein Modell oder eine
Nachbildung des Mundhohlraums. In dem Modell werden die
Erregungsimpulse in einem Allpol-Voraussagefilter durch
die für die Spektralhüllkurve repräsentativen Prädiktorkoeffizienten
modifiziert.
Die oben erläuterte tonhöhenerregte lineare Prädiktor-
oder Voraussagecodierung ist äußerst wirksam. Die erzeugte
Sprachkopie klingt jedoch synthetisch und ist häufig
schwierig zu verstehen. Im allgemeinen resultiert die
geringe Sprachqualität aus einem Mangel an Entsprechung
zwischen Sprachmuster und dem verwendeten linearen
Voraussagemodell. Fehler im Tonhöhencode oder Fehler bei der
Bestimmung, ob das Sprachintervall stimmhaft oder stimmlos ist,
bewirken, daß die Kopie der Sprache gestört oder unnatürlich
klingt. Ähnliche Probleme ergeben sich auch bei der
Formantcodierung von Sprache. Andere Codierungsanordnungen, bei
denen die Spracherregung aus dem nach der Voraussage erhaltenen
Rest erhalten wird, z. B. ADPCM oder APC, schaffen eine
spürbare Verbesserung, da die Erregung nicht von einem
ungenauen Modell abhängt. Bei diesen Systemen liegt die
Erregungs-Bitrate jedoch wenigstens um eine Größenordnung höher
als bei dem linearen Voraussagemodell. Versuche, die Erregungs-
Bitrate in den Rest-Systemen zu senken, haben durchwegs
zu einer wesentlichen Qualitätsverschlechterung geführt.
Die DE-OS 24 35 654 zeigt in Übereinstimmung mit dem
Oberbegriff des Anspruchs 1 ein Verfahren zum Verarbeiten eines
Sprachmusters, bei dem für jedes Intervall ein Satz von
Digitalwerten zwischengespeichert wird, woraufhin die
zwischengespeicherten Werte wiederholt mit einem künstlichen
Sprachmuster verglichen werden, um anhand des Vergleichsergebnisses
Sprach-Parameter zu gewinnen, die dem Sprachmuster
in dem Intervall möglichst nahe kommen. Mit Hilfe
eines "Pitch-Detektors" wird unterschieden
zwischen stimmhaften und stimmlosen Sprachlauten. Bei stimmhaften
Sprachlauten wird als künstliches Sprachsignal eine Folge von
Einheitsimpulsen erzeugt, bei stimmlosen Sprachlauten wird als
künstliches Sprachsignal weißes Rauschen erzeugt. Diese
künstlichen Sprachmuster werden in einem Vokaltrakt-Modell unter
Steuerung eines Parameterrechners in ein künstliches Vergleichs-
Sprachmuster umgesetzt, welches mit dem Intervall-Sprachmuster
verglichen wird.
Mit Hilfe eines rekursiven Verfahrens werden die von dem
Vokaltrakt-Modell unter Steuerung des Parameterrechners erzeugten
Sprach-Parameter so geändert, daß die beiden verglichenen
Sprachsignale, also das (natürliche) Sprachsignal aus dem jeweiligen
Intervall, und das künstlich gewonnene Sprachsignal möglichst
gut übereinstimmen. Bei einem gewissen Grad an Übereinstimmung
wird ein Befehlssignal erzeugt, aufgrund dessen die dann von dem
Vokaltrakt-Modell erzeugten Sprach-Parameter als Erregungssignale
zusammen mit einem Entscheidungssignal "stimmhaft/stimmlos" von
einem Kodierer auf einen Übertragungskanal gegeben werden. Der
Vergleich der natürlichen Sprachsignale mit den künstlichen
Sprachsignalen beruht also auf einer Ja/Nein-Entscheidung bezüglich
der Frage, ob die Sprachlaute stimmhaft oder stimmlos sind. Die
mit solchen Verfahren gewonnenen Sprachmuster-Kopien haben die
Eigenschaft, daß die Sprache relativ künstlich klingt, was wohl
darauf zurückzuführen ist, daß die zu dem Vergleich mit dem
natürlichen Sprachmuster herangezogenen Signale als einzige
Information aus den ursprünglichen Sprachsignalen die
Information "stimmhaft oder stimmlos" übernehmen. In der Praxis
jedoch gibt es bei den meisten gesprochenen Wörtern keine
deutlichen Grenzen zwischen den Gruppen "stimmlos" und
"stimmhaft", sondern die Grenzen sind mehr oder weniger
fließend.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum
Verarbeiten eines Sprachmusters zu schaffen, das eine
Sprachmuster-Kopie zu liefern vermag, die der natürlichen Sprache
sehr nahe kommt, indem Signale verarbeitet werden, die von
dem ursprünglichen Signal abgeleitet sind.
Diese Aufgabe wird durch die im Anspruch 1 angegebene Erfindung
gelöst.
Ein Grundgedanke der Erfindung ist demnach darin zu sehen,
daß für den Vergleich, der eine möglichst genaue Annäherung
des künstlichen Signals an das natürliche Signal feststellen
und herbeiführen soll, Signale herangezogen werden, die
beide von dem ursprünglichen Signal abgeleitet sind.
Das erste Signal wird auf
der Grundlage der Intervall-Sprachmustersignale und der
Differenz-Signale für dieses Intervall erzeugt. Das zweite
Signal wird auf der Grundlage der Intervall-Signale erzeugt.
Demgemäß berücksichtigt das erfindungsgemäße Verfahren in
stärkerer Weise als das bekannte Verfahren das tatsächlich
zu kopierende Sprachmuster. Es erfolgt eine Verarbeitung des
gesamten Sprachsignals, während bei dem bekannten Verfahren
das dem Vergleich zugrunde gelegte künstliche Signal mit dem
ursprünglichen Signal nur dadurch zusammenhängt, daß das
ursprüngliche Signal hinsichtlich stimmlos/stimmhaft untersucht
wird.
Im folgenden werden Ausführungsbeispiele der Erfindung
anhand der Zeichnung näher erläutert. Es zeigt
Fig. 1 ein Blockdiagramm einer Sprachprozessorschaltung,
mit deren Hilfe das erfindungsgemäße Verfahren durchgeführt
werden kann,
Fig. 2 ein Blockdiagramm eines Prozessors zum Bilden
eines Erregungssignals, der in der Schaltung nach
Fig. 1 einsetzbar ist,
Fig. 3 ein Flußdiagramm, das die Arbeitsweise der
Schaltung zum Bilden des Erregungssignals gemäß
Fig. 1 veranschaulicht,
Fig. 4 und 5 Flußdiagramme, die die Arbeitsweise der in
Fig. 1 gezeigten Schaltung veranschaulichen,
Fig. 6 ein Zeitdiagramm, welches die Arbeitsweise der
Schaltung zum Bilden eines Erregungssignals, die
in den Fig. 1 und 2 dargestellt ist, veranschaulicht,
und
Fig. 7 Wellenzüge, die die Sprachverarbeitung nach der
Erfindung veranschaulichen.
Gemäß Fig. 1 wird ein
Sprachmuster, beispielsweise eine gesprochene Nachricht,
von einem Mikrophon 101 empfangen. Das von diesem
abgegebene analoge Sprachsignal wird in einer
Filter- und Abtastschaltung 113 eines Voraussageanalysators
110 bandbegrenzt und in eine Folge von Impulsabtastwerten
umgesetzt. Durch die Filterung können
Frequenzanteile des Sprachsignals oberhalb von 4,0 kHz
herausgefiltert werden, wobei die Abtastrate in bekannter
Weise 8,0 kHz beträgt. Die zeitliche Steuerung der
Abtastungen wird durch einen von einem Taktgeber 103
gelieferten Abtasttakt CL gesteuert. Jeder von der
Schaltung 113 kommende Abtastwert wird in einem Analog/
Digital-Umsetzer 115 in einen Digitalcode umgesetzt, der
kennzeichnend für die Amplitude des Abtastwertes ist.
Die Folge der Sprach-Abtastwerte gelangt an einen
Prädiktorparameter-Rechner (LPC-Rechner) 119, der in
bekannter Weise die Sprachsignale in 10 bis 20 ms lange
Intervalle unterteilt und als Intervall-Signale einen Satz von linearen
Prädiktorkoeffizientensignalen a k , k = 1, 2, . . ., p erzeugt,
die kennzeichnend sind für das vorausgesagte Kurzzeitspektrum
der N»p Sprachabtastwerte jedes Intervalls.
Die von dem A/D-Umsetzer 115 kommenden Sprachabtastwerte
werden in einer Verzögerungsschaltung 117 verzögert, um
Zeit für die Bildung der Intervall-Signale a k zu schaffen. Die
verzögerten Abtastwerte gelangen an den Eingang eines
Voraussagerestgenerators 118. Der Voraussagerestgenerator
spricht in an sich bekannter Weise auf die verzögerten
Sprachabtastwerte und die Prädiktorparameter a k an,
um ein der Differenz zwischen
den beiden Signalen entsprechendes Unterschieds-Signal zu bilden.
Die für jeden Rahmen in dem Voraussageanalysator 110
erfolgende Bildung der Prädiktor- oder Voraussageparameter
sowie des Voraussagerestsignals kann z. B. mit der in
der US-PS 37 40 476 beschriebenen Anordnung durchgeführt
werden.
Während die Prädiktorparametersignale a k eine effiziente
Darstellung des Kurzzeit-Sprachspektrums bilden, unterliegt
das Restsignal im allgemeinen großen Schwankungen
von Intervall zu Intervall und weist eine hohe Bitrate
auf, die für viele Anwendungsfälle ungeeignet ist. In dem
tonhöhenerregten Vocoder werden nur die Spitzen des
Restsignals als Tonhöhenimpulscodes übertragen. Die sich
hierbei ergebende Qualität ist im allgemeinen jedoch
schlecht. Der Wellenzug 701 in Fig. 7 veranschaulicht
ein typisches, sich über zwei Zeitrahmen erstreckendes
Sprachmuster. Der Wellenzug 703 zeigt das Voraussagerestsignal,
das von dem Muster des Wellenzugs 701 und
den Prädiktorparametern der Rahmen abgeleitet ist. Wie
man leicht sieht, ist der Wellenzug 703 relativ kompliziert,
so daß den Spitzen entsprechende Codierungs-Tonhöhenimpulse
keine angemessene Approximation des Voraussagerests
schaffen. Erfindungsgemäß empfängt ein Erregungscodeprozessor
120 das Unterschieds- oder Restsignal d k und als Intervall-Signal die
Prädiktorparameter a k des Rahmens und erzeugt einen Intervall-
Erregungscode, der eine vorbestimmte Anzahl von Bitstellen
hat. Der sich ergebende Erregungscode gemäß
Wellenzug 705 weist eine relativ niedrige und konstante
Bitrate auf. Der Wellenzug 707 zeigt eine Kopie des
Sprachmusters des Wellenzugs 701, die aus dem
Erregungscode und den Prädiktorparametern der Rahmen
zusammengesetzt ist. Wie man anhand eines Vergleichs der
Wellenzüge 701 und 702 sieht, wird bei viel niedrigeren
Bitraten ein Sprachverlauf höherer Qualität durch die
anpassende Voraussagecodierung erhalten.
Das Restsignal d k und die Prädiktorparametersignale
a k jedes aufeinanderfolgenden Rahmens werden
von der Schaltung 110 zu Beginn jedes aufeinanderfolgenden
Rahmens an die zum Bilden eines Erregungssignals
dienende Schaltung 120 gegeben. Die Schaltung 120
erzeugt ein mehrere Elemente enthaltenden Rahmen-Erregungscode
EC mit einer vorbestimmten Anzahl von Bitstellen
für jeden Rahmen. Jeder Erregungscode entspricht
einer Folge von 1i I Impulsen, die kennzeichnend sind
für die Erregungsfunktion des Rahmens. Die Amplitude β i
und die Stelle m i jedes Impulses innerhalb des Rahmens
wird in der zum Bilden des Erregungssignals dienenden
Schaltung festgelegt, so daß das Zusammensetzen einer
Kopie des Rahmen-Sprachsignals aus dem Erregungssignal
und den Prädiktorparametersignalen des Rahmens möglich
ist. In einem Codierer 131 werden die Signale β i und m i
codiert und mit den Prädiktorparametersignalen des
Rahmens in einem Multiplexer 135 einer Multiplexbildung
unterworfen, um ein dem Rahmen-Sprachmuster entsprechendes
digitales Signal zu erhalten.
In der zum Bilden des Erregungssignals dienenden Schaltung
120 werden das Unterschieds- oder Restsignal d k und die Intervall- oder
Prädiktorparametersignale a k eines Rahmens über
Verknüpfungsglieder 122 bzw. 124 an ein Filter 121 gelegt.
Zu Beginn jedes Rahmens öffnet ein Rahmentaktsignal FC
die Gatter 122 und 124, wodurch die Signale d k an das
Filter 121 und die Signale a k an die Filter 121 und 123
gelangen. Das Filter 121 ist derart ausgebildet, daß
es das Signal d k so modifiziert, daß das
Quantisierungsspektrum des Fehlersignals in dessen Formantbereichen
konzentriert wird. Wie in der US-PS 41 33 976 beschrieben
ist, bewirkt diese Filteranordnung, daß der Fehler
in den Signalbereichen hoher Energie des Spektrums
maskiert wird.
Die Übertragungsfunktion des Filters 121 ist in der
Schreibweise der z-Transformation:
wobei B(z) durch die Rahmen-Prädiktorparameter a k
gesteuert wird.
Das Voraussagefilter 123 empfängt vom Rechner 119 die
Rahmen-Prädiktorparametersignale a k und von dem
Erregungssignalprozessor 127 ein künstliches Erregungssignal
EC. Das Filter 123 hat eine Übertragungsfunktion
gemäß Gleichung (1). Das Filter 121 bildet ansprechend
auf das Unterschieds-Signal d k ein gewichtetes Rahmen-
Sprachsignal (erstes Signal) y, während das Filter 123 ansprechend auf
das von dem Signalprozessor 127 kommende Erregungssignal
ein gewichtetes künstliches Sprachsignal (zweites Signal)
erzeugt. Die Signale y und werden in einem
Korrelationsprozessor 125 korreliert, wobei der
Korrelationsprozessor 125 ein der gewichteten Differenz zwischen
den Signalen entsprechendes Differenzsignal E erzeugt. Das Signal
E wird an den Signalprozessor 127 gelegt, um das
Erregungssignal EC so einzustellen, daß die Differenzen
zwischen dem vom Filter 121 kommenden, für die gewichtete
Sprache repräsentativen Signal und dem vom Filter 123
kommenden, für die gewichtete künstliche Sprache repräsentativen
Signal verringert werden.
Das Erregungssignal ist eine Folge von 1i I Impulsen.
Jeder Impuls besitzt eine Amplitude b i und eine Stelle
m i . Der Prozessor 127 bildet sukzessiv die Signale β i ,
m i , die die Differenzen zwischen dem gewichteten Rahmen-
Sprachsignal vom Filter 121 und dem gewichteten Rahmen-
Kunstsprachsignal vom Filter 123 verringern. Das gewichtete
Rahmen-Sprachsignal beträgt
und das gewichtete Kunstsprache-Signal des Rahmens beträgt
wobei h n die Impulsantwort des Filters 121 oder des
Filters 123 ist.
Das in der Schaltung 120 gebildete Erregungssignal ist
ein codiertes Signal mit den Elementen β i , m i , i = 1, 2,
. . ., I. Jedes Element stellt einen Impuls in dem Zeitrahmen
dar. β i ist die Amplitude des Impulses und m i ist
die Stelle des Impulses innerhalb des Rahmens. Der
Korrelationssignalgenerator 125 erzeugt sukzessive ein
Korrelationssignal für jedes Element. Jedes Element kann
zu einer Zeit 1q Q innerhalb des Zeitrahmens
angeordnet sein. Folglich bildet der Korrelationsprozessor Q
mögliche Kandidaten für das Element i nach Maßgabe der
Gleichung (4):
wobei
Der Erregungssignalgenerator 127 empfängt die Signale C iq
von dem Korrelationssignalgenerator, wählt dasjenige
Signal C iq aus, das den größten Absolutwert aufweist, und
bildet das i-te Element des codierten Signals.
wobei q* die Stelle desjenigen Korrelationssignals ist,
das den größten Absolutwert aufweist. Der Index i wird
auf i+1 erhöht, und das Signal n am Ausgang des
Voraussagefilters 123 wird modifiziert. Die Verarbeitung
entsprechend den Gleichungen (4), (5) und (6) wird
wiederholt, um das Element β i+1, m i+1 zu bilden. Nach
der Bildung des Elements β I , m I wird das Signal mit den
Elementen b₁, m₁, β₂, m₂, . . ., β i , m₁ zum Codierer 131
übertragen. In an sich bekannter Weise quantisiert der
Codierer 131 die Elemente β i m i und bildet ein codiertes
Signal, das sich für die Übertragung zu einem Verbindungsnetz
140 eignet.
Jedes der Filter 121 und 123 in Fig. 1 kann ein
Transversalfilter von dem Typ sein, wie er in der US-PS 41 33 976
beschrieben ist. Jeder der Prozessoren 125 und 127 kann
eine der an sich bekannten Prozessoranordnungen sein,
die sich zum Berechnen der Gleichungen (4) und (6) eignen,
beispielsweise kann es sich um das C.S.P., Inc. Macro
Arithmetic Processor System 100 oder eine andere bekannte
Prozessoranordnung handeln. Der Prozessor 125
enthält einen Festspeicher, der permanent Programmbefehle
zum Steuern der Bildung der Signale C iq nach
Maßgabe der Gleichung (4) speichert. Der Prozessor 127
enthält einen Festspeicher, der dauernd Programmbefehle
zum Auswählen der Signalelemente β i , m i nach
Gleichung (6) speichert, wie es an sich bekannt ist.
Fig. 3 zeigt ein Flußdiagramm, welches die Arbeitsweise
der Prozessoren 125 und 127 für jeden Zeitrahmen
veranschaulicht. Gemäß Fig. 3 werden in dem Kästchen
305 die Impulsantwortsignale h k ansprechend auf die
Rahmen-Prädiktorparameter für die Übertragungsfunktion
nach Gleichung (1) erzeugt. Dies geschieht nach
Empfang des Signals FC vom Taktgeber 103 in Fig. 1,
was durch das Wartekästchen 303 angedeutet ist. In dem
Kästchen 307 werden der Elementindex i und der
Erregungsimpuls-Stellenindex q auf 1 voreingestellt
(initialisiert). Nach Erhalt der Signale y n und n, i-1 von
den Voraussagefiltern 121 bzw. 123 wird gemäß Kästchen
309 das Signal C iq gebildet. Der Stellenindex q wird im
Kästchen 311 erhöht, und es erfolgt die Bildung der
nächsten Stelle C iq .
Nachdem für das Erregungssignalelement i im Prozessor
125 das Signal C iQ gebildet ist, wird der Prozessor 127
aktiviert. Der Index q wird in dem Prozessor 127 gemäß
Kästchen 315 zu Beginn auf 1 eingestellt, während der
Index i sowie die Signale C iq , die in dem Prozessor 125
gebildet wurden, zum Prozessor 127 übertragen werden. Das
Signal C iq *, das das Signal C iq mit dem größten
Absolutwert darstellt, wird ebenso wie dessen Stelle q* im
Kästchen 317 auf Null eingestellt. Die Absolutwerte der
Signale C iq werden mit dem Signal C iq * verglichen, und
der größte dieser Absolutwerte wird als Signal C iq * in
der die Kästchen 319, 321, 323 und 325 umfassenden
Schleife gespeichert.
Nachdem das Signal C iQ vom Prozessor 125 verarbeitet
ist, wird vom Kästchen 325 aus das Kästchen 327 betreten.
Die Stelle m i des Erregungscodeelements wird auf q*
eingestellt, und die Amplitude β i des Erregungscodeelements
wird nach Maßgabe der Gleichung (6) erzeugt. Das
Element β i m i wird gemäß Kästchen 328 an das
Voraussagefilter 123 gegeben, und im Kästchen 329 wird der Index
i erhöht. Nach Bildung des Elements β I m I des Rahmens
wird von dem Entscheidungskästchen 331 aus erneut das
Wartekästchen 303 betreten.
Die Prozessoren 125 und 127 gelangen dann bis zu dem
Rahmentaktimpuls FC des nächsten Rahmens in den Wartezustand.
Der Erregungscode in dem Prozessor 127 gelangt außerdem
an den Codierer 131. Der Codierer setzt den vom Prozessor
127 kommenden Erregungscode in eine zur Verwendung
in dem Netzwerk 140 geeignete Form um. Die Prädiktorparametersignale
a k für den Rahmen werden über eine
Verzögerungsschaltung 133 an einen Eingang des Multiplexers
135 gelegt. Das vom Codierer 131 kommende
Erregungscodesignal EC gelangt an den anderen Eingang des
Multiplexers. Die im Multiplexbetrieb verarbeiteten Erregungs-
und Prädiktorparametercodes für den Rahmen werden
dann zum Netzwerk 140 gesendet.
Bei dem Netzwerk 140 kann es sich um ein Nachrichtensystem,
den Nachrichtenspeicher einer Sprachspeicheranordnung
oder um eine Vorrichtung handeln, die zum
Speichern einer vollständigen Nachricht oder des Vokabulars
vorgeschriebener Nachrichteneinheiten, z. B. von
Worten, Phonemen usw. dient, die in Sprachsynthesevorrichtungen
eingesetzt werden. Unabhängig davon, um
welche Nachrichteneinheit es sich handelt, wird die von
der Schaltung 120 kommende Folge von Rahmencodes über
das Netzwerk 140 zu der Sprachsynthesevorrichtung 150
übertragen. Die Synthesevorrichtung verwendet ihrerseits
die von der Schaltung 120 kommenden Rahmen-Erregungscodes
sowie die Rahmen-Prädiktorparametercodes, um eine
Kopie des Sprachmusters zusammenzusetzen.
Ein in der Synthesevorrichtung 150 enthaltener
Demultiplexer 152 separiert den Erregungscode EC eines Rahmens
von dessen Prädiktorparametern a k . Nachdem der
Erregungscode in einem Decoder 153 in eine Folge von
Erregungsimpulsen decodiert ist, wird er an den Erregungseingang
eines Sprachsynthesefilters 154 gegeben. An die
Parametereingänge des Filters 154 werden die a k -Codes
gegeben. Das Filter 154 bildet in Abhängigkeit der
Erregungssignale und der Prädiktorparametersignale eine
codierte Kopie des Rahmen-Sprachsignals, wie es an sich
bekannt ist. Ein D/A-Umsetzer 156 setzt die codierte
Kopie in ein Analogsignal um, das über ein Tiefpaßfilter
158 gegeben und von einem Wandler 160 in ein Sprachmuster
umgewandelt wird.
Eine alternative Anordnung zum Bilden des Erregungscodes
in der Schaltung 120 kann auf dem gewichteten mittleren
Fehlerquadrat zwischen den Signalen y n und n beruhen.
Nach Bildung der Werte β i und m i für den i-ten
Erregungssignalimpuls beträgt dieses gewichtete mittlere Fehlerquadrat
wobei h n die n-te Abtastung der Impulsantwort von H(z),
m j die Stelle des j-ten Impulses des Erregungscodesignals
und β j die Amplitude des j-ten Impulses ist.
Die Impulsstelle und die Impulsamplitude werden sequentiell
erzeugt. Das i-te Element der Erregung bestimmt sich
durch die Minimierung von E i in Gleichung (7). Die
Gleichung (7) kann man umschreiben zu
so daß die β i , m i vorausgehenden bekannten
Erregungscodeelemente nur in dem ersten Term auftreten.
Wie bekannt ist, kann der den Wert E i minimierende Wert
von β i durch Differenzieren der Gleichung (8) nach b i
und Setzen von
erhalten werden. Folglich beträgt der optimale Wert für β i
wobei
die Autokorrelationskoeffizienten des Impulsantwortsignals
h k des Voraussagefilters sind.
β i in Gleichung (10) ist eine Funktion der Impulsstelle
und wird für jeden möglichen Wert bestimmt. Dann wird der
größte der β i -Werte an den in Frage kommenden Impulsstellen
ausgewählt. Nach dem Erhalt der Werte β i und m i
werden die Werte β i+1, m i+1 erzeugt, indem die Gleichung
(10) in ähnlicher Weise gelöst wird. Der erste Term der
Gleichung (10), d. h.
entspricht dem
für die Sprache repräsentativen Signal des Rahmens am
Ausgang des Voraussagefilters 121. Der zweite Term in
Gleichung (10), d. h.
entspricht dem für
die künstliche Sprache repräsentativen Signal des Rahmens
am Ausgang des Voraussagefilters 123. β i ist die
Amplitude eines Erregungsimpulses an der Stelle m i , der
die Differenz zwischen dem ersten und dem zweiten Term
minimiert.
Die in Fig. 2 dargestellte Datenverarbeitungsschaltung
stellt eine alternative Anordnung bezüglich der in Fig. 1
dargestellten Schaltung 120 zum Bilden des
Erregungssignals dar. Die Schaltung nach Fig. 2 liefert
ansprechend auf das Rahmen-Voraussagerestsignal d k und die
Rahmen-Prädiktorparametersignale a k nach Maßgabe der
Gleichung (10) den Erregungscode für jeden Rahmen des
Sprachmusters, und sie kann das oben erwähnte C.S.P.,
Inc. Macro Arithmetic Processor System 100 oder eine
andere bekannte Prozessoranordnung enthalten.
Gemäß Fig. 2 empfängt der Prozessor 210 die
Prädiktorparametersignale a k und die Voraussagerestsignale d n für
jeden aufeinanderfolgenden Rahmen des Sprachmusters von
der Schaltung 110 über den Speicher 218. Der Prozessor
bildet die Erregungscode-Signalelemente b₁m₁, β₂m₂, . . .,
β I m I unter Steuerung von Befehlen, die dauernd in einem
Festspeicher für ein Voraussagefilter-Unterprogramm und
einem Festspeicher 205 für ein Unterprogramm zur
Erregungsverarbeitung gespeichert sind.
Der Prozessor 210 enthält einen gemeinsamen Bus 225,
einen Datenspeicher 230, einen Zentralprozessor 240,
eine Steuerungsschnittstelle 220, und eine Eingabe/
Ausgabe-(E/A-)Schnittstelle 260. In an sich bekannter Weise
steuert der Zentralprozessor 240 die Arbeitsabfolge der
anderen Einheiten des Prozessors 210 in Abhängigkeit von
von der Steuerung 215 kommenden codierten Befehlen. Der
Arithmetikprozessor 250 führt die arithmetischen Rechnungen
der von dem Datenspeicher 230 kommenden codierten
Signale in Abhängigkeit von vom Zentralprozessor 240
kommenden Steuersignalen durch. Der Datenspeicher 230
speichert nach Anweisung des Zentralprozessors 240
Signale und liefert diese Signale an den Arithmetikprozessor
250 und an die E/A-Schnittstelle 260. Die
Steuerungsschnittstelle 220 bildet eine Nachrichtenverbindung für
die Programmbefehle im ROM 201 und im ROM 205 mit dem
Zentralprozessor 240 über die Steuerung 215, und die
E/A-Schnittstelle 260 ermöglicht es, daß die Signale d k
und a k in den Datenspeicher 230 gelangen, und sie gibt
die Ausgangssignale β i und m i von dem Datenspeicher an
den Codierer 131 in Fig. 1.
Die Arbeitsweise der Schaltung nach Fig. 2 ist in dem
in Fig. 4 dargestellten Flußdiagramm für die
Filterparameterverarbeitung, in dem in Fig. 5 gezeigten
Flußdiagramm für die Erregungscodeverarbeitung und in dem in
Fig. 6 gezeigten Zeitdiagramm veranschaulicht. Beim
Start des Sprachsignals wird das Kästchen 410 in Fig. 4
über das Kästchen 405 betreten, und der Rahmenzähler r
wird durch einen vom Taktgeber 103 kommenden einzelnen
Impuls ST auf den ersten Rahmen eingestellt. Fig. 6
zeigt die Arbeitsweise der Schaltung nach Fig. 1 und 2
für zwei aufeinanderfolgende Rahmen. Zwischen den Zeitpunkten
t₀ und t₇ in dem ersten Rahmen bildet der
Voraussageanalysator 110 die Sprachmusterabtastungen des
Rahmens r+2 gemäß Wellenform 605 unter Steuerung der
Abtasttaktimpulse des Wellenzugs 601. Der Analysator 110
erzeugt die Signale a k entsprechend dem Rahmen r+1
zwischen den Zeitpunkten t₀ und t₃, und er bildet zwischen
den Zeitpunkten t₃ und t₆ das Restsignal d k ,
wie es durch den Wellenzug 607 angedeutet ist. Zwischen
den Zeitpunkten t₀ und t₁ tritt das Signal FC
(Wellenform 603) auf. Die Signale d k von dem
Restsignalgenerator 118, die zuvor während des vorausgehenden Rahmens
im Speicher 218 gespeichert wurden, werden über die E/A-
Schnittstelle 260 und den gemeinsamen Bus 225 unter
Steuerung des Zentralprozessors 240 in den Datenspeicher
230 gegeben. Wie in Fig. 4 durch das
Kästchen 415 angedeutet ist, erfolgen diese Tätigkeiten
in Abhängigkeit des Rahmentaktsignals FC. Die Rahmen-
Prädiktorparametersignale a k von dem Prädiktorparameterrechner
119, die zuvor während des vorausgehenden Rahmens
im Speicher 218 gespeichert wurden, werden ebenfalls
in den Speicher 230 eingegeben, wie durch das
Kästchen 420 angedeutet ist. Diese Arbeitsschritte
erfolgen zwischen den Zeitpunkten t₀ und t₁ in Fig. 6.
Nachdem die Signale d k und a k in den Speicher 230
eingegeben sind,
werden die Voraussagefilterkoeffizienten b k entsprechend
der Übertragungsfunktion der Gleichung (1)
in dem Arithmetikprozessor 250 erzeugt und in den
Datenspeicher 230 eingegeben. Bei einer Abtastrate von 8 kHz
beträgt p typischerweise 16 und α typischerweise 0,85.
Dann werden in dem Arithmetikprozessor 250 die Voraussagefilter-
Impulsantwortsignale h k
berechnet und in dem Datenspeicher 230 gespeichert. Wenn
das Impulsantwortsignal h k gespeichert ist,
werden die Voraussagefilter-
Autokorrelationssignale gemäß Gleichung (11) erzeugt
und gespeichert.
Im Zeitpunkt t₂ in Fig. 6 trennt die Steuerung 215 das
ROM 201 von der Schnittstelle 220 und verbindet das ROM
205, das das Unterprogramm für die Erregungsverarbeitung
speichert, mit der Schnittstelle. Dann wird die
Bildung der Erregungsimpulscodes β i , m i eingeleitet, wie
aus dem Flußdiagramm nach Fig. 5 hervorgeht. Zwischen
den Zeitpunkten t₂ und t₄ in Fig. 6 wird die Folge der
Erregungsimpulse gebildet. Am Anfang wird der Erregungsimpulsindex
i auf 1 eingestellt, während der Impulsstellenindex
q auf 1 eingestellt wird (Kästchen 505).
β₁ wird im Kästchen 510 auf Null eingestellt, und es
wird im Kästchen 515 β iq = β₁₁
bestimmt. β₁₁ ist der optimale Erregungsimpuls an der
Stelle q=1 des Rahmens. Dann wird der Absolutwert von
β₁₁ mit dem zuvor gespeicherten Wert β₁ im
Entscheidungskästchen 520 verglichen. Da β₁ zu Beginn den Wert
Null hat, wird der Code m i auf q=1 eingestellt, und
der Code β i wird auf β₁₁ eingestellt (Kästchen 525).
Dann wird im Kästchen 530 der Stellenindex q erhöht, und
es wird über das Entscheidungskästchen 535 das Kästchen
515 betreten, um das Signal β₁₂ zu erzeugen. Für
sämtliche Impulsstellenwerte 1q Q wird die die
Kästchen 515, 520, 525, 530 und 535 umfassende Schleife
wiederholt durchlaufen. Nach der Q-ten Iteration sind
die erste Erregungsimpulsamplitude β₁ = β iq* und die
zugehörige Stelle m₁ = q* in dem Speicher 230
gespeichert. Auf diese Weise wird der erste der I
Erregungsimpulse bestimmt. Gemäß dem in Fig. 7 gezeigten
Wellenzug 705 tritt der Rahmen r zwischen den Zeitpunkten t₀
und t₁ auf. Der Erregungscode für den Rahmen besteht
aus acht Impulsen. Der erste Impuls mit der Amplitude
β₁ und der Stelle m₁ tritt im Zeitpunkt t m1 in Fig. 7
auf, wie es für den Index i=1 gemäß dem in Fig. 5 gezeigten
Flußdiagramm bestimmt wird.
In dem Kästchen 545 wird der Index i auf den nachfolgenden
Erregungsimpuls erhöht, und über die Kästchen 550
und 510 wird das Tätigkeitskästchen 515 betreten. Nach
Abschluß jeder Iteration der Schleife zwischen den Kästchen
510 und 550 wird das Erregungssignal modifiziert,
um das Signal gemäß Gleichung (7) weiter zu verringern.
Nach Abschluß der zweiten Iteration wird der Impuls
β₂m₂ (Zeitpunkt t m2 im Wellenzug 705) gebildet. Dann
werden sukzessive mit dem Erhöhen des Index i die
Erregungsimpulse β₃m₃ (Zeitpunkt t m3), β₄m₄ (Zeitpunkt t m4),
β₅m₅ (Zeitpunkt t m5), β₆m₆ (Zeitpunkt t m6), β₇m₇ (Zeitpunkt
t m7) und b₈m₈ (Zeitpunkt t m8) gebildet.
Nach der I-ten Iteration (Wellenzug 609 bei t₄) wird
vom Entscheidungskästchen 550 aus das Kästchen 555
betreten, und dort wird der laufende Rahmen-Erregungscode
β₁m₁, β₂m₂, . . ., b I m I erzeugt. In dem Kästchen 560 wird
der Rahmenindex erhöht, und im Zeitpunkt t₇ gemäß Fig. 6
werden im Kästchen 415 die Voraussagefilter-
Verarbeitungsschritte gemäß Fig. 4 für den nächsten Rahmen
durchgeführt. Nach dem Auftreten des Taktsignals FC für den
nächsten Rahmen im Zeitpunkt t₇ in Fig. 6 werden die
Prädiktorparametersignale für den Rahmen r+3 gebildet
(Wellenzug 605 zwischen den Zeitpunkten t₇ und t₁₄), es
werden für den Rahmen r+2 die Signale a k und d k
gebildet (Wellenzug 607 zwischen den Zeitpunkten t₇ und t₁₃),
und es wird für den Rahmen r+1 der Erregungscode gebildet
(Wellenzug 609 zwischen den Zeitpunkten t₇ und
t₁₂).
Von dem Prozessor nach Fig. 2 wird über die E/A-
Schnittstelle 260 der Rahmen-Erregungscode an den in Fig. 1
gezeigten Codierer 131 gegeben. Der Codierer 131
arbeitet in der oben geschilderten Weise, indem er den
Erregungscode zur Beaufschlagung des Netzwerks 140
quantisiert und formatiert. Die Prädiktorparametersignale
a k des Rahmens gelangen über die Verzögerungsschaltung
133 an den einen Eingang des Multiplexers 135,
so daß der Rahmen-Erregungscode vom Codierer 131 mit
ihnen in geeigneter Weise gemultiplext wird.
Bei den hier beschriebenen Ausführungsbeispielen
werden lineare Prädiktorparameter und ein
Prädiktor- oder Voraussagerest verwendet. Die linearen
Prädiktorparameter können durch Formantparameter oder
andere bekannte Sprachparameter ersetzt werden. Die
Voraussagefilter können dann so angeordnet sein, daß sie
auf die verwendeten Sprachparameter und das Sprachsignal
ansprechen, so daß das in der Schaltung 120 nach
Fig. 1 gebildete Erregungssignal in Kombination mit
den Sprachparametersignalen dazu verwendet wird, eine
Kopie des Sprachmusters zusammenzusetzen.
Claims (11)
1. Verfahren zum Verarbeiten eines Sprachmusters, bei dem
- - das Sprachmuster in aufeinanderfolgende Zeitintervalle unterteilt wird,
- - ein Satz von Intervall-Signalen (a k ) erzeugt wird, die repräsentativ sind für das Sprachmuster in jedem Intervall,
- - ein Unterschieds-Signal (d k ) erzeugt wird, das repräsentativ ist für die Unterschiede zwischen dem Sprachmuster und den Intervall-Signalen, und
- - ein Erregungssignal erzeugt wird, das für die Erregung des Intervall-Sprachmusters repräsentativ ist,
dadurch gekennzeichnet, daß
zum Erzeugen des Erregungssignals
- - ansprechend auf die Intervall-Signale (a k ) und die Unterschieds-Signale (d k ) ein erstes Signal (y) erzeugt wird,
- - ansprechend auf die Intervall-Signale (a k ) ein zweites Signal () erzeugt wird,
- - ein Differenz-Signal erzeugt wird, das der Differenz zwischen dem ersten Signal und dem zweiten Signal entspricht, und
- - das Erregungs-Signal (EC) dadurch gewonnen wird, daß das zweite Signal geändert wird, um das Differenz-Signal zu reduzieren.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß
der Satz von Intervall-Signalen (a k ) dadurch erzeugt
wird, daß ein Satz von Intervall-Sprachparametersignalen
erzeugt wird, daß das erste Signal (y) ansprechend auf
die Intervall-Sprachparametersignale und die Unterschieds-
Signale (d k ) erzeugt wird, und daß das zweite Signal ()
ansprechend auf die Intervall-Sprachparametersignale erzeugt
wird.
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die Intervall-Sprachparametersignale erzeugt werden, indem
ein Satz von Intervall-Sprachspektrum-Signalen erzeugt
wird.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet, daß
das Erregungssignal (EC) erzeugt wird, indem ein codiertes
Signal mit mindestens einem Element ansprechend auf das
Unterschieds-Signal erzeugt wird und das zweite Signal
ansprechend auf das Element des codierten Signals modifiziert
wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß
das codierte Signal dadurch erzeugt wird, daß ansprechend
auf das Unterschieds-Signal (d k ) mit einer bestimmten
Häufigkeit ein codiertes Signalelement erzeugt wird, und
daß das zweite Signal ansprechend auf die codierten
Signalelemente modifiziert wird.
6. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
das Differenzsignal dadurch erzeugt wird, daß ein der
Korrelation des ersten und des zweiten Signals (y, )
entsprechendes Signal erzeugt wird.
7. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
das Differenz-Signal dadurch erzeugt wird, daß ein Signal
erzeugt wird, welches kennzeichnend ist für das mittlere
Differenzquadrat zwischen dem ersten und dem zweiten
Signal.
8. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß
das codierte Signal und die Intervall-Sprachparametersignale
kombiniert werden, um ein für das Sprachmuster
repräsentatives codiertes Signal zu erzeugen.
9. Verfahren nach Anspruch 8,
dadurch gekennzeichnet, daß
jedes Code-Element ein für die Element-Amplitude (β i ) und
ein für die Element-Lage (m i ) innerhalb des Intervalls
repräsentatives Signal aufweist, und daß das Kombinieren
der Signale zur Erzeugung eines codierten Signals darin
besteht, daß die Signale für die Element-Amplitude und
die Element-Lage kombiniert werden, um eine Folge von
Impulsen zu erzeugen, die repräsentativ ist für das
Erregungssignal des Zeitintervalls.
10. Verfahren nach einem der Ansprüche 2 bis 9,
dadurch gekennzeichnet, daß
die Sprachparametersignale Prädiktorparametersignale (a k )
sind und das Unterschieds-Signal ein Voraussage-Restsignal
(d k ) ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/326,371 US4472832A (en) | 1981-12-01 | 1981-12-01 | Digital speech coder |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3244476A1 DE3244476A1 (de) | 1983-07-14 |
DE3244476C2 true DE3244476C2 (de) | 1988-01-21 |
Family
ID=23271926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823244476 Granted DE3244476A1 (de) | 1981-12-01 | 1982-12-01 | Digitaler sprachprozessor |
Country Status (8)
Country | Link |
---|---|
US (1) | US4472832A (de) |
JP (2) | JPS6046440B2 (de) |
CA (1) | CA1181854A (de) |
DE (1) | DE3244476A1 (de) |
FR (1) | FR2517452B1 (de) |
GB (1) | GB2110906B (de) |
NL (1) | NL193037C (de) |
SE (2) | SE456618B (de) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS59153346A (ja) * | 1983-02-21 | 1984-09-01 | Nec Corp | 音声符号化・復号化装置 |
EP0119033B1 (de) * | 1983-03-11 | 1987-04-15 | Prutec Limited | Sprachcodiereinrichtung |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
US4638451A (en) * | 1983-05-03 | 1987-01-20 | Texas Instruments Incorporated | Microprocessor system with programmable interface |
CA1219079A (en) * | 1983-06-27 | 1987-03-10 | Tetsu Taguchi | Multi-pulse type vocoder |
US4669120A (en) * | 1983-07-08 | 1987-05-26 | Nec Corporation | Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses |
NL8302985A (nl) * | 1983-08-26 | 1985-03-18 | Philips Nv | Multipulse excitatie lineair predictieve spraakcodeerder. |
CA1236922A (en) * | 1983-11-30 | 1988-05-17 | Paul Mermelstein | Method and apparatus for coding digital signals |
CA1223365A (en) * | 1984-02-02 | 1987-06-23 | Shigeru Ono | Method and apparatus for speech coding |
US4701954A (en) * | 1984-03-16 | 1987-10-20 | American Telephone And Telegraph Company, At&T Bell Laboratories | Multipulse LPC speech processing arrangement |
EP0163829B1 (de) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Sprachsignaleverarbeitungssystem |
US4709390A (en) * | 1984-05-04 | 1987-11-24 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech message code modifying arrangement |
JPS60239798A (ja) * | 1984-05-14 | 1985-11-28 | 日本電気株式会社 | 音声信号符号化/復号化装置 |
US4872202A (en) * | 1984-09-14 | 1989-10-03 | Motorola, Inc. | ASCII LPC-10 conversion |
EP0186196B1 (de) * | 1984-12-25 | 1991-07-17 | Nec Corporation | Verfahren und Vorrichtung zur Kodierung/Dekodierung eines Bildsignals |
US4675863A (en) | 1985-03-20 | 1987-06-23 | International Mobile Machines Corp. | Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels |
FR2579356B1 (fr) * | 1985-03-22 | 1987-05-07 | Cit Alcatel | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
US4944013A (en) * | 1985-04-03 | 1990-07-24 | British Telecommunications Public Limited Company | Multi-pulse speech coder |
US4912764A (en) * | 1985-08-28 | 1990-03-27 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder with different excitation types |
US4890328A (en) * | 1985-08-28 | 1989-12-26 | American Telephone And Telegraph Company | Voice synthesis utilizing multi-level filter excitation |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
USRE34247E (en) * | 1985-12-26 | 1993-05-11 | At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4935963A (en) * | 1986-01-24 | 1990-06-19 | Racal Data Communications Inc. | Method and apparatus for processing speech signals |
CA1323934C (en) * | 1986-04-15 | 1993-11-02 | Tetsu Taguchi | Speech processing apparatus |
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US4890327A (en) * | 1987-06-03 | 1989-12-26 | Itt Corporation | Multi-rate digital voice coder apparatus |
US4896361A (en) * | 1988-01-07 | 1990-01-23 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
US5285520A (en) * | 1988-03-02 | 1994-02-08 | Kokusai Denshin Denwa Kabushiki Kaisha | Predictive coding apparatus |
JP2625998B2 (ja) * | 1988-12-09 | 1997-07-02 | 沖電気工業株式会社 | 特徴抽出方式 |
SE463691B (sv) * | 1989-05-11 | 1991-01-07 | Ericsson Telefon Ab L M | Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen |
US5261027A (en) * | 1989-06-28 | 1993-11-09 | Fujitsu Limited | Code excited linear prediction speech coding system |
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
JPH0365822A (ja) * | 1989-08-04 | 1991-03-20 | Fujitsu Ltd | ベクトル量子化符号器及びベクトル量子化復号器 |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
SE467806B (sv) * | 1991-01-14 | 1992-09-14 | Ericsson Telefon Ab L M | Metod att kvantisera linjespektralfrekvenser (lsf) vid beraekning av parametrar foer ett analysfilter ingaaende i en talkodare |
US5301274A (en) * | 1991-08-19 | 1994-04-05 | Multi-Tech Systems, Inc. | Method and apparatus for automatic balancing of modem resources |
US5659659A (en) * | 1993-07-26 | 1997-08-19 | Alaris, Inc. | Speech compressor using trellis encoding and linear prediction |
US5546383A (en) | 1993-09-30 | 1996-08-13 | Cooley; David M. | Modularly clustered radiotelephone system |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
SE508788C2 (sv) * | 1995-04-12 | 1998-11-02 | Ericsson Telefon Ab L M | Förfarande att bestämma positionerna inom en talram för excitationspulser |
JP3137176B2 (ja) * | 1995-12-06 | 2001-02-19 | 日本電気株式会社 | 音声符号化装置 |
DE19643900C1 (de) * | 1996-10-30 | 1998-02-12 | Ericsson Telefon Ab L M | Nachfiltern von Hörsignalen, speziell von Sprachsignalen |
US5839098A (en) | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
US5832443A (en) * | 1997-02-25 | 1998-11-03 | Alaris, Inc. | Method and apparatus for adaptive audio compression and decompression |
US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
US6182033B1 (en) * | 1998-01-09 | 2001-01-30 | At&T Corp. | Modular approach to speech enhancement with an application to speech coding |
US7392180B1 (en) | 1998-01-09 | 2008-06-24 | At&T Corp. | System and method of coding sound signals using sound enhancement |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
US6516207B1 (en) * | 1999-12-07 | 2003-02-04 | Nortel Networks Limited | Method and apparatus for performing text to speech synthesis |
US7295614B1 (en) | 2000-09-08 | 2007-11-13 | Cisco Technology, Inc. | Methods and apparatus for encoding a video signal |
JP4209257B2 (ja) | 2003-05-29 | 2009-01-14 | 三菱重工業株式会社 | 分散型コントローラとその動作方法、及び、分散型コントローラを備えるフォークリフト |
EP2595146A1 (de) * | 2011-11-17 | 2013-05-22 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Verfahren und Vorrichtung zur Untersuchung der Verständlichkeit eines verrauschten Sprachsignals |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3346695A (en) * | 1963-05-07 | 1967-10-10 | Gunnar Fant | Vocoder system |
US3624302A (en) * | 1969-10-29 | 1971-11-30 | Bell Telephone Labor Inc | Speech analysis and synthesis by the use of the linear prediction of a speech wave |
US3740476A (en) * | 1971-07-09 | 1973-06-19 | Bell Telephone Labor Inc | Speech signal pitch detector using prediction error data |
DE2435654C2 (de) * | 1974-07-24 | 1983-11-17 | Gretag AG, 8105 Regensdorf, Zürich | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache |
JPS5246642A (en) * | 1975-10-09 | 1977-04-13 | Mitsubishi Metal Corp | Swimming pool |
JPS5343403A (en) * | 1976-10-01 | 1978-04-19 | Kokusai Denshin Denwa Co Ltd | System for analysing and synthesizing voice |
US4130729A (en) * | 1977-09-19 | 1978-12-19 | Scitronix Corporation | Compressed speech system |
US4133976A (en) * | 1978-04-07 | 1979-01-09 | Bell Telephone Laboratories, Incorporated | Predictive speech signal coding with reduced noise effects |
US4184049A (en) * | 1978-08-25 | 1980-01-15 | Bell Telephone Laboratories, Incorporated | Transform speech signal coding with pitch controlled adaptive quantizing |
JPS5648690A (en) * | 1979-09-28 | 1981-05-01 | Hitachi Ltd | Sound synthesizer |
-
1981
- 1981-12-01 US US06/326,371 patent/US4472832A/en not_active Ceased
-
1982
- 1982-11-18 CA CA000415816A patent/CA1181854A/en not_active Expired
- 1982-11-22 SE SE8206641A patent/SE456618B/sv not_active IP Right Cessation
- 1982-11-25 FR FR8219772A patent/FR2517452B1/fr not_active Expired
- 1982-11-29 GB GB08233923A patent/GB2110906B/en not_active Expired
- 1982-11-30 NL NL8204641A patent/NL193037C/nl not_active IP Right Cessation
- 1982-12-01 JP JP57209489A patent/JPS6046440B2/ja not_active Expired
- 1982-12-01 DE DE19823244476 patent/DE3244476A1/de active Granted
-
1985
- 1985-07-25 JP JP60163090A patent/JPH0650437B2/ja not_active Expired - Lifetime
-
1987
- 1987-10-27 SE SE8704178A patent/SE467429B/sv not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US4472832A (en) | 1984-09-18 |
FR2517452A1 (fr) | 1983-06-03 |
JPS6156400A (ja) | 1986-03-22 |
NL193037C (nl) | 1998-08-04 |
JPS6046440B2 (ja) | 1985-10-16 |
FR2517452B1 (fr) | 1986-05-02 |
CA1181854A (en) | 1985-01-29 |
SE8704178L (sv) | 1987-10-27 |
SE467429B (sv) | 1992-07-13 |
GB2110906B (en) | 1985-10-02 |
GB2110906A (en) | 1983-06-22 |
SE8704178D0 (sv) | 1987-10-27 |
NL8204641A (nl) | 1983-07-01 |
JPS58105300A (ja) | 1983-06-23 |
DE3244476A1 (de) | 1983-07-14 |
SE8206641D0 (sv) | 1982-11-22 |
NL193037B (nl) | 1998-04-01 |
JPH0650437B2 (ja) | 1994-06-29 |
SE456618B (sv) | 1988-10-17 |
SE8206641L (sv) | 1983-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3244476C2 (de) | ||
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE3242866C2 (de) | ||
EP0175752B1 (de) | Verbesserte einrichtung für lpc-sprachverarbeitung mit mehrimpulsanregung | |
DE69814517T2 (de) | Sprachkodierung | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE60219351T2 (de) | Signaländerungsverfahren zur effizienten kodierung von sprachsignalen | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE60225400T2 (de) | Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals | |
DE19647298C2 (de) | Kodiersystem | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE60201766T2 (de) | Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung | |
DE602004006211T2 (de) | Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem | |
DE69633944T2 (de) | Verfahren und gerät zum kodieren von digitalen daten | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE60034429T2 (de) | Verfahren und vorrichtung zur bestimmung von sprachkodierparametern | |
DE3019823C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN |