DE3244476C2 - - Google Patents

Info

Publication number
DE3244476C2
DE3244476C2 DE3244476A DE3244476A DE3244476C2 DE 3244476 C2 DE3244476 C2 DE 3244476C2 DE 3244476 A DE3244476 A DE 3244476A DE 3244476 A DE3244476 A DE 3244476A DE 3244476 C2 DE3244476 C2 DE 3244476C2
Authority
DE
Germany
Prior art keywords
signal
signals
generated
speech
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3244476A
Other languages
English (en)
Other versions
DE3244476A1 (de
Inventor
Bishnu Saroop Murray Hill N.J. Us Atal
Joel Richard Elizabeth N.J. Us Remde
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Technologies Inc filed Critical AT&T Technologies Inc
Publication of DE3244476A1 publication Critical patent/DE3244476A1/de
Application granted granted Critical
Publication of DE3244476C2 publication Critical patent/DE3244476C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Analogue/Digital Conversion (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Verarbeiten eines Sprachmusters nach dem Oberbegriff des Anspruchs 1.
Digital arbeitende Sprach-Nachrichtensysteme mit Sprachspeicher- und Sprachausgabeeinrichtungen setzen Signalkompression ein, um die zum Speichern und/oder Übertragen benötigte Bitrate zu verringern. Ein Sprachmuster enthält bekanntlich Redundanz, die für seine nach außen in Erscheinung tretende Qualität nicht entscheidend ist. Das Entfernen von redundanten Komponenten des Sprachmusters verringert die zum Zusammensetzen einer Kopie der Sprache benötigte Anzahl von Digitalcodes beträchtlich. Die subjektiv empfundene Qualität der Sprachkopie hängt jedoch von den Kompressions- und Codierungsmethoden ab.
Ein bekanntes digitales Sprachcodierungssystem, wie es z. B. in der US-PS 36 24 302 beschrieben ist, beinhaltet die lineare Voraussage- oder Prädiktoranalyse eines eingegebenen Sprachsignals. Das Sprachsignal wird in aufeinanderfolgende Intervalle aufgeteilt, und es wird ein für die Sprache in dem Intervall repräsentativer Satz von Parametern erzeugt. Der Parametersatz enthält lineare Prädiktorkoeffizientensignale, die kennzeichnend sind für die Spektralhüllkurve der Sprache in dem Intervall, sowie Tonhöhen- und Stimmhaftigkeitssignale, die der Spracherregung entsprechen. Diese Parametersignale können mit einer viel geringeren Bitrate codiert werden als die Sprachsignal-Wellenform selbst. Aus den Parametersignalcodes wird durch Synthese eine Kopie des eingegebenen Sprachsignals gebildet. Die Syntheseeinrichtung enthält im allgemeinen ein Modell oder eine Nachbildung des Mundhohlraums. In dem Modell werden die Erregungsimpulse in einem Allpol-Voraussagefilter durch die für die Spektralhüllkurve repräsentativen Prädiktorkoeffizienten modifiziert.
Die oben erläuterte tonhöhenerregte lineare Prädiktor- oder Voraussagecodierung ist äußerst wirksam. Die erzeugte Sprachkopie klingt jedoch synthetisch und ist häufig schwierig zu verstehen. Im allgemeinen resultiert die geringe Sprachqualität aus einem Mangel an Entsprechung zwischen Sprachmuster und dem verwendeten linearen Voraussagemodell. Fehler im Tonhöhencode oder Fehler bei der Bestimmung, ob das Sprachintervall stimmhaft oder stimmlos ist, bewirken, daß die Kopie der Sprache gestört oder unnatürlich klingt. Ähnliche Probleme ergeben sich auch bei der Formantcodierung von Sprache. Andere Codierungsanordnungen, bei denen die Spracherregung aus dem nach der Voraussage erhaltenen Rest erhalten wird, z. B. ADPCM oder APC, schaffen eine spürbare Verbesserung, da die Erregung nicht von einem ungenauen Modell abhängt. Bei diesen Systemen liegt die Erregungs-Bitrate jedoch wenigstens um eine Größenordnung höher als bei dem linearen Voraussagemodell. Versuche, die Erregungs- Bitrate in den Rest-Systemen zu senken, haben durchwegs zu einer wesentlichen Qualitätsverschlechterung geführt.
Die DE-OS 24 35 654 zeigt in Übereinstimmung mit dem Oberbegriff des Anspruchs 1 ein Verfahren zum Verarbeiten eines Sprachmusters, bei dem für jedes Intervall ein Satz von Digitalwerten zwischengespeichert wird, woraufhin die zwischengespeicherten Werte wiederholt mit einem künstlichen Sprachmuster verglichen werden, um anhand des Vergleichsergebnisses Sprach-Parameter zu gewinnen, die dem Sprachmuster in dem Intervall möglichst nahe kommen. Mit Hilfe eines "Pitch-Detektors" wird unterschieden zwischen stimmhaften und stimmlosen Sprachlauten. Bei stimmhaften Sprachlauten wird als künstliches Sprachsignal eine Folge von Einheitsimpulsen erzeugt, bei stimmlosen Sprachlauten wird als künstliches Sprachsignal weißes Rauschen erzeugt. Diese künstlichen Sprachmuster werden in einem Vokaltrakt-Modell unter Steuerung eines Parameterrechners in ein künstliches Vergleichs- Sprachmuster umgesetzt, welches mit dem Intervall-Sprachmuster verglichen wird.
Mit Hilfe eines rekursiven Verfahrens werden die von dem Vokaltrakt-Modell unter Steuerung des Parameterrechners erzeugten Sprach-Parameter so geändert, daß die beiden verglichenen Sprachsignale, also das (natürliche) Sprachsignal aus dem jeweiligen Intervall, und das künstlich gewonnene Sprachsignal möglichst gut übereinstimmen. Bei einem gewissen Grad an Übereinstimmung wird ein Befehlssignal erzeugt, aufgrund dessen die dann von dem Vokaltrakt-Modell erzeugten Sprach-Parameter als Erregungssignale zusammen mit einem Entscheidungssignal "stimmhaft/stimmlos" von einem Kodierer auf einen Übertragungskanal gegeben werden. Der Vergleich der natürlichen Sprachsignale mit den künstlichen Sprachsignalen beruht also auf einer Ja/Nein-Entscheidung bezüglich der Frage, ob die Sprachlaute stimmhaft oder stimmlos sind. Die mit solchen Verfahren gewonnenen Sprachmuster-Kopien haben die Eigenschaft, daß die Sprache relativ künstlich klingt, was wohl darauf zurückzuführen ist, daß die zu dem Vergleich mit dem natürlichen Sprachmuster herangezogenen Signale als einzige Information aus den ursprünglichen Sprachsignalen die Information "stimmhaft oder stimmlos" übernehmen. In der Praxis jedoch gibt es bei den meisten gesprochenen Wörtern keine deutlichen Grenzen zwischen den Gruppen "stimmlos" und "stimmhaft", sondern die Grenzen sind mehr oder weniger fließend.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Verarbeiten eines Sprachmusters zu schaffen, das eine Sprachmuster-Kopie zu liefern vermag, die der natürlichen Sprache sehr nahe kommt, indem Signale verarbeitet werden, die von dem ursprünglichen Signal abgeleitet sind.
Diese Aufgabe wird durch die im Anspruch 1 angegebene Erfindung gelöst.
Ein Grundgedanke der Erfindung ist demnach darin zu sehen, daß für den Vergleich, der eine möglichst genaue Annäherung des künstlichen Signals an das natürliche Signal feststellen und herbeiführen soll, Signale herangezogen werden, die beide von dem ursprünglichen Signal abgeleitet sind. Das erste Signal wird auf der Grundlage der Intervall-Sprachmustersignale und der Differenz-Signale für dieses Intervall erzeugt. Das zweite Signal wird auf der Grundlage der Intervall-Signale erzeugt. Demgemäß berücksichtigt das erfindungsgemäße Verfahren in stärkerer Weise als das bekannte Verfahren das tatsächlich zu kopierende Sprachmuster. Es erfolgt eine Verarbeitung des gesamten Sprachsignals, während bei dem bekannten Verfahren das dem Vergleich zugrunde gelegte künstliche Signal mit dem ursprünglichen Signal nur dadurch zusammenhängt, daß das ursprüngliche Signal hinsichtlich stimmlos/stimmhaft untersucht wird.
Im folgenden werden Ausführungsbeispiele der Erfindung anhand der Zeichnung näher erläutert. Es zeigt
Fig. 1 ein Blockdiagramm einer Sprachprozessorschaltung, mit deren Hilfe das erfindungsgemäße Verfahren durchgeführt werden kann,
Fig. 2 ein Blockdiagramm eines Prozessors zum Bilden eines Erregungssignals, der in der Schaltung nach Fig. 1 einsetzbar ist,
Fig. 3 ein Flußdiagramm, das die Arbeitsweise der Schaltung zum Bilden des Erregungssignals gemäß Fig. 1 veranschaulicht,
Fig. 4 und 5 Flußdiagramme, die die Arbeitsweise der in Fig. 1 gezeigten Schaltung veranschaulichen,
Fig. 6 ein Zeitdiagramm, welches die Arbeitsweise der Schaltung zum Bilden eines Erregungssignals, die in den Fig. 1 und 2 dargestellt ist, veranschaulicht, und
Fig. 7 Wellenzüge, die die Sprachverarbeitung nach der Erfindung veranschaulichen.
Gemäß Fig. 1 wird ein Sprachmuster, beispielsweise eine gesprochene Nachricht, von einem Mikrophon 101 empfangen. Das von diesem abgegebene analoge Sprachsignal wird in einer Filter- und Abtastschaltung 113 eines Voraussageanalysators 110 bandbegrenzt und in eine Folge von Impulsabtastwerten umgesetzt. Durch die Filterung können Frequenzanteile des Sprachsignals oberhalb von 4,0 kHz herausgefiltert werden, wobei die Abtastrate in bekannter Weise 8,0 kHz beträgt. Die zeitliche Steuerung der Abtastungen wird durch einen von einem Taktgeber 103 gelieferten Abtasttakt CL gesteuert. Jeder von der Schaltung 113 kommende Abtastwert wird in einem Analog/ Digital-Umsetzer 115 in einen Digitalcode umgesetzt, der kennzeichnend für die Amplitude des Abtastwertes ist.
Die Folge der Sprach-Abtastwerte gelangt an einen Prädiktorparameter-Rechner (LPC-Rechner) 119, der in bekannter Weise die Sprachsignale in 10 bis 20 ms lange Intervalle unterteilt und als Intervall-Signale einen Satz von linearen Prädiktorkoeffizientensignalen a k , k = 1, 2, . . ., p erzeugt, die kennzeichnend sind für das vorausgesagte Kurzzeitspektrum der N»p Sprachabtastwerte jedes Intervalls. Die von dem A/D-Umsetzer 115 kommenden Sprachabtastwerte werden in einer Verzögerungsschaltung 117 verzögert, um Zeit für die Bildung der Intervall-Signale a k zu schaffen. Die verzögerten Abtastwerte gelangen an den Eingang eines Voraussagerestgenerators 118. Der Voraussagerestgenerator spricht in an sich bekannter Weise auf die verzögerten Sprachabtastwerte und die Prädiktorparameter a k an, um ein der Differenz zwischen den beiden Signalen entsprechendes Unterschieds-Signal zu bilden. Die für jeden Rahmen in dem Voraussageanalysator 110 erfolgende Bildung der Prädiktor- oder Voraussageparameter sowie des Voraussagerestsignals kann z. B. mit der in der US-PS 37 40 476 beschriebenen Anordnung durchgeführt werden.
Während die Prädiktorparametersignale a k eine effiziente Darstellung des Kurzzeit-Sprachspektrums bilden, unterliegt das Restsignal im allgemeinen großen Schwankungen von Intervall zu Intervall und weist eine hohe Bitrate auf, die für viele Anwendungsfälle ungeeignet ist. In dem tonhöhenerregten Vocoder werden nur die Spitzen des Restsignals als Tonhöhenimpulscodes übertragen. Die sich hierbei ergebende Qualität ist im allgemeinen jedoch schlecht. Der Wellenzug 701 in Fig. 7 veranschaulicht ein typisches, sich über zwei Zeitrahmen erstreckendes Sprachmuster. Der Wellenzug 703 zeigt das Voraussagerestsignal, das von dem Muster des Wellenzugs 701 und den Prädiktorparametern der Rahmen abgeleitet ist. Wie man leicht sieht, ist der Wellenzug 703 relativ kompliziert, so daß den Spitzen entsprechende Codierungs-Tonhöhenimpulse keine angemessene Approximation des Voraussagerests schaffen. Erfindungsgemäß empfängt ein Erregungscodeprozessor 120 das Unterschieds- oder Restsignal d k und als Intervall-Signal die Prädiktorparameter a k des Rahmens und erzeugt einen Intervall- Erregungscode, der eine vorbestimmte Anzahl von Bitstellen hat. Der sich ergebende Erregungscode gemäß Wellenzug 705 weist eine relativ niedrige und konstante Bitrate auf. Der Wellenzug 707 zeigt eine Kopie des Sprachmusters des Wellenzugs 701, die aus dem Erregungscode und den Prädiktorparametern der Rahmen zusammengesetzt ist. Wie man anhand eines Vergleichs der Wellenzüge 701 und 702 sieht, wird bei viel niedrigeren Bitraten ein Sprachverlauf höherer Qualität durch die anpassende Voraussagecodierung erhalten.
Das Restsignal d k und die Prädiktorparametersignale a k jedes aufeinanderfolgenden Rahmens werden von der Schaltung 110 zu Beginn jedes aufeinanderfolgenden Rahmens an die zum Bilden eines Erregungssignals dienende Schaltung 120 gegeben. Die Schaltung 120 erzeugt ein mehrere Elemente enthaltenden Rahmen-Erregungscode EC mit einer vorbestimmten Anzahl von Bitstellen für jeden Rahmen. Jeder Erregungscode entspricht einer Folge von 1i I Impulsen, die kennzeichnend sind für die Erregungsfunktion des Rahmens. Die Amplitude β i und die Stelle m i jedes Impulses innerhalb des Rahmens wird in der zum Bilden des Erregungssignals dienenden Schaltung festgelegt, so daß das Zusammensetzen einer Kopie des Rahmen-Sprachsignals aus dem Erregungssignal und den Prädiktorparametersignalen des Rahmens möglich ist. In einem Codierer 131 werden die Signale β i und m i codiert und mit den Prädiktorparametersignalen des Rahmens in einem Multiplexer 135 einer Multiplexbildung unterworfen, um ein dem Rahmen-Sprachmuster entsprechendes digitales Signal zu erhalten.
In der zum Bilden des Erregungssignals dienenden Schaltung 120 werden das Unterschieds- oder Restsignal d k und die Intervall- oder Prädiktorparametersignale a k eines Rahmens über Verknüpfungsglieder 122 bzw. 124 an ein Filter 121 gelegt. Zu Beginn jedes Rahmens öffnet ein Rahmentaktsignal FC die Gatter 122 und 124, wodurch die Signale d k an das Filter 121 und die Signale a k an die Filter 121 und 123 gelangen. Das Filter 121 ist derart ausgebildet, daß es das Signal d k so modifiziert, daß das Quantisierungsspektrum des Fehlersignals in dessen Formantbereichen konzentriert wird. Wie in der US-PS 41 33 976 beschrieben ist, bewirkt diese Filteranordnung, daß der Fehler in den Signalbereichen hoher Energie des Spektrums maskiert wird.
Die Übertragungsfunktion des Filters 121 ist in der Schreibweise der z-Transformation:
wobei B(z) durch die Rahmen-Prädiktorparameter a k gesteuert wird.
Das Voraussagefilter 123 empfängt vom Rechner 119 die Rahmen-Prädiktorparametersignale a k und von dem Erregungssignalprozessor 127 ein künstliches Erregungssignal EC. Das Filter 123 hat eine Übertragungsfunktion gemäß Gleichung (1). Das Filter 121 bildet ansprechend auf das Unterschieds-Signal d k ein gewichtetes Rahmen- Sprachsignal (erstes Signal) y, während das Filter 123 ansprechend auf das von dem Signalprozessor 127 kommende Erregungssignal ein gewichtetes künstliches Sprachsignal (zweites Signal) erzeugt. Die Signale y und werden in einem Korrelationsprozessor 125 korreliert, wobei der Korrelationsprozessor 125 ein der gewichteten Differenz zwischen den Signalen entsprechendes Differenzsignal E erzeugt. Das Signal E wird an den Signalprozessor 127 gelegt, um das Erregungssignal EC so einzustellen, daß die Differenzen zwischen dem vom Filter 121 kommenden, für die gewichtete Sprache repräsentativen Signal und dem vom Filter 123 kommenden, für die gewichtete künstliche Sprache repräsentativen Signal verringert werden.
Das Erregungssignal ist eine Folge von 1i I Impulsen. Jeder Impuls besitzt eine Amplitude b i und eine Stelle m i . Der Prozessor 127 bildet sukzessiv die Signale β i , m i , die die Differenzen zwischen dem gewichteten Rahmen- Sprachsignal vom Filter 121 und dem gewichteten Rahmen- Kunstsprachsignal vom Filter 123 verringern. Das gewichtete Rahmen-Sprachsignal beträgt
und das gewichtete Kunstsprache-Signal des Rahmens beträgt
wobei h n die Impulsantwort des Filters 121 oder des Filters 123 ist.
Das in der Schaltung 120 gebildete Erregungssignal ist ein codiertes Signal mit den Elementen β i , m i , i = 1, 2, . . ., I. Jedes Element stellt einen Impuls in dem Zeitrahmen dar. β i ist die Amplitude des Impulses und m i ist die Stelle des Impulses innerhalb des Rahmens. Der Korrelationssignalgenerator 125 erzeugt sukzessive ein Korrelationssignal für jedes Element. Jedes Element kann zu einer Zeit 1q Q innerhalb des Zeitrahmens angeordnet sein. Folglich bildet der Korrelationsprozessor Q mögliche Kandidaten für das Element i nach Maßgabe der Gleichung (4):
wobei
Der Erregungssignalgenerator 127 empfängt die Signale C iq von dem Korrelationssignalgenerator, wählt dasjenige Signal C iq aus, das den größten Absolutwert aufweist, und bildet das i-te Element des codierten Signals.
wobei q* die Stelle desjenigen Korrelationssignals ist, das den größten Absolutwert aufweist. Der Index i wird auf i+1 erhöht, und das Signal n am Ausgang des Voraussagefilters 123 wird modifiziert. Die Verarbeitung entsprechend den Gleichungen (4), (5) und (6) wird wiederholt, um das Element β i+1, m i+1 zu bilden. Nach der Bildung des Elements β I , m I wird das Signal mit den Elementen b₁, m₁, β₂, m₂, . . ., β i , m₁ zum Codierer 131 übertragen. In an sich bekannter Weise quantisiert der Codierer 131 die Elemente β i m i und bildet ein codiertes Signal, das sich für die Übertragung zu einem Verbindungsnetz 140 eignet.
Jedes der Filter 121 und 123 in Fig. 1 kann ein Transversalfilter von dem Typ sein, wie er in der US-PS 41 33 976 beschrieben ist. Jeder der Prozessoren 125 und 127 kann eine der an sich bekannten Prozessoranordnungen sein, die sich zum Berechnen der Gleichungen (4) und (6) eignen, beispielsweise kann es sich um das C.S.P., Inc. Macro Arithmetic Processor System 100 oder eine andere bekannte Prozessoranordnung handeln. Der Prozessor 125 enthält einen Festspeicher, der permanent Programmbefehle zum Steuern der Bildung der Signale C iq nach Maßgabe der Gleichung (4) speichert. Der Prozessor 127 enthält einen Festspeicher, der dauernd Programmbefehle zum Auswählen der Signalelemente β i , m i nach Gleichung (6) speichert, wie es an sich bekannt ist.
Fig. 3 zeigt ein Flußdiagramm, welches die Arbeitsweise der Prozessoren 125 und 127 für jeden Zeitrahmen veranschaulicht. Gemäß Fig. 3 werden in dem Kästchen 305 die Impulsantwortsignale h k ansprechend auf die Rahmen-Prädiktorparameter für die Übertragungsfunktion nach Gleichung (1) erzeugt. Dies geschieht nach Empfang des Signals FC vom Taktgeber 103 in Fig. 1, was durch das Wartekästchen 303 angedeutet ist. In dem Kästchen 307 werden der Elementindex i und der Erregungsimpuls-Stellenindex q auf 1 voreingestellt (initialisiert). Nach Erhalt der Signale y n und n, i-1 von den Voraussagefiltern 121 bzw. 123 wird gemäß Kästchen 309 das Signal C iq gebildet. Der Stellenindex q wird im Kästchen 311 erhöht, und es erfolgt die Bildung der nächsten Stelle C iq .
Nachdem für das Erregungssignalelement i im Prozessor 125 das Signal C iQ gebildet ist, wird der Prozessor 127 aktiviert. Der Index q wird in dem Prozessor 127 gemäß Kästchen 315 zu Beginn auf 1 eingestellt, während der Index i sowie die Signale C iq , die in dem Prozessor 125 gebildet wurden, zum Prozessor 127 übertragen werden. Das Signal C iq *, das das Signal C iq mit dem größten Absolutwert darstellt, wird ebenso wie dessen Stelle q* im Kästchen 317 auf Null eingestellt. Die Absolutwerte der Signale C iq werden mit dem Signal C iq * verglichen, und der größte dieser Absolutwerte wird als Signal C iq * in der die Kästchen 319, 321, 323 und 325 umfassenden Schleife gespeichert.
Nachdem das Signal C iQ vom Prozessor 125 verarbeitet ist, wird vom Kästchen 325 aus das Kästchen 327 betreten. Die Stelle m i des Erregungscodeelements wird auf q* eingestellt, und die Amplitude β i des Erregungscodeelements wird nach Maßgabe der Gleichung (6) erzeugt. Das Element β i m i wird gemäß Kästchen 328 an das Voraussagefilter 123 gegeben, und im Kästchen 329 wird der Index i erhöht. Nach Bildung des Elements β I m I des Rahmens wird von dem Entscheidungskästchen 331 aus erneut das Wartekästchen 303 betreten.
Die Prozessoren 125 und 127 gelangen dann bis zu dem Rahmentaktimpuls FC des nächsten Rahmens in den Wartezustand.
Der Erregungscode in dem Prozessor 127 gelangt außerdem an den Codierer 131. Der Codierer setzt den vom Prozessor 127 kommenden Erregungscode in eine zur Verwendung in dem Netzwerk 140 geeignete Form um. Die Prädiktorparametersignale a k für den Rahmen werden über eine Verzögerungsschaltung 133 an einen Eingang des Multiplexers 135 gelegt. Das vom Codierer 131 kommende Erregungscodesignal EC gelangt an den anderen Eingang des Multiplexers. Die im Multiplexbetrieb verarbeiteten Erregungs- und Prädiktorparametercodes für den Rahmen werden dann zum Netzwerk 140 gesendet.
Bei dem Netzwerk 140 kann es sich um ein Nachrichtensystem, den Nachrichtenspeicher einer Sprachspeicheranordnung oder um eine Vorrichtung handeln, die zum Speichern einer vollständigen Nachricht oder des Vokabulars vorgeschriebener Nachrichteneinheiten, z. B. von Worten, Phonemen usw. dient, die in Sprachsynthesevorrichtungen eingesetzt werden. Unabhängig davon, um welche Nachrichteneinheit es sich handelt, wird die von der Schaltung 120 kommende Folge von Rahmencodes über das Netzwerk 140 zu der Sprachsynthesevorrichtung 150 übertragen. Die Synthesevorrichtung verwendet ihrerseits die von der Schaltung 120 kommenden Rahmen-Erregungscodes sowie die Rahmen-Prädiktorparametercodes, um eine Kopie des Sprachmusters zusammenzusetzen.
Ein in der Synthesevorrichtung 150 enthaltener Demultiplexer 152 separiert den Erregungscode EC eines Rahmens von dessen Prädiktorparametern a k . Nachdem der Erregungscode in einem Decoder 153 in eine Folge von Erregungsimpulsen decodiert ist, wird er an den Erregungseingang eines Sprachsynthesefilters 154 gegeben. An die Parametereingänge des Filters 154 werden die a k -Codes gegeben. Das Filter 154 bildet in Abhängigkeit der Erregungssignale und der Prädiktorparametersignale eine codierte Kopie des Rahmen-Sprachsignals, wie es an sich bekannt ist. Ein D/A-Umsetzer 156 setzt die codierte Kopie in ein Analogsignal um, das über ein Tiefpaßfilter 158 gegeben und von einem Wandler 160 in ein Sprachmuster umgewandelt wird.
Eine alternative Anordnung zum Bilden des Erregungscodes in der Schaltung 120 kann auf dem gewichteten mittleren Fehlerquadrat zwischen den Signalen y n und n beruhen. Nach Bildung der Werte β i und m i für den i-ten Erregungssignalimpuls beträgt dieses gewichtete mittlere Fehlerquadrat
wobei h n die n-te Abtastung der Impulsantwort von H(z), m j die Stelle des j-ten Impulses des Erregungscodesignals und β j die Amplitude des j-ten Impulses ist.
Die Impulsstelle und die Impulsamplitude werden sequentiell erzeugt. Das i-te Element der Erregung bestimmt sich durch die Minimierung von E i in Gleichung (7). Die Gleichung (7) kann man umschreiben zu
so daß die β i , m i vorausgehenden bekannten Erregungscodeelemente nur in dem ersten Term auftreten.
Wie bekannt ist, kann der den Wert E i minimierende Wert von β i durch Differenzieren der Gleichung (8) nach b i und Setzen von
erhalten werden. Folglich beträgt der optimale Wert für β i
wobei
die Autokorrelationskoeffizienten des Impulsantwortsignals h k des Voraussagefilters sind.
β i in Gleichung (10) ist eine Funktion der Impulsstelle und wird für jeden möglichen Wert bestimmt. Dann wird der größte der β i -Werte an den in Frage kommenden Impulsstellen ausgewählt. Nach dem Erhalt der Werte β i und m i werden die Werte β i+1, m i+1 erzeugt, indem die Gleichung (10) in ähnlicher Weise gelöst wird. Der erste Term der Gleichung (10), d. h.
entspricht dem für die Sprache repräsentativen Signal des Rahmens am Ausgang des Voraussagefilters 121. Der zweite Term in Gleichung (10), d. h.
entspricht dem für die künstliche Sprache repräsentativen Signal des Rahmens am Ausgang des Voraussagefilters 123. β i ist die Amplitude eines Erregungsimpulses an der Stelle m i , der die Differenz zwischen dem ersten und dem zweiten Term minimiert.
Die in Fig. 2 dargestellte Datenverarbeitungsschaltung stellt eine alternative Anordnung bezüglich der in Fig. 1 dargestellten Schaltung 120 zum Bilden des Erregungssignals dar. Die Schaltung nach Fig. 2 liefert ansprechend auf das Rahmen-Voraussagerestsignal d k und die Rahmen-Prädiktorparametersignale a k nach Maßgabe der Gleichung (10) den Erregungscode für jeden Rahmen des Sprachmusters, und sie kann das oben erwähnte C.S.P., Inc. Macro Arithmetic Processor System 100 oder eine andere bekannte Prozessoranordnung enthalten.
Gemäß Fig. 2 empfängt der Prozessor 210 die Prädiktorparametersignale a k und die Voraussagerestsignale d n für jeden aufeinanderfolgenden Rahmen des Sprachmusters von der Schaltung 110 über den Speicher 218. Der Prozessor bildet die Erregungscode-Signalelemente bm₁, βm₂, . . ., β I m I unter Steuerung von Befehlen, die dauernd in einem Festspeicher für ein Voraussagefilter-Unterprogramm und einem Festspeicher 205 für ein Unterprogramm zur Erregungsverarbeitung gespeichert sind.
Der Prozessor 210 enthält einen gemeinsamen Bus 225, einen Datenspeicher 230, einen Zentralprozessor 240, eine Steuerungsschnittstelle 220, und eine Eingabe/ Ausgabe-(E/A-)Schnittstelle 260. In an sich bekannter Weise steuert der Zentralprozessor 240 die Arbeitsabfolge der anderen Einheiten des Prozessors 210 in Abhängigkeit von von der Steuerung 215 kommenden codierten Befehlen. Der Arithmetikprozessor 250 führt die arithmetischen Rechnungen der von dem Datenspeicher 230 kommenden codierten Signale in Abhängigkeit von vom Zentralprozessor 240 kommenden Steuersignalen durch. Der Datenspeicher 230 speichert nach Anweisung des Zentralprozessors 240 Signale und liefert diese Signale an den Arithmetikprozessor 250 und an die E/A-Schnittstelle 260. Die Steuerungsschnittstelle 220 bildet eine Nachrichtenverbindung für die Programmbefehle im ROM 201 und im ROM 205 mit dem Zentralprozessor 240 über die Steuerung 215, und die E/A-Schnittstelle 260 ermöglicht es, daß die Signale d k und a k in den Datenspeicher 230 gelangen, und sie gibt die Ausgangssignale β i und m i von dem Datenspeicher an den Codierer 131 in Fig. 1.
Die Arbeitsweise der Schaltung nach Fig. 2 ist in dem in Fig. 4 dargestellten Flußdiagramm für die Filterparameterverarbeitung, in dem in Fig. 5 gezeigten Flußdiagramm für die Erregungscodeverarbeitung und in dem in Fig. 6 gezeigten Zeitdiagramm veranschaulicht. Beim Start des Sprachsignals wird das Kästchen 410 in Fig. 4 über das Kästchen 405 betreten, und der Rahmenzähler r wird durch einen vom Taktgeber 103 kommenden einzelnen Impuls ST auf den ersten Rahmen eingestellt. Fig. 6 zeigt die Arbeitsweise der Schaltung nach Fig. 1 und 2 für zwei aufeinanderfolgende Rahmen. Zwischen den Zeitpunkten t₀ und t₇ in dem ersten Rahmen bildet der Voraussageanalysator 110 die Sprachmusterabtastungen des Rahmens r+2 gemäß Wellenform 605 unter Steuerung der Abtasttaktimpulse des Wellenzugs 601. Der Analysator 110 erzeugt die Signale a k entsprechend dem Rahmen r+1 zwischen den Zeitpunkten t₀ und t₃, und er bildet zwischen den Zeitpunkten t₃ und t₆ das Restsignal d k , wie es durch den Wellenzug 607 angedeutet ist. Zwischen den Zeitpunkten t₀ und t₁ tritt das Signal FC (Wellenform 603) auf. Die Signale d k von dem Restsignalgenerator 118, die zuvor während des vorausgehenden Rahmens im Speicher 218 gespeichert wurden, werden über die E/A- Schnittstelle 260 und den gemeinsamen Bus 225 unter Steuerung des Zentralprozessors 240 in den Datenspeicher 230 gegeben. Wie in Fig. 4 durch das Kästchen 415 angedeutet ist, erfolgen diese Tätigkeiten in Abhängigkeit des Rahmentaktsignals FC. Die Rahmen- Prädiktorparametersignale a k von dem Prädiktorparameterrechner 119, die zuvor während des vorausgehenden Rahmens im Speicher 218 gespeichert wurden, werden ebenfalls in den Speicher 230 eingegeben, wie durch das Kästchen 420 angedeutet ist. Diese Arbeitsschritte erfolgen zwischen den Zeitpunkten t₀ und t₁ in Fig. 6.
Nachdem die Signale d k und a k in den Speicher 230 eingegeben sind, werden die Voraussagefilterkoeffizienten b k entsprechend der Übertragungsfunktion der Gleichung (1)
in dem Arithmetikprozessor 250 erzeugt und in den Datenspeicher 230 eingegeben. Bei einer Abtastrate von 8 kHz beträgt p typischerweise 16 und α typischerweise 0,85. Dann werden in dem Arithmetikprozessor 250 die Voraussagefilter- Impulsantwortsignale h k
berechnet und in dem Datenspeicher 230 gespeichert. Wenn das Impulsantwortsignal h k gespeichert ist, werden die Voraussagefilter- Autokorrelationssignale gemäß Gleichung (11) erzeugt und gespeichert.
Im Zeitpunkt t₂ in Fig. 6 trennt die Steuerung 215 das ROM 201 von der Schnittstelle 220 und verbindet das ROM 205, das das Unterprogramm für die Erregungsverarbeitung speichert, mit der Schnittstelle. Dann wird die Bildung der Erregungsimpulscodes β i , m i eingeleitet, wie aus dem Flußdiagramm nach Fig. 5 hervorgeht. Zwischen den Zeitpunkten t₂ und t₄ in Fig. 6 wird die Folge der Erregungsimpulse gebildet. Am Anfang wird der Erregungsimpulsindex i auf 1 eingestellt, während der Impulsstellenindex q auf 1 eingestellt wird (Kästchen 505). β₁ wird im Kästchen 510 auf Null eingestellt, und es wird im Kästchen 515 β iq = β₁₁ bestimmt. β₁₁ ist der optimale Erregungsimpuls an der Stelle q=1 des Rahmens. Dann wird der Absolutwert von β₁₁ mit dem zuvor gespeicherten Wert β₁ im Entscheidungskästchen 520 verglichen. Da β₁ zu Beginn den Wert Null hat, wird der Code m i auf q=1 eingestellt, und der Code β i wird auf β₁₁ eingestellt (Kästchen 525).
Dann wird im Kästchen 530 der Stellenindex q erhöht, und es wird über das Entscheidungskästchen 535 das Kästchen 515 betreten, um das Signal β₁₂ zu erzeugen. Für sämtliche Impulsstellenwerte 1q Q wird die die Kästchen 515, 520, 525, 530 und 535 umfassende Schleife wiederholt durchlaufen. Nach der Q-ten Iteration sind die erste Erregungsimpulsamplitude β₁ = β iq* und die zugehörige Stelle m₁ = q* in dem Speicher 230 gespeichert. Auf diese Weise wird der erste der I Erregungsimpulse bestimmt. Gemäß dem in Fig. 7 gezeigten Wellenzug 705 tritt der Rahmen r zwischen den Zeitpunkten t₀ und t₁ auf. Der Erregungscode für den Rahmen besteht aus acht Impulsen. Der erste Impuls mit der Amplitude β₁ und der Stelle m₁ tritt im Zeitpunkt t m1 in Fig. 7 auf, wie es für den Index i=1 gemäß dem in Fig. 5 gezeigten Flußdiagramm bestimmt wird.
In dem Kästchen 545 wird der Index i auf den nachfolgenden Erregungsimpuls erhöht, und über die Kästchen 550 und 510 wird das Tätigkeitskästchen 515 betreten. Nach Abschluß jeder Iteration der Schleife zwischen den Kästchen 510 und 550 wird das Erregungssignal modifiziert, um das Signal gemäß Gleichung (7) weiter zu verringern. Nach Abschluß der zweiten Iteration wird der Impuls βm₂ (Zeitpunkt t m2 im Wellenzug 705) gebildet. Dann werden sukzessive mit dem Erhöhen des Index i die Erregungsimpulse βm₃ (Zeitpunkt t m3), βm₄ (Zeitpunkt t m4), βm₅ (Zeitpunkt t m5), βm₆ (Zeitpunkt t m6), βm₇ (Zeitpunkt t m7) und bm₈ (Zeitpunkt t m8) gebildet.
Nach der I-ten Iteration (Wellenzug 609 bei t₄) wird vom Entscheidungskästchen 550 aus das Kästchen 555 betreten, und dort wird der laufende Rahmen-Erregungscode βm₁, βm₂, . . ., b I m I erzeugt. In dem Kästchen 560 wird der Rahmenindex erhöht, und im Zeitpunkt t₇ gemäß Fig. 6 werden im Kästchen 415 die Voraussagefilter- Verarbeitungsschritte gemäß Fig. 4 für den nächsten Rahmen durchgeführt. Nach dem Auftreten des Taktsignals FC für den nächsten Rahmen im Zeitpunkt t₇ in Fig. 6 werden die Prädiktorparametersignale für den Rahmen r+3 gebildet (Wellenzug 605 zwischen den Zeitpunkten t₇ und t₁₄), es werden für den Rahmen r+2 die Signale a k und d k gebildet (Wellenzug 607 zwischen den Zeitpunkten t₇ und t₁₃), und es wird für den Rahmen r+1 der Erregungscode gebildet (Wellenzug 609 zwischen den Zeitpunkten t₇ und t₁₂).
Von dem Prozessor nach Fig. 2 wird über die E/A- Schnittstelle 260 der Rahmen-Erregungscode an den in Fig. 1 gezeigten Codierer 131 gegeben. Der Codierer 131 arbeitet in der oben geschilderten Weise, indem er den Erregungscode zur Beaufschlagung des Netzwerks 140 quantisiert und formatiert. Die Prädiktorparametersignale a k des Rahmens gelangen über die Verzögerungsschaltung 133 an den einen Eingang des Multiplexers 135, so daß der Rahmen-Erregungscode vom Codierer 131 mit ihnen in geeigneter Weise gemultiplext wird.
Bei den hier beschriebenen Ausführungsbeispielen werden lineare Prädiktorparameter und ein Prädiktor- oder Voraussagerest verwendet. Die linearen Prädiktorparameter können durch Formantparameter oder andere bekannte Sprachparameter ersetzt werden. Die Voraussagefilter können dann so angeordnet sein, daß sie auf die verwendeten Sprachparameter und das Sprachsignal ansprechen, so daß das in der Schaltung 120 nach Fig. 1 gebildete Erregungssignal in Kombination mit den Sprachparametersignalen dazu verwendet wird, eine Kopie des Sprachmusters zusammenzusetzen.

Claims (11)

1. Verfahren zum Verarbeiten eines Sprachmusters, bei dem
  • - das Sprachmuster in aufeinanderfolgende Zeitintervalle unterteilt wird,
  • - ein Satz von Intervall-Signalen (a k ) erzeugt wird, die repräsentativ sind für das Sprachmuster in jedem Intervall,
  • - ein Unterschieds-Signal (d k ) erzeugt wird, das repräsentativ ist für die Unterschiede zwischen dem Sprachmuster und den Intervall-Signalen, und
  • - ein Erregungssignal erzeugt wird, das für die Erregung des Intervall-Sprachmusters repräsentativ ist,
dadurch gekennzeichnet, daß zum Erzeugen des Erregungssignals
  • - ansprechend auf die Intervall-Signale (a k ) und die Unterschieds-Signale (d k ) ein erstes Signal (y) erzeugt wird,
  • - ansprechend auf die Intervall-Signale (a k ) ein zweites Signal () erzeugt wird,
  • - ein Differenz-Signal erzeugt wird, das der Differenz zwischen dem ersten Signal und dem zweiten Signal entspricht, und
  • - das Erregungs-Signal (EC) dadurch gewonnen wird, daß das zweite Signal geändert wird, um das Differenz-Signal zu reduzieren.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Satz von Intervall-Signalen (a k ) dadurch erzeugt wird, daß ein Satz von Intervall-Sprachparametersignalen erzeugt wird, daß das erste Signal (y) ansprechend auf die Intervall-Sprachparametersignale und die Unterschieds- Signale (d k ) erzeugt wird, und daß das zweite Signal () ansprechend auf die Intervall-Sprachparametersignale erzeugt wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Intervall-Sprachparametersignale erzeugt werden, indem ein Satz von Intervall-Sprachspektrum-Signalen erzeugt wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Erregungssignal (EC) erzeugt wird, indem ein codiertes Signal mit mindestens einem Element ansprechend auf das Unterschieds-Signal erzeugt wird und das zweite Signal ansprechend auf das Element des codierten Signals modifiziert wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das codierte Signal dadurch erzeugt wird, daß ansprechend auf das Unterschieds-Signal (d k ) mit einer bestimmten Häufigkeit ein codiertes Signalelement erzeugt wird, und daß das zweite Signal ansprechend auf die codierten Signalelemente modifiziert wird.
6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Differenzsignal dadurch erzeugt wird, daß ein der Korrelation des ersten und des zweiten Signals (y, ) entsprechendes Signal erzeugt wird.
7. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Differenz-Signal dadurch erzeugt wird, daß ein Signal erzeugt wird, welches kennzeichnend ist für das mittlere Differenzquadrat zwischen dem ersten und dem zweiten Signal.
8. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das codierte Signal und die Intervall-Sprachparametersignale kombiniert werden, um ein für das Sprachmuster repräsentatives codiertes Signal zu erzeugen.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß jedes Code-Element ein für die Element-Amplitude (β i ) und ein für die Element-Lage (m i ) innerhalb des Intervalls repräsentatives Signal aufweist, und daß das Kombinieren der Signale zur Erzeugung eines codierten Signals darin besteht, daß die Signale für die Element-Amplitude und die Element-Lage kombiniert werden, um eine Folge von Impulsen zu erzeugen, die repräsentativ ist für das Erregungssignal des Zeitintervalls.
10. Verfahren nach einem der Ansprüche 2 bis 9, dadurch gekennzeichnet, daß die Sprachparametersignale Prädiktorparametersignale (a k ) sind und das Unterschieds-Signal ein Voraussage-Restsignal (d k ) ist.
DE19823244476 1981-12-01 1982-12-01 Digitaler sprachprozessor Granted DE3244476A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/326,371 US4472832A (en) 1981-12-01 1981-12-01 Digital speech coder

Publications (2)

Publication Number Publication Date
DE3244476A1 DE3244476A1 (de) 1983-07-14
DE3244476C2 true DE3244476C2 (de) 1988-01-21

Family

ID=23271926

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823244476 Granted DE3244476A1 (de) 1981-12-01 1982-12-01 Digitaler sprachprozessor

Country Status (8)

Country Link
US (1) US4472832A (de)
JP (2) JPS6046440B2 (de)
CA (1) CA1181854A (de)
DE (1) DE3244476A1 (de)
FR (1) FR2517452B1 (de)
GB (1) GB2110906B (de)
NL (1) NL193037C (de)
SE (2) SE456618B (de)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59153346A (ja) * 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
EP0119033B1 (de) * 1983-03-11 1987-04-15 Prutec Limited Sprachcodiereinrichtung
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US4638451A (en) * 1983-05-03 1987-01-20 Texas Instruments Incorporated Microprocessor system with programmable interface
CA1219079A (en) * 1983-06-27 1987-03-10 Tetsu Taguchi Multi-pulse type vocoder
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
CA1236922A (en) * 1983-11-30 1988-05-17 Paul Mermelstein Method and apparatus for coding digital signals
CA1223365A (en) * 1984-02-02 1987-06-23 Shigeru Ono Method and apparatus for speech coding
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
EP0163829B1 (de) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Sprachsignaleverarbeitungssystem
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement
JPS60239798A (ja) * 1984-05-14 1985-11-28 日本電気株式会社 音声信号符号化/復号化装置
US4872202A (en) * 1984-09-14 1989-10-03 Motorola, Inc. ASCII LPC-10 conversion
EP0186196B1 (de) * 1984-12-25 1991-07-17 Nec Corporation Verfahren und Vorrichtung zur Kodierung/Dekodierung eines Bildsignals
US4675863A (en) 1985-03-20 1987-06-23 International Mobile Machines Corp. Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels
FR2579356B1 (fr) * 1985-03-22 1987-05-07 Cit Alcatel Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
US4944013A (en) * 1985-04-03 1990-07-24 British Telecommunications Public Limited Company Multi-pulse speech coder
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
US4890328A (en) * 1985-08-28 1989-12-26 American Telephone And Telegraph Company Voice synthesis utilizing multi-level filter excitation
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
USRE34247E (en) * 1985-12-26 1993-05-11 At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4935963A (en) * 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
CA1323934C (en) * 1986-04-15 1993-11-02 Tetsu Taguchi Speech processing apparatus
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US5285520A (en) * 1988-03-02 1994-02-08 Kokusai Denshin Denwa Kabushiki Kaisha Predictive coding apparatus
JP2625998B2 (ja) * 1988-12-09 1997-07-02 沖電気工業株式会社 特徴抽出方式
SE463691B (sv) * 1989-05-11 1991-01-07 Ericsson Telefon Ab L M Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
US5263119A (en) * 1989-06-29 1993-11-16 Fujitsu Limited Gain-shape vector quantization method and apparatus
JPH0365822A (ja) * 1989-08-04 1991-03-20 Fujitsu Ltd ベクトル量子化符号器及びベクトル量子化復号器
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
SE467806B (sv) * 1991-01-14 1992-09-14 Ericsson Telefon Ab L M Metod att kvantisera linjespektralfrekvenser (lsf) vid beraekning av parametrar foer ett analysfilter ingaaende i en talkodare
US5301274A (en) * 1991-08-19 1994-04-05 Multi-Tech Systems, Inc. Method and apparatus for automatic balancing of modem resources
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
US5546383A (en) 1993-09-30 1996-08-13 Cooley; David M. Modularly clustered radiotelephone system
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
SE508788C2 (sv) * 1995-04-12 1998-11-02 Ericsson Telefon Ab L M Förfarande att bestämma positionerna inom en talram för excitationspulser
JP3137176B2 (ja) * 1995-12-06 2001-02-19 日本電気株式会社 音声符号化装置
DE19643900C1 (de) * 1996-10-30 1998-02-12 Ericsson Telefon Ab L M Nachfiltern von Hörsignalen, speziell von Sprachsignalen
US5839098A (en) 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US7392180B1 (en) 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US6516207B1 (en) * 1999-12-07 2003-02-04 Nortel Networks Limited Method and apparatus for performing text to speech synthesis
US7295614B1 (en) 2000-09-08 2007-11-13 Cisco Technology, Inc. Methods and apparatus for encoding a video signal
JP4209257B2 (ja) 2003-05-29 2009-01-14 三菱重工業株式会社 分散型コントローラとその動作方法、及び、分散型コントローラを備えるフォークリフト
EP2595146A1 (de) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Verfahren und Vorrichtung zur Untersuchung der Verständlichkeit eines verrauschten Sprachsignals

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3346695A (en) * 1963-05-07 1967-10-10 Gunnar Fant Vocoder system
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
DE2435654C2 (de) * 1974-07-24 1983-11-17 Gretag AG, 8105 Regensdorf, Zürich Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
JPS5246642A (en) * 1975-10-09 1977-04-13 Mitsubishi Metal Corp Swimming pool
JPS5343403A (en) * 1976-10-01 1978-04-19 Kokusai Denshin Denwa Co Ltd System for analysing and synthesizing voice
US4130729A (en) * 1977-09-19 1978-12-19 Scitronix Corporation Compressed speech system
US4133976A (en) * 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
JPS5648690A (en) * 1979-09-28 1981-05-01 Hitachi Ltd Sound synthesizer

Also Published As

Publication number Publication date
US4472832A (en) 1984-09-18
FR2517452A1 (fr) 1983-06-03
JPS6156400A (ja) 1986-03-22
NL193037C (nl) 1998-08-04
JPS6046440B2 (ja) 1985-10-16
FR2517452B1 (fr) 1986-05-02
CA1181854A (en) 1985-01-29
SE8704178L (sv) 1987-10-27
SE467429B (sv) 1992-07-13
GB2110906B (en) 1985-10-02
GB2110906A (en) 1983-06-22
SE8704178D0 (sv) 1987-10-27
NL8204641A (nl) 1983-07-01
JPS58105300A (ja) 1983-06-23
DE3244476A1 (de) 1983-07-14
SE8206641D0 (sv) 1982-11-22
NL193037B (nl) 1998-04-01
JPH0650437B2 (ja) 1994-06-29
SE456618B (sv) 1988-10-17
SE8206641L (sv) 1983-06-02

Similar Documents

Publication Publication Date Title
DE3244476C2 (de)
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE3242866C2 (de)
EP0175752B1 (de) Verbesserte einrichtung für lpc-sprachverarbeitung mit mehrimpulsanregung
DE69814517T2 (de) Sprachkodierung
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE60225400T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals
DE19647298C2 (de) Kodiersystem
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69633944T2 (de) Verfahren und gerät zum kodieren von digitalen daten
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE60034429T2 (de) Verfahren und vorrichtung zur bestimmung von sprachkodierparametern
DE3019823C2 (de)

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US

D2 Grant after examination
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: BLUMBACH, KRAMER & PARTNER, 65193 WIESBADEN