DE69521272T2 - Wiederherstellung einer Folge von Sprachkode-Parametern mittels Klassifizierung und eines Verzeichnisses der Parameterverläufe - Google Patents

Wiederherstellung einer Folge von Sprachkode-Parametern mittels Klassifizierung und eines Verzeichnisses der Parameterverläufe

Info

Publication number
DE69521272T2
DE69521272T2 DE69521272T DE69521272T DE69521272T2 DE 69521272 T2 DE69521272 T2 DE 69521272T2 DE 69521272 T DE69521272 T DE 69521272T DE 69521272 T DE69521272 T DE 69521272T DE 69521272 T2 DE69521272 T2 DE 69521272T2
Authority
DE
Germany
Prior art keywords
parameter
parameter value
value signals
encoded
predetermined parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69521272T
Other languages
English (en)
Other versions
DE69521272D1 (de
Inventor
Jesper Haagen
Willem Bastiaan Kleijn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69521272D1 publication Critical patent/DE69521272D1/de
Application granted granted Critical
Publication of DE69521272T2 publication Critical patent/DE69521272T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    Technisches Gebiet
  • Die vorliegende Erfindung betrifft allgemein Sprachcodierungssysteme und insbesondere die Parameterquantisierung in Sprachcodierungssystemen.
  • Allgemeiner Stand der Technik
  • Sprachcodierungssysteme wirken zur Bereitstellung von Codewortdarstellungen von Sprachsignalen zur Übermittlung zu einem oder mehreren Systemempfängern über einen Kanal oder ein Netz. Jeder Systemempfänger rekonstruiert Sprachsignale aus empfangenen Codewörtern. Die von einem System in einer gegebenen Zeitspanne übermittelte Menge von Codewortinformationen definiert die Systembandbreite und beeinflußt die Qualität der von Systemempfängern empfangenen Sprache. Die Aufgabe von Sprachcodierungssystemen ist die Bereitstellung des besten Kompromisses zwischen der Sprachqualität und der Bandbreite bei gegebenen Nebenbedingungen wie zum Beispiel Eingangssignalqualität, Kanalgualität, Bandbreitenbegrenzungen und Kosten. Das Sprachsignal wird durch eine Menge von Parametern dargestellt, die zur Übertragung quantisiert werden. Wahrscheinlich am wichtigsten beim Entwurf eines Sprachcodierers ist die Suche nach einer guten Menge von Parametern (darunter Vektoren) zur Beschreibung des Sprachsignals. Eine gute Menge von Parametern erfordert eine geringe Systembandbreite zur Rekonstruktion eines wahrnehmungsbezogen genauen Sprachsignals. Außerdem besteht ein wünschenswertes Merkmal einer Parametermenge darin, daß die Parameter unabhängig sind. Wenn die Parameter unabhängig sind, können die Quantisierer unabhängig ausgelegt werden, und falsch empfangene Informationen wirken sich weniger auf die Qualität des rekonstruierten Sprachsignals aus. Die für jeden Parameter erforderliche Bandbreite ist eine Funktion seiner Änderungsrate und der Genauigkeit, mit der die Trajektorie des Parameterwerts bzw. der Parameterwerte beschrieben werden muß, um rekonstruierte Sprache der erforderlichen Qualität zu erhalten.
  • Die Sprachsignalleistung ist als ein Parameter einer Menge von Codierungsparametern wünschenswert. Andere Parameter können leicht von der Signalleistung unabhängig gemacht werden. Außerdem stellt die Signalleistung ein physisches Merkmal des Sprachsignals dar, das die Definition von Entwurfskriterien für einen Quantisierer erleichtert. Die Signalleistung kann definiert werden als die Signalenergie pro probe, die für quasiperiodische Sprachsegmente über eine Tonhöhenperiode und für nichtperiodische Segmente über ein vorbestimmtes Intervall gemittelt wird. Das Intervall für nichtperiodische Segmente sollte kurz genug sein, um wahrnehmungsbezogen relevant zu sein (vorteilhafterweise 5 ms oder weniger). Bei Verwendung dieser Definition ist die Sprachsignalleistung während langer Vokale eine glatte Funktion und zeigt Anfänge und Plosive deutlich an.
  • Eine Abschätzung der Signalleistung mit hoher Auflösung kann mit einer festen und/oder großen Fenstergröße nicht erzielt werden. Eine große Fenstergröße für die Abschätzung führt zu einer geringen Zeitauflösung der abgeschätzten Signalleistung. Als Folge weist Sprache, die mit Codierern mit niedriger Rate unter Verwendung dieses Ansatzes rekonstruiert wurde, im allgemeinen einen Mangel an Klarheit auf. Andererseits führt ein kurzes festes Fenster zu Schwankungen der Signalleistung. Codierer, die kurze feste Fenster verwenden, wie zum Beispiel Codierer mit codeerregter linearer Prädiktion (CELP) verwenden somit im allgemeinen nicht die Signalleistung als einen expliziten Parameter. (Siehe z. B. B. S. Atal, "High- Quality Speech at Low Bit Rates: Multi-Pulse and Stochastically Excited Linear Predictive Coders," Proc. Int. Conf. Acoust. Speech Sign. Process., Tokio, S. 1681-1684, 1986.)
  • Augesichts des Bedarfs an vergrößerter Codierungswirksamkeit wird erwartet, daß immer mehr Codierer die Signalleistung als einen expliziten Parameter verwenden werden, der getrennt zu codieren ist. In jüngster Zeit wurden Codierungsverfahren eingeführt, die das Sprachsignal in Form von charakteristischen Kurvenformen beschreiben, die mit einer hohen Rate (etwa 500 Hz) abgetastet werden. (Siehe z. B. W. B. Kleijn und J. Haagen, "Transformation and Decomposition of the Speech Signal for Coding", IEEE Signal Processing Letters, Band 1, September 1994, S. 136-138.) Bei diesen sogenannten Codierern mit "Kurvenforminterpolation" beträgt das Signalleistungsabschätzungsfenster eine Tonhöhenperiode (für stimmhafte Sprache). Diese neuen Kurvenforminterpolationscodierer verwenden eine Analyse, die eine sehr genaue Signalleistungsabschätzung mit hoher zeitlicher Auflösung wiedergibt. Die Signalleistung wird getrennt codiert.
  • Bei herkömmlichen Codierungsverfahren, die die Signalleistung als einen expliziten Parameter verwenden, wird die Signalleistung mit einer relativ niedrigen Rate übertragen. Die lineare Interpolation über die langen Aktualisierungsintervalle wird dann verwendet, um die Signalleistungskontur zu rekonstruieren (diese Interpolation wird häufig auf den Logarithmus der Leistung angewandt). (Siehe z. B. T. E. Tremain, "The Government Standard Linear Predictive Coding Algorithm", Speech Technology, S. 40-49, April 1982.) Eine ausführlichere Beschreibung der Leistungskontur würde die Qualität des rekonstruierten Signals verbessern. Die Herausforderung besteht jedoch darin, nur die wahrnehmungsbezogen relevanten Einzelheiten der Signalleistungskontur zu übertragen, so daß weiter eine niedrige Bitrate verwendet werden kann.
  • Kurze Darstellung der Erfindung
  • Die vorliegende Erfindung, die in den Ansprüchen definiert wird, liefert ein Verfahren und eine Vorrichtung, die die Übertragung der wahrnehmungsbezogen wichtigen Merkmale eines Sprachcodierungsparameters mit niedriger Bitrate ermöglichen. Der Sprachcodierungsparameter kann zum Beispiel die Signalleistung der Sprache umfassen. Der Parameter wird blockweise verarbeitet. Der Parameterwert an den Blockgrenzen wird durch herkömmliche Verfahren wie zum Beispiel durch Differenzquantisierung übertragen. Gemäß der vorliegenden Erfindung basiert dann die Form der rekonstruierten Parameterkontur in den Blockgrenzen auf einer Klassifizierung. Die Klassifizierung hängt von wahrnehmungsbezogen wichtigen Merkmalen der Parameterkontur in einem Block ab. Die Klassifizierung kann entweder auf der Sendeseite des Codierers (zum Beispiel unter Verwendung der ursprünglichen Parameterkontur mit hoher Zeitauflösung und möglicherweise auch anderer Sprachparameter) oder auf der Empfangsseite des Codierers (zum Beispiel unter Verwendung der übertragenen Parameterwerte und möglicherweise auch anderer übertragener Sprachparameter) erfolgen. Auf der Grundlage des Ergebnisses der Klassifizierung und der Parameterwerte an den Blockgrenzen wird eine Parameterkontur (in dem Block) aus einem Bestand möglicher Parameterkonturen ausgewählt. Der Bestand kann sich an die übertragenen Parameterwerte an den Blockgrenzen anpassen.
  • Kurze Beschreibung der Zeichnungen
  • Fig. 1 zeigt eine Übersicht des Sendeteils eines beispielhaften Codierungssystems mit der Signalleistung als ein expliziter Parameter und einer Codierung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
  • Fig. 2 zeigt eine Übersicht des Empfangsteils eines beispielhaften Codierungssystems mit der Signalleistung als einem expliziten Parameter und einer Codierung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Fig. 3 zeigt einen beispielhaften Plosiv-Detektor zur Verwendung in dem beispielhaften Sender von Fig. 1.
  • Fig. 4 zeigt einen beispielhaften Leistungshüllkurvenprozessor zur Verwendung in dem beispielhaften Empfänger von Fig. 2.
  • Fig. 5 zeigt den "Hutaufhängungs"-Mechanismus des beispielhaften Plosiv-Detektors von Fig. 3, der wirkt, wenn kein Plosiv vorhanden ist.
  • Fig. 6 zeigt den "Hutaufhängungs"-Mechanismus des beispielhaften Plosiv-Detektors von Fig. 3, der wirkt, wenn ein Plosiv vorhanden ist.
  • Fig. 7 zeigt eine logarithmische Signalleistungskontur, die durch lineare Interpolation erhalten wird, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Fig. 8 zeigt eine logarithmische Signalleistungskontur, die durch lineare Interpolation erhalten wird, und ein zusätzliches Plosiv gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Fig. 9 zeigt eine logarithmische Signalleistungskontur, die durch stufige Interpolation gemäß einem Ausführungsbeispiel der vorliegenden Erfindung erhalten wird.
  • Fig. 10 zeigt eine logarithmische Signalleistungskontur, die durch stufige Interpolation erhalten wird, und ein zusätzliches Plosiv gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Ausführliche Beschreibung Einführung
  • Die Aufgabe der Sprachcodierung ist die Erzielung eines gewünschten Kompromisses zwischen der Qualität der rekonstruierten Sprache und der erforderlichen Bandbreite unter Berücksichtigung der Einschränkungen bezüglich der Kanalqualität, Hardware und Verzögerung. Im allgemeinen wird für das Sprachsignal ein Modell verwendet, und die Trajektorie der Modellparameter (bei denen es sich um Vektoren handeln kann) als Funktion der Zeit wird mit einer bestimmten Genauigkeit übertragen. (Im einfachsten Modell ist der Modellparameter das Sprachsignal selbst.) Bei einem digitalen Sprachcodierer wird die Trajektorie der Modellparameter als eine Folge von skalaren oder Vektor-Abtastwerten beschrieben. Die Parameter können mit einer niedrigen Rate übertragen werden, und die Trajektorie wird durch Interpolation zwischen den Aktualisierungspunkten rekonstruiert. Als Alternative wird ein Prädiktor (z. B. ein linearer Prädiktor) verwendet, um einen Parameter aus vorherigen rekonstruierten Proben vorherzusagen, und nur die Differenz (der Rest) zwischen dem tatsächlichen und dem vorhergesagten Wert wird übertragen. Bei einer anderen Prozedur kann eine zeitlich hoch auflösende Beschreibung der ParameterTrajektorie in sequentielle Blöcke aufgeteilt werden, die dann zur Übertragung vektorquantisiert werden. Bei bestimmten Codierern werden die Vektorquantisierung und -prädiktion kombiniert.
  • Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird die Trajektorie eines Parameters (bei dem es sich um einen Vektor handeln kann) mit einem Verfahren übertragen, das die oben beschriebenen Prozeduren der Interpolation, Prädiktion und Vektorquantisierung ergänzt. Der Parameter wird blockweise übertragen, wobei jeder Block auf der Analyseseite zwei oder mehr Parameterabtastwerte enthält. Das Parametersignal wird tiefpaßgefiltert und unterabgetastet. Diese unterabgetastete Parameterfolge wird mit herkömmlichen Mittel übertragen. (Bei dem im nächsten Abschnitt beschriebenen Ausführungsbeispiel verwendet diese herkömmliche Übertragung zum Beispiel einen Differenzquantisierer.) Im Empfänger muß die Parameterfolge auf die zur Rekonstruktion durch das Sprachmodell erforderliche Rate überabgetastet werden. Offensichtlich gehen Signalmerkmale verloren, wenn für die Überabtastung eine bandbegrenzte oder lineare Interpolation verwendet wird. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird eine Klassifizierung verwendet, um wahrnehmungsbezogen wichtige Merkmale der ParameterTrajektorien zu identifizieren, die ansonsten in einer rekonstruierten Parameterfolge, die nur auf Interpolation basiert, nicht vorliegen. Abhängig von dem Ergebnis dieser Klassifizierung wird eine Trajektorie aus einem Bestand von Trajektorien gewählt, um die ParameterTrajektorie zwischen den Abtastwerten an den Blockgrenzen zu konstruieren. Außerdem paßt sich der Bestand an die Parameterwerte an den Blockgrenzen an. Das hier beschriebene beispielhafte Verfahren erfordert nicht immer die Übertragung zusätzlicher Informationen - die Klassifizierung erfolgt auf der Empfangsseite des Codierers ausschließlich unter Verwendung der übertragenen unterabgetasteten Parameterfolge.
  • Ein Ausführungsbeispiel
  • Bei dem hier vorgestellten Ausführungsbeispiel wird die oben beschriebene Prozedur insbesondere auf die Sprachleistung angewandt. Es hat sich herausgestellt, daß eine stufige Sprach-/Leistungs-Kontur wesentlich anders als eine glatte Sprach-/Leistungs- Kontur klingt. Die stufige Kontur ist bei Stimmanfängen häufig anzutreffen, während eine glatte Kontur für lange Sprachklänge typisch ist. Ein einfaches Klassifizierungsverfahren, das die übertragene unterabgetastete Sprach-/Leistungs-Folge verwendet, kann stufige Sprach-/Leistungs-Konturen sehr zuverlässig identifizieren. Für die rekonstruierte Signalleistungsfolge wird dann eine stufige Kontur verwendet. Experimente haben gezeigt, daß die genaue Position der Stufe in dem Sprach-/Leistungs-Signal nur wenig bedeutsam für die wahrgenommene Sprachqualität ist.
  • Die auf der Sendeseite des Codierers durchgeführte Klassifizierung kann verwendet werden, um Merkmale der Energiekontur zwischen Abtastwezten, wie zum Beispiel Plosive, zu identifizieren. Wiederum hat die genaue Position des rekonstruierten Plosivs nur wenig wahrnehmungsbezogene Bedeutung. Somit wird zu der Mitte des Blocks ein einfacher Hügel in dem Sprach-/Leistungs-Signal hinzugefügt, wenn auf der Sendeseite ein Plosiv identifiziert wird.
  • Fig. 1 zeigt den Sendeteil eines Ausführungsbeispiels der vorliegenden Erfindung, der die Signal/Leistungs-Entnahme in einem Kurvenforminterpolationscodierer durchführt. Das ursprüngliche Sprachsignal wird zunächst in der Codierungseinheit 101 verarbeitet. In dem Kurvenforminterpolationscodierer entnimmt die Codierungseinheit die charakteristischen Kurvenformen. Diese charakteristischen Kurvenformen entsprechen während stimmhafter Sprache einem Tonhöhenzyklus. Gemäß bekannten Verfahren wird das Sprachsignal dargestellt durch eine Folge charakteristischer Kurvenformen (die im Restbereich der linearen Prädiktion definiert sind), eine Tonhöhenperiodenverfolgung und zeitveränderliche Koeffizienten der linearen Prädiktion. Solche Techniken werden zum Beispiel in der eigenen, gleichzeitig anhängigen US-Patentanmeldung "Method and Apparatus For Prototype Waveform Speech Coding" von W,B. Kleijn, lfd. Nr. 08/179,831 beschrieben. (Siehe außerdem W. B. Kleijn, "Encoding Speech Using Prototype Waveforms", IEEE Trans. Speech and Audio Processing, Band 1, Nr. 4, S. 386-399, 1993 und W. B. Kleijn und J. Haagen, "Transformation and Decomposition of the Speech Signal for Coding", IEEE Signal Processing Letters, Band 1, September 1994, S. 136-138.)
  • Die Beschreibung der charakteristischen Kurvenform erfolgt gewöhnlich in Form einer endlichen Fourier-Reihe. Die charakteristische Kurvenform wird im Restbereich beschrieben, da dies ihre Entnahme und Quantisierung erleichtert. Vorteilhafterweise wird die Abtast-(Entnahme-)Rate der charakteristischen Kurvenform auf ungefähr 500 Hz eingestellt. In dieser Figur und in den folgenden Figuren wird angenommen, daß die Koeffizienten der Tonhöhenverfolgung und der linearen Prädiktion allen Verarbeitungseinheiten, die diese Parameter benötigen, verfügbar sind. Die Koeffizienten für die Tonhöhenverfolgung und die lineare Prädiktion werden gemäß herkömmlichen Verfahren definiert und interpoliert.
  • Die unguantisierten charakteristischen Kurvenformen (die in Fig. 1 als das unquantisierte Zwischensignal bezeichnet werden) werden der Leistungsentnahmevorrichtung 102 zugeführt. In der Leistungsentnahmevorrichtung 102 wird die charakteristische Kurvenform im Restbereich zunächst mittels einer Kreisfaltung mit dem Linearprädiktions-Synthesefilter in eine charakteristische Kurvenform im Sprachbereich umgesetzt. (Diese Faltung kann direkt an der Fourier-Reihe vorgenommen werden, zum Beispiel mittels Gleichung (19) in W. B. Kleijn, "Encoding Speech Using Prototype.. Waveforms", IEEE Trans. Speech and Audio Processing, Band 1, Nr. 4, S. 386-399, 1993.) Die Signalleistung im Sprachbereich wird verwendet, da sie verhindert, daß sich Übertragungsfehler bei den Koeffizienten der linearen Prädiktion (die sich auf die Filterverstärkung der linearen Prädiktion auswirken) auf die Sprachsignalleistung auswirken.
  • Die Leistungsentnahmevorrichtung 102 berechnet dann die Leistung der charakteristischen Kurvenform für jede Sprachprobe. Die Leistung wird probenweise so normiert, daß die Signalleistung nicht von der Tonhöhenperiode abhängt, wodurch ihre Quantisierung erleichtert wird und sie unempfindlich gegenüber die Tonhöhenperiode beeinflussenden Kanalfehlern wird. Als letztes setzt die Leistungsentnahmevorrichtung 102 die resultierende Leistung im Sprachbereich in den Logarithmus der Leistung im Sprachbereich um. Zum Beispiel kann für diesen Zweck die wohlbekannte Dezibel-("db"-)Logarithmusskala verwendet werden. (Die Verwendung des Logarithmus der Signalleistung an Stelle der linearen Signalleistung wird durch die Eigenschaften der menschlichen Wahrnehmung motiviert. Das Gehör kann Signalleistungen verarbeiten, die sich über viele Größenordnungen hinweg ändern.) Dieses Signal, das mit derselben Rate wie die charakteristischen Kurvenformen abgetastet wird, wird dem Plosiv- Detektor 105, dem Tiefpaßfilter 106 und dem Normierer 103 zugeführt. Der Normierer 103 verwendet die entnommene Sprachleistung, um eine normierte charakteristische Kurvenform zu erzeugen. Diese normierte charakteristische Kurvenform wird in der Codierungseinheit 104 weitercodiert, die außerdem die Signalleistung als Nebeninformationen verwenden kann.
  • Um Alias-Effekte zu verhindern, entfernt das Tiefpaßfilter 106 Frequenzen von mehr als der Hälfte der Abtastfrequenz des Ausgangssignals der unterabtastvorrichtung 107. Bei einem 2,4-kb/s-Codierer wird die Abtastfrequenz nach dem Unterabtasten vorteilhafterweise auf 100 Hz gesetzt (was bei dem gegebenen Ausführungsbeispiel einer Unterabtastung um einen Faktor 5 entspricht).
  • Der Leistungscodierer 108 codiert die unterabgetastete logarithmische Leistungsfolge. Vorteilhafterweise erfolgt dies mit einem Differenzquantisierer. x(n) sei die logarithmische Leistung zum Abtastzeitpunkt n. Danach wird ein einfacher skalarer Quantisierer verwendet, um das Differenzsignal e(n) zu quantisieren:
  • e(n) = x(n) - a* x(n-1) (1)
  • Q(e(n)) sei der quantisierte Wert von e(n). Die rekonstruierte logarithmische Leistung ist dann:
  • 1(n) = Q(e(n)) + α* x(n-1) (2)
  • Für α kleiner 1 stellt Gleichung (2) den wohlbekannten "leckenden Integrierer" dar. Die Funktion des leckenden Integrierers besteht darin, die Empfindlichkeit gegenüber Kanalfehlern zu vermindern. Vorteilhafterweise kann der Wert von a = 0,8 verwendet werden. Der Plosiv-Detektor 105 verwendet die unverarbeitete logarithmische Leistungsfolge und die tiefpaßgefilterte logarithmische Leistungsfolge. Für jedes Intervall zwischen den Proben der unterabgetasteten logarithmischen Leistungsfolge (z. B. 10 ms auf der Grundlage einer unterabgetasteten Abtastrate von 100 Hz) ist die Ausgabe des Plosiv-Detektors eine Binärentscheidung: Null bedeutet, daß kein Plosiv erkannt wurde, während Eins bedeutet, daß ein Plosiv erkannt wurde.
  • Die Funktionsweise des Plosivdetektors 105 ist in Fig. 3 gezeigt. Der Spitzenabstandsdetektor 304 bestimmt, ob der Logarithmus des Leistungsabtastwerts minus dem äquivalenten Abtastwert der tiefpaßgefilterten logarithmischen Leistungsfolge größer als eine gegebene Schwelle ist. (Diese Schwelle kann zum Beispiel vorteilhafterweise auf 16 db für den Logarithmus der Signalleistung gestellt werden.) Wenn dies der Fall ist, ist die Ausgabe des Spitzenabstandsdetektors 304 l, andernfalls ist seine Ausgabe 0.
  • Die Funktionsweise des Hutaufhängers 301 ist in Fig. 5 und 6 dargestellt. Als Konzept wird eine hutförmige Kurve am aktuellen Leistungssignalabtastwert "aufgehängt". Das heißt, die Spitze des "Huts" wird auf einen Pegel gesetzt, der gleich dem aktuellen Abtastwert ist. Die Ausgabe des Hutabstandsdetektors 303 ist 1, wenn die Abtastwerte, die von der Hutform abgedeckt werden, unter die Spitze und die Krempe des Huts passen. Zum Beispiel zeigt Fig. 5 eine Situation, in der der Hut die benachbarten Abtastwerte nicht freigibt - somit ist die Ausgabe des Hutabstandsdetektors 303 Null. Andererseits zeigt Fig. 6 eine Situation, in der der Hut die benachbarten Abtastwerte freigibt - somit ist die Ausgabe des Hutabstandsdetektors 303 Eins. Die Eigenschaften des Huts werden in der Hutablage 302 gespeichert. Die Hutform kann innerhalb des Erkennungsintervalls verändert werden, und die Höhe der Krempe kann links und rechts verschieden sein. Zum Beispiel kann eine Hutspitzenbreite und eine Krempenbreite jeweils vorteilhafterweise auf 5 ms eingestellt werden, wobei der Hut symmetrisch ist, und der Abstand von der Krempe zur Spitze kann vorteilhafterweise für eine den Logarithmus der Signalleistung beschreibende Kontur auf 12 db gesetzt werden. Für Fachleute ist erkennbar, daß der Hutabstandsdetektor 303 zum Beispiel mit einem Abtastwertspeicher und -prozessor zum Prüfen von Abtastwertpegeln und Vergleichen dieser Pegel mit gegebenen vorbestimmten Schwellenwerten implementiert werden kann.
  • Ein logischer "and"-Operator 305 kombiniert die Ausgaben aus dem Spitzenabstandsdetektor 304 und dem Hutabstandsdetektor 303. Wenn irgendeine dieser beiden Ausgaben Null ist, wird die Ausgabe des logischen and- Operators 305 Null. Die Vorrichtung 306 für logisches or und Unterabtastung besitzt eine Ausgabe für jedes Intervall der unterabgetasteten logarithmischen Leistungsfolge (d. h. die Ausgabe der Unterabtastvorrichtung 107). Dies wäre zum Beispiel eine Ausgabe pro 10 ms für das oben beschriebene Beispiel. Wenn die Eingabe für die Vorrichtung 306 für logisches or und Unterabtastung zu einem beliebigen Zeitpunkt in diesem Intervall nicht Null ist, dann wird die Ausgabe der Vorrichtung 306 für logisches or und Unterabtastung auf Eins gesetzt, wodurch angezeigt wird, daß ein Plosiv erkannt wurde. Wenn die Eingabe zu allen Zeiten in dem Intervall Null ist, dann wird die Ausgabe der Vorrichtung 306 für logisches or und Unterabtastung auf Null gesetzt, wodurch angezeigt wird, daß kein Plosiv erkannt wurde.
  • Fig. 2 zeigt den Empfangsteil des Ausführungsbeispiels der vorliegenden Erfindung entsprechend dem in Fig. 1 gezeigten Sendeteil. Die Decodierereinheit 201 rekonstruiert die charakteristischen Kurvenformen. Ein Teil der in der Decodierereinheit 201 durchgeführten Operationen entspricht nicht Operationen, die im Sender durchgeführt werden. Zum Beispiel kann, um die spektrale Form des Ausgangssignals zu betonen, eine spektrale Vorformung zu den charakteristischen Kurvenformen hinzugefügt werden. Dies bedeutet, daß im allgemeinen nicht garantiert werden kann, daß die charakteristischen Kurvenformen, die die Ausgabe der Decodierereinheit 201 bilden, eine normierte Leistung aufweisen. Vor dem Skalieren der quantisierten charakteristischen Kurvenformen muß somit ihre Leistung bestimmt werden. Dies erfolgt durch die Leistungsentnahmevorrichtung 202, die analog wie die Leistungsentnahmevorrichtung 102 arbeitet. Wiederum wird die Leistung im Sprachbereich bestimmt.
  • Der Skalierungsfaktorprozessor 206 bestimmt den entsprechenden Skalierungsfaktor, der auf die durch die Decodierereinheit 201 erzeugten charakteristischen Kurvenformen angewandt werden soll. Für jede charakteristische Kurvenform sind die Eingaben für den Skalierungsfaktorprozessor 206 ein logarithmischer Leistungswert, der aus gesendeten Informationen und der Leistung der quantisierten charakteristischen Kurvenform vor dem Skalieren rekonstruiert wird. Der logarithmische Leistungswert wird in einen linearen Leistungswert umgesetzt und durch die Leistung der unskalierten quantisierten charakteristischen Kurvenform dividiert. Durch diese Division wird der entsprechende Skalierungsfaktor für die unskalierte quantisierte charakteristische Kurvenform wiedergegeben. Der resultierende Skalierungsfaktor wird in einem Multiplizierer 207 verwendet, dessen Ausgabe die ordnungsgemäß skalierte, quantisierte charakteristische Kurvenform ist. Diese charakteristische Kurvenform ist die Eingabe für die Decodierereinheit 203, die die Folge der Beschreibung der charakteristischen Kurvenform (mit Hilfe der Koeffizienten der Tonhöhenverfolgung und der linearen Prädiktion) in das rekonstruierte Sprachsignal umsetzt. Die wohlbekannten Verfahren, die in der Decodierereinheit 203 verwendet werden, werden zum Beispiel in der US-Patentanmeldung lfd. Nr. 08/179,831 beschrieben.
  • Es wird nun die Rekonstruktion der logarithmischen Leistungsfolge erläutert. Der Leistungsdecodierer 204 rekonstruiert eine unterabgetastete quantisierte logarithmische Leistungsfolge auf der Grundlage der obigen Gleichung (2). Der Leistungshüllkurvenprozessor 205 setzt diese unterabgetastete Folge in eine überabgetastete logarithmische Leistungsfolge um. Die Funktionsweise des Leistungshüllkurvenprozessors 205 ist ausführlich in Fig. 4 dargestellt. Als erstes wird der Fall betrachtet, daß die Plosivinformationen Null sind (wodurch angezeigt wird, daß kein Plosiv vorliegt). Die Leistungsschrittauswertevorrichtung 401 subtrahiert den vorherigen logarithmischen Leistungswert der unterabgetasteten Folge von dem derzeitigen logarithmischen Leistungswert der unterabgetasteten Folge, um die Differenz zu bestimmen. Die Überabtastvorrichtung 402 führt eine Überabtastung der logarithmischen Leistungsfolge gemäß einer Überabtastungsprozedur durch. Genauer gesagt wird die Überabtastungsprozedur, die durch die Überabtastvorrichtung 402 durchgeführt wird, auf der Grundlage des Vergleichs der Differenz zwischen den aufeinanderfolgenden Abtastwerten (die durch die Leistungsschrittauswertevorrichtung 401 bestimmt werden) mit einer Schwelle ausgewählt. Zum Beispiel kann die Schwelle vorteilhafterweise zu 12 db für den Logarithmus der Sprachleistung und eine Abtastrate von 100 Hz gewählt werden. Eine lineare Interpolation zwischen den Aktualisierungspunkten wird von der Überabtastvorrichtung 402 durchgeführt, wenn die Differenz zwischen den aufeinanderfolgenden Abtastwerten kleiner als die Schwelle ist. Dies ist für die meisten Intervalle der Fall und ist in Fig. 7 dargestellt. Fig. 7 zeigt in fetten Linien zwei Abtastwerte für die unterabgetastete logarithmische Leistungsfolge. Die Abtastwerte zwischen diesen beiden Abtastwerten werden durch lineare Interpolation erhalten.
  • Größere Zunahmen der Signalleistung, wobei die Differenz zwischen den aufeinanderfolgenden Abtastwerten die Schwelle übersteigt, treten hauptsächlich bei scharfen Stimmanfängen auf. Eine lineare Interpolation der logarithmischen Leistung ist kein gutes Modell für solche Anfänge. In diesem Fall verwendet die Überabtastvorrichtung 402 deshalb eine stufige Kontur. Immer wenn die Differenz zwischen aufeinanderfolgenden Abtastwerten die Schwelle übersteigt, wird genauer gesagt der linke logarithmische Leistungswert (d. h. der vorherige Abtastwert) bis zum Mittelpunkt des Intervalls verwendet, und der rechte logarithmische Leistungswert (d. h. der derzeitige Abtastwert) wird für den übrigen Teil des Intervalls verwendet. Dieser Fall ist in Fig. 9 dargestellt. Man beachte, daß sich im allgemeinen der Schritt nicht am selben Zeitpunkt wie der Anfang in dem ursprünglichen Signal befindet. Für die Zwecke der menschlichen Wahrnehmung ist die genaue Position des Schritts in der Leistungskontur jedoch weniger wichtig als die Tatsache, daß das Intervall statt einer glatten Kontur eine Stufe enthält.
  • Der wahrnehmungsbezogene Effekt der Verwendung stufiger Leistungskonturen besteht darin, daß das rekonstruierte Sprachsignal wahrnehmbar klarer wird. Eine willkürliche Verwendung stufiger Leistungskonturen führt jedoch zu einer wesentlichen Verschlechterung der Ausgangssignalqualität. Eine Begrenzung der Verwendung der stufigen Kontur auf Fälle, in denen sich die Signalleistung schnell ändert, führt zu einer verbesserten Sprachqualität im Vergleich zu der ständigen Verwendung einer linear interpolierten Kontur. Außerdem wirkt sich die Verwendung der schrittweisen Kontur in Fällen, in denen sich die Signalleistung schnell, aber glatt ändert, nicht wesentlich auf die rekonstruierte Sprache aus.
  • Als nächstes wird der Fall betrachtet, daß die Plosivinformationen Eins sind (wodurch das Vorliegen eines Plosivs angezeigt wird). Dabei wird wiederum auf Fig. 4 Bezug genommen. Wenn ein Plosiv vorliegt, addiert ein Plosiv-Addierer 403 einen festen Wert zu einem oder mehreren spezifischen Abtastwerten der überabgetasteten logarithmischen Leistungsfolge in dem Intervall, in dem bekannt ist, daß das Plosiv vorliegt.
  • Zum Beispiel kann vorteilhafterweise für den Logarithmus der Signalleistung der Festwert 1, 2 verwendet werden, und dieser Wert kann vorteilhafterweise für eine Dauer von 5 ms zu dem logarithmischen Leistungssignal addiert werden. Fig. 8 zeigt das Hinzufügen eines Plosivs für den Fall einer ansonsten linear interpolierten Kontur. Fig. 9 zeigt das Hinzufügen eines Plosivs für den Fall einer schrittweisen Kontur. Im letzteren Fall wird das Plosiv vorteilhafterweise nach dem Schritt hinzugefügt - andernfalls wäre es nicht hörbar.
  • Das oben beschriebene Ausführungsbeispiel der vorliegenden Erfindung umfaßt zwei miteinander zusammenhängende, aber verschiedene Klassifizierungsprozeduren. Wie zum Beispiel in Fig. 4 gezeigt ist, bestimmt eine Leistungsschrittauswertevorrichtung 401, ob die logarithmische Leistungskontur zwischen zwei aufeinanderfolgenden Abtastwerten linear interpoliert werden soll, oder ob eine stufige Kontur bereitgestellt werden soll. Zusätzlich bestimmt der Plosivaddierer 403, ob der logarithmischen Leistungskontur zwischen den beiden aufeinanderfolgenden Abtastwerten ein Plosiv hinzugefügt werden soll. Bei anderen Ausführungsbeispielen der vorliegenden Erfindung kann unabhängig voneinander eine dieser Prozeduren durchgeführt werden. Der Klarheit halber wird das Ausführungsbeispiel der vorliegenden Erfindung als einzelne Funktionsblöcke oder "Prozessoren" umfassend dargestellt. Die durch diese Blöcke dargestellten Funktionen können entweder durch Verwendung gemeinsam benutzter oder eigener Hardware bereitgestellt werden, darunter u. a. Hardware, die in der Lage ist, Software auszuführen. Zum Beispiel können die in Fig. 1-4 dargestellten Funktionen von Prozessoren von einem einzigen gemeinsam benutzten Prozessor bereitgestellt werden. (Die Verwendung des Begriffs "Prozessor" sollte nicht als sich ausschließlich auf Hardware, die in der Lage ist, Software auszuführen, beziehend aufgefaßt werden.) Ausführungsbeispiele können Hardware für digitale Signalverarbeitung (DSP), wie zum Beispiel den DSP16 oder DSP32C von AT&T, Nur-Lese-Speicher (ROM) zum Speichern von Software, die die nachfolgend besprochenen Operationen durchführt, und Direktzugriffsspeicher (RAM) zum Speichern von DSP-Ergebnissen umfassen. Außerdem können Hardwareausführungsformen mit Höchstintegration (VLSI) sowie kundenspezifische VLSI- Schaltkreise in Kombination mit einer Vielzweck-DSP- Schaltung bereitgestellt werden.
  • Obwohl hier mehrere spezifische Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, versteht sich, daß diese Ausführungsformen lediglich Beispiele für die vielen möglichen spezifischen Anordnungen sind, die als Anwendung der Erfindung konzipiert werden können. Durchschnittsfachleute können zahlreiche und verschiedene andere Anordnungen konzipieren, ohne vom Schutzumfang der Erfindung, der durch die angefügten Ansprüche definiert wird, abzuweichen.

Claims (18)

1. Verfahren zum Decodieren eines codierten Sprachsignals, wobei das codierte Sprachsignal eine Folge von codierten Parameterwertsignalen umfaßt, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen, mit den folgenden Schritten:
Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage zweier aufeinanderfolgender der codierten Parameterwertsignale; und
Erzeugen, auf der Grundlage der klassifizierten Kategorie, eines oder mehrerer Zwischen- Parameterwertsignale, die Werte des vorbestimmten Parameters an einem oder mehreren Zeitpunkten zwischen den beiden aufeinanderfolgenden der codierten Parameterwertsignale darstellen.
2. Verfahren nach Anspruch 1, wobei der Schritt des Klassifizierens des vorbestimmten Parameters das Klassifizieren des vorbestimmten Parameters auf der Grundlage einer numerischen Differenz zwischen den durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellten Werten umfaßt.
3. Verfahren nach Anspruch 1, wobei die Kategorien eine Linearinterpolationskategorie und eine Sprungfunktionskategorie enthalten;
der Schritt des Erzeugens der Zwischen- Parameterwertsignale das Erzeugen von Zwischen- Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch kleiner als der größere und größer als der kleinere der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Linearinterpolationskategorie hinein klassifiziert wurde; und
der Schritt des Erzeugens der Zwischen- Parameterwertsignale das Erzeugen von Zwischen- Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch gleich einem der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde.
4. Verfahren nach Anspruch 3, wobei der Schritt des Erzeugens der Zwischen-Parameterwertsignale das Erzeugen von mindestens zwei Zwischen- Parameterwertsignalen mit einem ersten Zwischen- Parameterwertsignal und einem zweiten Zwischen- Parameterwertsignal umfaßt, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde, wobei das erste Zwischen- Parameterwertsignal und das zweite Zwischen- Parameterwertsignal verschiedene numerische Werte des vorbestimmten Parameters darstellen.
5. Verfahren nach Anspruch 1, wobei das codierte Signal weiterhin ein codiertes Parametermerkmalssignal umfaßt, das einen oder mehrere Werte des vorbestimmten Parameters an Zeitpunkten zwischen den beiden aufeinanderfolgenden codierten Parameterwertsignalen widerspiegelt, und wobei der Klassifizierungsschritt das Klassifizieren des vorbestimmten Parameters auf der Grundlage des codierten Parametermerkmalssignals umfaßt.
6. Verfahren zum Codieren eines Sprachsignals, mit den folgenden Schritten:
Erzeugen einer Folge von codierten Parameterwertsignalen, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen;
Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage eines oder mehrerer Werte des vorbestimmten Parameters an Zeitpunkten zwischen zwei aufeinanderfolgenden codierten Parameterwertsignalen; und
Erzeugen eines codierten Parametermerkmalssignals auf der Grundlage der klassifizierten Kategorie.
7. Verfahren nach Anspruch 6, wobei der vorbestimmte Parameter die Sprachsignalleistung widerspiegelt.
8. Verfahren nach Anspruch 7, wobei der vorbestimmte Parameter die Signalleistung einer charakteristischen Kurvenform widerspiegelt.
9. Verfahren nach Anspruch 7, wobei die mehreren Kategorien eine Kategorie, die eine Anwesenheit eines Sprachsignalleistungsplosivs widerspiegelt, und eine Kategorie, die ein Fehlen eines Sprachsignalleistungsplosivs widerspiegelt, umfassen.
10. Decodierer zum Decodieren eines codierten Sprachsignals, wobei das codierte Sprachsignal eine Folge von codierten Parameterwertsignalen umfaßt, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen, wobei der Decodierer folgendes umfaßt:
ein Mittel zum Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage zweier aufeinanderfolgender der codierten Parameterwertsignale; und
ein Mittel zum Erzeugen, auf der Grundlage der klassifizierten Kategorie, eines oder mehrerer Zwischen-Parameterwertsignale, die Werte des vorbestimmten Parameters an einem oder mehreren Zeitpunkten zwischen den beiden aufeinanderfolgenden der codierten Parameterwertsignale darstellen.
11. Decodierer nach Anspruch 10, wobei das Mittel zum Klassifizieren des vorbestimmten Parameters ein Mittel zum Klassifizieren des vorbestimmten Parameters auf der Grundlage einer numerischen Differenz zwischen den durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellten Werten umfaßt.
12. Decodierer nach Anspruch 10, wobei die Kategorien eine Linearinterpolationskategorie und eine Sprungfunktionskategorie enthalten;
das Mittel zum Erzeugen der Zwischen- Parameterwertsignale ein Mittel zum Erzeugen von Zwischen-Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch kleiner als der größere und größer als der kleinere der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Linearinterpolationskategorie hinein klassifiziert wurde; und
das Mittel zum Erzeugen der Zwischen- Parameterwertsignale ein Mittel zum Erzeugen von Zwischen-Parameterwertsignalen umfaßt, die Werte darstellen, die numerisch gleich einem der Werte des vorbestimmten Parameters sind, die durch die beiden aufeinanderfolgenden codierten Parameterwertsignale dargestellt werden, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde.
13. Decodierer nach Anspruch 12, wobei das Mittel zum Erzeugen der Zwischen-Parameterwertsignale ein Mittel zum Erzeugen von mindestens zwei Zwischen- Parameterwertsignalen mit einem ersten Zwischen- Parameterwertsignal und einem zweiten Zwischen- Parameterwertsignal umfaßt, wenn der vorbestimmte Parameter in die Sprungfunktionskategorie hinein klassifiziert wurde, wobei das erste Zwischen- Parameterwertsignal und das zweite Zwischen- Parameterwertsignal verschiedene numerische Werte des vorbestimmten Parameters darstellen.
14. Decodierer nach Anspruch 10, wobei das codierte Signal weiterhin ein codiertes Parametermerkmalssignal umfaßt, das einen oder mehrere Werte des vorbestimmten Parameters an Zeitpunkten zwischen den beiden aufeinanderfolgenden codierten Parameterwertsignalen widerspiegelt, und wobei das Mittel zum Klassifizieren des vorbestimmten Parameters ein Mittel zum Klassifizieren des vorbestimmten Parameters auf der Grundlage des codierten Parametermerkmalssignals umfaßt.
15. Codierer zum Codieren eines Sprachsignals, wobei der Codierer folgendes umfaßt:
ein Mittel zum Erzeugen einer Folge von codierten Parameterwertsignalen, die aufeinanderfolgende Werte eines vorbestimmten Parameters darstellen;
ein Mittel zum Klassifizieren des vorbestimmten Parameters in eine von mehreren Kategorien auf der Grundlage eines oder mehrerer Werte des vorbestimmten Parameters an Zeitpunkten zwischen zwei aufeinanderfolgenden codierten Parameterwertsignalen; und
ein Mittel zum Erzeugen eines codierten Parametermerkmalssignals auf der Grundlage der klassifizierten Kategorie.
16. Vorrichtung nach Anspruch 15, wobei der vorbestimmte Parameter die Sprachsignalleistung widerspiegelt.
17. Vorrichtung nach Anspruch 16, wobei der vorbestimmte Parameter die Signalleistung einer charakteristischen Kurvenform widerspiegelt.
18. Vorrichtung nach Anspruch 16, wobei die mehreren Kategorien eine Kategorie, die eine Anwesenheit eines Sprachsignalleistungsplosivs widerspiegelt, und eine Kategorie, die ein Fehlen eines Sprachsignalleistungsplosivs widerspiegelt, umfassen.
DE69521272T 1994-11-30 1995-11-21 Wiederherstellung einer Folge von Sprachkode-Parametern mittels Klassifizierung und eines Verzeichnisses der Parameterverläufe Expired - Lifetime DE69521272T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/346,798 US5839102A (en) 1994-11-30 1994-11-30 Speech coding parameter sequence reconstruction by sequence classification and interpolation

Publications (2)

Publication Number Publication Date
DE69521272D1 DE69521272D1 (de) 2001-07-19
DE69521272T2 true DE69521272T2 (de) 2002-01-10

Family

ID=23361091

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69521272T Expired - Lifetime DE69521272T2 (de) 1994-11-30 1995-11-21 Wiederherstellung einer Folge von Sprachkode-Parametern mittels Klassifizierung und eines Verzeichnisses der Parameterverläufe

Country Status (8)

Country Link
US (1) US5839102A (de)
EP (1) EP0715297B1 (de)
JP (1) JP3489704B2 (de)
KR (1) KR960020012A (de)
CA (1) CA2156558C (de)
DE (1) DE69521272T2 (de)
ES (1) ES2158052T3 (de)
TW (1) TW260846B (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US6113653A (en) * 1998-09-11 2000-09-05 Motorola, Inc. Method and apparatus for coding an information signal using delay contour adjustment
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6304842B1 (en) * 1999-06-30 2001-10-16 Glenayre Electronics, Inc. Location and coding of unvoiced plosives in linear predictive coding of speech
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
AU2002352182A1 (en) 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US8589166B2 (en) 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3597619A (en) * 1965-12-23 1971-08-03 Universal Drafting Machine Cor Automatic drafting-digitizing apparatus
US4680797A (en) * 1984-06-26 1987-07-14 The United States Of America As Represented By The Secretary Of The Air Force Secure digital speech communication
CA1252568A (en) * 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
JPH03160575A (ja) * 1989-11-20 1991-07-10 Toshiba Corp 画像表示装置
US5355430A (en) * 1991-08-12 1994-10-11 Mechatronics Holding Ag Method for encoding and decoding a human speech signal by using a set of parameters
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
US5416613A (en) * 1993-10-29 1995-05-16 Xerox Corporation Color printer calibration test pattern
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation

Also Published As

Publication number Publication date
CA2156558A1 (en) 1996-05-31
KR960020012A (ko) 1996-06-17
JP3489704B2 (ja) 2004-01-26
EP0715297A2 (de) 1996-06-05
CA2156558C (en) 2001-01-16
DE69521272D1 (de) 2001-07-19
US5839102A (en) 1998-11-17
TW260846B (en) 1995-10-21
ES2158052T3 (es) 2001-09-01
JPH08254994A (ja) 1996-10-01
EP0715297A3 (de) 1998-01-07
EP0715297B1 (de) 2001-06-13

Similar Documents

Publication Publication Date Title
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69331079T2 (de) CELP-Vocoder
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE2659096C2 (de)
DE60316396T2 (de) Interoperable Sprachkodierung
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69419615T2 (de) Sprachaktivitaetsdetektor
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE69521272T2 (de) Wiederherstellung einer Folge von Sprachkode-Parametern mittels Klassifizierung und eines Verzeichnisses der Parameterverläufe
DE602004003610T2 (de) Halbrätiger Vocoder
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
DE69900786T2 (de) Sprachkodierung
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
DE69127134T2 (de) Sprachkodierer
DE69411817T2 (de) Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen
DE69609089T2 (de) Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition