DE68917584T2 - Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung. - Google Patents

Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung.

Info

Publication number
DE68917584T2
DE68917584T2 DE68917584T DE68917584T DE68917584T2 DE 68917584 T2 DE68917584 T2 DE 68917584T2 DE 68917584 T DE68917584 T DE 68917584T DE 68917584 T DE68917584 T DE 68917584T DE 68917584 T2 DE68917584 T2 DE 68917584T2
Authority
DE
Germany
Prior art keywords
signals
primary
parameter
pitch
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE68917584T
Other languages
English (en)
Other versions
DE68917584D1 (de
Inventor
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Application granted granted Critical
Publication of DE68917584D1 publication Critical patent/DE68917584D1/de
Publication of DE68917584T2 publication Critical patent/DE68917584T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Die Erfindung betrifft ein Codiergerät für das Codieren einer Folge von digitalen Spracheingangssignalen zu einer Gruppe von Anregungsmultipulsen.
  • Wie dem Fachmann bekannt, ist ein herkömmliches Kommunikationssystem des beschriebenen Typs brauchbar für die Übertragung eines Sprachsignals mit niedriger Bitrate, wie z. B. mit 4,8 kBit/s von einer Sendeseite zu einer Empfangsseite. Die Sendeseite bzw. die Empfangsseite weisen eine Codiereinrichtung bzw. eine Decodiereinrichtung auf, welche so betrieben werden können, daß sie die Sprachsignale auf eine Weise codieren bzw. decodieren, die nachstehend näher erläutert wird. Es sind die verschiedensten derartigen Systeme vorgeschlagen worden, um eine in der Decodiereinrichtung reproduzierte Sprachqualität zu verbessern und die Bitrate zu verringern.
  • Die Arbeit "Embedded coding of speech: a vector quantization approach" (Eingebettete Sprachcodierung: ein Vektorquantisierungsverfahren) von A. Haoui und G. Messerschmitt in den Proceedings of the ICASSP 1985, Tampa, Florida, Bd. 4, S. 1703 - 1706, offenbart ein Prinzip der mehrstufigen Codierung von Sprachsignalen und die Verwendung des Quantisierungsfehlers aus der ersten Stufe als Eingangssignal für die zweite Stufe.
  • Die Arbeit "2.4 kbps pitch interpolation multi-pulse speech coding" (2,4 kBit/s - Multipuls-Sprachcodierung mit Tonhöheninterpolation) von S. Ono u. a. in IEEE/IEICE Global Telecommunication Conference, November 1987, New York, Bd. 2, S. 752-756, offenbart Mittel zur Sprachcodierung unter Anwendung von Multipulsverfahren sowie Mittel zur Berechnung einer Gruppe von Multipulsen bezüglich eines vorgewählten Teilrahmens, der sich durch Unterteilung des Analysenrahmens in kürzere Intervalle ergibt.
  • Unter anderem ist ein Multipuls-System mit Tonhöheninterpolation bekannt, das in der JP-A-15 000/1986 und in der JP-A-038 500/1987 vorgeschlagen wurde, die als erste bzw. zweite Quelle bezeichnet werden können. Bei diesem Multipuls- System mit Tonhöheninterpolation wird die Codiereinrichtung in jedem Rahmen von z. B. 20 Millisekunden mit einer Folge von digitalen Spracheingangssignalen gespeist und extrahiert einen Spektrumparameter und einen Tonhöhenparameter, die als erster bzw. zweiter Primärparameter bezeichnet werden. Der Spektrumparameter entspricht einer spektralen Hüllkurve oder Spektralkurve eines Sprachsignals, die durch das digitale Spracheingangssignal festgelegt wird, während der Tonhöhenparameter einer Tonhöhe des Sprachsignals entspricht. Danach wird die digitale Spracheingangssignalfolge in einen stimmhaften Laut und einen stimmlosen Laut eingeteilt, deren Dauern als stimmhafte bzw. stimmlose Lautdauer bezeichnet werden. Außerdem wird das digitale Spracheingangssignal in jedem Rahmen in mehrere Tonhöhendauern unterteilt, die jeweils als Teilrahmen bezeichnet werden können. Unter diesen Umständen wird in der Codiereinrichtung eine Operation zur Berechnung von Anregungsmultipulsen ausgeführt, die ein Tonquellensignal repräsentieren, das durch die digitale Spracheingangssignalfolge spezifiziert wird.
  • Genauer gesagt, das Tonquellensignal wird für die stimmhafte Lautdauer durch die Gruppe von Anregungsmultipulsen dargestellt, die bezüglich einer ausgewählten Tonhöhendauer berechnet wird, die als repräsentative Dauer bezeichnet werden kann. Aus dieser Tatsache ist erkennbar, daß jede Anregungsmultipulsgruppe aus intermittierenden Teilrahmen extrahiert wird. Anschließend werden eine Amplitude und eine Position für jeden Anregungsmultipuls der Gruppe zusammen mit dem Spektrum- und dem Tonhöhenparameter von der Sendeseite zur Empfangsseite übertragen. Andererseits wird ein Tonquellensignal eines Einzelrahmens für die stimmlose Lautdauer durch eine kleine Anzahl von Anregungsmultipulsen und ein Rauschsignal dargestellt. Danach werden die Amplitude und die Position jedes Anregungsmultipulses für die stimmlose Lautdauer zusammen mit einem Verstärkungsfaktor und einem Index des Rauschsignals übertragen. Auf jeden Fall werden die Amplituden und die Positionen der Anregungsmultipulse, der Spektrum- und der Tonhöhenparameter und die Verstärkungsfaktoren sowie die Indiz es der Rauschsignale als eine Folge von Ausgangssignalen von der Sendeseite zu einer Empfangsseite übertragen, die eine Decodiereinrichtung aufweist.
  • Auf der Empfangsseite wird die Decodiereinrichtung mit der Ausgangssignalfolge als einer Folge von Empfangssignalen gespeist, die, wie oben erwähnt, Informationen über die aus Rahmen extrahierten Gruppen von Anregungsmultipulsen mitführt. Nachstehend werden eine aktuelle Gruppe der Anregungsmultipulse, die aus einer repräsentativen Dauer eines aktuellen Rahmens extrahiert wurde, sowie eine unmittelbar folgende Gruppe der Anregungsmultipulse betrachtet, die aus einer repräsentativen Dauer eines auf den aktuellen Rahmen unmittelbar folgenden Rahmens extrahiert wurde. In diesem Falle wird für die stimmlose Lautdauer eine Interpolation unter Verwendung der Amplituden und der Positionen der aktuellen und der nachfolgenden Gruppe von Anregungsmultipulsen durchgeführt, um in den übrigen Teilrahmen mit Ausnahme der repräsentativen Dauern Anregungsmultipulse zu rekonstruieren und eine Folge von Steuerungs-Tonquellensignalen für jeden Rahmen zu reproduzieren. Andererseits wird eine Folge von Steuerungs-Tonquellensignalen für jeden Rahmen für eine stimmlose Lautdauer unter Verwendung der Indizes und der Verstärkungsfaktoren der Anregungsmultipulse und der Rauschsignale reproduziert.
  • Danach werden die so reproduzierten Steuerungs-Tonquellensignale an ein Synthesefilter übergeben, das unter Verwendung eines Spektrumparameters gebildet wird, und zu einem synthetisierten Tonsignal zusammengesetzt.
  • Bei dieser Struktur wird jede Gruppe von Anregungsmultipulsen intermittierend aus dem jeweiligen Rahmen in der Codiereinrichtung extrahiert und durch ein Interpolationsverfahren in der Decodiereinrichtung zu dem synthetisierten Tonsignal reproduziert. Hierbei ist zu beachten, daß es durch die intermittierende Extraktion der Anregungsmultipulse schwierig wird, das Steuerungs-Tonquellensignal in der Decodiereinrichtung in einem Übergangsabschnitt zu reproduzieren, in dem sich die Charakteristik des Tonquellensignals ändert. Ein derartiger Übergangsabschnitt tritt auf, wenn bei einer Verkettung von Vokalen im Sprachsignal ein Vokal in einen anderen Vokal übergeht und wenn ein stimmhafter Laut in einen anderen stimmhaften Laut übergeht. In einem Rahmen, der einen solchen Übergangsabschnitt enthält, zeigen die unter Verwendung des Interpolationsverfahrens reproduzierten Steuerungs-Tonquellensignale außerordentlich starke Abweichungen von den tatsächlichen Tonquellensignalen, was zu einer Qualitätsminderung des synthetisierten Tonsignals führt.
  • Hier ist zu erwähnen, daß der Spektrumparameter für eine spektrale Hüllkurve im allgemeinen in einer Codiervorrichtung durch Analyse der Sprachsignale unter Anwendung eines linearen Prädiktionscodierverfahrens (LPC) berechnet und in einer Decodiereinrichtung zur Bildung eines Synthesefilters verwendet wird. Daher wird das Synthesefilter durch den Spektrumparameter gebildet, der unter Anwendung des linearen Prädiktionscodierverfahrens (LPC) abgeleitet wurde, und weist eine durch die spektrale Hüllkurve festgelegte Filtercharakteristik auf. Bei der Analyse von weiblichen Lauten, insbesondere von "i" und "u", durch das lineare Prädiktionscodierverfahren ist jedoch gezeigt worden, daß in einer Grundschwingung und ihren Oberschwingungen einer Tonhöhenfrequenz ein schädlicher Einfluß auftritt. Dementsprechend ist die Bandbreite des Synthesefilters viel schmaler als eine praktische Bandbreite, die durch eine spektrale Hüllkurve tatsächlicher Sprachsignale festgelegt wird. Insbesondere wird die Bandbreite des Synthesefilters äußerst schmal in einem Frequenzband, das einem ersten Formant-Frequenzband entspricht. Im Ergebnis tritt ins einem Tonquellensignal keine Periodizität einer Tonhöhe auf. Daher verschlechtert sich die Sprachqualität des synthetisierten Tonsignals, wenn die Tonquellensignale durch die Anregungsmultipulse dargestellt werden, die unter Anwendung des Interpolationsverfahrens unter Annahme der Periodizität der Tonquelle extrahiert werden.
  • Eine Aufgabe der Erfindung besteht darin, eine Codiereinrichtung zu schaffen, welche bei der Codierung von digitalen Spracheingangssignalen auf einer Sendeseite und bei ihrer Reproduktion auf einer Empfangsseite die Sprachqualität verbessern kann. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
  • Die Erfindung schafft einen Codierer, der auf der Sendeseite des Kommunikationssystems eingesetzt wird und mit einem verhältnismäßig geringem Rechenaufwand die digitalen Spracheingangssignale zu einer Folge von Ausgangssignalen codieren kann, um die Sprachqualität zu verbessern.
  • Fig. 1 zeigt ein Blockschaltbild für die Beschreibung der Prinzipien einer erfindungsgemäßen Codiereinrichtung;
  • Fig. 2 zeigt ein Impulsdiagramm für die Beschreibung der Arbeitsweise der in Fig. 1 dargestellten Codiereinrichtung;
  • Fig. 3 zeigt ein Blockschaltbild einer Codiereinrichtung nach einem ersten Ausführungsbeispiel der Erfindung;
  • Fig. 4 zeigt ein Blockschaltbild einer Decodiereinrichtung, die mit der in Fig. 3 dargestellten Codiereinrichtung kommunikationsfähig ist, um zusammen mit der Codiereinrichtung ein Kommunikationssystem zu bilden; und
  • Fig. 5 zeigt ein Blockschaltbild einer Codiereinrichtung nach einem zweiten Ausführungsbeispiel der Erfindung.
  • In Fig. 1 werden zunächst die Prinzipien der vorliegenden Erfindung beschrieben. Eine erfindungsgemäße Codiereinrichtung weist eine Parameterberechnungseinheit 11, eine primäre Pulserzeugungseinheit 12, eine sekundäre Pulserzeugungseinheit 13 und ein Subtrahierglied 14 auf. Die Codiereinrichtung wird mit einer Folge von digitalen Spracheingangssignalen X(n) gespeist, wobei n die Abtastzeitpunkte darstellt. Die digitalen Spracheingangssignale X(n) sind in mehrere Rahmen unterteilbar, und es wird angenommen, daß sie von externen Einrichtungen aus, wie z. B. von einem Analog-Digital-Wandler (nicht dargestellt), an die Codiereinrichtung gesendet werden. Jeder Rahmen kann ein Intervall von beispielsweise zwanzig Millisekunden aufweisen. Die Parameterberechnungseinheit 11 weist einen LPC-Analysator (nicht dargestellt) und eine Tonhöhenparameter-Berechnungseinheit (nicht dargestellt) auf, die beide parallel mit den digitalen Spracheingangssignalen X(n) gespeist werden, um auf bekannte Weise die LPC-Parameter ai und die Tonhöhenparameter zu berechnen. Die LPC-Parameter ai und die Tonhöhenparameter werden als erste bzw. zweite Parametersignale bezeichnet.
  • Insbesondere entsprechen die LPC-Parameter ai einer spektralen Hüllkurve der digitalen Spracheingangssignale in jedem Rahmen und können als Spektrumparameter bezeichnet werden. Die Berechnung der LPC-Parameter ai wird ausführlich in der ersten und der zweiten Quelle beschrieben, die in der Einführung zu dieser Patentbeschreibung zitiert werden. Die LPC- Parameter können durch LSP-Parameter (LSP=Spezialsprache), Formanten oder LPC-Cepstrum-Parameter ersetzt werden. Das erste Parametersignal wird der primären und der sekundären Pulserzeugungseinheit 12 und 13 zugesendet. Die Tonhöhenparameter repräsentieren eine mittlere Tonhöhenperiode M und Tonhöhenkoeffizienten b der digitalen Spracheingangssignale in jedem Rahmen und werden nach einem Autokorrelationsverfahren berechnet. Das zweite Parametersignal wird an die primäre Pulserzeugungseinheit 12 gesendet.
  • Wie später ausführlich beschrieben wird, weist die primäre Pulserzeugungseinheit 12 eine Wahrnehmungsgewichtungsschaltung, einen primären Pulsberechner, ein Tonhöhenwiedergabefilter und ein Spektralkurvensynthesefilter auf. Wie dem Fachmann bekannt, gewichtet das Wahrnehmungsgewichtungsfilter die digitalen Spracheingangssignale X(n) und erzeugt gewichtete digitale Sprachsignale. Das Spektralkurvensynthesefilter weist eine erste Übertragungsfunktion Hs(Z) auf, die durch die folgende Beziehung gegeben ist:
  • wobei P die Ordnung des Spektralkurvensynthesefilters darstellt. Angenommen, die Ordnung des Tonhöhenwiedergabefilters sei gleich eins, dann hat das Tonhöhenwiedergabefilter eine zweite Übertragungsfunktion Hp(Z), welche durch die folgende Beziehung gegeben ist: Angenommen die Impulsantworten des Spektralkurvensynthesefilters, des Tonhöhenwiedergabefilters und des Wahrnehmungsgewichtungsfilters seien durch hs(n), hp(n) bzw. w(n) dargestellt. Die primäre Pulserzeugungseinheit 12 berechnet eine Impulsantwort hw(n) eines Kaskadenschaltungsfilters des Spektralkurvensynthesefilters und des Tonhöhenwiedergabefilters auf eine Weise, die in der japanischen ungeprüften Patentveröffentlichung Nr. Syo 60-51900, d. h. Nr. 51900/1985, offenbart wird, die als dritte Quelle bezeichnet werden kann. Die Impulsantwort hw(n) ist gegeben durch:
  • hw(n) = hs(n) * hp(n) * w(n),
  • wobei * eine Faltungsoperation bedeutet. Eine Impulsantwort hws(n) des Spektralkurvensynthesefilters, die einer Wahrnehmungsgewichtung unterworfen wird, ist gegeben durch:
  • hws(n) = hs(n) * w(n).
  • Die primäre Pulserzeugungseinheit 12 berechnet ferner eine Autokorrelationsfunktion Rhh(m) der Impulsantwort hw(n) und eine Kreuzkorrelationsfunktion Φhx(m) zwischen den gewichteten digitalen Sprachsignalen und der Impulsantwort hw(n) auf eine in der dritten Quelle beschriebene Weise.
  • Wie aus Fig. 2 zusätzlich zu Fig. 1 erkennbar ist, unterteilt der primäre Pulsberechner zunächst einen einzelnen Rahmen in eine vorgegebene Anzahl von Teilrahmen oder Tonhöhenperioden, deren jede kürzer ist als jeder Rahmen des in Fig. 2(a) abgebildeten digitalen Sprachsignals x(n). Zu diesem Zweck wird in dem primären Pulsberechner auf bekannte Weise die in Fig. 2(b) bei M abgebildete mittlere Tonhöhenperiode berechnet. Der abgebildete Rahmen wird in einen ersten bis fünften Teilrahmen sf&sub1; bis sf&sub5; unterteilt. Anschließend wird im primären Pulsberechner einer der Teilrahmen als repräsentativer Teilrahmen oder repräsentative Dauer nach einem Suchverfahren für den repräsentativen Teilrahmen ausgewählt.
  • Im einzelnen berechnet der primäre Pulsberechner eine vorgegebene Anzahl L von Prädiktions-Anregungsmultipulsen im ersten Teilrahmen sf&sub1;, wie in Fig. 2(c) dargestellt. Die vorgegebene Anzahl L ist in Fig. 2(c) gleich vier. Nach Verfahren, die in der ersten und der zweiten Quelle sowie in einem Beitrag von Araseki, Ozawa und Ochiai zur GLOBECOM 83, IEEE Global Telecommunications Conference, Nr. 23.3, 1983 unter dem Titel "Multi-Pulse Excited Speech Coder Based on Maximum Cross-correlation Search Algorithm" (Sprachcodierer mit Multi- pulsanregung auf der Basis eines Suchalgorithmus mit maximaler Kreuzkorrelation) beschrieben werden, kann eine solche Berechnung der Anregungsmultipulse unter Verwendung der Kreuzkorrelationsfunktion Φxh(m) und der Autokorrelationsfunktion Rhh(m) ausgeführt werden. Die Arbeit wird im folgenden als vierte Quelle bezeichnet. Auf jeden Fall werden die Prädiktions-Anregungsmultipulse durch Amplituden gi und Positionen mi spezifiziert, wobei i eine ganze Zahl von eins bis L darstellt, eins und L eingeschlossen. Der primäre Pulsberechner erzeugt die Positionen und Amplituden der Prädiktions-Anregungsmultipulse als primäre Tonquellensignale
  • Zusammen mit den Prädiktions-Anregungsmultipulsen erzeugt das Tonhöhenwiedergabefilter mehrere primäre Anregungsmultipulse bezüglich der übrigen Teilrahmen. Die primären Anregungsmultipulse sind in Fig. 2(d) dargestellt. Das mit den primären Anregungsmultipulsen gespeiste Spektralkurvensynthesefilter synthetisiert aus den primären Anregungsmultipulsen eine Folge von primären synthetisierten Signalen X' (n).
  • Das Subtrahierglied 14 subtrahiert die primären synthetisierten Signalen X'(n) von den digitalen Spracheingangssignalen X(n) und erzeugt eine Folge von Differenzsignalen e(n), welche die Differenzen zwischen den digitalen Eingangssignalen X(n) und den primären synthetisierten Signalen X'(n) darstellen. Die mit den Differenzsignalen e(n) gespeiste sekundäre Multipulserzeugungseinheit 13 berechnet auf die dem Fachmann bekannte Weise ein vorher gewählte Anzahl Q, zum Beispiel sieben, von sekundären Anregungsmultipulsen für einen einzelnen Rahmen. Die sekundären Anregungsmultipulse sind in Fig. 2(e) dargestellt. Die sekundäre Pulserzeugungseinheit 13 erzeugt die Positionen und die Amplituden der sekundären Anregungsmultipulse als sekundäre Tonquellensignale.
  • Somit erzeugt die Codiereinrichtung die der spektralen Hüllkurve entsprechenden LPC-Parameter, die den Tonhöhenkoeffizienten b und der mittleren Tonhöhenperiode M entsprechenden Tonhöhenparameter, die primären Tonquellensignale, welche den Orten und den Amplituden einer Anzahl L von Prädiktions-Anregungsmultipulsen entsprechen, und die sekundären Tonquellensignale, welche den Orten und den Amplituden einer Anzahl Q von sekundären Anregungsmultipulsen entsprechen.
  • In Fig. 3 ist erkennbar, daß eine Codiereinrichtung nach einem ersten Ausführungsbeispiel der Erfindung eine Parameterberechnungseinheit, eine primäre und eine sekundäre Pulserzeugungseinheit, die durch die gleichen Bezugszeichen wie in Fig. 1 gekennzeichnet sind und mit einer Folge von digitalen Spracheingangssignalen X(n) gespeist werden, um eine Folge von Ausgangssignalen OUT zu erzeugen. Die digitale Spracheingangssignalfolge X(n) läßt sich in mehrere Rahmen unterteilen, und es wird angenommen, daß die Signalfolge von einer äußeren Einrichtung, z. B. einem Analog-Digital-Wandler (nicht dargestellt) zur Codiereinrichtung übermittelt wird. Jeder Rahmen kann ein Intervall von beispielsweise 20 Millisekunden aufweisen. Die digitalen Spracheingangssignale X(n) werden der Parameterberechnungseinheit 11 in jedem Rahmen zugeführt. Die abgebildete Parameterberechnungseinheit 11 weist einen LPC-Analysator (nicht dargestellt) und einen Tonhöhenparameter-Berechner (nicht dargestellt) auf, die beide parallel mit den digitalen Spracheingangssignalen X(n) gespeist werden, um Spektrumparameter ai, d. h. die LPC-Parameter, sowie Tonhöhenparameter auf bekannte Weise zu berechnen. Die Spektrumparameter ai und die Tonhöhenparameter werden nachstehend als erste bzw. zweite primäre Parametersignale bezeichnet.
  • Genauer gesagt, die Spektrumparameter ai repräsentieren eine spektrale Hüllkurve oder Spektralkurve der digitalen Spracheingangssignale X(n) in jedem Rahmen und können gemeinsam als ein Spektrumparameter bezeichnet werden. Der LPC-Analysator analysiert die digitalen Spracheingangssignale unter Anwendung des dem Fachmann bekannten linearen Prädiktionscodierverfahrens, um nur Spektrumparameter erster bis N-ter Ordnung zu berechnen. Die Berechnung der Spektrumparameter wird ausführlich in der ersten und der zweiten Quelle beschrieben, die im Einführungsteil dieser Patentbeschreibung zitiert werden. Die Spektrumparameter sind identisch mit den PARCOR-Koeffizienten. Auf jeden Fall werden die im LPC-Analysator berechneten Spektrumparameter an einen Parameterquantisierer 15 übermittelt und zu quantisierten Spektrumparametern verarbeitet, deren jeder aus einer vorgegebenen Anzahl von Bits besteht. Ersatzweise kann die Quantisierung auch nach den anderen bekannten Verfahren ausgeführt werden, wie z. B. der Skalarquantisierung und der Vektorquantisierung. Die quantisierten Spektrumparameter werden an einen Multiplexer 16 übergeben. Ferner werden die quantisierten Spektrumparameter durch einen Umkehrquantisierer 17 konvertiert, der bezüglich der Quantisierung des Parameterquantisierers 15 eine Umkehrquantisierung in konvertierte Spektrumparameter ai' (i = 1 ... N) ausführt. Die konvertierten Spektrumparameter ai' werden der primären Pulserzeugungseinheit 12 zugeführt. Die quantisierten Spektrumparameter und die konvertierten Spektrumparameter ai' leiten sich aus den vom LPC-Analysator berechneten Spektrumparametern ab und werden in Form von elektrischen Signalen erzeugt, die gemeinsam als erstes Parametersignal bezeichnet werden können.
  • In der Parameterberechnungseinheit 11 berechnet der Tonhöhenparameter-Berechner eine mittlere Tonhöhenperiode M und Tonhöhenkoeffizienten b aus den digitalen Spracheingangs-Signalen X(n) und erzeugt als Tonhöhenparameter die mittlere Tonhöhenperiode M und die Tonhöhenkoeffizienten b in jedem Rahmen nach einem Autokorrelationsverfahren, das gleichfalls in der ersten und der zweiten Quelle beschrieben wird und daher im folgenden nicht erwähnt wird. Ersatzweise können die Tonhöhenparameter nach den anderen bekannten Verfahren berechnet werden, wie z. B. nach einem Cepstrum-Verfahren, einem SIFT-Verfahren, einem modifizierten Korrelationsverfahren. Auf jeden Fall werden die mittlere Tonhöhenperiode M und die Tonhöhenkoeffizienten b ebenfalls durch den Parameterquantisierer 15 zu einer quantisierten Tonhöhenperiode und zu quantisierten Tonhöhenkoeffizienten verarbeitet, die jeweils aus einer vorher gewählten Anzahl von Bits bestehen. Die quantisierte Tonhöhenperiode und die quantisierten Tonhöhenkoeffizienten werden als elektrische Signale gesendet. Außerdem werden die quantisierte Tonhöhenperiode und die quantisierten Tonhöhenkoeffizienten auch durch den Umkehrquantisierer 17 zu einer konvertierten Tonhöhenperiode M' und zu konvertierten Tonhöhenkoeffizienten b' verarbeitet, die in Form von elektrischen Signalen erzeugt werden. Die quantisierte Tonhöhenperiode und die quantisierten Tonhöhenkoeffizienten werden als zweites Parametersignal, das die Tonhöhenperiode und die Tonhöhenkoeffizienten repräsentiert, an den Multiplexer 16 gesendet.
  • In dem dargestellten Beispiel wird die primäre Pulserzeugungseinheit 12 in jedem Rahmen mit den digitalen Spracheingangssignalen X(n) zusammen mit den konvertierten Spektrumparametern ai', der konvertierten Tonhöhenperiode M' und den konvertierten Koeffizienten b' gespeist, um auf eine später zu beschreibende Weise eine Gruppe von primären Tonquellensignalen zu erzeugen. Zu diesem Zweck weist die primäre Pulserzeugungseinheit 12 ein zusätzliches Subtrahierglied 21 auf, das als Antwort auf die digitalen Spracheingangssignale X(n) und auf eine Folge von lokalen reproduzierten Sprachsignalen Sd eine Folge von Fehlersignalen E erzeugt, welche die Differenzen zwischen den digitalen Spracheingangssignalen und den lokalen reproduzierten Sprachsignalen X(n) bzw. Sd repräsentiert. Die Fehlersignale E werden an eine primäre Wahrnehmungsgewichtungsschaltung 22 übermittelt, die mit den konvertierten Spektrumparametern ai' gespeist wird. In der primären Wahrnehmungsgewichtungsschaltung 22 werden den Fehlersignalen E Gewichte zugeordnet, die durch die konvertierten Spektrumparameter ai' festgelegt werden. Folglich berechnet die primäre Wahrnehmungsgewichtungsschaltung 22 auf bekannte Weise eine Folge von gewichteten Fehlern und führt die gewichteten Fehler Ew einem Kreuzkorrelator 23 zu.
  • Andererseits werden die konvertierten Spektrumparameter ai' vom Umkehrquantisierer 17 auch an einen Impulsantwort-Berechner 24 übermittelt. Als Antwort auf die konvertierten Spektrumparameter ai' berechnet der Impulsantwort-Berechner 24 nach der oben angegebenen Gleichung (2) die Impulsantwort hws(n) eines Synthesefilters, die einer Wahrnehmungsgewichtung unterworfen wird und durch die konvertierten Spektrumparameter ai' festgelegt ist. Als Antwort auf die konvertierte Tonhöhenperiode M' und die konvertierten Tonhöhenkoeffizienten b' berechnet der Impulsantwort-Berechner 24 außerdem nach der oben angegebenen Gleichung (1) die Impulsantwort hw(n) eines aus einem Tonhöhensynthesefilter und dem Synthesefilter bestehenden Kaskadenschaltungsfilters, die einer Wahrnehmungsgewichtung unterworfen wird und durch die konvertierten Spektrumparameter ai', die konvertierte Tonhöhenperiode M und die konvertierten Tonhöhenkoeffizienten b' festgelegt ist. Die so berechnete Impulsantwort hws(n) wird sowohl an den Kreuzkorrelator 23 als auch an einen Autokorrelator 25 übergeben.
  • Der Kreuzkorrelator 23 wird mit den gewichteten Fehlern Ew und der Impulsantwort hw(n) gespeist, um auf bekannte Weise eine Kreuzkorrelationsfunktion bzw. Koeffizienten Φxxh(m) für eine vorgegebene Anzahl N von Proben zu berechnen, wobei m eine ganze Zahl ist, die zwischen eins und N ausgewählt wird, eins und N eingeschlossen.
  • Der Autokorrelator 25 berechnet eine primäre Autokorrelations- oder Kovarianzfunktion bzw. Koeffizienten Rhh(n) der Impulsantwort hw(n). Die primäre Autokorrelationsfunktion Rhh(n) wird zusammen mit der Kreuzkorrelationsfunktion Φxh(m) an einen primären Pulsberechner 26 übergeben. Der Autokorrelator 25 berechnet außerdem eine sekundäre Autokorrelationsfunktion Rhhs(n) der Impulsantwort hws(n). Die sekundäre Autokorrelationsfunktion Rhhs(n) wird zusammen mit den konvertierten Spektrumparametern ai' an die sekundäre Pulserzeugungseinheit 13 übergeben. Der Kreuzkorrelator 23 und der Autokorrelator 25 können ähnlich den in der dritten Quelle beschriebenen Geräten aufgebaut sein und werden hier nicht weiter beschrieben.
  • Unter Bezugnahme auf die konvertierte Tonhöhenperiode M' unterteilt der primäre Pulsberechner 26 zunächst einen der Rahmen in eine vorgegebene Anzahl von Teilrahmen oder Tonhöhenperioden, deren jede kürzer ist als jeder Rahmen, wie in Verbindung mit Fig. 2 beschrieben wurde. Der primäre Pulsberechner 26 berechnet entsprechend der primären Autokorrelationsfunktion Rhh(n) und der Kreuzkorrelationsfunktion Φxh(m) die Positionen mi und die Amplituden gi einer vorgegebenen Anzahl L von Prädiktions-Anregungsmultipulsen bezüglich eines vorher gewählten Teilrahmens. Der primäre Pulsberechner 26 kann ähnlich aufgebaut sein wie der in der dritten Quelle beschriebene Pulsberechner.
  • Ein primärer Quantisierer 27 quantisiert zunächst die Positionen und die Amplituden der Prädiktions-Anregungsmultipulse und übermittelt quantisierte Positionen und quantisierte Amplituden als primäre Tonquellensignale an den Multiplexer 16. Anschließend konvertiert der primäre Quantisierer 27 durch Umkehrquantisierung bezüglich der Quantisierung die quantisierten Positionen und die quantisierten Amplituden zu konvertierten Positionen und konvertierten Amplituden und übergibt die konvertierten Positionen und Amplituden an ein Tonhöhensynthesefilter 28 mit der Übertragungsfunktion Hp(z). Das mit den konvertierten Positionen und Amplituden gespeiste Tonhöhensynthesefilter 28 reproduziert entsprechend der konvertierten Tonhöhenperiode M' und den konvertierten Tonhöhenkoeffizienten b' mehrere primäre Anregungsmultipulse bezüglich der übrigen Teilrahmen. Unter Bezugnahme auf die konvertierten Spektrumparameter ai' synthetisiert ein primäres Synthesefilter 29 mit der Übertragungsfunktion Hs(z) die konvertierten Positionen und Amplituden und erzeugt eine Folge von primären synthetisierten Signalen X'(n). Das Subtrahierglied 14 subtrahiert die primären synthetisierten Signale x'(n) von den digitalen Spracheingangssignalen X(n) und erzeugt Differenzsignale e(n), welche die Differenzen zwischen den digitalen Spracheingangssignalen X(n) und den primären synthetisierten Signalen X'(n) darstellen.
  • Die sekundäre Pulserzeugungseinheit 13 kann ähnlich aufgebaut sein wie die in der dritten Quelle beschriebene Einheit und weist eine sekundäre Wahrnehmungsgewichtungsschaltung 32, einen sekundären Kreuzkorrelator 33, einen sekundären Pulsberechner 34, einen sekundären Quantisierer 35 und ein sekundäres Synthesefilter 36 auf. Die Differenzsignale e(n) werden der sekundären Wahrnehmungsgewichtungsschaltung 32 zugeführt, die mit den konvertierten Spektrumparametern ai' gespeist wird. Die Differenzsignale e(n) werden mit Gewichten versehen, die durch die konvertierten Spektrumparameter ai' festgelegt sind. Die sekundäre Wahrnehmungsgewichtungsschaltung 32 berechnet eine Folge von gewichteten Differenzsignalen und führt diese dem Kreuzkorrelator 33 zu.
  • Der Kreuzkorrelator 33 wird mit den gewichteten Differenzsignalen und der Impulsantwort hws(n) gespeist, um eine sekundäre Kreuzkorrelationsfunktion Φxhs(m) zu berechnen. Der sekundäre Pulsberechner 34 berechnet Positionen und Amplituden einer vorher gewählten Anzahl Q von sekundären Anregungsmultipulsen unter Bezugnahme auf die sekundäre Kreuzkorrelationsfunktion Φxhs(m) und die sekundäre Autokorrelationsfunktion Rhhs(n). Der sekundäre Pulsberechner 34 erzeugt die Positionen und die Amplituden der sekundären Anregungsmultipulse. Der sekundäre Quantisierer 35 quantisiert die Positionen und die Amplituden der sekundären Anregungsmultipulse und führt quantisierte Positionen und quantisierte Amplituden als sekundäre Tonquellensignale dem Multiplexer 16 zu. Anschließend konvertiert der sekundäre Quantisierer 35 die quantisierten Positionen und die quantisierten Amplituden mittels Umkehrquantisierung bezüglich der Quantisierung und übergibt konvertierte Positionen und konvertierte Amplituden an das sekundäre Synthesefilter 36. Unter Bezugnahme auf die konvertierten Spektrumparameter ai' synthetisiert das sekundäre Synthesefilter 36 die konvertierten Positionen und Amplituden und führt eine Folge sekundärer synthetisierter Signale dem Addierglied 30 zu. Das Addierglied 30 addiert die sekundären synthetisierten Signale zu den primären synthetisierten Signalen X' (n) und erzeugt die lokalen Reproduktions- oder Wiedergabesignale Sd eines aktuellen Rahmens. Die lokalen Wiedergabesignale Sd werden als digitale Spracheingangssignale für einen nächsten Rahmen verwendet.
  • Der Multiplexer 16 multiplexiert die quantisierten Spektrumparameter, die quantisierte Tonhöhenperiode, die quantisierten Tonhöhenkoeffizienten, die primären Tonquellensignale, welche die quantisierten Positionen und Amplituden der Anzahl L von Prädiktions-Anregungsmultipulsen darstellen, sowie die sekundären Tonquellensignale, welche die quantisierten Positionen und Amplituden der Anzahl Q von sekundären Anregungsmultipulsen darstellen, zu einer Folge von multiplexierten Signalen und erzeugt die multiplexierten Signale als Ausgangssignale OUT.
  • Wie aus Fig. 4 ersichtlich, ist eine Decodiereinrichtung mit der in Fig. 3 dargestellten Codiereinrichtung kommunikationsfähig und wird mit der in Fig. 3 dargestellten Ausgangssignalfolge 0UT als einer Folge von Empfangssignalen RV gespeist. Die Empfangssignale RV werden einem Demultiplexer 40 zugeführt und zu primären Tonquellencodes, sekundären Tonquellencodes, Spektrumparametercodes, Tonhöhenperiodencodes und Tonhöhenkoeffizientencodes demultiplexiert, die sämtlich von der in Fig. 3 dargestellten Codiereinrichtung übertragen werden. Die primären Tonquellencodes und die sekundären Tonquellencodes sind bei PC bzw. SC abgebildet. Die Spektrumparametercodes, die Tonhöhenperiodencodes und die Tonhöhenkoeffizientencodes können gemeinsam als Parametercodes bezeichnet werden und sind gemeinsam bei PM abgebildet. Die primären Tonquellencodes PC schließen die primären Tonquellensignale ein, während die sekundären Tonquellencodes SC die sekundären Tonquellensignale einschließen. Die primären Tonquellensignale übertragen die Positionen und die Amplituden der Prädiktions- Anregungsmultipulse, während die sekundären Tonquellensignale die Positionen und die Amplituden der sekundären Anregungsmultipulse übertragen.
  • Ein primärer Pulsdecodierer 41, der mit den primären Tonquellencodes PC gespeist wird, reproduziert decodierte Positionen und Amplituden der Prädiktions-Anregungsmultipulse, die von den primären Tonquellencodes PC übertragen werden. Eine solche Wiedergabe der Prädiktions-Anregungsmultipulse wird während des repräsentativen Teilrahmens ausgeführt. Ein sekundärer Pulsdecodierer 42 reproduziert decodierte Positionen und Amplituden der sekundären Anregungsmultipulse, die von den sekundären Tonquellencodes SC übertragen werden. Ein Parameterdecodierer 43, der mit den Parametercodes PM gespeist wird, reproduziert decodierte Spektrumparameter, eine decodierte Tonhöhenperiode und decodierte Tonhöhenkoeffizienten. Die decodierte Tonhöhenperiode und die decodierten Tonhöhenkoeffizienten werden einem primären Pulserzeuger 44 und einem Empfangs-Tonhöhenwiedergabefilter 45 zugeführt. Die decodierten Spektrumparameter werden an ein Empfangs-Synthesefilter 46 übergeben. Der Parameterdecodierer 43 kann ähnlich aufgebaut sein wie der in Fig. 3 dargestellte Umkehrquantisierer 17. Der mit den decodierten Positionen und Amplituden der Prädiktions- Anregungsmultipulse gespeiste primäre Pulsgenerator 44 erzeugt eine Wiedergabe der Prädiktions-Anregungsmultipulse unter Bezugnahme auf die decodierte Tonhöhenperiode und übermittelt reproduzierte Prädiktions-Anregungsmultipulse an das Empfangs- Tonhöhenwiedergabefilter 45. Das Empfangs-Tonhöhenwiedergabe filter 45 ist ähnlich aufgebaut wie das in Fig. 3 dargestellte Tonhöhenwiedergabefilter 28 und erzeugt unter Bezugnahme auf die decodierte Tonhöhenperiode und die decodierten Tonhöhenkoeffizienten eine Wiedergabe der primären Anregungsmultipulse. Ein sekundärer Pulsgenerator 47 wird mit den decodierten Positionen und Amplituden der sekundären Anregungsmultipulse gespeist und erzeugt eine Wiedergabe der sekundären Anregungsmultipulse für jeden Rahmen. Ein Empfangs-Addierglied 48, das mit reproduzierten primären Anregungsmultipulsen und reproduzierten sekundären Anregungsmultipulsen gespeist wird, addiert die reproduzierten primären Anregungsmultipulse und die reproduzierten sekundären Anregungsmultipulse und erzeugt eine Folge von Steuerungs-Tonquellensignalen für jeden Rahmen. Die Steuerungs-Tonquellensignale werden zusammen mit den decodierten Spektrumparametern dem Empfangs-Synthesefilter 46 zugeführt. Das Empfangs-Synthesefilter 46 kann auf bekannte Weise betrieben werden, um in jedem Rahmen eine Folge von synthetisierten Sprachsignalen zu erzeugen.
  • Wie aus Fig. 5 erkennbar, ist eine Codiereinrichtung nach einem zweiten Ausführungsbeispiel der Erfindung in Struktur und Arbeitsweise der in Fig. 3 dargestellten Einrichtung ähnlich, mit Ausnahme eines Periodizitätsdetektors 50. Der Periodizitätsdetektor 50 kann zusammen mit einem Spektrumberechner betrieben werden, nämlich mit dem LPC-Analysator im Parameterberechner 11, um die Periodizität eines Spektrumparameters zu erkennen, wofür die LPC-Parameter als Beispiel dienen können. Zu diesem Zweck erfaßt der Periodizitätsdetektor 50 lineare Prädiktionskoeffizienten ai, nämlich die LPC-Parameter, und bildet unter Verwendung der linearen Prädiktionskoeffizienten ai ein Synthesefilter, wie in der vorliegenden Beschreibung schon hier und da angedeutet wurde. Hierbei wird angenommen, daß ein derartiges Synthesefilter in dem Periodizitätsdetektor 50 durch die im LPC-Analysator analysierten linearen Prädiktionskoeffizienten ai gebildet wird. In diesem Falle weist das Synthesefilter eine Übertragungsfunktion H(z) auf, die durch
  • gegeben ist, wobei P eine Ordnung des synthetisierten Filters darstellt. Danach berechnet der Periodizitätsdetektor 50 eine Impulsantwort h(n) des synthetisierten Filters, die durch
  • gegeben ist, wobei G eine Amplitude einer Anregungsquelle darstellt.
  • Wie dem Fachmann bekannt, läßt sich aus der Impulsantwort h(n) eine Tonhöhenverstärkung Pg berechnen. Unter diesen Umständen berechnet der Periodizitätsdetektor 50 außerdem die Tonhöhenverstärkung Pg aus der Impulsantwort h(n) des auf die oben erwähnte Weise gebildeten Synthesefilters und vergleicht danach die Tonhöhenverstärkung Pg mit einem vorgegebenen Schwellwert.
  • Praktisch kann man die Tonhöhenverstärkung Pg durch Berechnung einer Autokorrelationsfunktion von h(n) für eine vorgegebene Verzögerungszeit und durch Auswahl eines Maximalwerts der Autokorrelationsfunktion erhalten, der nach einer bestimmten Verzögerungszeit auftritt. Eine solche Berechnung der Tonhöhenverstärkung läßt sich auf eine Weise durchführen, die in der ersten und der zweiten Quelle beschrieben wurde und im folgenden nicht weiter erwähnt wird.
  • Da die Tonhöhenverstärkung Pg gewöhnlich ansteigt, wenn sich die Periodizität in der Impulsantwort verstärkt, erkennt der dargestellte Periodizitätsdetektor 50, daß die Periodizität in der betreffenden Impulsantwort stark ist, wenn die Tonhöhenverstärkung Pg höher ist als der vorgegebene Schwellwert. Bei der Feststellung einer starken Periodizität der Impulsantwort gewichtet der Periodizitätsdetektor 50 die linearen Prädiktionskoeffizienten ai, indem er die ai zu gewichteten Koeffizienten aw modifiziert, die durch
  • aw = ai ri (l ≤ i ≤ p)
  • gegeben sind, wobei r einen Gewichtungsfaktor darstellt und eine positive Zahl kleiner als eins ist.
  • Hier ist zu beachten, daß eine Frequenzbandbreite des Synthesefilters von den obenerwähnten gewichteten Koeffizienten aw abhängt, insbesondere vom Wert des Gewichtungsfaktors r. Wenn man dies berücksichtigt, verbreitert sich die Frequenzbandbreite des Synthesefilters mit zunehmenden Wert von r. Insbesondere ist eine größere Bandbreite B (Hz) des Synthesefilters durch die folgende Beziehung gegeben:
  • B = -Fs/π. n(r) (Hz).
  • Wenn r und Fs gleich 0,98 bzw. gleich 8 kHz sind, dann beträgt die vergrößerte Bandbreite B praktisch etwa 50 Hz.
  • Aus dieser Tatsache läßt sich ohne weiteres erkennen, daß der Periodizitätsdetektor 50 die gewichteten Koeffizienten aw erzeugt, wenn die Tonhöhenverstärkung Pg höher ist als der Schwellwert. Infolgedessen erzeugt der LPC-Analysator gewichtete Spektrumparameter. Wenn andererseits die Tonhöhenverstärkung Pg nicht höher ist als der Gewichtungsfaktor r, dann erzeugt der LPC-Analysator die linearen Prädiktionskoeffizienten als ungewichtete Spektrumparameter.
  • Folglich erkennt der dargestellte Periodizitätsdetektor 50 in der Codiereinrichtung die Tonhöhenverstärkung aus der Impulsantwort und speist den Parameterquantisierer 15 mit den gewichteten oder den ungewichteten Spektrumparametern. Bei dieser Struktur wird die Frequenzbandbreite im Synthesefilter verbreitert, wenn die Periodizität der Impulsantwort stark ist und die Tonhöhenverstärkung ansteigt. Daher ist es möglich, ein ungünstiges Engerwerden einer Frequenzbandbreite für den Formanten erster Ordnung zu verhindern. Dies zeigt, daß durch die Verwendung der aus dem repräsentativen Teilrahmen abgeleiteten Prädiktions-Anregungsmultipulse die Berechnung der Anregungsmultipulse vorteilhaft mit vermindertem Rechenaufwand in der primären Pulserzeugungseinheit 12 ausgeführt werden kann.
  • Die primäre und die sekundäre Pulserzeugungseinheit 12 bzw. 13 sowie ihre Arbeitsweise sind ähnlich wie bei den in Fig. 3 dargestellten Einheiten. Ferner kann als eine Decodiereinrichtung, die sich als Gegenstück zu der in Fig. 5 dargestellten Codiereinrichtung betreiben läßt, die in Fig. 4 dargestellte Decodiereinrichtung verwendet werden.
  • Die Erfindung ist zwar bisher in Verbindung mit einigen ihrer Ausführungsbeispiele beschrieben worden, für den Fachmann ist es jedoch leicht möglich, die Erfindung auf verschieden andere Arten in die Praxis umzusetzen. Zum Beispiel können die Tonhöhenkoeffizienten b nach der folgenden Gleichung berechnet werden:
  • wobei v(n) frühere Tonquellensignale darstellt, die vom Tonhöhenwiedergabefilter und dem Synthesefilter reproduziert werden, und E eine Fehlerpotenz zwischen den digitalen Spracheingangssignalen eines aktuellen Teilrahmens und denen des vorhergehenden Teilrahmens bedeutet. In diesem Falle sucht der Parameterberechner eine Position T, welche die oben angegebene Gleichung minimiert. Danach berechnet der Parameterberechner die Tonhöhenkoeffizienten b entsprechend der Position T. Das primäre Synthesefilter kann gewichtete synthetisierte Signale reproduzieren. In diesem Falle kann die sekundäre Wahrnehmungsgewichtungsschaltung 32 weggelassen werden. Das sekundäre Synthesefilter 36 und das Addierglied 30 können weggelassen werden.

Claims (2)

1. Codiereinrichtung, die in jedem Rahmen mit einer Folge von digitalen Sprachsignalen gespeist wird, um eine Folge von Ausgangssignalen zu erzeugen, wobei die Codiereinrichtung aufweist:
a) eine Parameterberechnungseinrichtung (11), die als Antwort auf die digitalen Sprachsignale in jedem Rahmen erste und zweite Primärparameter, die eine spektrale Hüllkurve spezifizieren, sowie Tonhöhenparameter der digitalen Sprachsignale berechnet, um erste und zweite Parametersignale zu erzeugen, welche die spektrale Hüllkurve bzw. die Tonhöhenparameter repräsentieren,
b) eine mit der Parameterberechnungseinrichtung (11) gekoppelte Berechnungseinrichtung zum Berechnen einer Gruppe von Berechnungsergebnissignalen, welche die digitalen Sprachsignale repräsentieren, und
c) eine Ausgangssignal-Erzeugungseinrichtung (16) zur Erzeugung der Gruppe der Berechnungsergebnissignale als Ausgangssignalfolge,
wobei die Berechnungseinrichtung aufweist:
d) eine primäre Pulserzeugungseinrichtung (12), die als Antwort auf die digitalen Sprachsignale und die ersten und zweiten Parametersignale bezüglich eines vorher ausgewählten Teilrahmens von den Teilrahmen, die durch Unterteilung jedes Rahmens entstehen und deren jeder kürzer als der Rahmen ist, eine erste Gruppe von Prädiktions-Anregungsmultipulsen berechnet, wobei die primäre Pulserzeugungseinrichtung die erste Gruppe von Prädiktions-Anregungsmultipulsen als primäres Tonquellensignal sowie eine Folge von primären synthetisierten Signalen erzeugt, die durch die erste Gruppe von Prädiktions- Anregungsmultipulsen und die spektrale Hüllkurve sowie die Tonhöhenparameter spezifiziert werden;
e) eine mit der primären Pulserzeugungseinrichtung (12) gekoppelte Subtrahiereinrichtung (14) zum Subtrahieren der primären synthetisierten Signale von den digitalen Sprachsignalen, um eine Folge von Differenzsignalen zu erzeugen, die Differenzen zwischen den primären synthetisierten Signalen und den digitalen Sprachsignalen repräsentieren;
f) eine mit der Subtrahiereinrichtung (14) gekoppelte sekundäre Pulserzeugungseinrichtung (13), die als Antwort auf die Differenzsignale und die ersten und zweiten Parametersignale als Gruppe von Berechnungsergebnissignalen eine zweite Gruppe von sekundären Anregungsmultipulsen als sekundäres Tonquellensignal erzeugt;
g) eine Einrichtung, um eine Kombination aus der ersten Gruppe von Prädiktions-Anregungsmultipulsen, der zweiten Gruppe von sekundären Anregungsmultipulsen und den ersten und zweiten Parametersignalen als die Ausgangssignalfolge der Ausgangssignal-Erzeugungseinrichtung (16) zuzuführen; und
h) eine mit der Parameterberechnungseinrichtung (11) gekoppelte Periodizitäts-Detektionseinrichtung (50), die mit dem ersten Parametersignal gespeist wird, um festzustellen, ob die Periodizität einer Impulsantwort eines durch die ersten Primärparameter festgelegten Synthesefilters höher ist als ein vorgegebener Schwellwert oder nicht, wobei die Periodizitäts- Detektionseinrichtung ein Gewichtungssignal erzeugt, das einem gewichteten Wert entspricht, wenn die Periodizität höher ist als der vorgegebene Wert, wobei die Parameterberechnungseinrichtung als Antwort auf das gewichtete Signal die ersten Primärparameter wichtet und erste gewichtete Parametersignale erzeugt.
2. Codiereinrichtung nach Anspruch 1, wobei die primäre Pulserzeugungseinrichtung (12) aufweist:
a) eine Pulsberechnungseinrichtung (26) zur Berechnung der ersten Gruppe von Prädiktions-Anregungsmultipulsen unter Bezugnahme auf die ersten und die zweiten Parametersignale;
b) eine mit der Pulsberechnungseinrichtung (26) gekoppelte Tonhöhenwiedergabefiltereinrichtung (28), um entsprechend der ersten Gruppe von Prädiktions-Anregungsmultipulsen und den zweiten Parametersignalen bezüglich der übrigen Teilrahmen mit Ausnahme des vorgewählten Teilrahmens eine dritte Gruppe von primären Anregungsmultipulsen zu reproduzieren; und eine mit der Tonhöhenwiedergabefiltereinrichtung (28) gekoppelte primäre Synthetisiereinrichtung (29) für die Synthese der dritten Gruppe von primären Anregungsmultipulsen unter Bezugnahme auf das erste Parametersignal, um die primären synthetisierten Signale zu erzeugen.
DE68917584T 1989-03-22 1989-12-15 Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung. Expired - Fee Related DE68917584T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1071203A JP2903533B2 (ja) 1989-03-22 1989-03-22 音声符号化方式

Publications (2)

Publication Number Publication Date
DE68917584D1 DE68917584D1 (de) 1994-09-22
DE68917584T2 true DE68917584T2 (de) 1994-12-15

Family

ID=13453884

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68917584T Expired - Fee Related DE68917584T2 (de) 1989-03-22 1989-12-15 Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung.

Country Status (5)

Country Link
US (1) US5027405A (de)
EP (1) EP0390975B1 (de)
JP (1) JP2903533B2 (de)
CA (1) CA2005665C (de)
DE (1) DE68917584T2 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2051304C (en) * 1990-09-18 1996-03-05 Tomohiko Taniguchi Speech coding and decoding system
US6006174A (en) 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
DE69132987T2 (de) * 1990-11-02 2002-08-29 Nec Corp Verfahren zur Kodierung eines Sprachparameters mittels Übertragung eines spektralen Parameters mit verringerter Datenrate
CA2054849C (en) * 1990-11-02 1996-03-12 Kazunori Ozawa Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
US5528723A (en) * 1990-12-28 1996-06-18 Motorola, Inc. Digital speech coder and method utilizing harmonic noise weighting
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
JP2655046B2 (ja) * 1993-09-13 1997-09-17 日本電気株式会社 ベクトル量子化装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
JP4008607B2 (ja) * 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
EP1543498B1 (de) * 2002-09-17 2006-05-31 Koninklijke Philips Electronics N.V. Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
AU2003291205A1 (en) * 2002-11-27 2004-06-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Watermarking digital representations that have undergone lossy compression
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
EP3671741A1 (de) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audioprozessor und verfahren zum erzeugen eines frequenzverbesserten audiosignals mittels impulsverarbeitung

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
GB8621932D0 (en) * 1986-09-11 1986-10-15 British Telecomm Speech coding
JP2586043B2 (ja) * 1987-05-14 1997-02-26 日本電気株式会社 マルチパルス符号化装置

Also Published As

Publication number Publication date
JPH02249000A (ja) 1990-10-04
EP0390975B1 (de) 1994-08-17
CA2005665C (en) 1994-02-08
JP2903533B2 (ja) 1999-06-07
US5027405A (en) 1991-06-25
EP0390975A1 (de) 1990-10-10
CA2005665A1 (en) 1990-09-22
DE68917584D1 (de) 1994-09-22

Similar Documents

Publication Publication Date Title
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE68917584T2 (de) Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung.
DE60011051T2 (de) Celp-transkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE69932460T2 (de) Sprachkodierer/dekodierer
DE69928288T2 (de) Kodierung periodischer sprache
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE60316396T2 (de) Interoperable Sprachkodierung
DE19647298C2 (de) Kodiersystem
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE602004003610T2 (de) Halbrätiger Vocoder
DE69029232T2 (de) System und Methode zur Sprachkodierung
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE68922134T2 (de) Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude.
DE3244476A1 (de) Digitaler sprachprozessor
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee