EP0140249B1

EP0140249B1 - Sprachanalyse und Synthese mit Energienormalisierung

Info

Publication number: EP0140249B1
Application number: EP19840112266
Authority: EP
Inventors: George R. Doddington; Panos E. Papamichalis
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1983-10-13
Filing date: 1984-10-12
Publication date: 1988-08-10
Also published as: EP0140249A1; DE3473373D1; JPH0644195B2; JPS60107700A

Claims

1. Sprachpostsystem mit einem Analysator, der so angeschlossen ist, daß er ein digitales Sprachsignal empfängt und daraus eine Folge von Rahmen aus Sprachparametern erzeugt, wobei die Parameter jedes Rahmens einen Energieparameter, Anregungsparameter und Parameter für die lineare Vorausssagecodierung enthalten, Ausgangsmitteln zum Laden der Parameter für jeden Sprachrahmen in einen Datenkanal, Eingabemitteln zum Empfangen einer Folge von Rahmen aus Sprachparametern, Mitteln zum Konfigurieren eines Gitterfilters entsprechend den Parametern für die lineare Voraussagecodierung, Mitteln zum Erzeugen eines Anregungssignals entsprechend den Anregungsparametern, wobei das Anregungssignal als Eingangssignal für das Gitterfilter vorgesehen ist, und Mitteln zum Modulieren des Ausgangssignals des Gitterfilters entsprechend dem Energieparameter zur Lieferung eines Ausgangssprachsignals, dadurch gekennzeichnet, daß Mittel zum Normieren des Energieparameters jedes Sprachrahmens vorgesehen sind, wobei der Energieparameter jedes Sprachrahmens in erster Linie bezüglich eines Energieparameters eines nachfolgenden Rahmens normiert wird, der wenigstens 0,1 Sekunden nach dem betreffenden Rahmen erscheint.

2. System nach Anspruch 1, bei welchem der Energieparameter jedes Sprachrahmens bezüglich eines Spitzenwert - Nachführungsparameters der nachfolgenden Rahmen normiert wird, wobei der Spitzenwert - Nachführungsparameter allgemein einer oberen Hüllkurve der Folge der Energieparameter der Rahmen entspricht.

3. System nach Anspruch 1, bei welchem die Sprachparameter jedes Rahmens auch den Stimmhaft/Stimmlos-Zustand des jeweiligen Rahmens angeben.

4. System nach Anspruch 3, bei welchem die Parameter auch eine Tohöheninformation für jeden der Sprachrahmen enthalten und der Analysator gemeinsam die Tonhöhe und den Stimmtyp jedes Rahmens bestimmt, so daß die Tonhöhe und die Stimmtypentscheidungen sich so glatt wie möglich über benachbarte Rahmen ändern.

5. Verfahren zum Codieren von Sprache, enthaltend die Schritte des Analysierens eines Sprachsignals zur Erzeugung einer Folge von Rahmen aus Sprachparametern, wobie jeder Rahmen der Folge von Sprachparametern einen Energieparameter enthält, sowie des Codierens der Sprachparameter in einen Datenkanal, dadurch gekennzeichnet, daß die Energieparameter jedes der Sprachrahmen bezüglich eines Energieparameters eines nachfolgenden Rahmens normiert werden, der um wenigstens als 0,1 Sekunden später als der betroffene Rahmen auftritt, wobei die Normierung vor der Codierung der Sprachparameter in den Datenkanal durchgeführt wird.

6. Verfahren nach Anspruch 5, bei welchem der Energiewert jedes Sprachrahmens bezüglich eines Spitzen - Nachführungsparameters der nachfolgenden Rahmen normiert wird, wobei der Spitzenwert - Nachführungsparameter allgemein einer oberen Hüllkurve der Folge der Energiewerte des Rahmens entspricht.

7. Sprachcodierungssystem mit einem Analysator, der so angeschlossen ist, daß er Spracheingangsdaten empfängt und daraus eine Folge von Rahmen aus Sprachparametern erzeugt, wobei die Rahmen mit einer vorbestimmten Rahmenfolgefrequenz geliefert werden und mehrere Parameter einschließlich einem Energieparameter enthalten, einem Codierer zum Codieren aufeinanderfolgender Sprachrahmen als digitale Werte und Stummunterdrückungsmitteln, die an den Codierer angeschlossen sind, wobei die Stummunterdrückungsmittel den Codierer daran hindern, die 1-Werte der Folge von Rahmen zu codieren, die nicht einem tatsächlichen Sprachsignal entsprechen, und Ausgabemitteln zum Laden der codierten digitalen Werte in einen Datenkanal, gekennzeichnet durch Mittel zum Normierendes Energieparameters bezüglich des Energieparameters eines nachfolgenden Rahmens, der wenigstens 0,1 Sekunden nach jedem Rahmen auftritt, wobei die Stummunterdrückungsmittel jeden der Rahmen als stumm oder nicht stumm identifizieren, indem der Energieparameter jedes nachfolgenden Rahmens mit einer Funktion aus ersten und zweiten adaptiv aktualisierten Schwellenwerten verglichen werden, wobei der erste adaptiv aktualisierte Schwellenwert einem Vielfachen einer oberen Hüllkurve der aufeinanderfolgenden Energieparameter aufeinanderfolgender Rahmen entspricht, während der zweite Schwellenwert einer Vielfachen einer unteren Hüllkurve der aufeinanderfolgenden Werte der Rahmen entspricht.

8. Sprachpostsystem mit einem Analysator, der so angeschlossen ist, daß er Spracheingangsdaten empfängt und aus diesen eine Folge von Rahmen aus Sprachparametern erzeugt, wobei die Rahmen mit einer vorbestimmten Rahmenfolgefrequenz erzeugt werden und mehrere Parameter einschließlich eines Energieparameters enthalten, einem Codierer zum Codieren aufeinanderfolgender Sprachrahmen als digitale Werte und Stummunterdrückungsmitteln, die an den Codierer angeschlossen sind, wobei die Stummunterdrückungsmittel den Codierer daran hindern, die 1-Werte der Folge von Rahmen zu codieren, die nicht einem tatsächlichen Sprachsignal entsprechen, Ausgabemitteln zum Laden der codierten digitalen Werte in einen Datenkanal, Eingangsmitteln zum Empfangen einer Folge von Rahmen aus Sprachparametern, Mitteln zum Konfigurieren eines Gitterfilters entsprechend den Parametern für die lineare Voraussagecodierung, Mitteln zum Erzeugen eines Anregungssignals gemäß den Anregungsparametern, wobei die Anregung als Eingangssignal für das Gitterfilter geliefert wird, und Mitteln zum Modulieren des Ausgangssignals des Gitterfilters entsprechend dem Energieparameter zur Abgabe eines Sprachausgangssignals, gekennzeichnet durch Mittel zum Normieren des Energieparameters jedes Sprachrahmens bezüglich des Energieparameters eines nachfolgenden Rahmens, der wenigstens 0,1 Sekunden nach dem Rahmen auftritt, wobei die Stummunterdrückungsmittel jeden Rahmen als stumm oder nicht stumm identifizieren, indem der Energieparameter jedes nachfolgenden Rahmens mit einer Funktion aus ersten und zweiten adaptiv aktualisierten Schwellenwerten verglichen wird, wobei der erste adaptive aktualisierte Schwellenwert einer Vielfachen einer oberen Hüllkurve der aufeinanderfolgenden Energieparameter nachfolgender Rahmen entspricht, während der zweite Schwellenwert einer Vielfachen einer unteren Hüllkurve der aufeinanderfolgenden Werte der Rahmen entspricht.

9. System nach Anspruch 8 bei welchem der Analysator eine Stimmtypscheidung für jeden der Sprachrahmen trifft und die Stummunterdrückungsmittel den ersten Schwellenwert nur während stimmhafter Rahmen und den zweiten Schwellenwert nur während stimmloser Rahmen aktualisieren.

10. System nach Anspruch 8, bei welchem die Stummunterdrückungsmittel nach der Identifizierung eines stummen Rahmens im Anschluß daran keinen nicht stummen Rahmen identifizieren, bis ein stimmhafter Rahmen mit einer über dem Schwellenwert liegenden Energie festgestellt wird, wobei in diesem Fall der stimmhafte Rahmen mit einer über dem Schwellenwert liegenden Energie und alle vorangehenden stimmlosen Sprachrahmen mit einer über dem Schwellenwert liegenden Energie, die nicht um wenigstens eine vorbestimmte Anzahl aufeinanderfolgender Rahmen mit einem jeweils unter dem Schwellenwert liegenden Energiepegel getrennt sind, als nicht stumm identifiziert werden.

11. System nach Anspruch 8, bei welchem die Stummunterdrückungsmittel nach Identifizierung eines nicht stummen Rahmens einen stummen Rahmen nur dann identifizieren, wenn eine kontinuierliche Folge von Rahmen mit einem unterhalb des Schwellenwerts liegenden Energiepegel über ein vorbestimmtes Zeitintervall identifiziert worden sind.

12. System nach Anspruch 10 oder 11, bei welchem das vorbestimmte Zeitintervall zwischen 0,2 und 0,8 Sekunden liegt.

13. System nach Anspruch 8, bei welchem der Energiewert jedes Sprachrahmens hauptsächlich in bezug auf die Energiewerte von solchen Rahmen normiert wird, die um wenigstens 0,1 Sekunden später als der betreffende Rahmen liegen.

14. System nach einem der Ansprüche 8 und 13, bei welchem der Energiewert jedes Sprachrahmens bezüglich auf einen Spitzenwert - Nachführungsparameter der nachfolgenden Rahmen normiert wird, wobei der Spitzenwert - Nachführungsparameter allgemein einer oberen Hüllkurve der Folge der Energiewerte der Rahmen entspricht.

15. System nach Anspruch 11, bei welchem die Stummunterdrückungsmittel nach der Identifizierung eines nicht stummen Rahmens einen stummen Rahmen nur dann identifizieren, wenn die kontinuierliche Folge der Rahmen mit einem unterhalb des Schwellenwertes liegenden Energiepegel für die Dauer des vorbestimmte Zeitintervalls nach einem stimmhaften Rahmen mit einem unterhalb des Schwellenwertes liegenden Energiepegel gefunden worden ist.