EP0138954B1

EP0138954B1 - Traitement de configurations de la parole utilisant un procede de compression de configurations de la parole

Info

Publication number: EP0138954B1
Application number: EP19840901491
Authority: EP
Inventors: Bishnu Saroop Atal
Original assignee: American Telephone and Telegraph Co Inc; AT&T Corp
Current assignee: AT&T Corp
Priority date: 1983-04-12
Filing date: 1984-03-12
Publication date: 1988-10-26
Also published as: JPS60501076A; EP0138954A4; WO1984004194A1; CA1201533A; EP0138954A1; JP2648138B2; DE3474873D1

Claims

1. Un procédé pour comprimer des configurations de parole, comprenant les opérations suivantes: on analyse (101,110,120) une configuration de parole pour élaborer, à une première cadence, un ensemble de signaux (y,(n)) représentatifs de caractéristiques acoustiques de la configuration de parole, on génère (130, 140,150) une séquence de signaux codés représentatifs de la configuration de parole, sous la dépendance de l'ensemble précité de signaux de caractéristiques acoustiques, à une seconde cadence inférieure à la première cadence, caractérisé en ce que l'opération de génération comprend: la génération (420, 425) d'une séquence de signaux (4)k(n», chacun d'eux étant représentatif d'un son individuel de la configuration de parole, et chacun d'eux étant une combinaison linéaire des signaux de caractéristiques acoustiques; on détermine (510) les trames temporelles de la configuration de parole dans lesquelles apparaissent les centroïdes de sons individuels, sous la dépendance de l'ensemble de signaux de caractéristiques acoustiques; on génère (625) une séquence de signaux de caractéristiques de sons individuels (φ_L(I)(n)), sous la dépendance conjointe des signaux de caractéristiques acoustiques et de la détermination des trames temporelles de centroïdes; la génération (805-815) d'un ensemble de coefficients de combinaison de signaux représentatifs de sons individuels (a_lk), sous la dépendance conjointe des signaux représentatifs de sons individuels et des signaux de caractéristiques acoustiques; et la formation de signal codé sous la dépendance de la séquence de signaux de caractéristiques de sons individuels (715) et des coefficients de combinaison (820).

2. Un procédé pour comprimer des configurations de parole selon la revendication 1, dans lequel l'opération de détermination des trames temporelles de la configuration de parole dans lesquelles apparaissent les centroïdes de sons individuels, comprend la génération (430) d'un signal (v(L)) représentatif des instants d'apparition des sons individuels dans la configuration de parole, sous la dépendance des signaux de caractéristiques acoustiques de la configuration de parole, et la détection de chaque passage par zéro en sens négatif dans le signal d'instants d'apparition de sons individuels.

3. Un procédé pour comprimer des configurations de parole selon la revendication 1 ou la revendication 2, dans lequel l'opération de formation d'un signal codé comprend la génération (710) d'un signal représentatif de la largeur de bande de chaque signal représentatif de la parole; l'échantillonnage du signal de caractéristiques d'événement de parole à une cadence qui correspond à son signal représentatif de la largeur de bande; le codage (715) de chaque signal de caractéristiques d'événement échantillonné; et la génération d'une séquence de signaux codés d'événement de parole, à une cadence qui correspond à la cadence d'apparition des événements de parole dans la configuration de parole.

4. Un procédé pour comprimer des configurations de parole selon l'une quelconque des revendications précédentes, dans lequel les signaux de caractéristiques acoustiques sont des signaux de paramètres de prédiction linéaire, représentatifs de la configuration de parole.

5. Un procédé pour comprimer des configurations de parole selon la revendication 4, dans lequel les signaux de paramètres de prédiction linéaire sont des signaux de paramètre d'aire logarithmique, représentatifs de la configuration de parole.

6. Un procédé pour comprimer des configurations de parole selon la revendication 4, dans lequel les signaux de paramètres de prédiction linéaire sont des signaux d'autocorrélation partielle, représentatifs de la configuration de parole.

7. Appareil pour comprimer des configurations de parole, comprenant des moyens (210, 215, 225, 280) pour analyser une configuration de parole de façon à élaborer, à une première cadence, un ensemble de signaux représentatifs de caractéristiques acoustiques de la configuration de parole, et des moyens (220-260) pour générer une séquence de signaux codés représentatifs de la configuration de parole, sous la dépendance de l'ensemble de signaux de caractéristiques acoustiques, à une seconde cadence qui est inférieure à la première cadence, caractérisé en ce que les moyens de génération comprennent: des moyens (220) destinés à générer une séquence de signaux (1),(n», chacun d'eux étant représentatif d'un son individuel dans la configuration de parole, et chacun d'eux étant une combinaison linéaire de signaux de caractéristiques acoustiques, et pour déterminer les trames temporelles de la configuration de parole dans lesquelles apparaissent les centroïdes de son individuels, sous la dépendance de l'ensemble de signaux de caractéristiques acoustiques, des moyens (230) destinés à générer un ensemble de coefficients de combinaison de signaux représentatifs de sons individuels (a,_k), sous la dépendance conjointe des signaux représentatifs de sons individuels et des signaux de caractéristiques acoustiques, des moyens (225) destinés à générer une séquence de signaux de caractéristiques de sons individuels (φ_L(I)(n)), sous la dépendance conjointe des signaux de caractéristiques acoustiques et de la détermination de trames temporelles de centroïdes, et des moyens (235) destinés à former le signal codé sous la dépendance de la séquence de signaux de caractéristiques de sons individuels et des coefficients de combinaison.

8. Appareil pour comprimer des configurations de parole selon la revendication 7, dans lequel les moyens de détermination de trames temporelles de la configuration de parole dans lesquelles apparaissent les centroïdes de sons individuels, comprennent des moyens (220) destinés à produire un signal représentatif des instants d'apparition des sons individuels dans la configuration de parole, sous la dépendance des signaux de caractéristiques acoustiques de la configuration de parole, et à détecter chaque passage par zéro de sens négatif dans le signal d'instants d'apparition de sons individuels.

9. Appareil pour comprimer des configurations de parole selon la revendication 7 ou la revendication 8, dans lequel les moyens destinés à former un signal comprennent des moyens (une partie de 235) destinés à générer un signal représentatif de la largeur de bande de chaque signal représentatif de la parole; des moyens (une partie de 235) destinés à échantillonner chaque signal représentatif d'une configuration d'articulation d'un son individuel dans la configuration de parole, à une cadence qui correspond à son signal de largeur de bande; des moyens (235) destinés à coder chaque signal représentatif d'une configuration d'articulation d'un son individuel; et des moyens (une partie de 235) destinés à produire une séquence de signaux d'echantillon représentatifs d'une configuration d'articulation d'un son individuel, à une cadence correspondant aux largeurs de bande des signaux représentatifs d'une configuration d'articulation d'un son individuel.

10. Appareil selon l'une quelconque des revendications 7 à 9, dans lequel les moyens d'analyse d'une configuration de parole comprennent des moyens (210, 215, 275, 280) destinés à générer un ensemble de signaux de paramètres de prédiction linéaire, représentatifs des caractéristiques acoustiques de la configuration de parole.

11. Appareil selon l'une quelconque des revendications 7 à 10, comprenant des moyens (285 ou 910-930) destinés à générer une configuration de parole à partir du signal codé.