EP0421360B1

EP0421360B1 - Procédé et dispositif d'analyse par synthèse de la parole

Info

Publication number: EP0421360B1
Application number: EP90118888A
Authority: EP
Inventors: Masaaki Honda
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1989-10-02
Filing date: 1990-10-02
Publication date: 1996-01-17
Anticipated expiration: 2010-10-02
Also published as: EP0421360A2; DE69024899D1; JPH03119398A; CA2026640A1; EP0421360A3; DE69024899T2; CA2026640C; JPH0782360B2

Claims

Procédé d'analyse de la parole pour produire un signal d'excitation pour exciter un filtre linéaire représentant une caractéristique d'enveloppe spectrale de la parole comprenant :
une étape dans laquelle on détermine des positions d'impulsions et l'on produit une séquence d'impulsions dans lesdites positions prédéterminées lors de la production dudit signal d'excitation ;

une étape dans laquelle on détermine des paramètres représentant ledit signal d'excitation de façon à minimiser une erreur entre une forme d'onde de parole égalisée en phase, après égalisation de phase d'une parole d'entrée, et une forme d'onde de parole synthétisée, pouvant être obtenue en excitant ledit filtre linéaire à l'aide de ladite séquence d'impulsions ;

une étape dans laquelle on produit un résidu de prédiction égalisée en phase de la forme d'onde de parole d'entrée ;

caractérisé en ce que :

ladite étape de détermination des positions d'impulsions et de production de la séquence d'impulsions produisant ledit signal d'excitation comprend :

une étape dans laquelle on détermine des points temporels de référence où les niveaux dudit résidu de prédiction égalisée en phase dépassent un seuil prédéterminé ; et

une étape dans laquelle on détermine des positions d'impulsions d'une séquence d'impulsions quasi-périodique en tant que positions d'impulsions de ladite séquence d'impulsions en se basant sur les points temporels de référence de sorte que la fluctuation d'intervalles de temps successifs des positions d'impulsions reste à l'intérieur d'une plage limitée.
Procédé selon la revendication 1, comprenant une étape dans laquelle on détermine des coefficients d'un filtre de zéro (10), caractérisant une structure spectrale fine de ladite parole, de façon à minimiser une erreur entre ladite forme d'onde de parole égalisée en phase et une forme d'onde de parole synthétisée, pouvant être obtenue en excitant ledit filtre linéaire (18) avec la sortie dudit filtre de zéro, lesdits coefficients dudit filtre de zéro étant utilisés comme l'un desdits paramètres représentant ledit signal d'excitation.
Procédé selon la revendication 1 ou 2, dans lequel on utilise ledit signal d'excitation pour un son vocalisé, et dans lequel on utilise une séquence aléatoire choisie à partir de plusieurs modèles aléatoires comme signal d'excitation pour un son non vocalisé, et incluant une étape dans laquelle on détermine des paramètres représentant ledit signal d'excitation pour ledit son non vocalisé de façon à minimiser une erreur entre ladite forme d'onde de parole égalisée en phase et une forme d'onde de parole synthétisée pouvant être obtenue en excitant ledit filtre linéaire avec lesdits modèles aléatoires.
Procédé selon la revendication 1 ou 2, dans lequel lesdits paramètres représentant ledit signal d'excitation comprennent un paramètre représentant l'amplitude de chaque impulsion de ladite séquence d'impulsions, ledit paramètre d'amplitude étant déterminé de façon à minimiser une erreur entre ladite forme d'onde de parole égalisée en phase et une forme d'onde de parole synthétisée pouvant être obtenue en excitant ledit filtre linéaire avec ladite séquence d'impulsions.
Dispositif d'analyse de la parole comprenant :
un moyen d'analyse prédictif linéaire (2) pour effectuer une analyse prédictive linéaire d'un signal de parole d'entrée (s(t)) pour chaque fenêtre d'analyse d'une longueur fixe, pour obtenir des coefficients de prédiction (ai) ;

un moyen de filtrage inverse (31) commandé par lesdits coefficients de prédiction, pour obtenir un résidu de prédiction (e(t)) à partir dudit signal de parole d'entrée (s(t)) ;

un moyen de filtrage d'égalisation de phase de parole (5) pour rendre nulle la phase dudit signal de parole d'entrée, pour obtenir un signal de parole égalisé en phase (Sp(t)) ;

un moyen de filtrage d'égalisation de phase de résidu de prédiction (37) pour rendre nulle la phase dudit résidu de prédiction (e(t)), pour obtenir un signal de résidu de prédiction égalisé en phase (ep(t)) ;

un moyen (4, 6, 7) pour déterminer des positions d'impulsions et pour produire, en tant que signal d'excitation, une séquence d'impulsions au droit desdites positions ;

un moyen de filtrage de tous les pôles (18) commandé par lesdits coefficients de prédiction et excité par ladite séquence d'impulsions pour produire une parole synthétisée ; et

un moyen de calcul d'amplitude d'impulsion (8) par lequel des valeurs d'amplitude de ladite séquence d'impulsions sont déterminées de manière à minimiser une erreur entre une forme d'onde d'une parole synthétisée pouvant être obtenue par l'excitation dudit moyen de filtrage de tous les pôles avec ladite séquence d'impulsions et une forme d'onde de ladite parole égalisée en phase, les paramètres incluant lesdites positions d'impulsions, et lesdites valeurs d'amplitude des impulsions étant sorties du dispositif d'analyse de la parole ;

caractérisé en ce que ledit moyen (4, 6, 7) pour déterminer les positions d'impulsions et pour produire la séquence d'impulsions comprend :

un moyen générateur de points temporels de référence (4, 38) pour détecter les impulsions d'amplitude plus grande qu'une valeur de seuil prédéterminée dans ledit signal de résidu de prédiction égalisé en phase et pour sortir les positions desdites impulsions en tant que points temporels de référence ; et

un moyen générateur de positions d'impulsions (6) pour déterminer, en se basant sur lesdites positions temporelles de référence, les positions des impulsions ayant une fréquence de hauteur de son d'une largeur de fluctuation limitée.
Dispositif selon la revendication 5, comprenant en outre :
un moyen de filtrage de zéro (10) alimenté avec ladite séquence d'impulsions, pour donner à ladite séquence d'impulsions les particularités de la forme d'onde dudit signal de résidu de prédiction égalisé en phase et pour délivrer sa sortie, en tant que signal d'excitation, audit moyen de filtrage de tous les pôles (18) ; et

un moyen de calcul de coefficients de filtre de zéro (11) pour déterminer les coefficients dudit moyen de filtrage de zéro de façon à minimiser l'erreur entre une forme d'onde d'une parole synthétisée, obtenue par excitation dudit moyen de filtrage de tous les pôles avec la sortie dudit moyen de filtrage de zéro, et une forme d'onde de ladite parole égalisée en phase.
Dispositif selon la revendication 5 ou 6, dans lequel ledit moyen d'analyse prédictive linéaire (2) comprend un moyen pour déterminer si ledit signal d'entrée dans une fenêtre d'analyse d'une longueur fixe est vocalisé ou non vocalisé et pour sortir un signal de décision vocalisé/non vocalisé (VU), ledit dispositif comprenant en outre un moyen générateur de modèle aléatoire (13) pour produire un modèle aléatoire qui minimise l'erreur entre une forme d'onde d'une parole synthétisée, obtenue par excitation dudit moyen de filtrage de tous les pôles (18) avec l'un de plusieurs modèles aléatoires et une forme d'onde de ladite parole égalisée en phase dans une fenêtre durant laquelle ledit signal de décision est non vocalisé.
Dispositif selon la revendication 5 ou 6, dans lequel ledit moyen (4, 6, 7) pour produire ladite séquence d'impulsions comprend un moyen de quantification vectorielle (9) pour effectuer la quantification vectorielle des valeurs d'amplitude desdites impulsions déterminées par ledit moyen de calcul d'amplitude d'impulsion (8), ce par quoi ladite séquence d'impulsions a lesdites valeurs d'amplitude quantifiées.
Dispositif de synthèse de la parole synthétisant une parole en réponse à des paramètres représentant une sortie de signal d'excitation par un dispositif d'analyse de la parole selon la revendication 5 ou 6, comprenant :
un moyen générateur de séquence d'impulsions (23) pour produire une séquence d'impulsions basée sur lesdits paramètres ;

un moyen de filtrage de zéro (24), excité par ladite séquence d'impulsions sous les ordres de coefficients de filtre de zéro qui lui sont délivrés en tant que l'un desdits paramètres, pour donner à ladite séquence d'impulsions la caractéristique spectrale de la parole ; et

un moyen de filtrage de tous les pôles (28), excité par la sortie dudit moyen de filtrage de zéro sous les ordres de coefficients de prédiction représentant une caractéristique d'enveloppe spectrale de la parole, pour synthétiser une forme d'onde de parole.