EP0801788B1

EP0801788B1 - Verfahren zur sprachkodierung mittels analyse durch synthese

Info

Publication number: EP0801788B1
Application number: EP96901008A
Authority: EP
Inventors: William Navarro; Michel Mauc
Original assignee: Matra Nortel Communications SAS
Current assignee: Nortel Networks France SAS
Priority date: 1995-01-06
Filing date: 1996-01-03
Publication date: 1999-06-09
Anticipated expiration: 2016-01-03
Also published as: CA2209384A1; WO1996021218A1; CA2209384C; FR2729246B1; CN1145143C; ATE181170T1; US5974377A; FR2729246A1; DE69602822T2; EP0801788A1; DE69602822D1; CN1173939A; AU4490196A; AU704229B2

Claims

Synthese-Analyse-Verfahren zum Codieren eines digitalisierten Sprachsignals (S) in aufeinanderfolgende Raster, die in lst Unterraster aufgeteilt sind, welches die folgenden Schritte aufweist:

Analyse des Sprachsignals mittels linearer Prädiktion zum Bestimmen der Parameter eines Kurzzeitsynthesefilters (60);

rückkopplungslose Analyse des Sprachsignals zum Erfassen der stimmhaften Raster des Signals und zum Bestimmen für jedes stimmhafte Raster eines Stimmhaftigkeitsgrades (MV) des Signals und eines Suchintervalls einer Langzeitprädiktionsverzögerung;

prädiktive Analyse mit Rückkopplung des Sprachsignals zum Auswählen, für bestimmte mindestens der Unterraster der stimmhaften Raster, einer Langzeitprädiktionsverzögerung, welche in dem Suchintervall enthalten ist und einen Parameter eines Langzeitsynthesefilters (66) bildet; und

Bestimmung einer stochastischen Anregung für jedes Unterraster, so daß ein Wahrnehmungswichtungsabstand zwischen dem Sprachsignal und der durch das Langzeit- und Kurzzeitsynthesefilter gefilterten stochastischen .Anregung minimiert wird,

dadurch gekennzeichnet, daß bei dem Schritt der rückkopplungslosen Analyse das Suchintervall relativ zu jedem stimmhaften Raster derart bestimmt wird, daß es eine Anzahl von Verzögerungen (N1, N3) enthält, welche von dem Stimmhaftigkeitsgrad des Rasters abhängt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Suchintervall der Langzeitprädiktionsverzögerung für die Raster mit dem höheren Stimmhaftigkeitsgrad weniger Verzögerungen als für die weiteren stimmhaften Raster enthält.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die rückkopplungslose Analyse bezüglich eines Rasters die Bestimmung von nst Basisverzögerungen (K_st) aufweist, die jeweils eine rückkopplungslose Schätzung der Langzeitprädiktionsverstärkung an einem jeweiligen Unterraster des Rasters maximieren, daraufhin den Vergleich zwischen einem ersten vorgegebenen Schwellenwert (S0) und einer ersten rückkopplungslosen Schätzung der Langzeitprädiktionsverstärkung an dem Raster, welche auf der Grundlage der nst Basisverzögerungen relativ zu den entsprechenden Unterrastern erhalten wird, um zu erfassen, ob das Raster stimmhaft ist, dadurch, daß, wenn das Raster als stimmhaft erfaßt wird, die rückkopplungslose Analyse des weiteren für jedes Unterraster die Bestimmung einer Liste (I_st) von potentiellen Verzögerungen aufweist, bei denen die rückkopplungslose Schätzung der Prädiktionsverstärkung an dem Unterraster größer als ein bestimmter Bruchteil (β) der Schätzung bezüglich der Basisverzögerung für das Unterraster ist, dadurch, daß in diesen Listen die potentielle Verzögerung ausgewählt wird, bei der eine zweite rückkopplungslose Schätzung der Langzeitprädiktionsverstärkung an dem Raster maximal ist, wobei die zweite rückkopplungslose Schätzung an dem einer potentiellen Verzögerung zugeordneten Raster auf der Grundlage von nst optimalen Verzögerungen erhalten wird, welche in einem um die potentielle verzögerung zentrierten Intervall von N1 Verzögerungen enthalten sind, die jeweils an diesem Intervall die rückkopplungslose Schätzung der Prädiktionsverstärkung an den nst Unterrastern maximieren, dadurch, daß die Bestimmung des Stimmhaftigkeitsgrades des Rasters einen Vergleich zwischen der zweiten maximierten Schätzung der Prädiktionsverstärkung an dem Raster und mindestens einem weiteren vorgegebenen Schwellenwert (S1, S2) beinhaltet, sowie dadurch, daß das bei Beendigung der rückkopplungslosen Analyse bestimmte Suchintervall um die ausgewählte Verzögerung zentriert ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die rückkopplungslose Analyse bezüglich eines Rasters die Bestimmung einer Basisverzögerung (K) aufweist, die eine erste rückkopplungslose Schätzung der Langzeitprädiktionsverstärkung an diesem Raster maximiert, daraufhin den Vergleich zwischen einem ersten vorgegebenen Schwellenwert (S0) und der ersten maximierten Schätzung der Langzeitprädiktionsverstärkung an dem Raster, um zu erfassen, ob das Raster stimmhaft ist, dadurch, daß, falls das Raster als stimmhaft erfaßt wird, die rückkopplungslose Analyse des weiteren die Bestimmung einer Liste (I) von potentiellen Verzögerungen aufweist, bei denen die rückkopplungslose Schätzung der Prädiktionsverstärkung an dem Raster größer als ein bestimmter Bruchteil (β) der Schätzung bezüglich der Basisverzögerung ist, dadurch, daß in dieser Liste die potentielle Verzögerung ausgewählt wird, bei der eine zweite rückkopplungslose Schätzung der Langzeitprädiktionsverstärkung an dem Raster maximal ist, wobei die zweite rückkopplungslose Schätzung an dem einer potentiellen Verzögerung zugeordneten Raster auf der Grundlage von ns optimalen Verzögerungen erhalten wird, die in einem um diese potentielle Verzögerung zentrierten Intervall von N1 Verzögerungen enthalten sind, die jeweils an dem Intervall die rückkopplungslose Schätzung der Prädiktionsverstärkung an den nst Unterrastern maximieren, dadurch, daß die Bestimmung des Stimmhaftigkeitsgrades des Rasters einen Vergleich zwischen der zweiten maximierten Schätzung der Prädiktionsverstärkung an dem Raster und mindestens einem weiteren vorgegebenen Schwellenwert (S1, S2) aufweist, sowie dadurch, daß das bei Beendigung der rückkopplungslosen Analyse bestimmte Suchintervall um die ausgewählte Verzögerung zentriert ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die rückkopplungslose Analyse bezüglich eines Rasters die Bestimmung einer Anzahl nz von Basisverzögerungen (K₁',...,K_nz') aufweist, die jeweils an einem jeweiligen Unterintervall von möglichen Verzögerungswerten eine erste rückkopplungslose Schätzung der Langzeitprädiktionsverstärkung an diesem Raster maximieren, daraufhin den Vergleich zwischen einem ersten vorgegebenen Schwellenwert (S0) und der größten der nz ersten maximierten Schätzungen der Langzeitprädiktionsverstärkung an dem Raster, um zu erfassen, ob das Raster stimmhaft ist, dadurch, daß, falls das Raster als stimmhaft erfaßt wird, unter nz potentiellen Verzögerungen, die ausgehend von den nz Basisverzögerungen erhalten wurden, die potentielle Verzögerung ausgewählt wird, bei der eine zweite rückkopplungslose Schätzung der Langzeitprädiktionsverstärkung an dem Raster maximal ist, wobei die zweite rückkopplungslose Schätzung an dem einer potentiellen Verzögerung zugeordneten Raster auf der Grundlage von nst optimalen Verzögerungen erhalten wird, welche in einem um diese potentielle Verzögerung zentrierten Intervall von N1 Verzögerungen enthalten sind, die jeweils an diesem Intervall die rückkopplungslose Schätzung der Prädiktionsverstärkung an den ns Unterrastern maximieren, dadurch, daß die Bestimmung des Stimmhaftigkeitsgrades des Rasters einen Vergleich zwischen der zweiten maximierten Schätzung der Prädiktionsverstärkung an dem Raster und mindestens einem weiteren vorgegebenen Schwellenwert (S1, S2) aufweist, sowie dadurch, daß das bei Beendigung der rückkopplungslosen Analyse bestimmte Suchintervall um diese ausgewählte Verzögerung zentriert ist.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß, falls die zweite maximierte Schätzung der Prädiktionsverstärkung an einem stimmhaften Raster größer als einer der Schwellenwerte (S2) ist, bestimmt wird, ob die nst optimalen Verzögerungen in einem Intervall enthalten sind, welches um die ausgewählte Verzögerung zentriert ist und eine Anzahl von Verzögerungen N3 geringer als N1 enthält und, wenn dies zutrifft, dem Raster ein Stimmhaftigkeitsgrad zugeordnet wird, bei dem das Suchintervall der Langzeitprädiktionsverzögerung N3 Verzögerungen enthält, wobei das Suchintervall N1 Verzögerungen für mindestens einen weiteren Stimmhaftigkeitsgrad enthält.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß bei der Maximierung der zweiten rückkopplungslosen Schätzung der Langzeitprädiktionsverstärkung an einem stimmhaften Raster des weiteren eine dritte rückkopplungslose Schätzung der Verstärkung an dem Raster auf der Grundlage von nst Verzögerungen berechnet wird, welche in in einem Intervall enthalten sind, das um die ausgewählte Verzögerung zentriert ist und eine Anzahl N3 von Verzögerungen geringer als N1 enthält, die jeweils an diesem Intervall von N3 Verzögerungen die rückkopplungslose Schätzung der Prädiktionsverstärkung an den nst Unterraster maximieren, sowie dadurch, daß dem Raster ein Stimmhaftigkeitsgrad zugeordnet wird, bei dem das Suchintervall N3 Verzögerungen enthält, falls die dritte Schätzung einen vorgegebenen Schwellenwert (S2) übersteigt, wobei das Suchintervall N1 Verzögerungen für mindestens einen weiteren Stimmhaftigkeitsgrad enthält.
Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die potentiellen Verzögerungen einer Liste unter den Teilern der der Liste zugeordneten Basisverzögerung und unter den Vielfachen des kleinsten unter den Teiler ausgewählt werden, bei denen die rückkopplungslose Schätzung der Prädiktionsverstärkung größer als der bestimmte Bruchteil der Schätzung bezüglich der Basisverzögerung ist.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die Langzeitprädiktionsverzögerungen ganzen oder bruchartigen Zahlen von Abtastproben des Sprachsignals entsprechen können, dadurch, daß die Basisverzögerungen (rbf) in bruchartiger Auflösung bestimmt werden, um die in eine Liste der potentiellen Verzögerungen aufzunehmenden Teiler und Mehrfachen zu suchen, sowie dadurch, daß die Basisverzögerungen in ganzzahliger Auflösung bestimmt werden, um die ersten rückkopplungslosen Schätzungen der Prädiktionsverstärkung an einem Raster zu bewerten.
Verfahren nach einem der Ansprüche 3 bis 9, dadurch gekennzeichnet, daß die prädiktive Analyse mit Rückkopplung nicht durchgeführt wird bezüglich jedes Unterrasters, bei dem die Autokorrelation (C_st) des der optimalen Verzögerung für dieses Unterraster zugeordneten Sprachsignals negativ ist.