DE69831076T2

DE69831076T2 - Verfahren und vorrichtung zur sprachanalyse und -synthese mittels allpass-sieb-kettenfiltern

Info

Publication number: DE69831076T2
Application number: DE69831076T
Authority: DE
Inventors: I. Christopher BYRNES; Anders Lindquist
Original assignee: St Louis University; Washington University in St Louis WUSTL
Current assignee: St Louis University; Washington University in St Louis WUSTL
Priority date: 1997-05-09
Filing date: 1998-05-11
Publication date: 2006-05-24
Anticipated expiration: 2018-05-12
Also published as: EP1594121A1; US6256609B1; US5940791A; EP0998740A4; DE69831076D1; AU7379198A; EP0998740A1; WO1998050908A1; EP0998740B1

Description

Hintergrund der Erfindung
In der Sprachsynthese wird das Sprachmuster normalerweise in Rahmen von einigen zehn ms unterteilt. Herkömmliche Vocoder identifizieren stationäre Sprachphoneme in stimmhafte und stimmlose Sprache (siehe z. B. US-Patent Nr. 2.151.091 und 2.243.526). Im Fachgebiet wird davon ausgegangen, dass sich ein einzelnes Phonem in der Größenordnung von 100 ms entwickelt. In jedem der kleineren Fenster wird dann ein lineares Filter – oder eine digitale Schaltung – konstruiert, um den Stimmapparat zu modellieren. Ein stimmhaftes Sprachsignal kann als ein deterministischer Prozess modelliert und regeneriert werden, der erhalten wird, indem ein quasiperiodisches Signal, das die geeigneten Tonhöhenfrequenzen enthält, durch ein lineares Filter geleitet wird. Analog wird ein stimmloses Sprachsignal als ein Zufallsignal modelliert und regeneriert, das erhalten wird, indem weißes Rauschen durch dasselbe lineare Filter geleitet wird, das die Stimmbänder modelliert. In diesem Zeitrahmen werden die Parameter, die das lineare Filter als eine Eingabe-/Ausgabevorrichtung charakterisieren, z. B. unter Verwendung von Verfahren aus der Konstruktion von Filtern für die lineare Prädiktions-Codierung (LPC-Filter), identifiziert und für die Regeneration codiert. Für Anwendungen in der Zellulartelephonkommunikationen unter Verwendung von tonhöhenerregten Vocodern wird in demselben Fenster das Sprachmuster in eine identifizierte Folge segmentiert und außerdem für die Regeneration stimmhafter und stimmloser Phoneme codiert. In einigen populären Formen der Vocoder wird für jeden stimmlosen Ausdruck ein Codebuch oder eine Nachschlagtabelle der Signale des weißen Rauschens nach dem Signal durchsucht, das, wenn es durch das LPC-Filter geleitet wird, die Antwort am nächsten zum abgetasteten stimmlosen Signal regeneriert hat. Der Code für dieses Signal wird dann für die Regeneration übertragen. Eine ähnliche Prozedur wird für stimmhafte Signale mit den Signalen eines periodischen Impulszugs anstelle des weißen Rauschens ausgeführt. Der Vocoder muss hier jedoch außerdem die Tonhöhenerfassung ausführen, um das stimmhafte Signal zu regenerieren.
Die lineare Prädiktions-Codierung (LPC) kann in einer Vielfalt verschiedener Sprachcodierer verwendet werden, wie z. B. tonhöhenerregte Vocoder, stimmerregte Vocoder, Signalform-Codierer, Analyse-durch-Synthese-Codierer und Codierer im Frequenzbereich (siehe T. P. Barnwell III, K. Nayebi und C. H. Ri chardson, Speech Coding: A Computer Laboratory Textbook, John Wiley & Sons, New York, 1996, auf 85), wobei die hierin offenbarte Erfindung in allen diesen Kontexten verwendet werden kann und nicht auf eine spezielle Vocoder-Architektur eingeschränkt ist. In der Tat sind im Stand der Technik LPC-Filter, die manchmal als Filter mit maximaler Entropie bezeichnet werden, in Vorrichtungen für eine derartige digitale Signalverarbeitung und Sprachsynthese verwendet worden (siehe z. B. US-Patent Nr. 4.209.836 und 5.048.088; D. Quarmby, Signal Processing Chips, Prentice Hall, 1994; und L. R. Rabiner, B. S. Atal und J. L. Flanagan, Current Methods of Digital Speech Processing, Selected Topics in Signal Processing, S. Haykin, Herausgeber, Prentice Hall, 1989, 112–32).
In Anwendungen für die automatische Sprechererkennung wird die Identität einer Person aus einer Sprachprobe bestimmt. Diese Klasse von Problemen tritt in zwei Typen auf, nämlich der Sprecherverifizierung und der Sprecheridentifizierung. Bei der Sprecherverifizierung beansprucht die zu identifizierende Person eine Identität, z. B. durch das Vorlegen einer persönlichen Chipkarte, wobei sie dann in eine Vorrichtung spricht, die diesen Anspruch bestätigt oder abweist. Bei der Sprecheridentifizierung macht andererseits die Person keine Behauptung über ihre Identität und legt keine Chipkarte vor, wobei das System die Identität des Sprechers einzeln oder als Teil einer Gruppe eingetragener Menschen bestimmen muss oder bestimmen muss, ob die Person als unbekannt zu klassifizieren ist. Beiden Anwendungen ist gemeinsam, dass jede zu identifizierte Person zuerst in das System eingetragen werden muss. Das Eintragen oder Training) ist eine Prozedur, bei der die Stimme der Person aufgezeichnet wird und die charakteristischen Merkmale extrahiert und gespeichert werden. Eine Merkmalsmenge, die in der Technik häufig verwendet wird, sind die LPC-Koeffizienten für jeden Rahmen des Sprachsignals oder irgendeine (nichtlineare) Transformation von diesen (siehe z. B. J. M. Naik, Speaker Verification: A tutorial, IEEE Communications Magazine, Januar 1990, 42–48, auf S. 43; J. P. Campbell Jr., Speaker Recognition: A tutorial, Proceedings of the IEEE 85 (1997), 1436–1462; S. Furui, Recent advances in Speaker Recognition, Lecture Notes in Computer Science 1206, 1997, 237–252, Springer-Verlag, auf S. 239).
Die Schaltung oder integrierte Schaltungsvorrichtung, die das LPC-Filter implementiert, wird unter Verwendung von durchschnittlichem Fachwissen der Elektronik (siehe z. B. US-Patent Nr. 4.209.836 und 5.048.088) auf der Grund lage der spezifizierten Parameter (specs) konstruiert und hergestellt, die als die Koeffizienten (die linearen Prädiktions-Koeffizienten) in der mathematischen Beschreibung (der Übertragungsfunktion) des LPC-Filters erscheinen. Der Ausdruck der spezifizierten Parameter (specs) wird z. B. oft zweckmäßig in der Brückenfilter-Darstellung (lattice filter representation) der in 1 gezeigten Schaltung angezeigt, die Einheitsverzögerungen z^–1, Summationsverbindungen und Verstärkungen enthält.
Dies ist außerdem als ein PARCOR-System bekannt. Die Verstärkungsparameter (PARCOR-Parameter), die außerdem die Reflexionskoeffizienten des Zufallssignals (wie in 1) sind, werden aus der Sprachsignalform leicht bestimmt. Der Konstruktion der zugeordneten Schaltung ist mit durchschnittlichem Fachwissen der Elektronik naheliegend. In der Tat ist diese Filterkonstruktion von Texas Instruments hergestellt worden, beginnend von der Brückenfilter-Darstellung, wobei sie in den LPC-Sprachsynthetisierer-Chips TMS 5100, 5200, 5220 verwendet wird (siehe z. B. Quarmby, Signal Processing Chips, oben, auf 27–29).
Die zwei Vorteile der LPC-Filterkonstruktion sind, dass es möglich ist, die Parameterspezifikationen zu finden, sodass das LPC-Filter ein Signal erzeugt, das viel der beobachteten spektralen Eigenschaften reproduziert, und dass es Algorithmen gibt, um die Filterparameter aus den spektralen Eigenschaften der beobachteten Sprachform festzustellen. 2 zeigt ein aus einem Rahmen der Sprachdaten zusammen mit der spektralen Leistungsdichte eines LPC-Filters 6. Ordnung, das für diesen Rahmen bestimmt ist, bestimmtes Periodogramm.
Ein Nachteil des LPC-Fiters ist, dass seine spektrale Leistungsdichte den "Tälern" oder "Kerben" im Periodogramm nicht entsprechen kann und zu Sprache führt, die eher "klanglos" ist, was die Tatsache widerspiegelt, dass das LPC-Filter ein "Allpol-Modell" ist. Dies steht mit der technischen Tatsache in Beziehung, dass das LPC-Filter nur Polstellen und keine Übertragungsnullstellen besitzt. Zu sagen, dass ein Filter eine Übertragungsnullstelle bei einer Frequenz ζ besitzt, bedeutet, zu sagen, dass das Filter oder die entsprechende Schaltung gedämpfte periodische Signale, die mit einer Frequenz schwingen, die gleich der Phase von ζ ist, mit einem Dämpfungsfaktor absorbiert, der gleich dem Modul von ζ ist. Dies ist die wohlbekannte Blockierungseigenschaft der Übertragungsnullstellen von Schaltungen (siehe z. B. L. O. Chua, C. A. Desoer und E. S. Kuh, Linear and Nonlinear Circuits, McGrawHill, 1989, auf 659). Diese technische Tatsache wird in der in 2 veranschaulichten Tatsache wiedergespiegelt, dass die spektrale Leistungsdichte des LPC-Filters bei den Frequenzen in der Nähe seiner Kerben nicht dem Periodogramm entspricht. Es ist außerdem in der Literatur der Signal- und Sprachverarbeitung weit und breit bekannt, dass die Regeneration der menschlichen Sprache die Konstruktion von Filter mit Nullstellen erfordert, ohne die die Sprache klanglos oder künstlich klingt (siehe z. B. C. G. Bell, H. Fujisaki, J. M. Heinz, K. N. Stevens und A. S. House, Reduction of Speech Spectra by Analysis-by-Synthesis Techniques, J. Acoust. Soc. Am. 33 (1961), auf 1726; J. D. Markel und A. H. Gray, Linear Prediction of Speech, Springer Verlag, Berlin, 1976, auf 271–72; L. R. Rabiner und R. W. Schafer, Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, N. J., 1978, auf 105 und 76–78). Während Allpolfilter in der Tat viel der Töne der menschlichen Sprache reproduzieren können, lehrt die akustische Theorie, dass Nasallaute und Reibelaute sowohl Nullstellen als auch Pole erfordern (siehe Markel u. a., Linear Prediction of Speech, oben, auf 271–72; Rabiner u. a., Digital Processing of Speech Signals, oben, auf 105, J. P. Campbell Jr., Speaker Recognition: A tutorial, oben, auf 1442).
Diese Beobachtung ist, wie sie sich auf die Sprachsynthese bezieht, eine teilweise Motivation für die im US-Patent Nr. 5.293.448 offenbarte Vorrichtung, in der ein Nullfilter als ein Vorfilter für das Allpolfilter verwendet wird, um stimmhafte Signale in höherer Qualität zu erzeugen. Das Fehlen einer klaren und nützlichen Beschreibung des Ausmaßes, in dem die Nullstellen beliebig angeordnet werden können, um für lineare Filter sowohl stimmhafte als auch stimmlose Sprache implementierbar zu machen, ist jedoch ein einschränkender Faktor bei der Konstruktion verbesserte Vorrichtungen für die Signal- und Sprachverarbeitung geblieben.
Der Aufsatz "Multichannel Lattice-Ladder Structures with Applications to Pole-Zero Modeling" von Manolakis u. a., 1984, IEEE International Symposium on Circuits and Systems, Proceedings (Cat. Nr. 84CH1993-5), Montreal, Que., Kanada, 7.–10. Mai 1984, Seiten 776–780, offenbart Fehlerquadratalgorithmen für die Pol-Nullstellen-Modellierung in einer Gitter-Leiter-Struktur mit zwei Eingangskanälen/einem Ausgangskanal.
Der Aufsatz "A Lattice-Ladder Structure for Multipulse Linear Predictive Coding of Speech" von Manolakis u. a., IEEE Transactions on Acoustics, Speech and Signal Processing, New York, USA, Februar 1987, offenbart einen Algorithmus für die Entwicklung von Gitter-Leiter-Strukturen für die Mehrfachimpuls-LPC. Dieser Algorithmus verwendet ein Allpolmodell.
US-Patent Nr. 5.522.012 (Mammone u. a.) beschreibt ein Sprechererkennungssystem unter Verwendung eines linearen Prädiktions-Allpolmodells für die Auswahl der Sprachrahmen. Die ausgewählten Sprachrahmen werden dann auf ein adaptiv gewichtetes Cepstrum angewendet.
US-Patent Nr. 4.827.518 (Feustal u. a.) beschreibt ein Sprecherverifizierungs- und Sprachbefehlsystem, das in einer IC-Karte gespeicherte Sprachschablonen verwendet. Eine Testschablone wird mit den gespeicherten Sprachschablonen verglichen, um die Identität eines Sprechers zu verifizieren. Diese Schablonen basieren auf den aus einer digitalisierten Version einer gesprochenen Wortgruppe extrahierten Cepstral-Koeffizienten.
Zusammenfassung der Erfindung
Die vorliegende Erfindung, wie sie in den Ansprüchen 1, 20, 24, 31 und 34 beansprucht ist, umfasst ein Verfahren und eine Vorrichtung für die systematische Konstruktion linearer Filter, die sowohl die gewünschte Nullstellenstruktur als auch die spektralen Standardmerkmale, die erforderlich sind, um geeignete stimmhafte und stimmlose Signale zu regenerieren, aufweisen. Die Implementierungen und Versuche der Erfinder legen nahe, dass die Vorauswahl einer nichttrivialen Nullstellenstruktur die Regeneration der menschlichen Sprache verbessert. Durch das Anwenden dieser Methodologie für die Filterkonstruktion auf dieselben Sprachdaten und dasselbe Periodogramm wie in 2 wird ein alternatives Filter 6. Ordnung erhalten, dessen spektrale Leistungsdichte weniger flach ist und das eine bessere Approximation schafft, was die Tatsache widerspiegelt, dass das Filter konstruiert ist, damit es Übertragungsnullstellen in der Nähe der Minima des Periodogramms aufweist (siehe 3).
Bei der automatischen Steuerung werden Filter, die vorgeschriebene Übertragungsnullstellen besitzen, als Sperrfilter bezeichnet. Sperrfilter sind als dynamische Kompensatoren verwendet worden, um stabile harmonische Fluktua tionen zu dämpfen, indem die gewünschten Pol-Nullstellen-Aufhebungen erreicht werden. Obwohl die Erwünschtheit von Kerben im Leistungsspektrum der in der vorliegenden Erfindung offenbarten Filter für die Signalverarbeitung und Sprachsynthese eine ganz andere Rolle als die Rolle spielt, die von den Sperrfiltern bei der automatischen Steuerung gespielt wird, legt die Analogie nahe, dass die hier offenbarten Filter als LLN-Filter bezeichnet werden. Dieses Akronym spiegelt außerdem die Gitter-Leiter-Architektur wider, die verwendet werden kann, um diese Filter zu implementieren, wie im Folgenden offenbart ist. Im Stand der Technik treten Gitter-Leiter-Architektur-Darstellungen verschiedener Filter auf, aber das Fehlen entweder eines Verfahrens oder eines Mittels zum Abstimmen der Filterparameter in dieser Darstellung, um die gewünschten spektralen Eigenschaften und die Kerben im Spektrum der Sprachsignalform anzupassen, hat ihre Verwendung bei der Sprachverarbeitung für die Sprachanalyse und -synthese in hoher Qualität verhindert. Hierin sind ein derartiges Verfahren und derartige Mittel offenbart. Es wird angegeben, dass ein LLN-Filter unabhängig von der Architektur, die verwendet wird, um es darzustellen, durch die Spezifikation der Filternullstellen und des aus dem Sprachrahmen berechneten Fensters der Kovarianzen definiert wird. Die Gitter-Leiter-Architektur ist die Implementierung einer speziellen Darstellung im Zustandsraum der Übertragungsfunktion des LLN-Filters, wobei die Theorie der linearen Systeme lehrt, dass jede derartige Darstellung im Zustandsraum (die, wenn sie minimale Dimension aufweisen, alle unter einer Transformation des Zustandsraums äquivalent sind), Linear Systems, T. Kailath, Prentice-Hall, N. J., 1980 (Seiten 363–365), direkt zu einer äquivalenten Architektur führt, die in Form von Verstärkungen, Summationsverbindungen und Einheitsverzögerungen dargestellt wird (siehe z. B. Kailath, Seiten 93–94). Für die Zwecke der Veranschaulichung der bevorzugten Ausführungsform wird die Implementierung der LLN-Filter in Form der Gitter-Leiter-Architektur gelehrt. Es wird hier außerdem offenbart, dass die LLN-Filter und ihre Darstellung in einer Brückenfilterstruktur als eine Spezialisierung der offenbarten LLN-Filterkonstruktion erhalten werden können.
Es ist in der Gemeinde der Signal- und Sprachverarbeitung weit und breit bekannt, dass die Regeneration der menschlichen Sprache die Konstruktion von Filtern mit Nullstellen erfordert. Die Wirkung der Nullstellen besteht darin, der spektralen Leistungsdichte zu ermöglichen, eine spektrale Enveloppe bereitzustellen, die besser an die Sprachsignalform angepasst ist. Dies ermöglicht z. B. sowohl die Konstruktion eines Filters, das für den Ort der Quelle der Sprache innerhalb des Stimmapparats empfindlich ist, als auch die Schaffung eines Modells, das den Nasaltrakt einschließt (siehe Bell u. a., Reduction of Speech Spectra by Analysis-by-Synthesis Techniques, oben, auf 1726–27; und Market u. a., Linear Prediction of Speech, oben, auf 271–72). Aus derartigen Gründen besitzen das Verfahren und die Vorrichtung für die systematische Konstruktion linearer Filter, die sowohl die gewünschte Nullstellenstruktur als auch die spektralen Standardmerkmale, die erforderlich sind, um geeignete stimmhafte und stimmlose Signale zu regenerieren, besitzen, Anwendung im Gebiet der Sprachsynthese in hoher Qualität.
Dieses Verfahren und diese Konstruktion besitzen aus einem weiteren Grund Anwendung bei der Sprachsynthese, insbesondere in Anwendungen, die die Komprimierung und Übertragung von Sprache umfassen, wie sie z. B. bei der digitalen Zellulartelephonkommunikation auftritt. Die Verwendung der LPC-Filter bei der Sprachsynthese in einer Umgebung eines tonhöhenerregten Vocoders ist bereits beschrieben worden, wobei die Notwendigkeit für Filter, wie z. B. LLN-Filter, angegeben worden ist, die sowohl die gewünschten Übertragungsnullstellen besitzen als auch den aus den Sprachdaten bestimmten Kovarianzen entsprechen. Die LLN-Filter erfreuen sich dieses Vorteils bei der Verwendung in verschiedenen anderen Vocodern, wie z. B. stimmerregten Vocodern, Signalform-Vocodern, Analyse-durch-Synthese-Vocodern und Vocodern im Frequenzbereich. Außerdem ist für die Sprachsynthese unter Verwendung eines der Analyse-durch-Synthese-Vocoder, eines codeerregten linearen Prädiktions-Codierers (CELP), ein Codebuch aus (typischerweise) 1024 Signalen oder Codewörtern gespeichert und wird in der Sendevorrichtung nach dem Erregungs-Codewort durchsucht, das das beobachtete Sprachsignal am besten regeneriert. Die Kennnummer oder Codenummer dieses Signals wird dann zusammen mit einem Skalierungsfaktor und den LPC-Verstärkungsfaktoren zur Empfangsvorrichtung für die Regeneration übertragen. Gegenwärtig ist die rechen- und zeitintensivste Aktivität während dieses Fensters die Durchsuchung der Nachschlagtabellen, um das beste Signal zu finden, mit dem das beobachtete Signal unter Verwendung eines LPC-Filters zu reproduzieren ist. Durch die Verwendung einer genaueren spektralen Enveloppe durch das hierin offenbarte Verfahren für das Spektrum der beobachteten Sprachsignalform wird erwartet, die Anzahl der Kandidatensignale verringern zu können, mit denen das beobachtete Signal zu reproduzieren ist, und dadurch den zeitintensivsten Teil der Codierungs- und Sprachkomprimierungsaktivität zu verkürzen.
Aus denselben Gründen können dieses Verfahren und diese Konstruktion in Vorrichtungen für die Spracherkennung verwendet werden, indem eine Vorrichtung sowohl für die Entwicklung von Filterparametern aus der beobachteten Sprache als auch für das Vergleichen der auf diese Weise erhaltenen Filterparameter mit den für spezielle Personen bereits gespeicherten Parametern geschaffen wird. Die hierin offenbarte LLN-Filterkonstruktion verwendet sowohl Nullstellen als auch Pole, während das LPC-Filter des Standes der Technik ein Allpolfilter ist, wobei sie eine genauere Codierung und Identifizierung der menschlichen Sprache bereitstellen sollte. In der Tat ist im Stand der Technik die Motivation für die Verwendung von LPC-Filtern, dass der Stimmapparat unter Verwendung eines LPC-Filters modelliert werden kann und dass diese Koeffizienten dann mit der Anatomie des Sprechers in Beziehung gesetzt werden und folglich sprecherspezifisch sind. Das LPC-Modell nimmt jedoch einen am geschlossenen Ende erregten Stimmapparat an, was nur für stimmhafte Sprache die Situation ist (J. P. Campbell Jr., Speaker Recognition: A tutorial, oben, auf 1442). Folglich ist es üblich, dass die Merkmalsauswahl nur die stimmhaften Segmente der Sprache verarbeitet (J. P. Campbell Jr., Speaker Recognition: A tutorial, oben, auf 1445). Weil das LLN-Filter allgemeiner ist, können außerdem andere Segmente verarbeitet werden, wobei dadurch mehr Informationen über den Sprecher extrahiert werden.
Es wird erwartet, dass diese Erfindung eine Anwendung als eine Alternative für die Verwendung der LPC-Filterkonstruktion in anderen Bereichen der Signalverarbeitung und der statistischen Prädiktion besitzen wird, einschließlich z. B. der Sprachkomprimierung, der Sprachsynthese aus gespeicherter codierter Sprache oder der Text-zu-Sprache-Synthese. In jedem dieser Bereiche ergibt sich dasselbe fundamentale spektrale Schätzproblem.
Während die prinzipiellen Vorteile und Merkmale der vorliegenden Erfindung in der vorangehenden Erörterung kurz erklärt und veranschaulicht worden sind, kann ein größeres Verständnis und eine größere Würdigung der verschiedenen Aspekte der Erfindung unter Bezugnahme auf die Zeichnung und die Beschreibung der bevorzugten Ausführungsform erreicht werden, die folgen.
Kurzbeschreibung der Zeichnung
1 ist eine schematische graphische Darstellung einer Gitterdarstellung eines LPC-Filters, wie sie im Stand der Technik bekannt ist;
2 ist ein aus einem Rahmen der Sprachdaten zusammen mit der spektralen Leistungsdichte eines aus diesem Rahmen konstruierten LPC-Filters sechster Ordnung bestimmtes Periodogramm;
3 ist das Periodogramm nach 2 mit der spektralen Leistungsdichte eines alternativen Filters sechster Ordnung der vorliegenden Erfindung;
4 ist eine schematische graphische Darstellung einer Gitter-Leiter-Darstellung der vorliegenden Erfindung (LLN-Filter);
5 ist eine schematische graphische Darstellung eines Sprachcodierers, der einen Sprachanalysatorabschnitt und einen Sprachsyntheseabschnitt umfasst;
6 ist ein Blockschaltplan oder Ablaufplan des mathematischen Prozesses, der erforderlich ist, um die LLN-Filterparameter zu bestimmen;
7 ist eine schematische graphische Darstellung eines Erregungsgenerators für einen tonhöhenerregten Vocoder;
8 ist eine schematische graphische Darstellung einer Vorrichtung für die Sprechereintragung für eine Sprecherverifizierung oder für die Sprecheridentifizierung;
9 ist eine schematische graphische Darstellung einer Vorrichtung für die Sprecherverifizierung; und
10 ist eine schematische graphische Darstellung einer Vorrichtung für die Sprecheridentifizierung.
Ausführliche Beschreibung der bevorzugten Ausführungsform
Herkömmliche Vocoder führen drei Aufgaben aus: das Bestimmen eines linea ren Filters, das den Stimmapparat modelliert, das Bestimmen eines geeigneten Modells für das Erregungssignal und die Regeneration des beobachteten Signals, wenn das Erregungssignal erzeugt und verwendet wird, um das lineare Filter zu erregen. Natürlich werden Aufgaben, wie z. B. die Sprachkomprimierung und -übertragung, durch Codierung und Decodierung der Filterparameter und der identifizierenden Eigenschaften des Erregungssignals innerhalb einer Klasse von Signalen ausgeführt. Wie oben erörtert worden ist, gibt es elektronische Standardvorrichtungen, die jede dieser drei Aufgaben sowohl separat als auch in einer integrierten Form in verschiedenen Vocoder-Architekturen ausführen. Es ist außerdem die Tatsache erörtert, dass das LPC-Filter das am häufigsten für das Modellieren des Stimmapparats verwendete lineare Filter im Stand der Technik ist. Das grundlegende Konstruktionsmerkmal eines derartigen Filters ist, dass es ein synthetisches Sprachsignal erzeugt, dessen Leistungsspektrum den ersten n + 1 Kovarianzkoeffizienten c₀, c₁, c₂, ..., c_n entspricht, die aus den Sprachdaten im Fenster extrahiert werden; d. h., außer dass die Übertragungsfunktion w(z) des LPC-Filters stabil ist, erfüllt sie |w(ejθ)|2 = c ^0 + 2c ^1 cosθ + 2c ^2 cos2θ + ... (2.1)mit c ^k = ck für k = 0, 1, ..., n. (2.2)
(Für stimmlose Sprache bedeutet dies z. B., dass die LPC-Schaltung ein Zufallsignal mit spezifizierten ersten n + 1 Kovarianzen c₀, c₁, ..., c_n erzeugt, wenn sie durch weißes Rauschen angesteuert wird.) Diese Eigenschaft macht das LPC-Filter zu einem dezenten Modell des Stimmapparats.
Wie jedoch oben gezeigt worden ist, ist ein Nachteil des LPC-Filters, dass es ein Allpolfilter ist. Atal hat gezeigt, dass die wahrgenommenen Unterschiede zwischen echter Sprache und der besten synthetischen Sprache, die unter Verwendung eines LPC-Filters erhalten werden kann, wenigstens teilweise auf die Einschränkung des Allpolmodells zurückzuführen sind (siehe Markel u. a., Linear Prediction of Speech, oben, auf 271). Die Notwendigkeit für das Einführen von Nullstellen hat zu vielen Ad-hoc-Verfahren geführt, aber das Fehlen einer systematischen Konstruktionsmethodologie für das Aufnehmen geeigneter Nullstellen ist ein einschränkender Faktor in der Sprachanalyse und -synthese in hoher Qualität (siehe z. B. Markel u. a., Linear Prediction of Speech, oben, auf 271–275). Das Fehlen einer systematischen Konstruktionsmethodologie für das Aufnehmen geeigneter Nullstellen ist außerdem ein einschränkender Faktor bei der Konstruktion von Vorrichtungen für die Sprecherverifizierung, -identifizierung und -eintragung, die eine allgemeinere Gruppe menschlicher Sprache als diejenigen aufnehmen würden, die als stimmhafte Sprache erzeugt wird (J. P. Campbell Jr., Speaker Recognition: A tutorial, oben, auf 1442 und auf 1455). Ein Vorteil der vorliegenden Erfindung ist, dass sie ein Filter enthält, das dieselben Kovarianzeigenschaften (2.1)–(2.2) wie das LPC-Filter erfüllt, für das aber die Nullstellen beliebig festgelegt werden können.
In der Tat ist in dieser Offenbarung beschrieben, wie ein Filter zu konstruieren ist und wie dieses Filter mit einer Schaltung zu implementieren ist, die bei der Signalverarbeitung, der Sprachsynthese und der automatischen Sprechererkennung nützlich ist. Dies wird als ein LLN-Filter bezeichnet, weil es ein Sperrfilter ist, das konstruiert ist, um vorgeschriebene Nullstellen zu besitzen, und weil es z. B. unter Verwendung einer Gitter-Leiter-Architektur implementiert werden kann, wie im Folgenden ausführlich beschrieben ist. Die Schaltung entspricht den folgenden Spezifikationen.

(i) Für die aus den Sprachdaten im Fenster extrahierten Kovarianzkoeffizienten c₀, c₁, c₂, ..., c_n erfüllt die (stabile) Übertragungsfunktion des LLN-Filters |w(ejθ)|2 = c ^0 + 2c ^1 cosθ + 2c ^2 cos2θ + ..., (2.3)mit c ^k = ck für k = 0, 1, ..., n. (2.4)
(ii) Das Filter besitzt vorgeschriebene Nullstellen ζ₁, ζ₂, ..., ζ_n innerhalb der Einheitsscheibe.

Beim Spezifizieren der Kovarianzkoeffizienten werden außerdem äquivalente Formen des Spezifizierens dieser statistischen Daten einbezogen, wie z. B. die Darstellung der Kovarianzdaten durch PARCOR-Parameter, Reflexionskoeffizienten, Schur-Parameter oder ihre statistischen Äquivalente. Beim Spezifizieren der Filternullstellen werden außerdem äquivalente Formen des Spezifizierens der Nullstellen einbezogen, wie z. B. die Koeffizienten des Nullstellenpolynoms, das Nullstellenpolynom oder irgendeines ihrer funktionalen Äquivalente. Diese und irgendwelche anderen Äquivalente würden von einem Durch schnittsfachmann auf dem Gebiet als innerhalb des Umfangs der Erfindung enthalten verstanden werden. Für die Kürze verwenden die Erfinder die Begriffe Kovarianz und Nullstellen, wobei diese Begriffe als allgemein definiert verstanden werden sollten, um diese und andere derartige Äquivalente einzubeziehen.
Wenn das LLN-Filter in der Gitter-Leiter-Architektur dargestellt ist, ist es durch die in 4 gezeigten Parameter bestimmt. Was die Gitterdarstellung des LPC-Filters anbelangt, besteht das LLN-Filter aus Verstärkungen, die die Parameterspezifikationen sind, Einheitsverzögerungen z^–1 und Summationsverbindungen, wobei es deshalb leicht auf einen kundenspezifischen Chip oder auf irgendeinen programmierbaren digitalen Signalprozessor (z. B. den Intel 2920, dem TMS 320 oder den NEC 7720) unter Verwendung von durchschnittlichem Fachwissen abgebildet werden kann (siehe z. B. Quarmby, Signal Processing Chips, oben, auf 27–29).
Es wird beobachtet, dass die Gitter-Leiter-Filter-Darstellung auf der Brückenfilter-Topologie aufbaut, aber für die Aufnahme der durch β bezeichneten spezifizierten Parameter sorgt, die die Aufnahme von Nullstellen in die Filterkonstruktion erlauben. In der Tat kann die Brückenfilter-Darstellung eines Allpolfilters (LPC-Filters) aus der Gitter-Leiter-Filter-Architektur konstruiert werden, indem ein LLN-Filter durch das Festlegen der Parameterspezifikationen dargestellt wird: β0 = r1/2 n, β1 = β2 = ... = βn = 0 und αk = γk für k = 0, 1, ..., n – 1.
Während es klar gewesen ist, dass es die zusätzlichen Merkmale des Gitter-Leiter-Filters möglich machen, Filter mit einer nichttrivialen Nullstellenstruktur zu konstruieren, sind die einschränkenden Faktoren bei dieser Konstruktionsstrategie das Fehlen des Wissens darüber gewesen, wie beliebig die Spezifikationen der Filternullstellen gemacht werden können, wie viele Filter (wenn überhaupt) diese Konstruktionsspezifikation erreichen und wie derartige Filter zu konstruieren sind, falls sie wirklich vorhanden sind. Die erste dieser Fragen ist in der Literatur von T. T. Georgiou, Realization of Power Spectra from Partial Covariance Sequences, IEEE Trans. on Acoustics, Speech and Signal Processing, ASSP-35 (1987), 438–449, erfolgreich angesprochen worden, wo gezeigt ist, dass derartige Filter für jede Wahl der Nullstellen (innerhalb der Einheitsscheibe) vorhanden sind. Das zweite theoretische Problem ist in der Literatur in der Veröffentlichung C. I. Byrnes, A. Lindquist, S. V. Gusev und A. V. Matveev, A Complete Parameterization of All Positive Rational Extensions of a Covariance Sequence, IEEE Trans. Automatic Control AC-40 (1995), 1841–1857, gelöst worden, wo außerdem gezeigt ist, dass die Wahl der Nullstellen beliebig getroffen werden kann, während die Fähigkeit aufrechterhalten wird, die Kovarianzkoeffizienten anzupassen, und dass dies in nur einer Art ausgeführt werden kann, sodass das resultierende Filter durch diese Konstruktionsspezifikationen eindeutig bestimmt ist. Diese theoretischen Ergebnisse sind reine Existenzargumente gewesen, wobei sie jedoch nicht das Problem lösen, wie die Verstärkungsfaktoren eines implementierbaren digitalen Filters effektiv zu berechnen sind; z. B. in der Gitter-Leiter-Darstellung, die hier vorgeschlagen wird. Dies hinterließ den längst spürbaren Bedarf im Fachgebiet an einer Lösung für dieses Problem, die die Konstruktion und die Verwendung eines geeigneten Filters für die Sprachanalyse, die Sprachsynthese und die automatische Sprechererkennung erlauben würde.
Die vorliegende Erfindung beantwortet die dritte Frage und enthält ein Verfahren, um die Nullstellen vorzuschreiben, so das es möglich ist, das eindeutige Filter zu konstruieren und zu implementieren, das Ausgangssignale mit den gewünschten spektralen Eigenschaften und einer spektralen Enveloppe mit den gewünschten Kerben erzeugen kann. Es wird außerdem offenbart, dass dieses Filter in einer Gitter-Leiter-Architektur dargestellt werden kann, wobei zusammen mit einem Verfahren zum Bestimmen der Filternullstellen aus den beobachteten Daten ein effizienter Algorithmus für die Berechnung der Filterparameter (LLN-Filterparameter) offenbart wird. Im vorliegenden Verfahren sind die Filterpole vollständig durch die beobachteten Korrelationskoeffizienten (i) und die Vorschrift der Übertragungsnullstellen (ii) bestimmt. Es wird außerdem die Tatsache offenbart, dass die Filterpole im Allgemeinen nicht zuerst vorgeschrieben werden können, wobei die Nullstellen dann durch die beobachteten Daten bestimmt werden. Dies unterscheidet das offenbarte Verfahren und die resultierende Schaltungskonstruktion von dem Verfahren und der Konstruktion, die im US-Patent Nr. 5.293.448 offenbart sind, in dem eine Brückenfilter-Darstellung eines Nullfilters auf die frühere Wahl des Allpolfilters (oder LPC-Filters) abgestimmt wird, das z. B. in einer Leiterform dargestellt ist. Ein weiterer Vorteil der vorliegenden Erfindung ist die Verwendung der Nullstellen, um sowohl stimmlose als auch stimmhafte Sprache zu reproduzieren.
Mit dem vorliegenden Verfahren und der vorliegenden Schaltungskonstruktion ist es möglich, die Vorauswahl beliebiger Übertragungsnullstellen in die Kon struktionsspezifikationen für ein Filter (Sperrfilter) aufzunehmen, das eine Approximation für ein beobachtetes Signal reproduziert, wenn es durch das geeignete Erregungssignal angesteuert wird, wobei es Algorithmen gibt, um die Filterparameter α0, α1, ..., αn-1 und β0, β1, ..., βn (2.5)aus den Konstruktionsspezifikationen zu finden.
5 veranschaulicht eine mögliche Sprachcodierungsumgebung der Erfindung. Jeder Kasten in diesem Ablaufplan repräsentiert einen Algorithmus oder eine Berechnung, die in vorhandenen Software-Paketen oder Hardware gefunden werden kann. Im Folgenden ist die beste Implementierung derartiger Algorithmen durch die Erfinder offenbart.
Der Blockschaltplan in 5 umfasst zwei Teile. Der obere Teil ist der Sender (Analysator), der die Filterparameter, die Verstärkungsfaktoren und die Wahl des Erregungsmodells berechnet, wie im Folgenden erklärt ist. Diese Parameter werden in der üblichen Weise codiert und zum Empfänger (Synthetisierer) übertragen und decodiert. Der Empfänger umfasst einen Erregungsgenerator, der die geeignete Eingabe in das Filter (siehe 4) bereitstellt, das folglich mit den geeigneten Parametern konfiguriert wird.
Um die numerischen Eigenschaften der Filterberechnung zu verbessern, kann das digitalisierte Signal durch ein Vorverzerrungsfilter geleitet werden, um den Dynamikbereich des Sprachspektrums zu verringern (siehe Barnwell III u. a., Speech Coding: A Computer Laboratory Textbook, oben, auf 86–87). Um dies zu kompensieren, wird das inverse Filter (Entzerrungsfilter) am Ausgang des LLN-Filters angeordnet. Um die Dinge zu vereinfachen, sind in 5 diese Filter in den A/D- bzw. D/A-Blöcken enthalten, die selbst weggelassen werden können, falls gewünscht ist, dass die Quelle und das Ergebnis digitale Signale sind.
Die Bestimmung der Kovarianzkoeffizienten: Der Kasten 1 bestimmt die Kovarianzfolge c₀, c₁, ..., c_n aus der digitalen Signalform, wobei dies unter Verwendung von durchschnittlichem Fachwissen eine Standardpraxis ist. Es kann z. B. das Autokorrelationsverfahren verwendet werden (siehe Barnwell III u. a., Speech Coding: A Computer Laboratory Textbook, oben, auf 91–93). Außerdem offenbart US-Patent Nr. 4.775.951 eine Vorrichtung für die Berechnung der Korrelationsfunktionen und -koeffizienten.
Bestimmung der Übertragungsnullstellen: Der Kasten 2 bestimmt die Filternullstellen aus der digitalen Signalform, falls tatsächlich die Nullstellen nicht als Teil der spezifischen Anwendungsparameter vorgeschrieben worden sind. Es gibt mehrere Alternativen, um die Nullstellen systematisch zu wählen. Zuerst wird der rekursive Algorithmus offenbart, von dem angenommen wird, dass er den besten verfügbaren Stand der Technik repräsentiert.
Es ist erwünscht, die Gruppe der gewünschten Übertragungsnullstellen ζ₁, ζ₂, ..., ζ_n zu bestimmen. In der Tat ist es für die vorliegenden Zwecke tatsächlich notwendig, das entsprechende Nullstellenpolynom zu bestimmen, B(z) := (z – ζ1)(z – ζ2) ... (z – ζn) = zn + b1zn-1 + ... + bn (2.6)
Damit das resultierende Filter implementierbar ist, sind die Nullstellen eingeschränkt, damit sie selbstkonjugiert sind, d. h., sodass es für jedes i ein j gibt, sodass ζ_j = ζ_i gilt, wobei der Strich die komplexe Kommunikation darstellt. Folglich sind die Koeffizienten b_i des Nullstellenpolynoms B(z) alles reelle Zahlen.
Es ist die Standardpraxis, wenn ein Allpolfilter verwendet wird, um zusätzliche Pole zu verwenden, um den Mangel an Nullstellen zu kompensieren (siehe Rabiner u. a., Digital Processing of Speech Signals, oben, insbesondere im Abschnitt 3.4.1, S. 99). Das vorliegende Verfahren basiert auf der Fähigkeit der Verwendung eines LLN-Filters niedriger Ordnung als die, die durch das LPC-Filter erforderlich sein würde, und dem Ausnutzen der Verfügbarkeit zusätzlicher Autokorrelationsdaten, um die Nullstellenstruktur durch Standardsysteme und Signalverarbeitungsalgorithmen zu bestimmen.
Unter Verwendung des Autokonelationsverfahrens (siehe Barnwell III u. a., Speech Coding: A Computer Laboratory Textbook, oben, auf 91–93) oder irgendeiner Version des Burg-Algorithmus, wie er in B. Porat, Digital Processing of Random Signals, Prentice Hall, 1994, auf 176, gelehrt wird, werden zuerst die Reflexionskoeffizienten γm+1-n, γm+2-n, γm+n für irgendein m ≥ n berechnet, d. h. die PARCOR-Koeffizienten, die denjenigen folgen, die im LPC-Filter verwendet werden, wobei dann das Toeplitz-System
für die Parameter σ₁, σ₂, ..., σ_n gelöst wird. Falls alle Wurzeln des Polynoms σ(z) = zn + σ1zn-1 + ... σn innerhalb der Einheitsscheibe liegen, wird einfach B(z) = σ(z) gesetzt. Allgemeiner wird B(z) als der stabile Spektralfaktor von Q(z) := σ(z) σ(z^–1) genommen, der entsprechend dem Anhang A berechnet wird und so normiert wird, dass der führende Koeffizient (von zⁿ) 1 ist.
Alternative Verfahren können auf irgendeiner der Prozeduren basieren, die in Markel u. a., Linear Prediction of Speech, oben, auf 271–75 beschrieben sind, einschließlich des Prony-Verfahrens mit konstantem Term. Wie oben gezeigt worden ist, sind diese Verfahren ganz allein nicht gut, um synthetische Sprache zu produzieren, weil sie (2.1)–(2.2) nicht erfüllen. Hier wird jedoch nur die Nullstellenberechnung verwendet, wobei im Kasten 3 die Pole bestimmt werden, um (2.1)–(2.2) zu erfüllen. Als eine weitere Alternative kann die Wahl der Nullstellen außerdem ausgeführt werden, indem die Phase der Nullstellen aus den Kerben im beobachteten Spektrum durch irgendeinen Standardalgorithmus zum Bestimmen der lokalen Minima bestimmt wird, wie durch ein Periodogramm dargestellt wird oder wie unter Verwendung schneller Fourier-Transformationen (FFT) berechnet wird.
Die Codierung der LLN-Filterparameter: Der Schlüssel im vorliegenden Algorithmus besteht darin, die Verstärkungsparameter (2.5) systematisch bestimmen zu können, damit sie den beobachteten Kovarianzdaten entsprechen und die vorgeschriebenen Übertragungsnullstellen besitzen. Dies wird im Kasten 3 ausgeführt.
Im Ergebnis der in C. I. Byrnes und A. Lindquist, An Algebraic Description of the Rational Solutions of the Covariance Extension Problem, Linear Circuits, Systems and Signal Processing, C. I. Byrnes, C. F. Martin und R. E. Sacks (Herausgeber), Elsevier 1988, 9–17; C. I. Byrnes und A. Lindquist, On the Geometry of the Kimura-Georgiou Parameterization of Modeling Filter, Inter. J. of Control 50 (1989), 2301–2312; C. I. Byrnes und A. Lindquist, Toward a Solution of the Minimal Partial Stochastic Realization Problem, Comptes Rendus Acad. Sci. Paris, t. 319; Serie I (1994), 1231–1236; C. I. Byrnes und A. Lindquist, Some Recent Advances on the Rational Covariance Extension Problem, Proc. IEEE European Workshop on Computer Intensive Methods in Control and Signal Processing, Prag 1994, 149–158; C. I. Byrnes und A. Lindquist, On the Partial Stochastic Realization Problem, IEEE Trans. Automatic Control AC-42 (1997); C. I. Byrnes, A. Lindquist und T. McGregor, Predictability and Unpredictability in Kalman Filtering, IEEE Transactions Auto. Control AC-36 (1991), 563–579; C. I. Byrnes, A. Lindquist und Y. Zhou, Stable, Unstable and Center Manifolds for Fast Filtering Algorithms, Modeling, Estimation and Control of Systems with Uncertainty (G. B. Di Masi, A. Gombani und A. Kurzhanski, Hrsg.), Birkhauser Boston Inc., 1991; und C. I. Byrnes, A. Lindquist und Y. Zhou, On the Nonlinear Dynamics of Fast Filtering Algorithms, SIAM J. Control and Optimization, 32 (1994), 744–789, entwickelten und in Byrnes u. a., A Complete Parameterization of All Positive Rational Extensions of a Covariance Sequence, oben, auf 1841–1857; C. I. Byrnes, A. Lindquist, S. V. Gusev und A. V. Matveev, The Geometry of Positive Real Functions with Applications to the Rational Covariance Extension Problem, Proc. 33rd Conf On Decision and Control, 3883–3888; C. I. Byrnes und A. Lindquist, On a Duality Between Filtering and Interpolation, Systems and Control in the 21st Century (C. I. Byrnes, B. N. Datta, D. Gilliam, C. F. Martin, Hrsg.) 101–136; C. I. Byrnes, H. J. Landau und A. Lindquist, On the Well-Posedness of the Rational Covariance Extension Problem, Current and Future Directions in Applied Mathematics, M. Alber, B. Hu und J. Rosenthal (Herausgeber), Birkhäuser Boston, 1997, 83–108; und C. I. Byrnes, S. V. Gusev und A. Lindquist, A Convex Optimization Approach to the Rational Covariance Extension Problem, den Höhepunkt erreichenden grundlegenden Theorie ist bekannt, dass es für jedes Fenster der Korrelationskoeffizienten wie oben und für jede Vorauswahl der Übertragungsnullstellen ein und nur ein lineares Filter gibt, das sowohl die gewünschte Nullstellenstruktur als auch die statistischen Standardmerkmale, die erforderlich sind, um das beobachtete Zufallssignal zu regenerieren, besitzt. Die vorliegende Erfindung umfasst ein Verfahren, um die spezifizierten Parameter für das lineare Filter, das dies erreicht, systematisch zu konstruieren. Die Grundlage für dieses systematische Konstruktionsverfahren und die resultierende Vorrichtung ist die Entdeckung, dass die Filterparameter in der Tat aus einem Standardtyp der Optimierungsprozedur erhalten werden können, die auf eine Formulierung des Problems angewendet wird, das die Erfinder entdeckt haben und nun offenbaren.
Es gibt zwei Gruppen von Eingaben in den Kasten 3, die durch den Kasten 1 gelieferten Kovarianzkoeffizienten c₀, c₁, ..., c_n und die durch den Kasten 2 gelieferte und im Polynom B(z) gesammelte Gruppe von Übertragungsnullstellen (2.6). Die dritte Eingabe vom Kasten 4 kann vorhanden oder nicht vorhanden sein, wie im Folgenden erklärt ist. Wird φ als die objektive Funktion
in den n + 1 Variable q₀, q₁, ..., q_n definiert, wobei Q(z) = q0 + ½q1(z + z–1) + ½q2(z2 + z–2) + ... + ½qn(zn + z–n) (2.9)gilt und log der natürliche Algorithmus ist, wird die objektive Funktion (2.8) über jede Auswahl der Variable (q₀, q₁, ..., q_n) minimiert, sodass Q(ejθ) > 0 für alle θ ∊ [–π, π] (2.10)gilt. Die vorliegende Erfindung zeigt, dass es ein eindeutiges derartiges Minimum gibt. Unter der Voraussetzung der minimierenden (q₀, q₁, ..., q_n) und dem entsprechenden Pseudopolynom (2.9) wird als Nächstes das stabile Polynom A(z) = a0zn + a1zn-1 + ... + an (2.11)bestimmt, das A(z)A(z–1) = Q(z) (2.12)erfüllt, was durch irgendeine der im Anhang A beschriebenen Prozeduren ausgeführt werden kann. Dann zeigt die vorliegende Erfindung, dass die Übertragungsfunktion
die Spezifikationen (i) und (ii) für ein LLN-Filter erfüllt. Schließlich werden die Verstärkungsparameter (2.5) in der folgenden Weise bestimmt:
Für k = n, n – 1, ..., 1 werden die Rekursionen
für j = 0, 1, ..., k gelöst und β₀ = + b₀₀/a₀₀ gesetzt.
Der Übergang von der Parametrisierung (2.13) zur Parametrisierung (2.14) ist eine wohlbekannte Prozedur (siehe z. B. K. J. Åström, Introduction to Stochastic Realization Theory, Academic Press, 1970; und K. J. Åström, Evaluation of Quadratic Loss Functions for Linear Systems, Fundamentals of Discrete-time systems: A Tribute to Professor Eliahu I. Jury, M. Jamshidi, M. Mansour, und B. D. O. Anderson (Herausgeber), IITSI Press, Albuquerque, New Mexico, 1993, 45–56). Dieser Algorithmus ist rekursiv und verwendet nur gewöhnliche arithmetische Operationen, wobei er mit einem MAC-Mathematikverarbeitungs-Chip unter Verwendung von durchschnittlichem Fachwissen implementiert werden kann.
Die Minimierung von (2.8) unter der Voraussetzung der Zwangsbedingungen (2.10) ist ein konvexes Optimierungsproblem, für das es viele Standardalgorithmen und viel Standard-Software gibt, die die minimierenden (q₀, q₁, ..., q_n) rekursiv bestimmen. Die meisten generischen Codes für die konvexe Optimierung berechnen den Gradienten (die erste Ableitung) und/oder die Hessematrix (die zweite Ableitung) für die Verwendung in einem rekursiven Algorithmus, wie er z. B. durch das Newton-Verfahren definiert ist. Für das spezifische Problem der Minimierung von φ können jedoch sowohl der Gradient als auch die Hessematrix direkt unter Verwendung der Berechnung der Kovarianzen in einem zugeordneten Prozess unter Verwendung von Fourier-Transformationen berechnet werden, ohne die Werte der Funktion (2.8) zu berechnen. Während wohlbekannt ist, dass die Kovarianzdaten unter Verwendung nur rekursiver Algorithmen, die nur gewöhnliche arithmetische Operationen verwenden, berechenbar sind (siehe Porat, Digital Processing of Random Signals, oben, insbesondere auf 175–177), wird hier offenbart, dass die Berechnung der Fourier-Koeffizienten unter Verwendung rekursiver Algorithmen, die nur gewöhnliche arithmetische Operationen verwenden, berechnet werden kann. Aus diesem Grund liefert eine direkte Anwendung des Newton-Verfahrens bei den Berechnungen des Gradienten und der Hessematrix, die im Folgenden beschrieben sind, einen Algorithmus, von dem angenommen wird, dass er der beste Stand der Technik ist. Der resultierende rekursive Minimierungsalgorithmus, der nur arithmetische Operationen verwendet, ist in MATLAB codiert worden und kann mit einem MAC-Mathematikverarbeitungs-Chip unter Verwendung von durchschnittlichem Fachwissen implementiert werden.
Genauer ist der Gradient durch
gegeben, wobei
die Kovarianzen sind, die einem Prozess mit der spektralen Dichte
entsprechen. Der Gradient ist folglich die Differenz zwischen der gegebenen Kovarianz-Teilfolge und der Kovarianz-Teilfolge, die der Wahl der Variable q₀, q₁, ..., q_n entspricht, bei der der Gradient berechnet wird. Das Minimum ist erreicht, wenn diese Differenz null ist. Die Kovarianzen c₀, c₁, ..., c_n können über gewöhnliche arithmetische Operationen bestimmt werden, indem zuerst die Faktorisierung (2.12) durch eine der im Anhang A offenbarten Prozeduren ausgeführt wird und dann die im Anhang B beschriebene Prozedur auf A(z) angewendet wird.
Um das Newton-Verfahren zu implementieren, wird außerdem die Hessematrix von (2.8) benötigt, d. h. die Matrixfunktion der zweiten Ableitungen von (2.8), d. h. Hij(q0, q1, ..., qn) = ½(hi+j + hi-j), i, j = 0, 1, 2, ..., n, (2.18)wobei
und h_-k = h_k gilt. Außerdem sind h₀, h₁, ..., h_2n die 2n + 1 Fourier-Koeffizienten der Spektraldarstellung
daher kann in derselben Weise wie oben die Prozedur nach Anhang B verwendet werden, um h₀, h₁, ..., h_2n zu berechnen. Weil die Hessematrix die Summe aus einer Toeplitz-Matrix und einer Hankel-Matrix ist, kann dann die Suchrichtung im Punkt q₀, q₁, ..., q_n, d. h. d := H–1 (c - – c) (2.21)(wobei c und c - die n + 1-Vektoren mit den Komponenten c₀, c₁, ..., c_n bzw. c -₀, c -₁, ..., c -_n sind) direkt oder über einen schnellen Algorithmus bestimmt werden (siehe G. Heinig, P. Jankowski und K. Rost, Fast Inversion Algorithms of Toeplitz-plus-Hankel Matrices, Numerische Mathematik 52 (1988), 665–82).
In der Tat läuft das Newton-Verfahren auf das rekursive Aktualisieren des Vektors q mit den Komponenten q₀, q₁, ..., q_n entsprechend der Regel qk+1 = qk + λkdk (2.22)hinaus, wobei d^k die Suchrichtung (2.21) im Punkt q^k ist (siehe z. B. M. Minoux, Mathematical Programming: Theory and Algorithms, John Wiley and Sons, New York, 1986, auf 94–95). Hier ist die Schrittgröße λ_k so gewählt, dass

(i) q^k+1 die Zwangsbedingungen (2.10) erfüllt,
(ii) der Wolf-Test (siehe D. G. Luenberger, Linear and Nonlinear Programming (Zweite Auflage), Addison-Wesley Publishing Company, Reading, Mass., 1984 auf 214), der darauf hinausläuft, zu überprüfen, dass (c – c -k+1)'dk ≥ (1 – δ)(c – c -k)'dk gilt, für einige spezifizierte 0 < δ < 1/2 erfüllt ist, wobei c -^k c - im Schritt k bezeichnet, während ' die Transponierung bezeichnet,

_k

⁰

|A0(ejθ)|2 = q00 + q01 cosθ + q02 cos2θ + ... + q0n cosnθ (2.23)

⁰

_n

^–1/2

⁰

Bei gegebenem c vom Kasten 1 und B(z) vom Kasten 2 wird das bevorzugte rekursive Auswahlverfahren im Kasten 3 im Ablaufplan nach 6 beschrieben.
Beginnend mit dem anfänglichen Polpolynom wird in jedem ersten Schritt der Vektor c mit den Komponenten c₀, c₁, ..., c_n über (2.17) in der oben beschriebenen Weise unter Verwendung von Q(e^jθ) = |A(e^jθ)|² bestimmt; siehe Anhang B. Als Nächstes wird überprüft, ob die aktuelle Approximation c der Kovarianz-Teilfolge c innerhalb der Toleranz ∊ von c liegt. Falls dies nicht der Fall ist, wird der rekursive Algorithmus durch das Aktualisieren von A(z) fortgesetzt. Falls dies der Fall ist, werden die rekursiven Schritte beendet und die Filterparameter (2.5) über die Rekursionen (2.14) bestimmt. Das Aktualisieren wird ausgeführt, indem ein Newton-Schritt (2.22) ausgeführt wird, wie oben beschrieben worden ist, der aus dem gegenwärtigen A(z) durch das Setzen von Q(e^jθ) := |A(e^jθ)|² berechnet wird. Das aktualisierte Polynom A(z) wird erhalten, in dem das Pseudopolynom Q^k+1(z), das dem aktualisierten Punkt q^k+1 entspricht, durch die Prozeduren nach Anhang A faktorisiert wird, wobei dadurch außerdem überprüft wird, dass die Bedingung (i) erfüllt ist.
Die Bestimmung der Anfangsbedingung: Im Kasten 4 wird aus den Sprachdaten die Anfangsbedingung für den Algorithmus im Kasten 3 bestimmt. Eine offensichtliche Wahl würde das unter Verwendung einer Standardprozedur für die LPC-Filterkonstruktion erzeugte Polpolynom sein. Die bevorzugte Initialisierungsprozedur besteht darin, das Signal x₀, x₁, x₂, ... aus dem Sprachsignal y₀, y₁, y₂, ... und dem gegebenen Nullstellenpolynom (2.6) über die Rekursion b0xt+n + b1xt+n-1 + ... + bnxt = yt+n (2.24) zu bilden, indem x_t = 0 für t < 0 gesetzt wird, dann die Abtastwert-Kovarianzen
zu berechnen und schließlich das anfängliche A(z) als das LPC-Polpolynom zu nehmen, das dem x-Signal entspricht, das wie oben berechnet wird, wobei jedoch die c₀, c₁, ..., c_n durch die d₀, d₁, ..., d_n ersetzt sind. Eine weitere gute alternative Prozedur wird erhalten, indem der in Byrnes u. a., On the Nonlinear Dynamics of Fast Filtering Algorithms, oben, offenbarte schnelle Algorithmus unter Verwendung der PARCOR-Koeffizienten γ0, γ1, ..., γm+n-1 für irgendein m ≥ n, die aus den Sprachdaten bestimmt werden, wie oben beschrieben worden ist, rückwärts ausgeführt wird. Für k = 0, 1, 2, ..., m wird
bestimmt, wobei bei gegebenem Nullstellenpolynom (2.6)
berechnet wird. Als Nächstes werden die Szegö-Polynome φ₁(z), φ₂(z), ..., φ_n(z) über den Levinson-Algorithmus bestimmt (siehe Byrnes u. a., A Complete Parameterization of All Positive Rational Extensions of a Covariance Sequence, oben, auf 1843) und g₀ durch die auf A(z) = φn(z) + x1φn-1(z) + ... + xn angewendete Prozedur nach Anhang B bestimmt. Dann kann das Polynom
als eine Anfangsbedingung verwendet werden.
Schließlich könnte außerdem irgendeiner der in Markel u. a., Linear Prediction of Speech, oben, auf 271–725, erörterte Polschätzwerte verwendet werden, wie z. B. der, der durch das Prony-Verfahren erhalten wird. (Das Prony-Verfahren ist für eine endgültige Lösung nicht gut genug, aber es könnte für einen Anfangswert verwendet werden.)
Die Auswahl des Erregungssignals: Die Ausgabe des Kastens 5 ist die Wahl eines Erregungssignals, das aus einer Klasse von Modellsignalen entnommen wird, die, wenn sie verwendet werden, um das LLN-Filter zu erregen, das beobachtete Signal am besten regenerieren. Die Konstruktion des LLN-Filters ist keine Vocoder-Konstruktion, sondern stattdessen eine Technologie, die in einer allgemeinen Klasse von Sprachanalyse- und -synthesearchitekturen verwendet werden kann. Verschiedene Vocoder-Schemata verwenden basierend auf verschiedenen Klassen der Modellsignale verschiedene Arten von Erregungssignal-Auswahlschemata. Für einen tonhöhenerregten Vocoder besteht die Erregungssignalauswahl z. B. aus einer Entscheidung für jeden Sprachrahmen, ob der Ton stimmhaft oder stimmlos ist, und für die stimmhaften Rahmen aus der Bestimmung einer Tonhöhenperiode. Die Tonhöhenerfassung ist im Fachgebiet Standard (siehe Barnwell III u. a., Speech Coding: A Computer Laboratory Textbook, oben, auf 101 für die Erörterung und weitere Literaturhinweise). Als ein weiteres Beispiel für den CELP-Vocoder-Zugang zur Analyse-durch-Synthese prüft der Erregungssignalgenerator, welches Signal aus einem Codebuch aus (typischerweise) 1024 Codewörtern (oder 10-Bit-Codewörtern) eine synthetische Ausgabe erzeugt, die dem Sprachsignal am besten entspricht, wenn es durch das LPC-Filter geleitet wird. Derartige Auswahlprozeduren sind im Fachgebiet Standard (siehe Barnwell III u. a., Speech Coding: A Computer Laboratory Textbook, oben, auf 101 und 129–32; W. B. Kleijn, D. J. Krasinski und R. H. Ketchum, Fast Methods for the CELP Speech Coding Algorithm, IEEE Trans. Acoustics, Speech, and Signal Processing 38 (1990) auf 1330–32; und TR45 Full-Rate Speech Codec Computability Standard PN-2972, Electronic Industries Association, 2001 Eye Street, N. W., Washington, D. C. 20006, 1990 auf 22–32), wenn sie auf LPC-Filter angewendet werden, wobei sie außerdem für allgemeine digitale Filter, einschließlich von z. B. LLN-Filtern, implementiert werden können.
In der Zusammenfassung würde in dem hierin offenbarten Sprachanalysator irgendeine dieser Erregungssignal-Auswahleinrichtungen dieselbe Bestimmung des besten Signals unter Verwendung eines LLN-Filters anstelle der Verwen dung eines LPC-Filters ausführen.
Der Erregungsgenerator: Ebenso wie verschiedene Sprachanalyseschemata verschiedene Arten der Erregungssignal-Auswahlmethodologien verwenden, verwendet für die Sprachsynthese jeder Vocoder einen Erregungsgenerator, der auf seiner Sprachanalysemethodologie basiert. In dem hierin offenbarten Sprachsynthetisierer würde irgendeiner dieser Erregungssignalgeneratoren dieselbe Regeneration ausführen, wenn er anstelle einer LPC-Filter-Verbindung an ein LLN-Filter angeschlossen wird.
Für den Zweck der Veranschaulichung werden die Mechanismen des Erregungsgenerators für ein LLN-Filter beschrieben, das in einem tonhöhenerregten Vocoder verwendet wird. Die Tonhöhen- und Ausspracheinformationen des Kastens 5, die Verstärkungsfaktoren und die Kennung des im Kasten 5 ausgewählten Erregungssignals werden alle codiert und zum Empfänger übertragen, wo sie decodiert werden und die Eingabe in den Kasten 6 bilden, wie in 7 veranschaulicht ist.
Hier gibt es einen Schalter, der entweder auf stimmhaften oder stimmlosen Ton entsprechend den vom Kasten 5 erhaltenen Informationen eingestellt wird. Wenn der Ton stimmhaft ist, wird ein Impulszug mit der im Kasten 5 bestimmten Tonhöhenperiode erzeugt, während, falls der Ton stimmlos ist, weißes Rauschen erzeugt wird. Das auf diese Weise erzeugte Signal wird durch eine Verstärkung geleitet, deren Einstellung vom Kasten 5 erhalten wird, und als eine Eingabe zum LLN-Filter des Kasten 7 geliefert. Der Zweck der Verstärkungseinstellung besteht darin, die Amplitude des Erregungssignals und folglich die Lautstärke der synthetischen Sprache zu steuern (siehe Barnwell III u. a., Speech Coding: A Computer Laboratory Textbook, oben, auf 87–88). Die Anordnung dieser Schaltungselemente, jedoch nicht die Konstruktion und Implementierung der vorliegenden Erfindung, sind Standard im Fachgebiet.
Das LLN-Filter: Die im Kasten 3 bestimmten LLN-Parameter werden codiert und zum Empfänger übertragen, wo sie decodiert werden. Das LLN-Filter des Kastens 7 ist in 4 dargestellt, wobei die Parameter (2.5) diejenigen sind, die vom Kasten 3 übertragen werden, und wobei die Eingabe die ist, die im Kasten 6 erzeugt wird. Die Ausgabe des Kastens 7 ist digitale synthetische Sprache, die durch einen D/A-Umsetzer in ein analoges Sprachsignal umgesetzt werden kann, nachdem sie durch ein Entzerrungsfilter hindurchgegangen ist, falls das notwendig ist.
8, 9 und 10 veranschaulichen mögliche Umgebungen für die Sprechereintragung, -verifizierung und -identifizierung der Erfindung, wobei sie Modifikationen der in 5 angegebenen schematischen graphischen Darstellung eines Sprachcodierers sind. 8 stellt eine Vorrichtung für die Eintragung dar. Sie arbeitet als der obere Abschnitt (Sprachanalyse- und -codierungsabschnitt) der in 5 dargestellten Vorrichtung. Insbesondere sind die Analog/Digital-Umsetzer und die Kästen 1, 2 und 4 in 8 zu denjenigen völlig gleich, die in 5 dargestellt sind und oben beschrieben worden sind. Die in 5 verwendete Erregungssignalauswahl (Kasten 5) wird jedoch nicht länger benötigt. Außerdem ist der Kasten 3 in den Kasten 3a modifiziert, der anstelle der LLN-Verstärkungsparameter wie im Kasten 3 die Koeffizienten des entsprechenden Nullstellenpolynoms B(z) und des Polpolynoms A(z) erzeugt, wie oben offenbart worden ist. Eine Eintragungssitzung, in der bestimmte Codewörter durch eine später zu identifizierende Person gesprochen werden, erzeugt über diese Vorrichtung eine Liste von Sprachrahmen und ihre entsprechenden Polynome A(z) und B(z). Diese Tripletts werden gespeichert, z. B. auf einer Chip-Karte, wie es im Stand der Technik unter Verwendung der LPC-Filter alltäglich ist, wo ein Paar auf einer Chip-Karte gespeichert wird, das aus einer Liste von Rahmen und dem entsprechenden Polpolynom besteht. Alternativ könnten diese Tripletts in einer Datenbank gespeichert werden, wie in 8 gezeigt ist.
9 ist ein Schema, das die Sprecherverifizierungsumgebung der Erfindung veranschaulicht. Die automatische Sprechererkennung kann weiter in die Verwendung von textabhängigen oder textunabhängigen Verfahren unterteilt werden. Die Unterscheidung zwischen diesen besteht darin, dass für die textabhängigen Verfahren für die Eintragung und die Erkennung derselbe Text oder dieselben Codewörter gesprochen werden, wohingegen für die textunabhängigen Verfahren die gesprochenen Wörter nicht spezifiziert sind.
Abhängig davon, ob ein textabhängiges oder ein textunabhängiges Verfahren verwendet wird, wird der Mustervergleich, die Prozedur des Vergleichens der Folge der Merkmalsvektoren mit der entsprechenden Folge aus der Eintragung, in verschiedenen Arten ausgeführt. Die Prozeduren zum Ausführen des Mustervergleichs für die textabhängigen Verfahren können in Schablonenmodelle und stochastische Modelle klassifiziert werden. In einem Schablonenmodell, wie z. B. der dynamischen Zeitanpassung (DTW) (siehe z. B. H. Sakoe und S. Chiba, Dynamic Programming Algorithm Optimization for Spoken Word Recognition, IEEE Transactions on Acoustics, Speech and Signal Processing ASSP-26 (1978), 43–49), wird jedem zu prüfenden Rahmen der Sprache ein entsprechender Rahmen von der Eintragung zugeordnet. In einem stochastische Modell, wie dem Hidden-Markov-Modell (HMM) (siehe z. B. L. R. Rabiner und B. H. Juang, An Introduction to Hidden Markov Models, IEEE ASSP Magazine, Januar 1986, 4–16), wird aus den Eintragungsdaten ein stochastisches Modell gebildet, wobei die Rahmen in einer derartigen Weise paarweise angeordnet werden, um die Wahrscheinlichkeit zu maximieren, dass die Merkmalsfolge durch dieses Modell erzeugt wird. Für die textunabhängige Sprechererkennung kann die Prozedur in einer ähnlichen Weise für spracherkennungsbasierte Verfahren und die Erkennung mit vorgegebenem Text verwendet werden (siehe z. B. S. Furui, Recent advances in Speaker Recognition, oben, auf S. 241 f), wo die Phoneme identifiziert werden können. Diese Mustervergleichsverfahren sind im Fachgebiet bekannte Standardprozeduren (siehe J. P. Campbell Jr., Speaker Recognition: A tutorial, oben, auf 1452–1454).
Die auf der Chip-Karte (oder einem Äquivalent) codierten Informationen, wie oben offenbart worden ist (siehe 8), sind sprecherspezifisch. Wenn die Identität der fraglichen Person verifiziert werden muss, führt die Person ihre Chip-Karte in einen Kartenleser ein und spricht die Codewörter in eine Vorrichtung, wie in 9 dargestellt ist. Hier wird im Kasten 8 jeder Rahmen der Sprache identifiziert. Dies wird durch irgendeines der obenerwähnten Mustervergleichsverfahren ausgeführt, wobei es Standard im Fachgebiet ist.
Aus der Chip-Karte werden die entsprechenden A(z) und B(z) wiedergewonnen und zum Kasten 3b übertragen, in dem dieselbe Prozedur wie im Kasten 3a ausgeführt wird, mit Ausnahme, dass B(Z) als das Nullstellenpolynom und A(Z) als die Anfangsbedingung verwendet werden. Der Kasten 3b erzeugt wie in 6 (wobei aber der letzte Kasten weggelassen ist) ein Polynom C(z), das mit A(z) verglichen wird. Der Fehler, wie er durch die Koeffizienten von C(z) – A(z) gemessen wird, von jedem Rahmen wird in ein Maß der Güte der Anpassung zusammengesetzt, wie es im Stand der Technik Standard ist. Schließlich wird eine Entscheidung getroffen, ob die Identität der Person anzunehmen oder zurückzuweisen ist. Dieser Vergleich und das Treffen der Entscheidung werden im Kasten 9, Verifizierungsentscheidung, ausgeführt. Um das Niveau der in jeder Implementierung der vorliegenden Erfindung verfügbaren Sicherheit zu steigern, können andere Techniken überlagert werden. Diese enthalten die Authentifizierung der Chip-Karte, um die Verwendung betrügerischer Chip-Karten zu minimieren, das Umrechnen auf Zufallszahlen und die Protokollierung der Abfrage der Person, die den Zugang begehrt, um die Verwendung im Voraus aufgezeichneter Stimmenersatzmittel und anderer ähnlicher Techniken, wie im Fachgebiet bekannt ist, zu minimieren.
Bei der Sprecheridentifizierung wird die Eintragung in einer ähnlichen Weise wie für die Sprecherverifizierung ausgeführt, mit Ausnahme, dass die Merkmalstripletts in einer Datenbank gespeichert werden. Wie im Fachgebiet bekannt ist, würde ein Skript in jedem Eintragungsplan verwendet werden, um zu sichern, dass ein vorgeschriebenes Vertrauensniveau der Identifizierung erreicht wird. Die Erfinder erwarten jedoch, dass mit der vorliegenden Erfindung die Länge des Skripts, das für jedes spezielle Vertrauensniveau erforderlich ist, zurückzuführen auf die Fähigkeit, stimmlose Phoneme genau zu reproduzieren, verringert werden würde. 10 stellt eine Vorrichtung für die Sprecheridentifizierung dar. Sie besitzt zum Schema in 8 ähnliche Komponenten, mit Ausnahme, dass es einen Rahmenidentifizierungskasten (den Kasten 8) gibt, genau wie in 9, der zusammen mit den Nullstellen- und Polpolynomen vom Kasten 3a in einen Komparator eingespeist wird. Die Merkmalstripletts werden mit den entsprechenden Tripletts für die Besetzung, die in der Datenbank gespeichert sind, verglichen, während in 9 des Merkmalstriplett mit dem auf der Chip-Karte codierten Merkmalstriplett verglichen wird. In dieser Anwendung wird jedem Triplett in der Datenbank eine Übereinstimmungs-Punktzahl gegeben, wobei auf der Grundlage der (gewichteten) Summe der Übereinstimmungs-Punktzahlen von jedem Rahmen die Identität des Sprechers bestimmt wird.
Wie durch die Fachleute auf dem Gebiet erkannt wird, kann die vorliegende Erfindung leicht in einem Mikroprozessor (in Mikroprozessoren) implementiert sein, der bzw. die geeignet programmiert ist bzw. sind, um die angegebenen Berechnungen auszuführen. Außerdem ist oben und überall für alle Verarbeitungsschritte auf vorhandene Software oder programmierbare Hardware Bezug genommen worden, um die vorliegende Erfindung gänzlich und vollständig zu implementieren. Die vorliegende Erfindung kann außerdem in kundenspezi fisch konstruierten Chips oder anderweitig unter Verwendung gegenwärtig bekannter Konstruktions- und Implementierungstechniken für die mikroelektronische Schaltungsanordnung für die Hardware- oder Software-Implementierung implementiert sein. Als solche sollte die vorliegende Erfindung nicht auf irgendeine spezielle Hardware- oder Software-Implementierung eingeschränkt werden, wobei sie stattdessen in verschiedenen Formaten implementiert sein kann, um sie an ihre spezielle Anwendung anzupassen.
Die vorangehende Offenbarung ist als die bevorzugte Ausführungsform veranschaulichend bereitgestellt worden, wie sie von den Erfindern beabsichtigt ist, wobei sie nicht als einschränkend betrachtet werden sollte. Stattdessen sollte der Umfang der Erfindung nur der sein, wie er durch die beigefügten Ansprüche und ihre Äquivalente bereitgestellt ist.
ANHANG A. DAS FAKTORISIERUNGS-UNTERPROGRAMM
Oben wird wiederholt ein Unterprogramm verwendet, um für ein gegebenes Pseudopolynom (2.9) das stabile Polynom (2.11) zu finden, das (2.12) erfüllt. Dies ist ein Standardfaktorisierungsproblem, für das es viele bekannte Prozeduren gibt (siehe z. B. F. L. Bauer, Ein direktes Iterationsverfahren zur Hurwitz-Zerlegung eines Polynoms, Arch. Elek. Übertragung, 9 (1955), 285–290). Es wird angenommen, dass das in Vostrŷ, Zdenĕk, New Algorithm for Polynomial Spectral Factorization with Quadratic Convergence I, Kybernetika, 77 (1975), 411–418) beschriebene Verfahren die beste verfügbare Technik ist. Es wird außerdem ein weiterer Faktorisierungsalgorithmus offenbart, der außerdem einen Positivitätstest liefert. Es ist die Software M-files in MATLAB entwickelt worden. Dieser Algorithmus ist rekursiv, verwendet nur gewöhnliche arithmetische Operationen und kann mit einem MAC-Mathematikverarbeitungs-Chip unter Verwendung von durchschnittlichem Fachwissen implementiert werden.
Um der Kürze willen wird der Algorithmus unter Bezugnahme auf die Gleichungen in Byrnes u. a., A Complete Parameterization of All Positive Rational Extensions of a Covariance Sequence, oben, beschrieben. Zuerst wird der Levinson-Algorithmus gelöst (Gleichung 2.9 im Aufsatz von Byrnes u. a.), indem lediglich die c₀, c₁, ..., c_n durch die q₀, q₁, ..., q_n ersetzt werden, wobei folglich die Reflexionskoeffizienten γ₀, γ₁, ..., γ_n-1 aus (Gleichung 2.7 im Aufsatz von Byrnes u. a.) und die Szegö-Polynome φ₁(z), φ₂(z), ..., φ_n(z) aus (Gleichung 2.9 im Aufsatz von Byrnes u. a.) erhalten werden. Als Nächstes werden die Koeffizienten α₁, α₂, ..., α_n bestimmt, sodass φn(z) + α1φn-1 + ... + αn = zn gilt, was darauf hinausläuft, ein dreieckiges lineares Gleichungssystem zu lösen. Unter Verwendung der Vektoren α und γ mit den Komponenten α₁, α₂, ..., α_n bzw. γ₀, γ₁, ..., γ_n-1 als Anfangsbedingungen konvergiert der schnelle Algorithmus (Gleichung 2.7 im Aufsatz von Byrnes u. a.) gegen eine Grenze, wie t → ∞, vorausgesetzt, dass die Positivitätsbedingung (2.10) gilt. Insbesondere gilt α_k(t) → σ_k für k = 1, 2, ..., n. Dann ist A(z) = a0(zn + σ1zn-1 + ... + σn)mit
der erforderliche spektrale Polynomfaktor. Außerdem ist, wenn γ_k(t) = γ_t+k gesetzt wird, |γt| < 1 für t = 0, 1, 2, ... (A.3)ein Test für die Positivität, d. h., dass (2.10) gilt.
ANHANG B. DAS KOVARIANZBERECHNUNGS-UNTERPROGRAMM
Dieser Abschnitt beschreibt, wie die Koeffizienten g₀, g₁, ... g_n in der Entwicklung
für alle (stabilen) Polynome (2.6) und (2.11) zu bestimmen sind.
Es wird mit der Bestimmung der Koeffizienten f₀, f₁, ..., f_2n in der Entwicklung
begonnen, die einem LPC-Filter entspricht. Dies wird ausgeführt, indem zuerst der inverse Levinson-Algorithmus (siehe B. Porat, Digital Processing of Random Signals, oben, auf 165 und 47) auf A(z) angewendet wird, um die Reflexionskoeffizienten zu berechnen, und dann der inverse Schur-Algorithmus (siehe B. Porat, Digital Processing of Random Signals, oben, auf 166) für die Berechnung der f₀, f₁, ..., f_2n angewendet wird, und dann die Rekursion
ausgeführt wird, um die f_n+1, f_n+2, ..., f_2n zu finden. Schließlich werden die Koeffizienten g₀, g₁, ..., g_n aus
halten, wobei die p₀, p₁, ..., p_n die Koeffizienten in B(z)B(z-1) = p0 + p1(z + z-1) + ... + pn(zn + z-n)sind.
Folglich können die Kovarianzkoeffizienten g₀, g₁, ..., g_n unter Verwendung nur von rekursiven Algorithmen und gewöhnlichen arithmetischen Operationen berechnet werden.

Claims

Sprachanalysator für in mehrere Sprachrahmen segmentierte Sprache, mit: Mitteln zum Bestimmen von Filternullstellen und -kovarianzen aus einem Sprachrahmen, und Mitteln zum Berechnen einer Gruppe von Verstärkungsfaktoren für ein Gitter-Leiter-Kerb-Filter (LLN, Lattice-Ladder-Notch-Filter), die die Filternullstellen und -kovarianzen so anpassen, dass der Sprachrahmen bei einer Erregung des LLN-Filters durch ein ausgewähltes Signal regeneriert wird.
Sprachanalysator nach Anspruch 1, bei dem die Berechnungsmittel Mittel umfassen, um eine Gruppe von Filterparametern aus den Filternullstellen und Filterkovarianzen zu berechnen.
Sprachanalysator nach Anspruch 1, der ferner eine Signalauswahleinrichtung umfasst, um das Erregungssignal zu bestimmen.
Sprachanalysator nach Anspruch 3, der ferner Mittel umfasst, um festzustellen, ob der Sprachrahmen stimmhaft oder stimmlos ist.
Sprachanalysator nach Anspruch 2, bei dem die Berechnungsmittel Mittel umfassen, um eine objektive Funktion, die die Filternullstellen und die Filterkovarianzen enthält, zu optimieren.
Sprachanalysator nach Anspruch 5, der ferner Mittel umfasst, um eine Anfangsbedingung für die Gruppe von Verstärkungsfaktoren für das LLN-Filter zu bestimmen.
Sprachanalysator nach Anspruch 6, bei dem die Optimierungsmittel Mittel umfassen, die nur Algorithmen verwenden, die ausschließlich durch arithmetische Operationen definiert sind.
Sprachanalysator nach Anspruch 7, bei dem das LLN-Filter eine Gitter-Leiter-Filtertopologie aufweist, die Filterpole und Filternullstellen zulässt.
Sprachanalysator nach Anspruch 2, der ferner einen Sprachsynthetisierer, der mit dem Sprachanalysator in Kommunikation steht, umfasst, wobei der Sprachsynthetisierer ein programmierbares LLN-Filter und einen Erregungsgenerator, der mit dem LLN-Filter verbunden ist, um das ausgewählte Signal zu erzeugen, umfasst, so dass der Sprachrahmen dann, wenn das programmierbare Filter gemäß der berechneten Gruppe von Verstärkungsfaktoren konfiguriert ist, durch das ausgewählte Signal regeneriert wird.
Sprachanalysator nach Anspruch 9, bei dem der Sprachsynthetisierer von dem Sprachanalysator entfernt ist und ferner eine Telekommunikationsdatenverbindung zwischen ihnen aufweist.
Sprachanalysator nach Anspruch 9, bei dem der Erregungsgenerator Mittel umfasst, um Signale zu erzeugen, die entweder stimmhafter oder stimmloser Sprache entsprechen.
Sprachanalysator nach Anspruch 9, bei dem der Erregungsgenerator eine Nachschlagtabelle, die mehrere Einträge enthält, und einen entsprechenden Code für jeden der Tabelleneinträge umfasst, so dass der Sprachanalysator nur einen Nachschlagtabellen-Eintrag bestimmen und spezifizieren muss, um dadurch ein gewünschtes Signal zu spezifizieren.
Sprachanalysator nach Anspruch 12, wobei der Sprachanalysator ferner Mittel umfasst, um einen Nachschlagtabellen-Eintrag zu bestimmen, der einem Signal entspricht, das am ehesten den Sprachrahmen erzeugt, wenn es für die Erregung des LLN-Filters verwendet wird.
Sprachanalysator nach Anspruch 1, der ferner eine Signalauswahleinrichtung umfasst, um das Erregungssignal zu bestimmen.
Sprachanalysator nach Anspruch 14, der ferner Mittel umfasst, um festzustellen, ob der Sprachrahmen stimmhaft oder stimmlos ist.
Sprachanalysator nach Anspruch 1, bei dem die Berechnungsmittel Mittel umfassen, um eine objektive Funktion zu optimieren, die die Filternullstellen und die Filterkovarianzen enthält.
Sprachanalysator nach Anspruch 1, der ferner Mittel umfasst, um eine Anfangsbedingung für die Gruppe von Verstärkungsfaktoren für das LLN-Filter zu bestimmen.
Sprachanalysator nach Anspruch 1, bei dem die Optimierungsmittel Mittel umfassen, um nur Algorithmen zu verwenden, die ausschließlich anhand arithmetischer Operationen definiert sind.
Sprachanalysator nach Anspruch 18, bei dem das LLN-Filter eine Gitter-Leiter-Filtertopologie besitzt, die Filterpole und Filternullstellen zulässt.
Sprachsynthetisierer, der ein programmierbares Gitter-Leiter-Kerb-Filter (LLN, Lattice-Ladder-Notch-Filter) und einen Erregungsgenerator für die Erzeugung eines im Voraus gewählten Signals für die Erregung des LLN-Filters aufweist, wobei das LLN-Filter mehrere Pole, Nullstellen und Kovarianzen zeigt und wobei das LLN-Filter mit einer Gruppe von Verstärkungsfaktoren programmiert ist, die die Filternullstellen und -kovarianzen in der Weise anpassen, dass die Erregung des LLN-Filters durch das im Voraus gewählte Signal das LLN-Filter dazu veranlasst, einen gewünschten Sprachrahmen zu regenerieren.
Sprachsynthetisierer nach Anspruch 20, der ferner eine Telemetrieverbindung aufweist, um eine Gruppe von Filterparametern für die Programmierung des LLN-Filters und einen Code, der ein gewünschtes Erregungssignal angibt, zu empfangen.
Sprachsynthetisierer nach Anspruch 20, der ferner Mittel umfasst, um das LLN-Filter in Reaktion auf die empfangenen Filterparameter zu programmieren, wobei der Erregungsgenerator auf den Code anspricht.
Sprachsynthetisierer nach Anspruch 22, der ferner einen D/A-Umsetzer aufweist, um das Ausgangssignal des LLN-Filters in eine analoge Signalform umzusetzen.
Verfahren zum Analysieren eines Sprachrahmens, das die folgenden Schritte umfasst: Bestimmen einer Gruppe von Filternullstellen und -kovarianzen aus dem Sprachrahmen und hieraus Berechnen einer Gruppe von Filterparametern, die eine Gruppe von Verstärkungsfaktoren für ein Gitter-Leiter-Kerb-Filter (LLN, Lattice-Ladder-Notch-Filter) enthalten, die die Filternullstellen und -kovarianzen so anpassen, dass der Sprachrahmen dann, wenn das LLN- Filter durch ein im Voraus ausgewähltes Signal erregt wird, regeneriert wird.
Verfahren nach Anspruch 24, bei dem der Berechnungsschritt den Schritt des Berechnens einer Gruppe von Filterpolen aus den Filternullstellen und -kovarianzen umfasst.
Verfahren nach Anspruch 25, das ferner den Schritt des Bestimmens eines gewünschten Signals zum Erregen des LLN-Filters, um den Sprachrahmen zu regenerieren, umfasst.
Verfahren nach Anspruch 25, bei dem der Berechnungsschritt ferner den Schritt des Optimierens einer objektiven Funktion, die die Filternullstellen und -kovarianzen enthält, umfasst.
Verfahren nach Anspruch 27, das ferner den Schritt des Bestimmens einer Anfangsbedingung für die Gruppe von Verstärkungsfaktoren für das LLN-Filter umfasst.
Verfahren nach Anspruch 28, bei dem der Optimierungsschritt den Schritt des Verwendens nur von Algorithmen, die ausschließlich durch arithmetische Operationen definiert sind, umfasst.
Verfahren nach Anspruch 24, das ferner den Schritt des Übertragens der Filterparameter und eines dem gewünschten Erregungssignal entsprechenden Codes an einen Sprachsynthetisierer für die Regeneration des Sprachrahmens umfasst.
Verfahren zum Regenerieren eines Sprachrahmens, das die folgenden Schritte umfasst: Programmieren eines programmierbaren Gitter-Leiter-Kerb-Filters (LLN, Lattice-Ladder-Notch-Filter) mit einer Gruppe von Verstärkungsfaktoren, wobei der Sprachrahmen mehrere Nullstellen und mehrere ihm zugeordnete Kovarianzkoeffizienten besitzt, wobei die Verstärkungsfaktoren die Nullstellen und die Kovarianzkoeffizienten anpassen, Erzeugen eines im Voraus gewählten Signals, um das LLN-Filter zu erregen, und Erregen des LLN-Filters mit dem erzeugten Signal, um dadurch den Sprachrahmen zu regenerieren.
Verfahren nach Anspruch 31, das ferner die Schritte umfasst, bei denen eine Gruppe von Filterparametern für die Programmierung des LLN-Filters empfangen werden, das LLN-Filter in Übereinstimmung damit programmiert wird und ein Code empfangen wird, der das erzeugte Signal angibt.
Verfahren nach Anspruch 32, das ferner den Schritt des Umsetzens des Ausgangssignals des LLN-Filters in eine analoge Signalform umfasst.
Sprachanalysator, der eine Schaltung für die Erfassung eines Sprachrahmens und einen Umsetzer zum Umsetzen des Sprachrahmens in eine Gruppe von Gitter-Leiter-Kerb-Filterparametern (LLN, Lattice-Ladder-Notch-Filterparameter) umfasst, wobei die LLN-Filterparameter mehrere Nullstellen, mehrere Kovarianzkoeffizienten und eine Gruppe von Verstärkungsfaktoren umfassen, die die Nullstellen und die Kovarianzkoeffizienten in der Weise anpassen, dass ein durch die Parameter definiertes LLN-Filter für die Wiedergabe des Sprachrahmens durch seine Erregung geeignet ist.