DE102004046045B3 - Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen Download PDF

Info

Publication number
DE102004046045B3
DE102004046045B3 DE200410046045 DE102004046045A DE102004046045B3 DE 102004046045 B3 DE102004046045 B3 DE 102004046045B3 DE 200410046045 DE200410046045 DE 200410046045 DE 102004046045 A DE102004046045 A DE 102004046045A DE 102004046045 B3 DE102004046045 B3 DE 102004046045B3
Authority
DE
Germany
Prior art keywords
driver
phases
phase
valued
complex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE200410046045
Other languages
English (en)
Inventor
Friedhelm R Drepper
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE200410046045 priority Critical patent/DE102004046045B3/de
Application granted granted Critical
Publication of DE102004046045B3 publication Critical patent/DE102004046045B3/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Stimmhafte Sprache zeichnet sich durch einen fundamentalen Anregungs- bzw. Treiberprozess aus, der auf der Senderseite die akustischen Moden der Sprechtraktanregung synchronisiert und auf der Empfängerseite die Lautheits- und Tonhöhenwahrnehmung bestimmt. Die Annahme der Stationarität der Sprechtraktanregung hat bisher eine präzise Ermittlung der charakteristischen Synchronisation stimmhafter Sprache weitgehend verhindert. DOLLAR A Die Erfindung ermittelt die besagte Regelhaftigkeit anhand von Kopplungsfunktionen, die von einem durch Betrag und Phase gekennzeichneten Wirkzustand des potentiell instationären fundamentalen Treibers abhängen und die geeignet sind, die Anregung der Teilbandresonatoren zu rekonstruieren. Im Fall stimmhafter Sprachsignale wird die Rekonstruktion mehrerer Anregungsmoden für die wahrnehmungsgerechte Rekonstruktion der fundamentalen Treiberphase benutzt. Die Amplituden-Amplituden-Kopplung der besagten Regelhaftigkeit wird auch auf stimmlose Sprachabschnitte übertragen. DOLLAR A Es zeigt sich, dass sowohl den bekannten stimmhaften Phonemklassen als auch unterschiedlichen Sprechern qualitative Merkmale der rekonstruierten Treiber-Response-Dynamik zugeordnet werden können. Hierdurch können die überwachten Lernphasen sowohl der Phonem- als auch der Sprechererkennung wesentlich verkürzt werden.

Description

  • Die Erfindung betrifft ein Verfahren zur Analyse von Sprachsignalen, wobei eine Zerlegung der Sprachsignale in wenigstens zwei Teilbänder erfolgt und wobei für mindestens zwei der Teilbänder ein zeitdiskretes Vorhersagemodell aufgestellt wird.
  • Die Erfindung betrifft ferner eine für die Durchführung des Verfahrens geeignete Vorrichtung.
  • Ein bekanntes Verfahren ist in der deutschen Übersetzung DE 695 18 674 T2 der europäischen Patentschrift EP 0 665 531 B1 offenbart.
  • Die Bücher, Vary P., U. Heute und W. Hess „Digitale Sprachsignalverarbeitung", B.G. Teubner Verlag, Stuttgart (1998) und
    Schroeder M.R. „Computer Speech", Springer (1999) beschreiben gleichfalls mehrere bekannte Verfahren zur digitalen Verarbeitung von Sprachsignalen.
  • Die bekannten Verfahren beschreiben stimmhafte Sprache als einen Quelle – Filter Prozess, wobei die Phonationsanregung im Kehlkopf und/oder eine hierdurch erzeugte bzw. modulierte Friktionsanregung in der Nähe einer Verengungsstelle des Vokaltrakts als akustische Quelle und die Signal formende Wirkung des z.T. resonanten Sprechtrakts als Filter aufgefasst werden. Sowohl bei stimmhafter als auch bei stimmloser Anregung ist es üblich, das Sprachsignal als lineare Antwort einer akustischen Anregung zu beschreiben. Im Falle der Artikulationskonstellation der Vokale, d.h. bei einer impulsartigen Anregung und einem unverzweigten Vokaltrakt, wird die Signal formende Wirkung des Sprechtrakts erfolgreich durch einen rein autoregressiven linearen Filter beschrieben. Im allgemeineren Fall der Artikulationskonstellation von Konsonanten erfordert die Beschreibung der Signal Formung durch den Sprechtrakt ein lineares passives System, das sowohl einen autoregressiven Anteil als auch einen gleitenden Mittelwertanteil enthält.
  • Zur Identifizierung des linearen passiven Systems anhand des Sprachsignals wird üblicherweise bezüglich der Anregung die Annahme sog. schwacher Stationarität getroffen, d.h. die Annahme der Zeitinvarianz der Periodizität bzw. der Autokorrelation der Anregung. Im Fall der Identifizierung von Konsonanten wird eine von zwei weiteren Annahmen getroffen. Entweder wird auch in diesem Fall der Sprechtraktfilter als rein autoregressiv angenommen oder die spektrale Verteilung der Leistung der Anregung bzw. einzelner Anregungsimpulse stimmhafter Sprache (einschließlich deren Modifikation durch die Abstrahlung der Mund bzw. Nasenöffnung) wird im Vergleich zur Filtercharakteristik des Sprechtrakts als gleichförmig angenommen. Im letzteren Fall geht die Möglichkeit verloren, die Anregung getrennt zu analysieren.
  • Bei der Signalanalyse im Zeitbereich wird das lineare passive System durch ein zeitdiskretes lineares Vorhersagemodell für Responsezustände beschrieben, d.h. der jeweils nächste Responsezustand wird anhand des augenblicklichen System- bzw. Responsezustands vorhergesagt. Aufgrund der Breitbandigkeit des Sprachsignals ist hierbei eine Systembeschreibung in einem relativ hochdimensionalen Responsezustandsraum erforderlich. Häufig wird der hochdimensionale Zustandsraum durch zeitlich aufeinanderfolgende Werte einer einzigen Zustandsraumkomponente aufgespannt, wobei die zeitlich aufeinanderfolgenden Werte die beim Vorhersageschritt jeweils jüngste Vergangenheit dieser Zustandsraumkomponente darstellen. Als Alternative hierzu wird das Sprachsignal zunächst in bandlimitierte Teilbänder zerlegt. Hierdurch kann die Dimension des Responsezustands der einzelnen Teilbänder reduziert werden. Die durch Bandpassfilterung erzeugten Teilbänder sind nur bedingt geeignet, die für die Phonemanalyse wichtigen Resonatoreigenschaften des Sprechtrakts zu identifizieren, da die Wirkung des Sprechtraktfilters durch die Teilbandzerlegung modifiziert wird. Wie in den Büchern, Zwicker E. und Feldtkeller R. „Das Ohr als Nachrichtenempfänger" Hirzel Verlag (1967) und Moore B.C.J. „An introduction to the Psychology of hearing" Academic Press (1989) sowie in der Druckschrift, Patterson R.D., J.Acoust.Soc.Am. 82, 1560-1586 (1987) dargelegt wird, besteht eine insbesondere auch vom Hörpfad der Säugetiere benutzte Gegenmaßnahme darin, die Teilbandzerlegung mit Hilfe von Bandpassfiltern mit endlicher bzw. näherungsweise endlicher Impulsantwort durchzuführen. Eine günstige Realisierung der Teilbandzerlegung wird in der Druckschrift, Hohmann V., Acta Acustica 10, 433-442 (2002), als eine rein autoregressive Approximation einer Gammaton Filterbank vierter Ordnung beschrieben, die Eigenschaften des menschlichen Hörpfades imitiert und komplexe Teilbandzustände erzeugt.
  • In der DE 103 11 913 B3 , "Verfahren und Vorrichtung zur Analyse von Sprachsignalen" wurde bereits ein Verfahren beschrieben, bei dem ein Sprachsignal mittels von Bandpassfiltern in Teilbänder zerlegt wird und diese Teilbänder jeweils durch ein Vorhersagemodell mit einer Kopplungsfunktion beschrieben werden, die von einer fundamentalen Treiberphase abhängt, wobei die Abhängigkeit von dieser Treiberphase eine Periode aufweist.
  • Verfahren zur Analyse von Sprachsignalen werden für eine Vielzahl von Anwendungsgebieten eingesetzt. Die bekanntesten Anwendungsgebiete sind die Spracherkennung, Sprechererkennung, Sprachkodierung und die Sprachsynthese. Die bekannten Verfahren eignen sich in der Regel jeweils nur für einen Einsatz in einem dieser Anwendungsbereiche.
  • Die gegenwärtig benutzten Methoden der automatischen Spracherkennung zeichnen sich dadurch aus, dass die Erkennungsrate der automatischen Analyse durch zusätzliche Störgeräusche, insbesondere durch zusätzliche Sprachquellen, stärker negativ beeinflusst wird als die Erkennungsrate der menschlichen Wahrnehmung. Während bei Flüstersprache auch die menschliche Wahrnehmung durch Störgeräusche beeinträchtigt wird, zeigen sich bei stimmhafter Sprache deutlichere Unterschiede. Die automatische Erkennung der Vokale bereitet weniger Probleme als die Erkennung der Konsonanten.
  • Die Probleme der Identifizierung der Konsonanten stehen häufig im Zusammenhang mit der Instationarität dieser phonetischen Elementarbestandteile. Die bei den Stoppkonsonanten besonders ausgeprägte Instationarität betrifft sowohl Amplitudenschwankungen als auch charakteristische Veränderungen des Kurzzeitspektrums im Bereich der Formanten (Moore 1989). Aufgrund der größeren Trägheit der Artikulationsorgane tritt die Instationarität bei der Sprachanregung auf kürzerer Zeitskala zu Tage als bei der Signalformung durch den Sprechtrakt. Sowohl die Abundanz der Stopkonsonanten menschlicher Sprachen als auch die zentrale Rolle der Prosodie deuten darauf hin, dass die Instationarität der Sprache bereits auf der Ebene der Sprachakustik eine wesentliche Rolle spielt. Darüber hinaus ist bekannt, dass sowohl die Phonationsanregung im Kehlkopf als auch die Friktionsanregung in der Nähe von sekundären Verengungsstellen des Vokaltraktes durch nichtlineare physikalische Prozesse beeinflusst bzw. hervorgerufen werden.
  • Im Gegensatz zum sog. Vocoder (voice coder) werden bei den heutigen Verfahren der Sprachkodierung sowohl die Modellparameter eines linearen Vorhersagemodells übertragen als auch die residuale Anregung, die mit Methoden der Informationskompression von Zufallsprozessen (als Bestandteil eines sog. code book) kodiert wird. Die Tatsache dass die residuale Anregung im closed loop, d.h. Systemzustand abhängig, übertragen werden muss, ist ein deutlicher Hinweis, dass die Anregung (selbst auf der Zeitskala von 20 ms) nicht als stationärer, linearer Zufallsprozess beschrieben werden kann.
  • Sowohl im Bereich der Sprachkodierung als auch im Bereich der Sprachsynthese sind bereits Versuche unternommen worden, der ubiquitären Instationarität der menschlichen Sprache Rechnung zu tragen. In der Druckschrift „McAulay R.J. and T.F. Quatieri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech and Signal Processing, Vol 34, pp 744-754 (1986)" wurde ein Verfahren beschrieben, bei dem im Analyseteil der Sprachsynthese die zeitabhängige Phasengeschwindigkeit einzelner Teilbänder eines Sprachsignals anhand der Position lokaler Maxima des Kurzzeitspektrums des Sprachsignals bestimmt wird. In der Druckschrift „Kawahara H., I. Masuda-Katsuse and A. de Cheveigné, Speech Communication 27, 187-207 (1999)" wurde ein Verfahren beschrieben, bei dem die Phasengeschwindigkeit der Teilbänder jeweils als Fixpunkt einer Abbildung der Filtermittenfrequenz eines komplexen Bandpassfilters auf die Phasengeschwindigkeit des zugegörigen Filteroutputs bestimmt wird. Die vereinfachenden Modellannahmen dieser Druckschriften sind mit der Zielrichtung getroffen worden, dass die Verfahren für eine qualitativ hochwertige und flexible Sprachsynthese im Sinne eines verbesserten Vokoders geeignet sind. Den Verfahren fehlt jedoch die Annahme, dass die stimmhafte Anregung durch eine Kopplungsfunktion beschrieben werden kann, die ausschließlich von einer allen Teilbändern gemeinsamen, fundamentalen Treiberphase abhängt. Somit sind diese Verfahren nicht für die Analyse der für stimmhafte Sprache charakteristischen komplexen mode locking Phänomene geeignet, die insbesondere im Fall verlängerbarer stimmhafter Konsonanten offenbar durch Phonem spezifische Ursachevorlaufzeiten des fundamentalen Treibers gekennzeichnet sind.
  • Trotzt der deutlichen Hinweise sowohl auf Instationarität als auch auf Nichtlinearität der Sprachsignale stützt sich die bisherige Sprachanalyse auf eine Ermittlung von Spektralzerlegungen bzw. von Vorhersagemodellen, die mehr oder weniger explizit auf der Annahme beruht, dass Sprachsignale sich aus stationären, linearen Prozessen zusammensetzen. Die den Sprechtrakt offenbar vergleichsweise gut beschreibenden linearen passiven Systeme sind zwar durchaus geeignet, instationäre (transiente) Prozesse zu beschreiben. Für die Identifizierung dieser Systeme anhand des Sprachsignals stützen sich die bisher benutzten Analyseverfahren jedoch auf die Zusatzannahme, dass die Anregung des Sprechtrakts einen Zufallsprozesses darstellt, der sich sowohl durch Stationarität als auch durch Linearität auszeichnet.
  • Die für die Systemidentifizierung getroffene Annahme der Stationarität der Anregung wird in der bisherigen digitalen Sprachsignalverarbeitung durch eine Beschränkung der jeweiligen Analyse auf extrem kurze Zeitfenster erkauft. Mit ca. 20 ms sind die typischen Analysefenster der Kurzzeitautokorrelationsanalyse oder der Kurzzeitspektralanalyse klein im Vergleich zur mittleren Dauer eines Phonems von ca. 100 ms.
  • Die Rekonstruktion der Anregung bereitet im Fall der Konsonanten zusätzliche Probleme, da die besagte Stationaritätsannahme die eindeutige Identifizierung des gleitenden Mittelwerteils des Sprechtraktmodells verhindert. Die generelle Beschränkung auf einen rein autoregressiven Sprechtraktfilter wird insbesondere mit der Phasentaubheit der auditiven Wahrnehmung gerechtfertigt wird (Vary, Heute und Hess 1998). Die in der Druckschrift, Helmholtz H. „Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik" Vieweg Verlag, Braunschweig (1863), aufgestellte Hypothese der Phasentaubheit hat sich jedoch als falsch bzw. präzisierungsbedürftig herausgestellt (Patterson 1987, Schroeder 1999). Insbesondere ist bekannt, dass die auditive Wahrnehmung sehr wohl zwischen Signalen mit gleichen Spektren und unterschiedlichem Peakfaktor der Amplituden modulation unterscheiden kann (Schroeder 1999). Es spricht somit vieles dafür, dass die selbst monaural phasenempfindliche Wahrnehmung des Menschen zusätzliche, über Systembeschreibungen linearer, passiver Systeme mit stationärer Anregung und insbesondere über deren Leistungsspektren hinausgehende Merkmale der menschlichen Sprache benutzt, um das jeweilige Nutzsignal vom Störgeräusch zu trennen und innerhalb des Nutzsignals die Merkmale der Phoneme von denen des Sprechers zu unterscheiden.
  • Die stimmhafte Spracherzeugung ist durch mode locking Phänomene des gekoppelten Systems der harmonischen Obertöne der glottalen Anregung und der akustischen Schwingungsmoden des Resonanzraumes (Sprechtraktes) gekennzeichnet. Wie in dem Buch, Fant G. „Acoustic theory of speech production" Mouton, 'S-Gravenhage (1960), dargelegt beruht das mode-locking auf der gemeinsamen Anregung dieser Moden durch die impulsartigen Schließereignisse der Glottis. Die räumliche und zeitliche Lokalisation der primären Anregung bewirkt bzw. begünstigt, dass die Anregungsdynamik durch einen fundamentalen Oszillator mit nur wenigen, vergleichsweise langsam veränderlichen, wechselwirkungsrelevanten Zustandsvariablen beherrscht wird. Wie in dem Buch, Haken H. „Synergetics" Springer Verlag, Berlin (1977), dargelegt, wird eine potentiell größere Anzahl von schnellveränderlichen Zustandsvariablen durch eine niedrigere Anzahl von langsam veränderlichen Ordnungsparametern versklavt.
  • Entsprechend der Grundhypothese des wohl bekannten Quelle – Filter Modells wird zunächst an einer einseitigen Ursache – Wirkungsbeziehung zwischen dem glottalen Treibersubsystem und den Sprechtrakt bezogenen Responsesubsystemen festgehalten. Die besagten mode locking Phänomene können somit als verallgemeinerte Synchronisation in einem Treiber – Response System beschrieben werden. Wie in der Druckschrift, Rulkov N.F., M.M. Sushchik, L.S. Tsimring, H.D.I. Abarbanel, Phys. Rev. E 51, 980-994 (1995), dargelegt wurde, ist „Verallgemeinerte Synchronisation in einem Treiber – Response System" charakterisiert durch die Existenz einer (zeitlich invarianten) stetigen funktionalen Abhängigkeit des jeweiligen Responsezustands von einem gleichzeitigen oder vergangenen Treiberzustand, im einfachsten Fall vom gleichzeitigen Treiberzustand. Verallgemeinerte Synchronisation bzw. mode-locking stellt hierbei kein undifferenziertes Phänomen dar, sondern einen Oberbegriff für eine Vielzahl von Koordinationsmöglichkeiten, die durch mehr oder weniger glatte invariante Mannigfaltigkeiten (Linien oder Flächen) im gemeinsamen Zustandsraum der Treiber und Responseoszillatoren charakterisiert werden können (Haken 1977, Rulkov et al. 1995). Wie in dem Buch, Mosekilde E., Y. Maistrenko and D. Postnov „Chaotic synchronization, applications to living systems" World Scientific (2002), dargelegt, vergrößert sich die Vielfalt noch beträchtlich, wenn auch qualitativ unterschiedliche Routen des Verlassens einer Synchronisationsmannigfaltigkeit berücksichtigt werden. Im Kontext der stimmhaften Sprache ist es von besonderem Interesse, dass das altbekannte Phänomen der Synchronisation nicht auf periodischen oder quasiperiodischen Antrieb beschränkt ist, sondern auch bei deterministisch chaotischen (Rulkov et al. 1995) oder stochastischen Treibern auftritt, wobei das letztere Phänomen in der Druckschrift, Afraimovich V.S., N.N. Verichev, M.I. Rabinovich, Radiophys. Quantum Electron. 29, 795 (1986), beschrieben ist.
  • Im Fall der Anregung stimmhafter Laute ist es wesentlich, dass die charakteristische Kopplungsfunktion (Mannigfaltigkeit) eines verallgemeinert synchronisierten Treiber – Response Systems zwar eindeutig und stetig, jedoch nicht umkehrbar eindeutig zu sein braucht. Hierdurch ergibt sich die Möglichkeit sog. mode locking Phänomene zwischen Subsystemen mit unterschiedlichen Frequenzen als Synchronisationsphänomen zu beschreiben. Soweit hierbei Treiber und Response unterschiedliche Frequenzen haben, ist es für die verallgemeinerte Synchronisation charakteristisch, dass der Response die höhere Frequenz aufweist. In diesem Fall impliziert die Synchronisationshypothese eine Zeitskalentrennung zwischen Treiber und Response und die wechselwirkungsrelevanten Treiberzustände können mit den Ordnungsparametern der oben beschriebenen Zeitskalentrennung identifiziert werden.
  • Ein wichtiger Spezialfall eines verallgemeinert synchronisierten Treiber – Response Systems zeichnet sich zusätzlich durch eine eindeutige und stetige Umkehrabbildung aus. In diesem Fall stellt die Kopplungsfunktion eine sog. Konjugation dar. Wie in dem Buch, Kantz H., T. Schreiber „Nonlinear time series analysis" Cambridge University Press (1997), beschrieben wird, sind somit Treiberoszillator und Responseoszillator topologisch äquivalent, d.h. zu jeder Zeit gibt es eine eineindeutige Relation zwischen dem jeweiligen Responsezustand und einem Treiberzustand. Das setzt offenbar voraus, dass Treiber und Response die gleiche Dimension des Zustandsraumes haben. Im Fall stimmhafter Sprache kann die Umkehrbarkeit der Relation zwischen Treiber und Response dazu benutzt werden, den verborgenen Treiberprozess anhand empirisch ermittelter Responseprozesse zu bestimmen.
  • Für den Erfolg der Rekonstruktion des fundamentalen Treibers eines stimmhaften Sprachsignals ist es entscheidend, dass die Dimension des wechselwirkungsrelevanten Treiberzustandes niedrig ist. Da bei oszillatorischer Bewegung jeweils zwischen Hin- und Rückrichtung unterschieden werden muss, stellt ein zweidimensionaler Oszillatorzustand den einfachsten Fall dar. Ein wesentlicher Bestandteil der Synchronisationshypothese der stimmhaften Spracherzeugung besteht daher in der Annahme, dass die Dimension des wechselwirkungsrelevanten Treiberzustandes zweidimensional ist und allein durch eine Treiberamplitude und eine Treiberphase beschrieben werden kann. Für das Verständnis dieser Annahme ist es wichtig, die Dimension des Wirkzustandes nicht mit der Dimension einer autonomen Dynamik des Treiberoszillators zu verwechseln.
  • Wie in der Druckschrift, Herzel H., D. Berry, I.R. Titze and I. Steinecke, Chaos 5, 30-34 (1995), beschrieben, können die Sprecher spezifischen Kurzzeitfluktuationen der Frequenz (Jitter) der Glottis z.T. durch ein Oszillatormodell mit wenigen Punktmassen beschrieben werden, wobei sich pathologische Phonation in der Regel durch eine höhere Anzahl von relevanten Freiheitsgraden der Dynamik auszeichnet. Die in solchen Modellen auftretende Dimension der autonomen Dynamik darf nicht verwechselt werden mit der wechselwirkungsrelevanten Treiberdimension. Angesichts der vielschichtigen, insbesondere auch emotional beeinflussten „Untertöne" der Prosodie (Mikrotremor) wäre es vermessen, generell von einer zweidimensionalen, autonomen Dynamik des fundamentalen Treibers auszugehen. Trotz der uferlos komplexen Dynamik der neuronal gesteuerten Glottis macht es Sinn, einen zweidimensionalen Wirkzustand des fundamentalen Treiberoszillators zu postulieren, der die Rolle eines kausalen Nadelöhrs zwischen der komplexen Dynamik der Glottis und der potentiell hochdimensionalen Dynamik der akustischen Moden des Sprechtraktes spielt.
  • In der DE 103 11 913 B3 wurde bereits ein Verfahren beschrieben, das im Fall stimmhafter Anregung die Annahme der Stationarität durch die Annahme der verallgemeinerten Synchronisation in einem Treiber – Response System ersetzt, wobei der potentiell instationäre Treiberprozess durch eine Folge von fundamentalen Treiberamplituden und eine Folge von fundamentalen Treiberphasen beschrieben wird. In einer vorteilhaften Ausführung der Erfindung wurde ein fundamentaler Treiberprozess anhand des ersten Teilbandes (im Frequenzbereich der Grundfrequenz) ermittelt. Für das erste Teilband kann in der Regel der Unterschied zwischen Sprechtraktantwort und Sprechtraktanregung vernachlässigt werden. Die Beschränkung auf das erste Teilband macht das Verfahren insbesondere ungeeignet für die Analyse von Stopkonsonanten sowie von telefonisch übermittelter Sprache. Außerdem enthält die DE 103 11 913 B3 eine Anpassung der Periodenlänge einer Treiberphasen-Kopplungsfunktion an das Sprachsignal und lässt daher insbesondere nicht erkennen, wie die mit der Synchronisationsannahme verbundene Zeitskalentrennung auf die Analyse stimmloser Sprachsignale übertragen werden kann.
  • Der Erfindung liegt die Aufgabe zugrunde, die Regelhaftigkeit instationärer Tonkomplexe der Sprache zu ermitteln und somit einen umfassenderen Einsatz der Sprache bei der Mensch-Maschine Kommunikation zu ermöglichen.
  • Erfindungsgemäß wird diese Aufgabe durch ein Verfahren des Hauptanspruchs gelöst.
  • Vorteilhafte Weiterbildungen sind Gegenstand der Ansprüche 2 bis 68.
  • Ferner wird diese Aufgabe durch eine Vorrichtung nach Anspruch 69 gelöst.
  • Die mit Hilfe der Erfindung ermöglichte Sprachanalyse kann sehr schnell erfolgen und eignet sich daher auch für einen Einsatz in Echtzeit. Dies ist bei einer Vielzahl von Anwendungsgebieten von Vorteil.
  • Die Erfindung eignet sich insbesondere für den Einsatz in der Kodierung und Synthese von Sprache, in der Erkennung des symbolischen Gehaltes von gesprochener Information, zur Identifizierung von Sprechern sowie zur Ermittlung eines objektiven Maßes der subjektiv wahrgenommenen Sprachqualität. Insbesondere kann bei einem Einsatz der Erfindung jeweils ausgewählt werden, welche der Vorteile der Erfindung genutzt werden.
  • Insbesondere lässt sich mit Hilfe der Erfindung eine verteilte Sprachanalyse durchführen. Dies ist in einer Vielzahl von Anwendungsfällen zweckmäßig. Beispielsweise lassen sich hierdurch verteilte Diktiersysteme bzw. Mensch-Maschine Kommunikationssysteme realisieren. So ist es beispielsweise möglich, zwischen dem Sprecher und einer Datenverarbeitungseinheit, welche die Sprachsignale auswertet, einen Übertragungskanal vorzusehen.
  • Im Fall der Spracherkennung ist es beispielsweise möglich, bisher von einem Sprecher nicht zuvor gesprochene Worte korrekt zu erkennen, ohne dass es erforderlich ist, in einer Datenbank zuvor eine Vielzahl von ähnlichen klingenden Tonfolgen zu erfassen.
  • Die Erfindung ermöglicht eine allgemeinere und robustere Bestimmung des Verlaufs der Tonhöhe bzw. der Prosodie instationärer Sprachsignale, wobei die Flexibilität weitgehend die der Tonhöhenwahrnehmung trifft. Außerdem ermöglicht die Erfindung eine wahrnehmungsgerechte Ermittlung der Merkmale der Stimmhaftigkeit der Vokale und der Stimmhaftigkeit stimmhafter Konsonanten.
  • Der neuartige Zeitskalentrennungszugang zur Sprachakustik verzichtet darauf, die Phoneme der Sprache als stationäre Prozesse aufzufassen. Die im Rahmen dieses Zugangs erhaltenen Elementarbestandteile menschlicher Sprache zeichnen sich durch stationär (zeitinvariant) gekoppelten Response potentiell transienter (instationärer) Anregungen aus, wobei das transiente Verhalten der Anregungen insbesondere auf eine Teilband übergreifende, fundamentale Amplitude zurückgeführt wird. Die vergleichsweise größere Regelhaftigkeit stimmhafter Sprachabschnitte zeichnet sich durch Teilbandanregungen aus, deren potentiell transientes Verhalten auf einen zweidimensionalen fundamentalen Treiber zurückgeführt wird, wobei die besagte Regelhaftigkeit sich in zeitinvarianten Synchronisationsmannigfaltigkeiten (Kopplungsfunktionen mit einfacher bzw. Stimmhaftigkeit zulässiger Periodizität) ausdrückt. Die auf diese Weise definierten Elementarbestandteile der Sprache fallen zum Teil nicht mit den Spracherzeugung basierten (durch Artikulationsgesten definierten) Phonemen zusammen.
  • Ein auffälliges Beispiel für die besagte Inkongruenz sind die stimmhaften Stopkonsonanten (Plosive). Bei diesen Phonemen ist der auf Kurzzeitspektren ausgerichtete (klassische) Zugang zur Sprachakustik nicht in der Lage, diesen Phonemen ein Merkmal eines stationären Prozesses zuzuordnen. Der auf Anregungssynchronisation basierende Zugang zur Sprachakustik ist jedoch in der Lage, die sehr zahlreichen stimmhaften Plosiv – Vokal Kombinationen wie z.B. /du/, /da/, /bu/ oder /ba/ jeweils als einen invarianten Synchronisationsvorgang zu erkennen. Die in den Kurzzeitspektren nur mit Mühe erkennbaren schnellen Veränderungen im Frequenzbereich der Formanten (Moore 1089) werden hierbei durch eine Kombination von Resonanz (Energieeinkopplung) und Antiresonanz (Energieauskopplung) erzeugenden Anregungen beschrieben, wobei die Anregungen jeweils als verallgemeinert synchronisierter Response eines stark instationären Treibers dargestellt werden. Hierbei sind die Teilbänder mit antiresonantem Verhalten für den Stoppkonsonanten charakteristisch und die Teilbänder mit resonantem Verhalten für den nachfolgenden Vokal. Sowohl im Fall der stimmhaften Approximanten als auch im Fall der Stoppkonsonanten erweitert der vorgeschlagene Zeitskalentrennungs bzw. Synchronisationszugang die bisherigen Möglichkeiten der Sprachakustik, die bisher überwiegend durch Artikulationsgesten definierten Phoneme als vorübergehend zeitinvariant regelhafte Prozesse zu beschreiben.
  • Im Fall der Sprechererkennung ist es beispielsweise möglich, akustische Berechtigungskontrollsysteme, beispielsweise für einen Zugang zu gesicherten Räumen oder für einen Zugriff auf gesicherte Daten zu ermöglichen. Hierbei wirkt sich ein weiterer Vorteil der Erfindung aus, dass die Erkennung auch dann ermöglicht wird, wenn sich einzelne physiologische oder medizinische Parameter des Sprechers geändert haben. So bleibt die Erkennbarkeit beispielsweise auch in Fällen einer Erkältung bzw. einer zwischenzeitlichen Alterung des Sprechers weitgehend bestehen.
  • Die bisherigen Modelle einer „wahrnehmungsäquivalenten" Analyse akustischer Signale sind zwar gut geeignet, die anhand stationärer Signale psychoakustisch ermittelten Einschränkungen der Analysefähigkeit der auditiven Wahrnehmung darzustellen (Patterson 1987, Sottek 1993, Dau et al. 1997), verfehlen aber bisher die Darstellung der über das technisch bisher Erreichte offenbar weit hinausgehenden Leistungsfähigkeit der menschlichen Wahrnehmung bei der Analyse instationärer Signale. Die beschriebenen Analyseverfahren ignorieren der Einfachheit halber die bekannten Unzulänglichkeiten und gehen statt dessen von der Frage aus, wie eine auf die Besonderheiten der menschlichen Sprache ausgerichtete akustische Eingangsstufe der Sprachanalyse modifiziert werden muss, um bei instationären Sprachlauten der bisher technisch unerreichten Analysefähigkeit der menschlichen Wahrnehmung gerecht zu werden.
  • Bei weitgehender Seitenbandbegrenzung der Teilbandanregungen des Sprachsignals und/oder geeigneter Resynthese der Anregung kommt die großenteils sprechtraktäquivalente, wahrnehmungsgerechte Rekonstruktion eines stimmhaften Sprachsignals auch den Anforderungen der Sprachkodierung und Sprachsynthese entgegen. Somit bietet das vorgestellte Verfahren die Grundlage für einen vollständigen Satz code book freier, akustischer Modelle stimmhafter und stimmloser Tonkomplexe, die für die Kodierung und Synthese von Sprache, für die dezentrale Erkennung von Sprache und Sprechern sowie potentiell für die objektive Ermittlung der subjektiv wahrnehmbaren Sprachqualität geeignet sind. Ein universell einsetzbares akustisches Modell menschlicher Sprache verspricht unüberschaubar viele Vorteile für die Mensch-Maschine-Kommunikation.
  • Die Abkehr von der Annahme der Stationarität der Anregung bedeutet den Verzicht auf die Rekonstruktion von Attraktoren zugunsten der Rekonstruktion von Synchronisationsmannigfaltigkeiten bzw. Kopplungsfunktionen, die eine funktionale Abhängigkeit zwischen zwei potentiell instationären Teilprozessen darstellen. Die zeitliche Entwicklung der beiden Teilprozesse bzw. Subsysteme weist hierbei potentiell keine stationäre Asymptote auf, weder einen deterministischen Attraktor noch einen stationären Zufallsprozess. Die Anforderungen an die zeitliche Entwicklung des Treiberprozesses sind hierbei geprägt durch einen Balanceakt des richtigen Maßes an Instationarität. Zu hohe Instationarität insbesondere der Frequenz des Treibers führt zu einer Zerstörung der Synchronisation und zu geringe Instationarität zu einer schlecht konditionierten Systemidentifikation. Die Komplexität der Anforderung an die zeitliche Entwicklung des fundamentalen Treibers zur Erzeugung, Erhaltung und robusten Identifizierung der charakteristischen Synchronisation stimmhafter Sprache lässt Raum für die vielschichtige Rolle der Prosodie. Der unstrittige Erfolg der Sprachkommunikation kann als Hinweis gedeutet werden, dass die spontane und willkürliche Prosodie der menschlichen Sprache den besagten Balanceakt weitgehend erfolgreich ausführt.
  • Die Tatsache, dass sowohl das Sprachproduktionssystem als auch das auditive System des Menschen sich auf ein stimmhaftes Übertragungsprotokoll „verständigt" haben, das auf einem fundamentalen Treiber mit einem zweidimensionalen Wechselwirkungszustand und einem weitgehend universellen Extraktionsverfahren der zugehörigen Amplitude und Phase beruht, stellt eine angesichts der Vielzahl der stimmhaften Phoneme und deren Erzeugung und Wahrnehmung durch unterschiedliche Kommunikationspartner höchst nichttriviale Eigenschaft nichtpathologischer stimmhafter Sprache bzw. Sprachwahrnehmung dar. Die mit der niedrigen Dimension des Treiberwirkzustands einhergehende starke Vereinfachung der Synchronisationsanalyse, kann nur als Ergebnis eines evolutionären und ontogenetischen Entwicklungsprozesses verstanden werden, bei dem es zu einer Passung zwischen den Eigenschaften der stimmhaften Sprache und den Fähigkeiten der auditiven Wahrnehmung des Menschen kommt. Wie in den Druckschriften, Manfredi C., W. Mende, P. Bruskaglioni and K. Wermke in C. Manfredi (editor), MAVEBA 2003, Firenze University Press (2003), und Brown C.H. and F. Alipour in C. Manfredi (editor), Models and analysis of vocal emissions for biomedical applications (MAVEBA), Firenze University Press (2003), dargelegt, ist die besagte universelle Passung zwischen Spracherzeugung und (menschlicher) Sprach wahrnehmung z.B. bei Lautäußerungen von Säuglingen (Wermke et al. 2003) oder Affen (Brown and Alipour 2003, Fitch et al. 2002), d.h. bei ontogenetischen oder evolutionären Vorstufen des Menschen, offenbar nicht erfüllt.
  • Der erstaunlich schnelle ontogenetische Spracherwerb des Menschen ist ein deutlicher Hinweis, dass die ontogenetische Anpassung überwiegend die Sprachproduktion betrifft. Wermke et al. (2003) haben beobachtet, dass Säuglinge bereits im Alter von 6-12 Wochen die Koordination zwischen harmonischen Obertönen der Anregung und geeigneten Resonator- bzw. Formantenfrequenzen trainieren. Die Druckschrift von Kuhl P.K. in dem von den Editoren P.Tallal, A.M. Galaburda, R.R. Llinás and C. Euler herausgegebenen Buch „Temporal information Processing in the nervous system: special reference to Dyslexia and dysphasia, New York Acadamy of Sciences, New York (1993) enthält Hinweise, dass Säuglinge über eine angeborene Fähigkeit verfügen, die den menschlichen Sprachen gemeinsamen Phonemklassen zu unterscheiden. Im Gegensatz zur bisher technisch realisierten akustischen Eingangsstufe der Spracherkennung zeichnet sich eine auf Anregungssynchronisation basierte (erfindungsgemäße) Eingangsstufe dadurch aus, dass die gebräuchlichen Phonemklassen (bereits ohne überwachte Lernphase) allein aufgrund qualitativer Eigenschaften der Rekonstruktion des Sprachsignals erkannt werden. Vielfach implizieren die aus der Analyse der Teilbänder jeweils resultierenden Modellklassen eine zugehörige Phonemklasse. Eine zweite wesentliche Eigenschaft des Synchronisationszugangs zur Sprachakustik besteht darin, dass die Verlagerung der Instationarität der Sprache in das jeweilige Analysefenster die Möglichkeit eröffnet, die Anregung ohne Beschränkung auf einen rein autoregressiven Sprechtraktfilter zu rekonstruieren. Als eine wesentliche dritte Eigenschaft bietet die präzise Bestimmung der Periodizität der Anregung die Möglichkeit zu einer von der detaillierten Phonemerkennung unabhängigen Unterscheidung der Sprecher. Wenn man zum Zeitpunkt der Geburt bereits die Extraktionsfähigkeit der fundamentalen Treibers und die weitgehende Unterscheidungsfähigkeit der beschriebenen Teilbandmodellklassen voraussetzt, liefern die drei Eigenschaften zusammen erstmalig eine Erklärungsmöglichkeit des schnellen ontogenetischen Spracherwerbs der Kleinkinder.
  • Die Erfindung stellt einen Satz sprachakustischer Modelle stimmhafter und stimmloser Tonkomplexe bereit, die sich durch Kopplungsfunktionen zwischen einem fundamentalen Treiberprozess und unterschiedlichen Teilband spezifischen Responsprozessen auszeichnen und sowohl für die Erkennung, Kodierung und Synthese von Sprache als auch für die Erkennung von Sprechern geeignet sind.
  • Ein erfindungsgemäßes Verfahren zur Analyse von instationären Sprachsignalen führt ein der menschlichen Sprache besser angepasstes Verfahren der Zeitskalentrennung ein und ersetzt die Annahme der Stationarität der Anregung durch die Annahme eines Zufallsprozesses, der sich approximativ durch verallgemeinerte Synchronisation der Anregung auszeichnet. Die verallgemeinerte Synchronisation bezieht sich auf einen fundamentalen Treiber, dessen potentiell instationäre zeitliche Entwicklung der Amplitude und der Phasengeschwindigkeit langsam ist im Vergleich zur Dynamik der sog. Formanten, jedoch vielfach zu schnell ist, um auf der Zeitskala von 20 ms als statisch angenommen werden zu können. Die verallgemeinerte Synchronisation der Anregung nimmt im Fall stimmhafter Sprachabschnitte eine stärker regelhafte Form an. Eine weitere wesentliche Eigenschaft eines erfindungsgemäßen Verfahrens besteht darin, dass der potentiell instationäre fundamentale Treiberprozess anhand des Sprachsignals selbstkonsistent bestimmt wird. Die Selbstkonsistenz bedingt, dass die Phasengeschwindigkeit des fundamentalen Treibers nur bei stimmhaften Sprachabschnitten an das Sprachsignal angepasst wird.
  • Die Zeitskalentrennungshypothese besagt, dass die Teilbandanregungen jeweils als Produkt einer langsam veränderlichen Anregungsamplitude und eines schnell veränderlichen, oszillatorischen Prozesses dargestellt werden können. Die Synchronisationshypothese besagt, dass die potentielle Instationarität beider Prozesse durch die Annahme jeweils bedingter Zufallsprozesse eliminiert werden kann bzw. auf einen (allen Teilbändern gemeinsamen) langsam veränderlichen bzw. bandbegrenzten Treiberprozess ausgelagert werden kann.
  • Da die Anregung der Sprache als verallgemeinert synchronisierter Response beschrieben wird, erhält das klassische Quelle – Filter Modell die Form eines zweifach geschachtelten Treiber – Response Systems, wobei der primäre Response als verallgemeinert synchronisiert angenommen wird und der sekundäre Response wie üblich die Signalformung durch Sprechtraktresonatoren beschreibt. In Übereinstimmung mit dem bisherigen Sprachgebrauch wird der primäre Response als Anregung bzw. als Anregungsquelle bezeichnet und mittels Teilband und/oder Anregungsquellen spezifischen Kopplungsfunktionen beschrieben.
  • Die Zeitskalentrennung ermöglicht eine Faktorisierung der besagten Kopplungsfunktionen in eine nichtnegativ reelle, monoton nichtfallende Treiberamplituden-Kopplungsfunktion, die von der langsam veränderlichen Treiberamplitude abhängt und eine komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion, die ausschließlich von einer Treiberphase abhängt. Die Treiberamplituden-Kopplungsfunktion beschreibt hierbei eine langsam wirksame Amplituden – Amplituden-Kopplung, während die Treiberphasen-Kopplungsfunktion sowohl eine schnell wirksame Phasen – Phasen Kopplung als auch optional eine Phasen – Amplituden Kopplung beschreibt, die im mittleren Frequenzbereich (der Grundfrequenz) wirksam ist.
  • Stimmhafte Sprachabschnitte zeichnen sich häufiger durch invariante Synchronisation der Anregung als durch Stationarität der Anregung aus. Darüber hinaus zeigt sich, dass das Zeitfenster für die Annahme einer invarianten Synchronisation häufig mehr als doppelt so groß gewählt werden kann, wie das Zeitfenster der hypothetischen Stationarität. Der Zugewinn der Analysefenstergröße wirkt sich überproportional auf die Robustheit und Trennschärfe der Systemidentifikation aus, da die partielle Verlagerung der Instationarität der Glottis in das Analysefenster die Trennung der Eigenschaften des Sprechtraktes von denen der Anregung begünstigt. Somit verwandelt die Synchronisationshypothese die für die automatische Spracherkennung bisher parasitäre Rolle der Instationarität der Sprache in ein günstiges Angebot der Senderseite zur erfolgreichen Rekonstruktion der Dynamik der akustischen Moden des Sprechtraktes.
  • Die Erfindung rekonstruiert Sprachsignale anhand einer Folge von vorläufigen Treiberphasen, die in einer vorteilhaften Ausführung der Erfindung im Fall stimmhafter Sprachsignale anhand von artifiziellen Höroszillatorphasen bzw. verborgenen Schattenphasen iterativ verbessert wird. Die Schattenphasen werden hierbei mittels gekoppelter Vorhersagemodelle bestimmt, wobei die Anregungen der Vorhersagemodelle so gewählt werden, dass die Phasengeschwindigkeiten der Schattenoszillatoren weitgehend denen der rekonstruierten Teilbandanregungen entsprechen und wobei die Kopplungen so gewählt werden, dass sich im Fall eines stimmhaften Sprachsignals ein stabiles phase locking mehrerer Schattenphasen ergibt. In der besagten vorteilhaften Ausführung der Erfindung werden die wesentlichen Eigenschaften der Schattenphasen in einem komplexwertigen oder paarwertigen, fundamentalen Ordnungsparameter zusammengefasst, der in einer besonders bevorzugten Ausführung den vektoriellen Mittelwert geeignet gewichteten Schattenoszillatorzustände darstellt, wobei die vektorielle Mittelung in der Gaußschen Zahlenebene ausgeführt wird. In der vorteilhaften Ausführung bestimmt die momentane Richtung des fundamentalen Ordnungsparameters die momentane Phase des fundamentalen Treibers. In der besonders bevorzugten Ausführung repräsentiert der Betrag des fundamentalen Ordnungsparameters den Kohärenzgrad der Schattenoszillatoren und ein äquivalentes Maß für die Wahrnehmungsstärke der Stimmhaftigkeit. Die Kopplungen zwischen den Schattenoszillatoren werden hierbei so gewählt, dass sich bei einem stimmhaften Signal eine kooperative Erhöhung des Kohärenzgrades ergibt. In der besonders bevorzugten Ausführung findet die Kooperativität der Dynamik der Schattenphasen ihre Entsprechung im binären Charakter der Stimmhaftigkeitswahrnehmung.
  • Weitere Vorteile, Besonderheiten und zweckmäßige Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen und der nachfolgenden Beschreibung bevorzugter Ausführungsbeispiele anhand der Zeichnung. In der Beschreibung der Erfindung wird vom zitierten Stand der Technik in vollem Umfang gebrauch gemacht.
  • Die Zeichnung zeigt
  • 1 Beiträge der Schattenoszillatoren zum fundamentalen Ordnungsparameter, der die wahrnehmungsgerechte Tonhöhe und Stimmhaftigkeit bestimmt.
  • Der in 1 dargestellte stimmhafte Tonkomplex zeichnet sich durch vier phasensynchrone Schattenoszillatoren aus. Der Einfachheit halber wurde ein Tonkomplex ausgewählt, bei dem der Einfluss unterschiedlicher primärer Responseamplituden vernachlässigt werden kann (gi Ai,t = const). Außerdem wurden binäre Kopplungsstärken (fi = 1 oder fi = 0 ) gewählt. Der fundamentale Ordnungsparameter wird in diesem Fall als vektorieller Mittelwert der Schattenoszillatorzustände (Kreise) gebildet. Die Richtung des fundamentalen Ordnungsparameters in der Gaußschen Zahlenebene bestimmt die momentane Phase ψt des fundamentalen Treibers. Der Betrag des Ordnungsparameters rt repräsentiert den momentanen Kohärenzgrad der Schattenoszillatoren und kann als Maß für die Zuverlässigkeit der Bestimmung der Treiberphase interpretiert werden. Um die Varianz reduzierende Wirkung der Kopplungen zwischen den Schattenoszillatoren zu demonstrieren, enthält 1 außerdem die normierten Zustände der jeweils zugeordneten primären Responseoszillatoren (Quadrate).
  • Der folgende Abschnitt beschreibt die technische Lehre, wie die Teilbänder und Treiberphasen-Kopplungsfunktionen bei vorläufiger Vorgabe des fundamentalen Treiberprozesses anhand des Sprachsignals bestimmt werden. Der darauffolgende Abschnitt beschreibt, wie bei stimmhaften Sprachabschnitten die Schattenphasen und der fundamentale Treiberprozess mittels der besagten Treiberphasen-Kopplungsfunktionen iterativ verbessert werden.
  • Bestimmung der Treiberphasen-Kopplungsfunktionen
  • Entsprechend der Synchronisationshypothese stimmhafter Sprache kommen für eine eineindeutige Beziehung (Konjugation) zum verborgenen fundamentalen Treiber ausschließlich zweidimensionale Responsezustände in Frage. Daher ist es für die angestrebte Rekonstruktion des verborgenen Treibers offenbar zweckmäßig, das Sprachsignal in Teilbänder mit reduzierter Bandbreite und geeigneten Filtermittenfrequenzen zu zerlegen. Hierbei kann man sich zunutze machen, dass der lineare Sprechtraktfilter die für stimmhafte Laute typische, harmonische Obertonverteilung der Anregung weitgehend erhält, sodass eine harmonische Zerlegung der Sprechtraktantwort zu einer angenähert harmonischen Zerlegung der Anregung führt. Die Instationarität des Sprachsignals hat zur Folge, dass die harmonische Ordnungszahl erfolgreich trennbarer Obertöne nach oben begrenzt ist. Die Obergrenze kann im Fall bandbegrenzt instationärer Grundfrequenzvariation angehoben werden, indem die Filtermittenfrequenzen der Analysefilter der Veränderung der Grundfrequenz angepasst werden. Die potentielle Instationarität der Filtermittenfrequenzen legt eine Einzelfilter Implementation nahe. In einer bevorzugten Ausführung wird daher eine Teilbandzerlegung gewählt, die sich entweder exakt oder angenähert durch ganzzahlige (harmonische) Verhältnisse der Filtermittenfrequenzen zu einer gemeinsamen Grundfrequenz bzw. zu einem gemeinsamen Grundfrequenzverlauf auszeichnet.
  • Die halbseitigen Bandbreiten der Teilbänder sollten nach Möglichkeit nicht größer sein als der Frequenzabstand zum nächsthöheren harmonischen Oberton, andererseits jedoch noch hinreichend breitbandig sein, um die topologische Äquivalenz der Teilbänder zu den zugehörigen akustischen Moden des Sprechtraktes zu ermöglichen. Die aus der Psychoakustik bekannten Bandbreiten der sog. Frequenzgruppen von Zwicker und Feldtkeller (1967) bzw. der sog. kritischen Bänder von Moore (1989) stellen offenbar einen evolutionär erprobt günstigen Kompromiss dar. Die letztere Wahl der Bandbreiten beinhaltet maximal 4 Teilbänder/Oktave und führt zu einer a priori Begrenzung der Ordnungszahlen erfolgreich trennbarer Obertöne auf Werte kleiner als 9, die erstere Wahl beinhaltet maximal 3 Teilbänder/Oktave und begrenzt die Ordnungszahl trennbarer Obertöne auf Werte kleiner als 7. Die insbesondere bei gesungenen Vokalen und Nasalen besonders ausgeprägte frequenzspezifische Selektion isolierter harmonischer Obertöne (z.B. durch Unterdrückung der geraden oder ungeraden Obertöne) führt dazu, dass die Rekonstruktion der Anregungen einzelner Moden (Obertöne) z.T. auch oberhalb der besagten a priori Trennbarkeitsgrenzen gelingt.
  • Bei Teilbändern im Bereich der Ordnungszahlen oberhalb 6 werden vorteilhafte Bandbreiten der Teilbänder insbesondere auch durch den Kompromiss zwischen Unverfäschtheit und Einfachheit der Resonatoreigenschaften des Sprechtrakts bestimmt (s.U.). Im Vertrauen auf die evolutionäre Erprobtheit des menschlichen Hörpfades, bietet es sich an, auch in diesem Frequenzbereich die aus der Psychoakustik bekannten Bandbreiten zu übernehmen. Angesichts der efferenten Enervierung der äußeren Haarzellen ist es jedoch möglich, dass die für die Analyse der Sprache benutzten Bandbreiten nicht den anhand stationärer Töne bzw. Laute ermittelten Bandbreiten entsprechen. Aufgrund der unvermeidbaren Verquickung der Analysefilter mit dem Sprechtraktfilter sind die für die Ermittlung des fundamentalen Treibers günstigen Bandbreiten teilweise zu schmal für eine optimale Analyse der Resonatoreigenschaften des Sprechtrakts. Die sog. kritischen Bandbreiten von Moore (1989) sind daher eher als Untergrenze vorteilhafter Bandbreiten anzusehen. Außerdem wird nicht ausgeschlossen, dass vorteilhafte Teilbandzerlegungen Phonem und/oder Sprecher spezifisch und/oder für die Phonemanalyse gesondert gewählt werden.
  • Aus mehrerlei Gründen nimmt die Bedeutung der Ganzzahligkeit des Verhältnisses der Filtermittenfrequenzen zur Grundfrequenz oberhalb der a priori Grenze der Trennbarkeit der Obertöne ab. Dies ermöglicht Teilbandzerlegungen, die gleichzeitig auch zur Resynthese der Signale geeignet sind. Vorteilhafte Kombinationen von Filtermittenfrequenzen und Bandbreiten der Teilbänder werden hierbei im Rahmen einer auf dem Konzept der äquivalenten Rechteck-Bandbreiten aufbauenden Approximation erhalten (Moore 1989, Hohmann 2002). Wenn wir die jeweilige Grundfrequenz mit FD, die Anzahl aller Teilbänder mit N und die maximale Anzahl von Teilbändern pro Oktave mit o bezeichnen, können die Filtermittenfrequenzen Fj und äquivalenten Rechteckbandbreiten ERBj einfacher, vorteilhafter Ausführungen der Erfindung wie folgt gewählt werden,
    Figure 00190001
  • In einer besonders bevorzugten, einfachen Ausführung werden maximal drei Teilbändern pro Oktave (o = 3 ) gewählt. Hieraus ergeben sich die folgenden Verhältnisse der Filtermittenfrequenzen {Fj/FD} = {1, 2, 3, 4, 5.04, 6.35, 8.00, ...}, denen jeweils die harmonischen Ordnungszahlen {hj} = {1, 2, 3, 4, 5, 6, 8, ...} zugeordnet werden. Eine alternativ bevorzugte Ausführung wird als {Ff/FD} = {1, 2, 3, 4, 5, 6.3, 8, 10, 12.6, 16, 20, ...} und {hj} = {1, 2, 3, 4, 5, 6, 8, 10, 13, ...} gewählt. Wenn wir die Samplerate des reellen Sprachsignals {St\t = ..., m – 2, m – 1, m, ...} mit FS bezeichnen, ergibt sich hieraus für das Teilband mit dem Index j folgende rein autoregressive Approximation eines komplexen Gammaton Bandpassfilters vierter Ordnung, der bei Anwendung auf das Sprachsignal {St\t = ..., m – 2, m – 1, m, ...} geeignet ist, komplexe Werte X * / j,t eines vorteilhaften Teilbandes zu erzeugen (Hohmann 2002),
    Figure 00190002
    wobei βj den Frequenzparameter und λj den Dämpfungsparameter des Bandpassfilters mit dem Index j bezeichnet und B den backward shift Operator, der durch B St ≡ St-1 definiert ist, wobei der autoregressive Filter (1) in jeweils geeigneter Weise durch eine endliche Summe approximiert wird.
  • In Übereinstimmung mit dem weitverbreiteten linearen Quelle – Filter Modell werden die Resonator Eigenschaften des Sprechtrakts mit Hilfe eines linearen autoregressiven Vorhersagemodells beschrieben. Motiviert durch die Eigenschaften nichtpathologischer Sprache (im normal Register) wird in einer vorteilhaften Ausführung der Erfindung die zusätzliche Annahme getroffen, dass die besagten Resonatoreigenschaften jeweils durch ein lineares Vorhersagemodell mit ausschließlich einfachen, isolierte Polstellen beschrieben bzw. approximiert werden können. Mit Ausnahme der Teilbänder im Frequenzbereich der sog. Antiformanten, die sich in der Regel durch vergleichsweise kleine Amplituden auszeichnen und somit insbesondere bei der Analyse von gestört übermittelter Sprache geringere Bedeutung haben, lässt sich somit bei geeigneter Bandbegrenzung die Resonatorwirkung des Sprechtrakts auf ein einzelnes Teilband jeweils durch einen einzelnen Helmholtz-Resonator approximieren. Wenn wir die für das Teilband mit dem Index j charakteristische akustische Mode des Sprechtrakts bzw. die für das besagte Teilband charakteristische Überlagerung solcher Moden mit dem komplexen Sprechtraktresponsezustand xj,t und den zugehörigen Anregungszustand mit ej,t bezeichnen, erhalten wir folgendes vorteilhafte Sprechtrakt bezogene Vorhersagemodell, xj,t+Δ = bjxj,t + ej,t, (2)wobei der komplexe Parameter bj mit |bj| ≥ 0 sowohl die Eigenfrequenz als auch die Dämpfung bzw. Güte des betreffenden Teilbandresonators beschreibt. Die Teilband spezifische Wahl der Zeitschrittweite Δ wird weiter Unten erläutert. (Bei Teilbandindex abhängigen Zeit- bzw. Indexverschiebungen wird aus schreibtechnischen Gründen der Teilbandindex j weggelassen.) Als Alternative zu komplexwertigen Zustandsvariablen sind auch paarwertige Zustände denkbar. In diesem Fall wird der komplexe Resonator Parameter bj durch entsprechende Koeffizienten linearer Funktionen ersetzt, die sich vorteilhafterweise mittels einer Resonatormatrix beschreiben lassen. In der folgenden Beschreibung wird in der Regel von einer komplexen Zustandsraumbeschreibung ausgegangen.
  • Aufgrund der Linearität der Übertragungsstrecke der Sprachkommunikation lassen sich den besagten Sprechtraktmoden Teilbandmoden zugeordnet, die jeweils durch eine lineare Transformation (siehe Gleichung 4) aus den Sprechtraktmoden hervorgehen und daher Gleichung (2) jeweils mit den gleichen Resonatorparametern erfüllen wie die zugehörigen Sprechtraktmoden. Vorteilhafte Teilbänder werden entweder aus einer einzelnen Teilbandmode gebildet oder aus einer geeigneten Überlagerung von Teilbandmoden, die Gleichung (2) approximativ mit einheitlichen Resonatorparametern erfüllen. Wenn wir für das Teilband mit dem Index j die besagte Transformation und gegebenenfalls Überlagerung von Sprechtrakt moden als Xj,t und die gleichartige Transformation der Sprechtraktanregungen als Teilbandanregung Ej,t bezeichnen, erhalten wir in einer vorteilhaften Ausführung der Erfindung das zu Gleichung (2) analoge Vorhersagemodell des j-ten Teilbandes, Xj,t+Δ = bjXj,t + Ej,t. (3)
  • Wenn das Teilband mit Index j durch eine akustische Mode dominiert wird, ergibt sich eine eineindeutige diffeomorphe (glatte) Beziehung bzw. Konjugation sowohl zwischen dem Teilband Xj,t und der Sprechtraktmode xj,t als auch zwischen der Teilbandanregung Ej,t und der Sprechtraktanregung ej,t, die jeweils gut durch eine lineare Beziehung angenähert werden kann, Xj,t = αjxj,t-δ (4) Ej,t = αjej,t-δ. (5)wobei hierbei im Allgemeinen eine Zeitverzögerung δ bzw. δj auftritt. Die ganzzahlige Zeit- bzw. Gruppenverzögerung δj und der komplexe Korrekturfaktor αj der Phasen und Amplituden enthalten jeweils sowohl einen Frequenz- bzw. Teilbandindex abhängigen Anteil, der sich anhand der Impulsantwort des jeweiligen Analysefilters bestimmen lässt (Hohmann 2002), als auch einen Signalweg abhängigen Anteil, der jedoch bei Verwendung eines einzelnen Signalwandlers (Mikrophons) unberücksichtigt bleiben kann. Im Folgenden wollen wir ohne Beschränkung der Allgemeinheit eine vorteilhafte Teilbandzerlegung X * / j,t voraussetzen, bei der die besagten Frequenz- bzw. Teilbandindex abhängigen Korrekturen bereits berücksichtigt sind, d.h. wir gehen von einer Synthese geeigneten Filterbankzerlegung aus (Hohmann 2002). Im Gegensatz zu den Gleichungen (4) und (5) ist die Gültigkeit der in Gleichung (3) angegebenen Beschreibung eines Teilbandresonators nicht auf stimmhafte Sprache beschränkt.
  • Die Erfindung rekonstruiert das Teilband X * / j,t entweder als (sekundären) Response eines Resonators auf eine Anregung oder unmittelbar als primären Responseprozess. In beiden Fällen wird für den Anregungs- bzw. primären Responseprozess eine Zeitskalentrennungshypothese zugrunde gelegt. Im einfachsten bisher betrachteten Fall besagt die Zeitskalentrennungshypothese, dass sich die Anregung (der primäre Response) Ej,t des Teilbandes mit dem Index j jeweils zerlegen lässt in ein Produkt aus zwei Faktoren, wobei der eine Faktor einen langsam veränderlichen, potentiell instationären, fundamentalen Amplitudenprozess darstellt, der allen Teilbändern gemeinsam ist, und der andere Faktor einen vergleichsweise schnell veränderlichen, stationären, Teilband spezifischen Prozess darstellt. Im Folgenden gehen wir zunächst davon aus, dass die vorteilhafte Grenzfrequenz der Zeitskalentrennung durch die Grundfrequenz gegeben ist, wobei bei stimmlosen Sprachabschnitten die Grundfrequenz des vorausgehenden stimmhaften Sprachabschnitts übernommen bzw. extrapoliert wird. Insbesondere bei stimmhaften Sprachabschnitten ist es zweckmäßig, dem Teilband übergreifenden, fundamentalen Amplitudenprozess At zusätzlich einen fundamentalen Phasenprozess ψt zuzuordnen und die Zeitabhängigkeit des zweiten schnell veränderlichen Anregungsfaktors durch eine Abhängigkeit von einer (oder mehreren) fundamentalen Phase(n) zu ersetzen.
  • Aufgrund der Mehrdeutigkeit der Definition des besagten Phasenprozesses ist es zweckmäßig, die Phasen-Kopplungsfunktion bzw. die Phasen-Kopplungsfunktionen des zweiten Anregungsfaktors als periodisch anzunehmen, wobei die Periodenlänge 2π p beträgt mit der ganzzahligen Periodizität p ≥ 1. Wenn der fundamentale Phasenprozess in stetig fortgesetzter (abgewickelter) Form ermittelt wird und die Periodenlänge 2π p die Länge des Analysefensters überschreitet, bleibt dieser Ansatz zunächst allgemein. Falls die Periodizität p einer Phasen-Kopplungsfunktion Eins beträgt, führt dies zu einer Anregung, die eine verallgemeinerte Synchronisation in einem Treiber – Response System mit dem komplexwertigen Treiber At exp(iψt) darstellt, dessen Phase mit der fundamentalen Phase ψt identisch ist und wahlweise in auf- oder abgewickelter Form benutzt werden kann. In einer besonders einfachen vorteilhaften Ausführung der Erfindung gehen wir von einer Teilbandresonator-Anregung bzw. einem primären Response Ej,t aus, der sich als Produkt der momentanen fundamentalen Amplitude At und einer Teilband spezifischen Treiberphasen-Kopplungsfunktion Gj,pt) beschreiben lässt, die von der momentanen Treiberphase ψt abhängt, Ej,t = AtGj,pt). (6)
  • Im Fall der Vokale sind aufgrund der ausgeprägten Impulsform der Anregung die Ursachevorlaufzeitunterschiede innerhalb eines Anregungsimpulses klein im Vergleich zur Periodenlänge des fundamentalen Treibers. Aufgrund der Bandbegrenzung des fundamentalen Treibers kann in diesem Fall der Zeitverlauf der Anregung gut durch eine Abhängigkeit von der momentanen Treiberphase ersetzt werden. Insbesondere im Fall der Nasale treten jedoch Echos der primären (glottalen) Anregung auf und im Fall der stimmhaften Approximanten (wie /j/ in Jacke oder /l/ in Lampe) verzögert ausgelöste sekundäre Anregungen. In derartigen Fällen spielen rein naturgesetzliche Verzögerungszeiten eine Rolle, die unabhängig von der neuronal beeinflussten Phasengeschwindigkeit des fundamentalen Treibers sind. In vielen Fällen ist es daher vorteilhaft, eine Überlagerung mehrerer Treiberphasen-Kopplungsfunktionen zu benutzen, die jeweils von Treiberphasen mit festen Vorlaufzeitdifferenzen abhängen. Als instationäre Verallgemeinerung des gleitenden Mittelwertteils eines stationären, linearen passiven Systems ergibt sich im allgemeineren Fall ein autoregressives Vorhersagemodell mit einer Anregung, die sich als lineare Superposition mehrerer Produkte ergibt, wobei jedes Produkt eine langsam veränderliche Treiberamplituden-Kopplungsfunktion enthält, die von der langsam veränderlichen Treiberamplitude abhängt, und eine schnellveränderliche Treiberphasen-Kopplungsfunktion, die potentiell jeweils von einer Treiberphase zu einem unterschiedlichen Ursachevorlaufzeitpunkt abhängt (siehe Gleichung 9). Auch im Fall stimmloser Anregung ist es bequem, die Zeitskalentrennung mittels eines Vorhersagemodells mit einer periodischen Treiberphasen-Kopplungsfunktion zu beschreiben. Der Unterschied zum stimmhaften Fall zeigt sich dann in der Größe der erforderlichen Periodenlänge. Darüber hinaus kann die beschriebene Zeitskalentrennung einer Anregung auch mühelos auf den Fall einer unmittelbaren Teilbandrekonstruktion mit einem Vorhersagemodell ohne Resonatorfunktion übertragen werden. Die alternative Bezeichnung der Teilbandanregungen als primäre Responseprozesse wird dem allgemeineren Zusammenhang gerecht.
  • Ein stimmhaftes Sprachsignal zeichnet sich durch vorteilhafte Teilbänder aus, die ein mode locking zwischen den primären Responseprozessen und dem fundamentalen Treiber aufweisen. In der Regel handelt es sich hierbei um ein (1:q) mode locking, wobei die natürliche Zahl q ≥ 1 die harmonische Ordnungszahl bezeichnet, die im Fall des Teilbandes mit dem Index j im Folgenden auch als hj bezeichnet wird. Im Fall eines (1:q) mode locking können die primären Responseprozesse durch Treiberphasen-Kopplungsfunktionen mit der Periodenlänge 2π dargestellt werden. Es gibt jedoch auch Fälle eines (p:q) mode locking, die vorteilhafterweise durch Treiberphasen-Kopplungsfunktionen mit einer größeren Periodizität p > 1 beschrieben werden.
  • Wie in den Druckschriften, Fitch T., J. Neubauer and H. Herzel, Animal Behaviour 63, 407-418 (2002) und Langner G., C. Simonis and S. Braun, Fortschritte der Akustik-DAGA'02, (2002), dargelegt, deutet die erstaunliche Sprecherunterscheidungsfähigkeit darauf hin, dass die auditive Wahrnehmung des Menschen – vermutlich anknüpfend an bereits hochentwickelte Fähigkeiten der höheren Wirbeltiere – auch über gute Analysefähigkeiten der sprecherspezifischen Nichtlinearität der Anregungsdynamik verfügt. Dies betrifft vor Allem die Erkennung von Subharmonischen (z.B. Periodenverdopplungen) sowie von instabilen bzw. metastabilen periodischen Trajektorien (UPOs) als Bestandteil (grenzzyklusnaher,) chaotischer Attraktoren (Herzel et al. 1995, Kantz und Schreiber 1997). Die Periodizität des fundamentalen Treibers überträgt sich jeweils auf die Teilbandanregungen, wobei die Nichtlinearität der Dynamik des Treibers sich potentiell in unterschiedlicher Stärke auf die einzelnen Teilbänder auswirkt. Durch die präzise Ermittlung der Zeit und/oder Teilband abhängigen Periodizität der Teilbandanregungen ergibt sich die Möglichkeit, auch Eigenschaften eines individuellen Sprechers auf qualitative Merkmale der Treiber – Response Dynamik zurückzuführen.
  • Ein weiterer Grund für die Verwendung von Treiberphasen-Kopplungsfunktionen mit einer Periodizität p > 1 besteht darin, dass selbst in einem Fall, der letztendlich zu Treiberphasen-Kopplungsfunktionen mit einfacher Periodizität führt, im Vorfeld der selbstkonsistenten Ermittlung des fundamentalen Treibers zunächst Treiberphasen-Kopplungsfunktionen mit einer größeren Periodizität erforderlich sind, da die Periodenlänge oder die Instationarität des fundamentalen Treibers noch nicht richtig ermittelt wurde. Auch bei stimmlosen Sprachabschnitten ist es vorteilhaft, das resonante Verhalten der Teilbänder mittels von Treiberphasen-Kopplungsfunktionen zu rekonstruieren, die von der (abgewickelten) Treiberphase abhängen und eine größere Periodizität p > 1 aufweisen.
  • Für jede Periodenlänge 2π p lässt sich eine (bandlimitiert glatte) komplexwertige Treiberphasen-Kopplungsfunktion Gj,p(ψ) gut durch eine endliche Fouriersumme approximieren,
    Figure 00240001
    die bezüglich der komplexen Variablen exp(iψ/p) ein Polynom mit komplexen Parametern cj,k darstellt. Der Bestimmung der geeigneten Periodizität p kommt insbesondere bei der Ermittlung der fundamentalen Treiberphase eine besondere Bedeutung zu (s.U.). Die Auswahl der von der jeweiligen Periodizität abhängigen Indexmenge S der Fouriersumme (7) ist von besonderer Bedeutung für die effiziente und robuste Bestimmung der Treiberphasen-Kopplungsfunktionen und insbesondere auch der daraus abgeleiteten primären Responsephasen. In einer vorteilhaften Ausführung wird die Auswahl jeweils Teilband spezifisch an die Bandpassfilter angepasst. Die Bestimmung der Parameter cj,k und der Teilbandresonatorparameter bj in Gleichung (3) wird zweckmäßigerweise gemeinsam, jedoch für jedes Teilband getrennt durchgeführt.
  • Sowohl der autoregressive Teil des linearen Vorhersagemodells (3) eines Teilbandes als auch die Fouriersumme (7) der Treiberphasen-Kopplungsfunktionen) enthalten Parameter, die mit Hilfe multipler linearer Regression bestimmt werden können. Das Vorhersagemodell legt hierbei fest, welche Werte des Teilbandes, der Treiberphasen und der Treiberamplituden bei der Anpassung jeweils in Beziehung gebracht werden. Bei der Anpassung der Modellparameter kommen grundsätzlich alle Methoden zur Anpassung von Funktionen mehrerer Variablen an gegebene Daten in Betracht, insbesondere die Methode der kleinsten Fehlerquadrate. Hierbei ist es hilfreich zu beachten, dass der Bestimmung bzw. Schätzung der Systemparameter letztlich ein stochastisches Modell der Sprachproduktion zugrunde liegt. Ein stochastisches Modell eines Teilbandprozesses enthält zusätzlich zum Vorhersagemodell einen stochastischen Anteil, der bevorzugt auf gaußverteilte Zufallszahlen zurückgeführt wird. Aufgrund der Bandbegrenzung der Teilbänder kann der additive Rauschprozess im Allgemeinen nicht als unkorreliert angenommen werden. Bei jeweils hinreichend großer Wahl der Periodizität der Treiberphasen-Kopplungsfunktionen ist jedoch der stochastische Anteil klein im Vergleich zum deterministischen Vorhersageteil, sodass die Autokorrelation des Rauschprozesses vernachlässigt werden kann.
  • Stimmlose Sprachabschnitte zeichnen sich im Allgemeinen daher dadurch aus, dass für eine erfolgreiche Rekonstruktion der Teilbandprozesse Treiberphasen-Kopplungsfunktionen mit einer hohen Periodizität erforderlich sind, wobei die Periodizität durch die Länge des Analysefensters und die Grundfrequenz bestimmt wird. In einer vorteilhaften Ausführung wird die für die Rekonstruktion stimmloser Laute benutzte Periodizität pmax als ganzzahliges Vielfaches der für Stimmhaftigkeit zulässigen Periodizität q gewählt. Die Fourierkoeffizienten der Approximation mit der niedrigeren Periodizität qmax sind dann auch im Fall q > 1 in guter Näherung bereits in den Koeffizienten der Approximation mit der Periodizität pmax enthalten. Es wird jeweils die kleinste Periodizität ausgewählt, für die ein geeignetes Maß für die Approximationsgenauigkeit die Genauigkeitsschwelle unterschreitet. Die Genauigkeitsschwelle der Approximation wird in einer vorteilhaften Ausführung so gewählt, dass diese Schwelle bei einer Approximation mit die Periodenlänge pmax auch bei stimmlosen Lauten generell unterschritten wird. Bei hinreichend großem pmax kann diese Schwelle so klein gewählt werden, dass die Annahme der Unkorreliertheit der Residuen gerechtfertigt ist.
  • Resonant bzw. nahezu resonant angeregte Dynamik eines schwach gedämpften linearen passiven Systems zeichnet sich durch große Verzögerungszeiten der Wirkung der Anregung auf die Responseamplituden aus. Die transiente Entkopplung der Responseamplituden von den Anregungsamplituden wird nur bei einer hinreichenden Instationarität der Anregung erkennbar und erfordert bei fehlender Instationarität geeignete Maßnahmen zur Vermeidung einer schlechten Kondition der Bestimmung der betreffenden Modellparameter. Die im Fall der Resonanz wichtigen Parameter betreffen die Eigenfrequenz und Dämpfung bzw. Güte des Resonators, die Frequenz der Anregung sowie die Phasendifferenz zwischen Anregung und Response. Im Fall von Resonanz legt die Phasendifferenz fest, ob Resonanz mit Einkopplung von Bewegungsenergie oder Antiresonanz mit Auskopplung von Energie stattfindet.
  • Sowohl die eindeutige Bestimmung der Resonanzfrequenz als auch die eindeutige Bestimmung der Teilband spezifischen Phasen im Sinne einer eindeutigen Fortsetzung komplexer analytischer Funktionen erfordert eine Teilband spezifische Zeitschrittweite Δ , die kleiner ist als die halbe Periodenlänge des jeweiligen Teilbandes. Vorteilhafterweise sollte die Zeitschrittweite Δ bzw. Δk etwa ein Viertel der der Filtermittenfrequenz entsprechenden Periodenlänge betragen. Bei resonanter Anregung beeinflusst die potentiell große Wirkungsverzögerung der Responseamplituden den optimalen Vorhersagezeitraum, der für die Schätzung der Resonatorparameter des Vorhersagemodells (3) benutzt werden sollte. Eine gut konditionierte Schätzung der Resonatorgüte erfordert im Fall hoher Resonatorgüte eine Zeitschrittweite, die deutlich größer ist als ein Viertel der besagten Periodenlänge. Im letzteren Fall ist es somit vorteilhaft, eine getrennte Schätzung der Resonatorgüte durchzuführen.
  • Zur Vermeidung einer schlechten Kondition der Bestimmung der autoregressiven Parameter wird in einer vorteilhaften Ausführung der Erfindung eine geschickte Reihenfolge der zu testenden Modelle eingehalten, die von einfacheren Modellen zu den potentiell problematischeren Modellen mit mehr Parametern bzw. mit potentiell linear abhängigen Erklärungsvektoren fortschreitet. Eine gute Kondition ist insbesondere immer dann gewährleistet, wenn die unabhängigen Variablen eines linearen Modells ein System von orthogonalen oder fast orthogonalen Erklärungsvektoren bilden. Bekanntestes Beispiel ist die Fourierzerlegung, die sich auch als Ergebnis einer multiplen linearen Regression auffassen lässt. Wenn ein Vorhersagemodell des Hauptanspruchs keinen autoregressiven Anteil bzw. keine Resonatorfunktion enthält, werden die Teilbänder unmittelbar als primäre Responseprozesse rekonstruiert. Ein Teilbandzustand Xj,t wird dann unmittelbar durch den primären Responsezustand Ej,t gemäß der Gleichungen (6) und (7) approximiert, Xj,t ≈ Ej,t. (8)
  • Bei einer bandbegrenzten Treiberbewegung handelt es sich beim Modell (6), (7) und (8) per constructionem um ein Modell mit orthogonalen bzw. nahezu orthogonalen Erklärungsvektoren. Potentiell problematisch ist jedoch der Fall des zugehörigen autoregressiven Vorhersagemodells (3), (6) und (7). Wenn die Ermittlung eines autoregressivem Vorhersagemodells gemäß Gleichung (3) jeweils mit der Ermittlung des zugehörigen nicht autoregressiven Vorhersagemodels gemäß Gleichung (8) (d.h. ohne Resonatorfunktion) gepaart wird, so garantiert der Misserfolg der Anpassung des Vorhersagemodells gemäß Gleichung (8), dass die Schätzung der Parameter des zugehörigen autoregressiven Vorhersagemodells keine Probleme durch Kolinearität der erklärenden Vektoren bekommt. Um unmittelbar vergleichbare Vorhersagemodelle zu erhalten (mit der gleichen Anzahl von Parametern), wird in einer vorteilhaften Ausführung der Erfindung beim Modell nach Gleichung (3) in der Fouriersumme (7) der Term weggelassen, der beim Modell nach Gleichung (8) (entweder a priori oder tatsächlich) den maximalen Betrag |cj,k| aufweist. Es wird dasjenige Modell ausgewählt, das innerhalb des jeweiligen Analysefensters die bessere Anpassung an den Teilbandprozess erzielt. Im Fall der besseren Anpassung gemäß Gleichung (3) wird gegebenenfalls zusätzlich das Vorhersagemodell (3) (6) und (7) mit einer vollständigen Fouriersumme getestet.
  • Die kurzzeitskalige, Treiberphasen abhängige Amplitudenmodulation der höherharmonischen Teilbänder der Nasale und stimmhaften Approximanten kann aufgrund des impulsartigen Charakters der primären Anregung im Sinne einer Laufzeitspektroskopie interpretiert werden. Hierbei kann die zeitliche Auflösung der Laufzeitspektroskopie potentiell gesteigert werden, indem die Teilbandzerlegung partiell wieder rückgängig gemacht wird. Aufgrund der bevorzugten Synthesefähigkeit der Analysefilterbank, kann die Resynthese bzw. Rekonstruktion der Anregung durch einfache Summation der komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktionen erreicht werden. Im Fall der Existenz mehrerer Anregungsquellen ist es vorteilhaft, die Resynthese für jede Quelle getrennt vorzunehmen. Die erstaunliche Flexibilität der menschlichen Wahrnehmung (sowohl schnelle Klick Folgen als auch kleine Frequenzunterschiede auflösen zu können) deutet darauf hin, dass das auditive System in der Lage ist, Amplituden von resynthetisierten Anregungen und/oder von Geräusch bzw. Laut spezifisch zerlegten Teilbandanregungen zu analysieren. Die fundamentale Treiberphase des Maximums der Amplitude einer (potentiell resynthetisierten) Anregung bzw. der ersten Quelle einer Anregung kann als Schätzwert für den Treiberphasenwert bzw. den Zeitpunkt des glottalen Schließereignisses innerhalb einer Grundperiode interpretiert werden. Die im folgenden Abschnitt beschriebene vorteilhafte Rekonstruktion der fundamentalen Treiberphase zeichnet sich dadurch aus, dass im Fall eines ausgeprägten Maximums das glottale Schließereignis näherungsweise auf die Treiberphase 0 fällt.
  • Die fundamentale Treiberphase eines potentiell vorhandenen Nebenmaximums kann näherungsweise in eine ganzzahlige Ursachevorlaufzeitdifferenz τ mit 0 < τ < FS/FD zwischen der primären und der sekundären Anregungsquelle eines Teilbandes umgerechnet werden, wobei FS die Samplerate und FD die Grundfrequenz bezeichnet. Hierdurch ergibt sich eine Möglichkeit, die Verzögerungszeit τ eines Echos bzw. einer sekundären Anregungsquelle zu bestimmen, die für Nasale bzw. andere stimmhafte Phoneme typisch sind. Für solche Laute ist es vorteilhaft, Gleichung (6) durch eine zusätzliche Anregungsquelle zu ergänzen, Ej,t = AtGj,p,It) + Aκt-τ Gj,p,IIt-τ), (9)wobei der optional Teilband spezifische Exponent 0 ≤ κj ≤ 2 der Treiberamplituden-Kopplungsfunktion A κ / t-τ eine potentiell nichtlineare Abhängigkeit von der Treiberamplitude beschreibt (und wobei in Gleichung (9) beim Exponenten κ aus schreibtechnischen Gründen der Teilbandindex j weggelassen wurde). Die erfolgreiche Trennung der beiden Anregungsquellen setzt sowohl einen zeitlichen Mindestabstand τ als auch ein Mindestmaß an Instationarität des fundamentalen Treibers voraus. Im Fall der stimmhaften Approximanten eröffnet sich hierdurch eine Möglichkeit, die für diese Phoneme offenbar charakteristische sensitive Abhängigkeit der Kurzzeitamplitudenmodulation der höherfrequenten Teilbänder von der momentanen Tonhöhe zu rekonstruieren. Erweiterungen von Gleichung (3) bzw. (9) mit κj = 1 und τ > FS/500 sind darüber hinaus geeignet, Nachhall (Echos außerhalb des Sprechtrakts) zu erkennen und gegebenenfalls zu eliminieren.
  • Die Einführung von zeitverwandten und zeitabhängigen Phasen als Zustandsvariable der Teilbanddynamik schafft die Möglichkeit auch (1:q) bzw. (p:q) mode- bzw. phase locking als angenähert lineare (diffeomorphe) Konjugation zu beschreiben. Hierfür ist es erforderlich, dass die Teilbandphasen innerhalb p voller Perioden des fundamentalen Treibers (im Sinne der eindeutigen Fortsetzung komplexer analytischer Funktionen) stetig fortgesetzt (abgewickelt) werden. Durch geeignete Abwicklung der Phasen entstehen Zustandraumbeschreibungen, die im Fall eines phase locking zu konjugierten Phasen der beteiligten Oszillatoren führen.
  • Stimmhafte Sprache zeichnet sich in der Regel dadurch aus, dass die Anregungen der akustischen Moden des Sprechtrakts, die in Gleichung (5) als ej,t bezeichnet wurden, paarweise durch angenähert lineare Konjugationen ineinander überführt werden können. Eine vorteilhafte Teilbandzerlegung eines stimmhaften Sprachabschnitts zeichnet sich in der Regel dadurch aus, dass mindestens zwei niederharmonische Teilbänder existieren, deren Anregungen Ej,t jeweils durch eineindeutige Abbildungen ineinander überführt werden können. Aufgrund der Transitivität und Umkehrbarkeit von Konjugationen in einer Kette von Abbildungen wird die Evidenz einer Konjugation zwischen den besagten Teilbändern für jedes der betreffenden Teilbänder zur Bestätigung der Gültigkeit der Approximation (4) bzw. der zugehörigen Konjugation und somit bekanntlich (Kantz und Schreiber 1997) auch zur Bestätigung der topologischen Äquivalenz zwischen diesen Teilbändern und entsprechenden akustischen Moden des Sprechtraktes. Wenn sich die Analyse der Konjugationen nicht auf die sekundären Responseprozesse Xj,t der Helmholtz Resonatoren richtet sondern auf die anhand Gleichung (3) rekonstruierten primären Responseprozesse Ej,t so ist die Evidenz einer Konjugation zwischen den primären Responseprozessen geeignet, die besagte Äquivalenz auch dann noch zu bestätigen, wenn die Konjugation im Sprechtrakt verloren geht.
  • Der gemäß Gleichung (6) rekonstruierte primäre Response At Gj,pt) bzw. die gemäß Gleichung (9) rekonstruierte primäre Anregungsquelle eines Teilbandes ist im Fall einer Phasenkonjugation in besonderer Weise zur Rekonstruktion der fundamentalen Treiberphase geeignet. Unabhängig davon ob der primäre Response als Teilbandresonator Anregung gemäß Gleichung (3) oder gemäß Gleichung (8) als unmittelbare Approximation des Teilbandes rekonstruiert wird, empfiehlt es sich den primären Response bzw. die primäre Anregungsquelle, gemäß der Gleichung Aj,t exp(iψj,t) = At Gj,pt) (10)in eine primäre Responseamplitude Aj,t und eine primäre Responsephase ψj,t zu zerlegen. Den Treiberphasen-Kopplungsfunktionen mit einfacher Periodizität kommt eine besondere Bedeutung bei der Rekonstruktion der Treiberphase zu (wobei einfache Periodizität im zunächst betrachteten Fall der Periodizität p = 1 bzw. der Periodenlänge 2π entspricht). Stimmhafte Sprache zeichnet sich in der Regel durch niederharmonische Teilbänder (z.B. getrennte Obertöne und/oder auf den ersten Formanten zentrierte Teilbänder) aus, die bereits im Vorfeld geeigneter Anpassung der Filtermittenfrequenzen gut durch Treiberphasen-Kopplungsfunktionen mit einfacher Periodizität approximiert werden können. Typischerweise zeichnen sich solche Teilbänder durch eine Fourier Summe (7) mit nur einem wesentlichen Term aus. Die primäre Responsephase ψj,t weist in diesem Fall ein phase locking mit fast linearer Relation zur fundamentalen Treiberphase ψt aus.
  • Mit zunehmender harmonischer Ordnungszahl geht auch bei stimmhaften Lauten insbesondere oberhalb der a priori Grenze der Trennbarkeit der Obertöne die eindeutige Phasensynchronisation der Teilbandanregungen verloren. In diesen Fällen bleibt bei mittleren Ordnungszahlen vielfach noch eine ausgeprägte Amplitudenmodulation der sekundären bzw. der primären Responseprozesse bestehen (Patterson 1987), die eine Synchronisation zur Treiberphase aufweist. In diesem Zusammenhang ist es von Bedeutung, dass die Zeitdauer der physiologischen Elementarereignisse (Einzelspikes) die Phasenempfindlichkeit der menschlichen Wahrnehmung oberhalb von 2 KHz zunehmend verhindert. Die Regelhaftigkeit der Amplitudenmodulation der Teilbänder im Frequenzbereich der Grundfrequenz spielt bereits in mehreren Hörmodellen eine zentrale Rolle, die in den Druckschriften, (Patterson 1987), Sottek R. „Modelle zur Signalverarbeitung im menschlichen Gehör" Verlag M. Wehle, Witterschlick/Bonn (1993) und Dau T., B. Kollmeier and A. Kohlrausch, J.Acoust. Soc. Am. 102, 2892-2919 (1997) beschrieben werden. Neben einer (partiellen) funktionalen Plausibilität zeichnen sich diese Hörmodelle zusätzlich durch physiologische Plausibilität aus (Langner et al. 2002). Insbesondere erklären diese Hörmodelle, dass sowohl die Teilbänder, die getrennte Obertöne enthalten, als auch solche, die jeweils mehrere Obertöne enthalten, zur Tonhöhenempfindung beitragen können. Aus Tonhöhenwahrnehmungsexperimenten ist jedoch außerdem bekannt, dass die letzteren Teilbänder eine nachgeordnete Bedeutung haben (Moore 1989). Die in der Regelhaftigkeit der Amplitudenmodulation zum Ausdruck kommende Kopplung der Responseamplituden an die Treiberphase wird vorteilhafterweise mittels nichtnegativ reeller Treiberphasen-Kopplungsfunktionen gj,qt) beschrieben. Auch bei der Amplitudenmodulation drückt sich der Fall der Synchronisation in einer niedrigen Periodenlänge 2π q ≤ 2π qmax aus, wobei qmax die sprecherabhängig maximale Periodizität stimmhafter Phonation bezeichnet (s.U.). Bei einem in Analogie zu Patterson (1987) und Dau et al. (1997) gewählten Ansatz wird im Fall von p > qmax eine nichtnegativ reelle Treiberphasen-Kopplungsfunktion gemäß Gleichung (11a) als Approximation des Betrages der Teilbandzustände bestimmt. Im Rahmen des auf Anregungssynchronisation basierten Zugangs zur Sprachakustik wird in einer vorteilhaften Ausführung der Erfindung gemäß Gleichung (11b) eine nichtnegativ reelle Treiberphasen-Kopplungsfunktion anhand der Teilbandresonator Anregung bzw. anhand der geeignet gewählten komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktion Gj,pt) mit p > q approximiert. gj,qt) ≈ |Xj,t| (11a) gjqt) ≈ |Gj,pt)| (11b)
  • In einer bevorzugten Ausführung der Erfindung wird die Periodizität p der komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktion Gj,pt) bevorzugt als ganzzahliges Vielfaches von q gewählt (p = nq). In diesem Fall kann die Approximation (11b) besonders einfach durchgeführt werden, indem im Betragsquadrat der Treiberphasen-Kopplungsfunktion Gj,pt) die Terme unterdrückt werden, die mit der niedrigeren Periodizität unverträglich sind. Wenn wir den Grad des Polynoms (7) als n K bezeichnen, erhalten wir die folgende Approximation,
    Figure 00320001
    wobei c * / j,l den konjugiert komplexen Wert des Parameters cj,l bezeichnet, der einem Parameter cj,k der Fouriersumme (7) entspricht, und wobei die Summenobergrenze M ≤ K – 2 im Rahmen der Zeitskalentrennung bei höherharmonischen Teilbändern deutlich niedriger als der Maximalwert K – 2 gewählt werden kann. Die Beurteilung der Approximationsgüte wird vorzugsweise direkt anhand der nichtnegativ reellen Treiberphasen-Kopplungsfunktion (12) vorgenommen wird. Das Quadrat der einfach periodisch nichtnegativ reellen Treiberphasen-Kopplungsfunktionen ist jedoch besser geeignet, eine annähernd lineare Phasenkonjugation zur Treiberphase zu erzeugen. In einer vorteilhaften Ausführung der Erfindung wird die für die Ermittlung der primären Responsephase erforderliche zweite Zustandsgröße durch komplexwertige analytische Ergänzung (Hilberttransformation) erzeugt. Somit ergibt sich die folgende Alternative zu Gleichung (10),
    Figure 00320002
  • Gleichung (12) wird jedoch ausschließlich zur Bestimmung der primären Responsephase ψj,t benutzt. Somit wird jedem Teilband mit einfach periodischer Treiberphasen-Kopplungsfunktion gemäß der Gleichungen (7) und (10) oder (12) eine primäre Responsephase zugeordnet, die potentiell zur Ermittlung der Treiberphase geeignet ist.
  • Die beschriebene Rekonstruktion instationärer Sprachsignale ist zwangsläufig mit der Unterscheidung von Phonemklassen bzw. Teilbandklassen verknüpft, da die für unterschiedliche Phonemklassen typischen Laute unterschiedliche Teilbandmodelle erforderlich machen. Die Phonem- bzw. Teilbandklassen relevanten Modelleigenschaften betreffen die Periodizität p der Treiberphasen-Kopplungsfunktionen, deren Rolle innerhalb des Vorhersagemodells (als primärer bzw. als sekundärer Response), deren Anzahl sowie deren Wertebereich (komplexwertig oder paarwertig bzw. nichtnegativ reell).
  • Bestimmung des fundamentalen Treibers
  • Die Vorhersagemodelle des vorherigen Abschnitts beschreiben physikalisch bzw. physiologisch vergleichsweise gut untersuchte Spracherzeugungsmechanismen. Die Rekonstruktion bzw. Repräsentation der zugehörigen akustischen Prozesse im Rahmen des Hörpfades ist sowohl durch physiologische als auch durch psychoakustische Evidenz weitgehend bestätigt (Langner et al. 2002, Patterson 1987, Moore 1989, Dau et al. 1997). Das in diesem Abschnitt beschriebene Modell des fundamentalen Treibers stellt einen vergleichsweise hypothetischen Bestandteil eines wahrnehmungsäquivalenten Entschlüsselungsautomaten sprachakustischer Signale dar, dessen Plausibilität sich bisher überwiegend auf psychoakustische Evidenz stützt, dessen evolutionäre Vorteilhaftigkeit angesichts der wohlbekannten Eigenschaften der stimmhaften Sprache allerdings unstrittig ist. Die von Langner et al. (2002) im Hörpfad der Säugetiere zusätzlich zur bekannten tonotopen Representation gefundene periodotope Representation akustischer Signale kann als ein wesentlicher erster Schritt zu einer physiologischen Bestätigung der postulierten Synchronisationsanalyse angesehen werden. Im Gegensatz zu den Vorhersagemodellen des vorherigen Abschnitts beruht. das als Bestandteil des Entschlüsselungsautomaten eingeführte Vorhersagemodell der fundamentalen Phase nicht auf physikalischer oder physiologischer Kausalität sondern auf invertierbaren Phasenrelationen, deren Gültigkeit an gewisse Bedingungen geknüpft ist. Es wird die Hypothese benutzt, dass stimmhafte Sprachabschnitte sich durch die Möglichkeit einer Bestätigung der Beobachtbarkeit der fundamentalen Treiberphase auszeichnen.
  • Aus zahllosen psychoakustischen Experimenten ist bekannt, dass die menschliche Wahrnehmung in der Lage ist, alle Tonkomplexe und Geräusche auf einer eindimensional eindeutigen sog. Lautheitsskala anzuordnen, die angesichts der potentiell starken Breitbandigkeit dieser Signale eine erstaunlich geringe interindividuelle Streuung aufweist. Außerdem ist bekannt, dass die auditive Wahrnehmung über sehr weitreichende Fähigkeiten verfügt, in einem Tonkomplex eine ebenfalls weitgehend universelle Tonhöhenwahrnehmung zu erzielen (Moore 1989). Die Universalität der Lautheits- und der Tonhöhenwahrnehmung findet eine einfache Erklärung in zwei weiteren Hypothesen: dass die Amplitude des fundamentalen Treibers bzw. die fundamentale Amplitude im engen Zusammenhang mit der Lautheitswahrnehmung steht und dass die Phasengeschwindigkeit des fundamentalen Treibers als Modell der wahrnehmungsäquivalenten Tonhöhe interpretiert werden kann. Die besagte Universalität kann somit als Hinweis auf ein universelles Extraktionsverfahren des fundamentalen Treiberprozesses gedeutet werden.
  • Bei stimmlosen Sprachabschnitten sind die Teilbandphasen bekanntlich weitgehend wahrnehmungsirrelevant. Da die fundamentale Amplitude auch im Fall stimmloser Sprachabschnitte von Bedeutung ist, kommt für die Amplitude des fundamentalen Treibers nur ein Modell in Frage, das ausschließlich Teilbandamplituden involviert. Im Fall der fundamentalen Treiberphase wollen wir jedoch eine kombinierte Abhängigkeit sowohl von Teilbandamplituden als auch von Teilbandphasen nicht ausschließen. Da die Unsicherheit der Phasenbestimmung mit abnehmender Amplitude zunimmt, ist es vorteilhaft, den Teilbändern mit kleiner Amplitude ein kleineres Gewicht bei der Bestimmung der fundamentalen Phase einzuräumen. Wir beginnen mit dem Modell der Treiberamplitude.
  • Von der Lautheitswahrnehmung ist bekannt, dass die frequenzmäßig unterschiedlichen Beiträge eines komplexen Tones sich nicht entsprechend der Leistung der Teilbänder addieren, sondern dass die zu verschiedenen Frequenzgruppen bzw. Teilbändern gehörigen Beiträge zur Lautheit jeweils wie die zweite bis vierte Wurzel aus der Amplitude der Teilbandsignale (d.h. wie die 4. bis 8. Wurzel aus der Leistung) skalieren. Ältere Quellen, Zwicker und Feldtkeller (1967), Moore (1989), geben einen Exponenten ν = 0.6 an. Sottek (2000) zitiert neuere Messungen, die einen Exponenten im Bereich ν = 0.25 ergeben. Eine wahrnehmungsäquivalente Ermittlung der Lautheit macht es außerdem erforderlich, die Amplituden der Teilbänder vor der nichtlinearen Transformation zunächst einer zeitlichen Mittelung zu unterwerfen, die sich bis zu 100 ms erstrecken kann (Sottek 2000). In Anlehnung an die aus der Psychoakustik bekannte Lautheit ergibt sich somit folgende, unkonventionell normierte, zeitabhängige Lautheit einer Teilband zerlegten Schallquelle,
    Figure 00340001
    mit einer Teilbandindex Obergrenze N, Teilbandindex abhängigen, reellen Gewichten gi sowie zeitabhängigen, Teilband spezifischen mittleren Amplituden Ai,t, die durch geeignete zeitliche Mittelung aus (noch näher zu beschreibenden) Teilband spezifischen Amplituden Ai,t hervorgehen. Aus den Kurven gleicher Lautheit bei frequenzmäßig unterschiedlicher Zusammensetzung der akustischen Signale ist bekannt, dass die Gewichte gi oberhalb der kommunikationstypischen Mindestlautheit von 40 phon näherungsweise nicht vom Lautheitsniveau abhängen (Moore 1989). In einer vorteilhaften Ausführung der Erfindung wird daher von der universellen Gültigkeit der Gleichung (14a) ausgegangen. Die Gewichte gi können z.B. aus der Kurve gleicher Lautheit entnommen werden, die sich auf ein Lautheitsniveau von 50 phon bezieht.
  • Im Frequenzbereich von 200 Hz bis 1000 Hz kann die Abhängigkeit der Gewichte von der harmonischen Ordnungszahl hi des i-ten Teilbandes relativ gut durch ein Potenzgesetz der Form gi ≈ h μ / i beschrieben werden. Aus den Lautheitskurven von Zwicker und Feldtkeller (1967) ergibt sich näherungsweise der Exponent μ = 1, während sich aus Moore (1989) ein Exponent in der Nähe von μ = 2 ergibt. Insbesondere die Wahl des Exponenten μ = 1 hat den Effekt, dass das typische Amplitudenspektrum einer stimmhaften Anregung kompensiert wird (Schroeder 1999). Sowohl die Wahl der Gewichte gi als auch insbesondere die Wahl des Exponenten ν = 1/4 bringen zum Ausdruck, dass bei einem stimmhaften Sprachsignal die Lautheit gemäß Gleichung (14a) weitgehend die Rolle einer Indikatorfunktion hat, die zum Ausdruck bringt, wie viele Teilbänder aktiv sind. und weniger wie groß die jeweiligen Teilbandleistungen bzw. Amplituden sind. In einer sehr groben Vereinfachung lässt sich das Potenzgesetz bis 5 KHz extrapolieren. Oberhalb 5 KHz nimmt die Lautheitsempfindung stark ab und kann im Rahmen der groben Näherung vernachlässigt werden. Es kann jedoch nicht ausgeschlossen werden, dass die deutlichen Abweichungen vom Potenzgesetz im Bereich von 2 KHz und/oder der Frequenzbereich oberhalb von 5 KHz für die Ermittlung des fundamentalen Treibers von Bedeutung sind.
  • In Anlehnung an das lineare Quelle – Filter Modell wird in einer bevorzugten Ausführung der Erfindung die fundamentale Amplitude als eine linear homogene Funktion der besagten Teilband spezifischen mittleren Amplituden Ai,t gewählt, d.h. wenn sich alle Teilband spezifischen Amplituden verdoppeln, verdoppelt sich auch die fundamentale Amplitude. Unter Verwendung der Gleichung (14a) erhalten wir somit
    Figure 00350001
    als fundamentale Amplitude bzw. als Betrag des (verbesserten) fundamentalen Treibers. Im Rahmen der Zeitskalentrennung wird die zeitliche Mittelung der Teilband spezifischen Amplituden jeweils über eine der Grenzfrequenz der Zeitskalentrennung entsprechende Periodenlänge vorgenommen, wobei die Mittelung auch die Form eines Tiefpassfilters mit verteilten Gewichten annehmen kann.
  • Es ist bekannt, dass die auditive Wahrnehmung des Menschen die Resonatoreigenschaften des Sprechtrakts als Phonem spezifische Merkmale der Vokale benutzt. Die im Vergleich zu den Konsonanten deutlich größeren Schalldruckamplituden der (vergleichsweise stärker resonanten) Vokale rufen bekanntlich keine entsprechenden Fluktuationen der Lautheitsempfindung eines Sprachsignals hervor. Wie im vorherigen Abschnitt erläutert wurde, gibt es mehrerlei Gründe, den fundamentalen Treiber (im Fall der Unterscheidungsmöglichkeit) anhand von Äquivalenzrelationen zu den Resonanzraumanregungen zu bestimmen und nicht anhand von Resonanzraumantworten. Es spricht somit Vieles dafür, dass sowohl die Lautheitsempfindung als auch insbesondere die fundamentale Amplitude eines Sprachsignals anhand von Amplituden der Teilbandanregungen bestimmt werden. In einer besonders bevorzugten Ausführung der Erfindung werden die Teilband spezifischen mittleren Amplituden Ai,t in Gleichung (15) (soweit möglich bzw. nötig) anhand der Gleichungen (7) und (10), d.h. anhand von rekonstruierten primären Responseamplituden ermittelt. Soweit eine Anregung sich aus mehreren Quellen zusammensetzt, die vom gleichen Treiber synchronisiert werden, ist es vorteilhaft, die sekundären (späteren) Anregungsquellen auszublenden. In den Fällen in denen die Unterscheidung zwischen Teilbandresonatoranregung und Teilbandresonatorantwort bzw. zwischen primärer und sekundärer Anregungsquelle nicht möglich oder nötig ist (z.B. bei nieder harmonischen Teilbändern, bei höherfrequenten Teilbändern von stimmlosen Konsonanten oder zu Beginn der iterativen Verbesserung der fundamentalen Amplitude) können die rekonstruierten primären Responseamplituden durch die einfacher bestimmbaren und üblicherweise zur Lautheitsermittlung benutzten Teilbandamplituden |Xi,t| ersetzt werden.
  • Bei der (iterativen) Verbesserung der Phase des fundamentalen Treiberprozesses bietet es sich an, die psychoakustisch ermittelten Eigenschaften der Tonhöhenwahrnehmung zu berücksichtigen. Wie bereits schon in der Druckschrift, Seebeck T. „Über die Definition des Tones" Ann. Phys. Chem. 63,353-368 (1844), beschrieben wurde, erkennt die Tonhöhenwahrnehmung eine Grundfrequenz auch dann, wenn die Leistung im Frequenzbereich der Grundfrequenz durch Hochpassfilterung stark abgesenkt ist. Wie im vorhergehenden Abschnitt bereits erwähnt, bieten die für stimmhafte Laute typischen Konjugationen zwischen den Anregungsphasen einerseits und der fundamentalen Treiberphase andererseits auch bei höherharmonischen Teilbändern eine Möglichkeit zur Rekonstruktion des fundamentalen Treiberprozesses. Außerdem ist aus Experimenten, die in der Druckschrift, Schouten J.F., R.J. Ritsma and B.L. Cardoso, J. Acoust. Soc. Am. 34, 1418-1424 (1962), beschrieben wurden, bekannt, dass die Tonhöhenwahrnehmung von Tonkomplexen mit harmonisch reinen Einzelkomponenten mit nicht exakt einfach rationalen Frequenzverhältnissen sich nicht auf die Differenzfrequenz der Einzelkomponenten stützt, wie insbes. von Hermann von Helmholtz (1867) angenommen wurde, sondern auf eine drei bzw. mehr Frequenzen Resonanz, wobei die letztere Interpretation nicht von Schouten et al. (1962) sondern von Cartwright et al. in der Druckschrift, Cartwright H.E., D.L. González and O. Piro, Lecture Notes in Physics 527, 205-216, Springer (1999), gegeben wurde.
  • Insbesondere die von Schouten et al. (1962) durchgeführten Experimente legen es nahe, den unmittelbar anhand der Teilbandzerlegung rekonstruierten Anregungsoszillatoren kollektiv gekoppelte, artifizielle Höroszillatoren bzw. verborgene Schattenoszillatoren zur Seite zu stellen, deren Phasengeschwindigkeiten die der Teilbandanregungsoszillatoren approximieren und deren Kopplung so gewählt wird, dass sich das für Stimmhaftigkeit charakteristische phase locking als stabile Synchronisationsmannigfaltigkeit bzw. als phasenstarres Cluster der verborgenen Schattenoszillatoren einstellt. Bei geeignet schwacher Wahl der künstlichen Kopplungen, ist somit die Erzeugung einer kollektiven Synchronisation der Schattenoszillatoren geeignet, das Vorliegen eines stimmhaften Sprachsignals zu bestätigen.
  • Wie in dem Buch, Kuramoto Y. „Chemical Oscillations, Waves and Turbulance" Springer, Berlin (1984), insbesondere am Beispiel eines Modells identischer gekoppelter Grenzzyklus Oszillatoren gezeigt wurde, wird die Dynamik gekoppelter Oszillatoren im Grenzfall schwacher Kopplungen durch die Dynamik der Oszillatorphasen dominiert. Jeder einzelne Schattenoszillatorzustand kann daher vorteilhafterweise ausschließlich durch eine Schattenphase beschrieben werden. Aufgrund der starken zeitlichen und Teilband abhängigen Unterschiede der Amplituden der Teilbandanregungen eines Sprachsignals ist es erforderlich, die von Kuramoto getroffene Annahme identischer und zeitlich konstanter Oszillatoramplituden fallen zu lassen. Stattdessen wird angenommen, dass nur bei einem stationären, stimmhaften Sprachsignal die Schattenoszillatoren mehrerer Teilbänder eine angenähert gleiche Amplitude haben. Im allgemeineren Fall wird die Annahme zugrunde gelegt, dass die Amplituden der artifiziellen Höroszillatoren im engen Zusammenhang mit der Lautheitswahrnehmung stehen. Insbesondere wird angenommen, dass die Lautheit sich als Summe zeitlich geeignet gemittelter Höroszillatoramplituden interpretieren lässt.
  • Die Stärke der Kopplungen zwischen den Schattenphasen wird in Kompatibilität zur Tonhöhenwahrnehmung gewählt. Aus der Psychoakustik ist bekannt, dass nicht alle Teilbänder, die zur Lautheitsempfindung beitragen auch zur Tonhöhenempfindung beitragen. Insbesondere ist bekannt, dass der Bereich der Teilbänder mit getrennt aufgelösten Obertönen und hierbei insbesondere der Bereich der harmonischen Ordnungszahlen 3. – 5. den größten Einfluss auf die Tonhöhenempfindung hat (Moore 1989). Es ist ebenfalls bekannt, dass die Tonhöhenwahrnehmung bei fehlender Information in den unteren Teilbändern auch auf Teilbänder mit höheren Ordnungszahlen zurückgreifen kann. Die Anpassung der Kopplungsstärken an die Tonhöhenwahrnehmung wird mit Kopplungsstärkefaktoren fi erreicht, die ohne Beschränkung der Allgemeinheit im Bereich 0 ≤ fi ≤ 1 (15)gewählt werden können und die als Eignungsgrade der betreffenden Teilbänder zur Beobachtung bzw. Ermittlung der fundamentalen Treiberphase interpretiert werden können. Die Eignungsgrade werden selbstkonsistent anhand von Eigenschaften der betreffenden Treiberphasen-Kopplungsfunktionen ermittelt. Der Maximalwert wird im Fall von (phasen- und amplituden)synchronen Treiberphasen-Kopplungsfunktionen angenommen. Der Minimalwert wird im Fall von Treiberphasen-Kopplungsfunktionen angenommen, die weder phasensynchron noch amplitudensynchron sind. Somit ergibt sich folgendes phänomenologische Modell eines Entschlüsselungsautomaten, der zur Bestimmung der Phase des fundamentalen Treibers geeignet ist, wobei der Übersichtlichkeit halber die zeitkontinuierliche Form gewählt wird. Im Zentrum dieses Modells steht ein gekoppeltes dynamisches System der Schattenoszillatorphasen ϑj,t für j = 1, 2, ..., N, welches entweder als Satz explizit gekoppelter Bewegungsgleichungen,
    Figure 00380001
    oder als Satz scheinbar entkoppelter Bewegungsgleichungen beschrieben werden kann,
    Figure 00390001
    in denen die Kopplung an die jeweils übrigen Oszillatoren durch eine Kopplung an das sog. „mittlere Feld" bzw. den komplexen Ordnungsparameter
    Figure 00390002
    mit Betrag rt und Phase ψt ersetzt wird. Hierbei bezeichnet {Ai,t |i = 1, ..., N} den bereits zur Bestimmung der Treiberamplitude benutzten Satz von Teilbandanregungsamplituden, {ψ .j,t |j = 1, ..., N} einen Satz von Phasengeschwindigkeiten der rekonstruierten Teilbandanregungen und hi und hj zugehörige harmonische Ordnungszahlen. Die Phase ψt des komplexen Ordnungsparameters (18) wird als gesuchte Phase des (verbesserten) fundamentalen Treibers interpretiert (1). Wie in der Druckschrift, Strogatz S.H., Physica D 143, 1-20 (2000), ausgeführt, lässt sich die Äquivalenz der Gleichungen (17a) und (17b) leicht zeigen, indem man die Ordnungsparametergleichung (18) mit exp(–i ϑj,t) multipliziert und zum Imaginärteil der Gleichung übergeht.
  • Die Teilband spezifischen Phasengeschwindigkeiten {ψ .j,t |j = 1, ..., N} werden anhand von Teilband spezifischen Treiberphasen-Kopplungsfunktionen bestimmt, die unter dem Gesichtspunkt der unmittelbaren Beobachtbarkeit der fundamentalen Treiberphase ausgewählt werden. Die prioritäre Wahl fällt auf die anhand der Gleichungen (6) und (7) rekonstruierten komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktionen bzw. die gemäß Gleichung (10) rekonstruierten primären Responsephasen. Mit zunehmender harmonischer Ordnungszahl der Teilbänder geht je nach Phonemklasse früher oder später die Phasensynchronisation der Teilbandanregungen verloren mit der Folge, dass die komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktionen eine größere Periodizität aufweisen. Soweit für solche Teilbänder eine Amplitudensynchronisation erhalten bleibt, ist es vorteilhaft, die Teilband spezifische Phasengeschwindigkeit ψ .j,t gemäß Gleichung (12), d.h. anhand einer nichtnegativ reellen Treiberphasen-Kopplungsfunktion zu bestimmen. Die zugehörige harmonische Ordnungszahl nimmt in diesem Fall den Wert hj = 1 an. Entsprechend der Tonhöhenwahrnehmung erhält ein solches Teilband einen kleineren Kopplungsstärkefaktor fi als ein phasensynchrones Teilband.
  • Gleichung (17b) ist von zentraler Bedeutung für das qualitative Verständnis der kollektiven Dynamik der Schattenoszillatoren (Strogatz 2000). Jede Schattenphase ϑj,t wird in Richtung der „mittleren Phase" ψt gezogen (1). Die effektive Kopplungsstärke ist hierbei proportional zum Betrag des Ordnungsparameters rt, der aufgrund der Gleichungen (16) und (18) die Ungleichung 0 ≤ rt ≤ 1 erfüllt und somit als Kohärenzgrad interpretiert werden kann. Die Proportionalität löst eine positive Rückkopplungsschleife aus. Je kohärenter die Population der Schattenoszillatoren ist, desto stärker werden diese zur mittleren Phase ψt hingezogen, was wiederum die effektive Kopplungsstärke ε rt erhöht, was wiederum bedeutet, dass potentiell noch mehr Schattenoszillatoren in den Pool (das Cluster) der kollektiv synchronisierten Oszillatoren rekrutiert werden. Der Prozess der positiven Rückkopplung kommt erst zur Sättigung, wenn nur noch Oszillatoren übrig bleiben, deren Phasengeschwindigkeit nicht zur mittleren Phasengeschwindigkeit passt. Bei vorgegebener Kopplungsstärke ε und konstanten Kopplungsstärkefaktoren hängt die Größe des Synchronisationsclusters von der momentanen Varianz der normierten Phasengeschwindigkeiten ψ .j,t/hj ab, die ein Maß für die Widersprüchlichkeit der anhand der unterschiedlichen Teilbänder beobachteten Phasengeschwindigkeit des fundamentalen Treibers darstellt und bei Stimmhaftigkeit zumindest für die unteren Teilbänder vergleichsweise klein ist. Das ungestörte Phasencluster zeichnet sich durch eine kollektive Dynamik der Schattenphasen aus, die durch die Nullstellen der Sinusfunktionen der Gleichungen (17b) mit positiver Steigung bestimmt wird, ϑj,t = ψt für j = 1, 2, ..., N. (19)
  • Gemäß Gleichung (18) besitzt das ungestörte Phasencluster (19) einen maximalen Kohärenzgrad, der jedoch noch von den Teilband spezifischen Kopplungsstärkefaktoren fi abhängt. Der stabile Fixpunkt (19) des dynamischen Systems (18) zeichnet sich durch besonders einfache lineare Relationen zwischen der fundamentalen Treiberphase und den Schattenphasen aus. Vokalartige Sprachabschnitte zeichnen sich nicht nur durch ein charakteristisches Synchronisationsverhalten sondern auch durch eine impulsartige Form der Anregung aus. Die impulsartige Form der Anregung bewirkt, dass die primären Responsephasen ψj,t (unter Ausnutzung der Mehrdeutigkeit der Phasendefinition) so gewählt werden können, dass sie zu einem bestimmten Zeitpunkt alle gemeinsam annähernd verschwinden. Dieser Zeitpunkt entspricht einem Zeitpunkt an dem die Anregung ein Maximum der Amplitude annimmt. Ein Cluster von Schattenphasen weist keine systematische Verschiebung des Clustermittelwertes gegenüber dem Mittelwert der entsprechenden normierten Anregungsphasen auf (1). Demgegenüber weist jedoch die Streuung um den jeweiligen Mittelwert eine systematische Verkleinerung auf, wobei die Verkleinerung umso stärker wird, je größer die Kopplungsstärke ε gewählt wird (1). Wenn wir einem Satz von Schattenphasen eine sog. Schattenanregung zuordnen, indem wir die Teilbandanregungsphasen ψj,t durch die geeignet skalierten Schattenphasen hjϑj,t ersetzen und die Teilbandanregungsamplituden jeweils beibehalten, erhalten wir für das Phasencluster (19) eine Schattenanregung, die bei der Treiberphase ψt = 0 ein stark ausgeprägtes Maximum erreicht.
  • Die in diesem Abschnitt beschriebene Abhängigkeit des fundamentalen Treibers von den Teilbandanregungen entspricht nicht einer physikalisch oder physiologisch relevanten Rückwirkung der Teilbandanregungen auf den fundamentalen Treiber. Jedenfalls sollte der beschriebene Mechanismus nicht in erster Linie als Modell der als eher unbedeutend angesehenen Rückwirkung der Sprechtraktdynamik auf die glottale Dynamik angesehen werden. Die Eignung eines Teilbandes, gemäß Gleichung (18) zur Ermittlung der Phase des fundamentalen Treibers beitragen zu können, ist an die Eignung des rekonstruierten primären Responseprozesses zur Bestätigung seiner topologischen Äquivalenz zur zugehörigen Sprechtraktanregung geknüpft. Die Eignungsgrade der Teilbänder werden vorteilhafterweise durch Kopplungsstärkefaktoren mit 0 ≤ fi ≤ 1 beschrieben. Bei den Eignungsgraden werden zwei grobe Stufen unterschieden. Im Fall einer phasensynchronen Treiberphasen-Kopplungsfunktion (d.h. mit einfacher bzw. Stimmhaftigkeit zulässiger Periodizität) enthält die betreffende primäre Responsephase sowohl relevante Information über die Frequenz des fundamentalen Treibers als auch potentiell relevante Information über den Zeitpunkt des glottalen Schließereignisses. Im Fall einer ausschließlich amplitudensynchronen Treiberphasen-Kopplungsfunktion enthält die betreffende primäre Responsephase nur relevante Information über die Frequenz des fundamentalen Treibers. Die Eignungsgrade fi werden vorteilhafterweise so gewählt, dass die phasensynchronen Teilbänder den Ordnungsparameter (18) dominieren in dem Sinne, dass ein einzelner Beitrag eines phasensynchronen Beobachtungskanals die Beiträge mehrerer ausschließlich amplitudensynchroner Kanäle weitgehend unwirksam macht.
  • Da die durch Gleichung (18) im Fall stimmhafter Sprachsignale erzeugten Schattenphasencluster (19) sich durch lineare Konjugationen zwischen den Schattenphasen und der Treiberphase auszeichnen, wird der Eignungsgrad fj einer Schattenphase, gemäß Gleichung (18) zur Ermittlung der fundamentalen Treiberphase beizutragen, in einer vorteilhaften Ausführung der Erfindung zusätzlich vom Grad der Linearität der Phasenkonjugation zwischen der betreffenden primären Responsephase und der Treiberphase abhängig gemacht. Die besagte Phasenkonjugation wird hierbei gemäß Gleichung (10) anhand einer komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktion beschrieben, die gemäß Gleichung (7) definiert ist. In einer besonders bevorzugten Ausführung wird ein Abstandsmaß für die Abweichung einer durch die Gleichungen (7) und (10) definierten Phasenkonjugation von einer linearen Phasenkonjugation bestimmt, das als der mit den „spektralen Amplituden" gemittelte mittleren Abstand von Index k zur betreffenden harmonischen Ordnungszahl hj gemäß
    Figure 00420001
    gewählt wird, wobei cj,k die Parameter der Fouriersumme (7) darstellt. In der besagten vorteilhaften Ausgestaltung der Erfindung wird der Eignungsgrad fj durch eine monoton nicht steigende Funktion des besagten Abstandsmaßes beschrieben. Wenn der besagte Eignungsgrad den maximalen Eignungsgrad eines ausschließlich amplitudensynchronen Teilbandes unterschreitet, wird überprüft, ob eine Beschreibung durch eine nichtnegativ reelle Treiberphasen-Kopplungsfunktion mit einfacher Periodenlänge besser geeignet ist. Der Eignungsgrad eines ausschließlich amplitudensynchronen Teilbandes wird in einer zusätzlich bevorzugten Ausführung vom relativen Hub der Amplitudenmodulation abhängig gemacht.
  • Entsprechend den zwei groben Stufen des Eignungsgrades eines Teilbands, zur Ermittlung der fundamentalen Treiberphase beizutragen, lassen sich bei einem Vokal oder vokalartigen Laut, zwei Stufen der Überprüfung der Selbstkonsistenz bzw. der physikalischen Widerspruchs freiheit der Rekonstruktion der Schattenphasen unterscheiden. Die übergeordnete Stufe der Selbstkonsistenz betrifft die Widerspruchsfreiheit der Phasengeschwindigkeiten der primären Responsephasen bzw. das phase locking der Schattenphasen. Bei Widerspruchsfreiheit der Phasengeschwindigkeiten kann zusätzlich die Widerspruchsfreiheit der primären Responsephasen selber überprüft werden. Eine widerspruchsfreie Rekonstruktion eines Vokals oder vokalartigen Laut ist insbesondere dann erreicht, wenn die phasensynchronen Teilbänder zusätzlich ein phase locking der primären Responsephasen aufweisen. In diesem Fall kann ein durch ψt mod 2π = 0 definierter Zeitpunkt als ein Schließzeitpunkt der Glottis interpretiert werden. Die letztere Eigenschaft erweist sich insbesondere für die Laufzeitspektroskopie der Nasale als nützlich.
  • Ein vorteilhafter Entschlüsselungsautomat der menschlichen Sprache zeichnet sich zusätzlich dadurch aus, dass die Verletzung der übergeordneten Selbstkonsistenzbedingung für die Rekonstruktion stimmhafter Laute anhand eines qualitativen Merkmals der Systemdynamik erkannt werden kann und somit dieser Automat auch die Eigenschaft eines Stimmhaftigkeitstestamuomaten erhält. Hierzu ist es zweckmäßig, den Stabilitätsbereich des Phasenclusters (19) durch zusätzliche Attraktoren bzw. stabile Synchronisationscluster einzuschränken. An dieser Stelle ist es nützlich sich daran zu erinnern, dass außer im Fall hj = 1 die Ermittlung der primären Responsephasen ψj,t nicht eindeutig ist, da die Phasen ψj,t + 2π n mit n = ± 1, ± 2, ... jeweils die gleiche Teilbandanregung beschreiben. Mit anderen Worten, das Phasencluster (19) stellt nur ein mögliches Cluster unter vielen dar, die alle geeignet sind stimmhafte Dynamik zu beschreiben. Stimmhaftigkeit im übergeordneten Sinne zeichnet sich also dadurch aus, dass eines der vielen stimmhaften Phasencluster nicht mehr verlassen wird, wenn es einmal von der Dynamik erreicht wird. Eine besonders einfache Möglichkeit auch den übrigen stimmhaften Phasenclustern Stabilität zu verleihen besteht darin, in Gleichung (17a) das Argument der Sinusfunktion jeweils mit der harmonischen Ordnungszahl hj zu multiplizieren, sodass jeweils die richtige Anzahl zusätzlicher stabiler Fixpunkte bzw. Phasencluster erzeugt wird,
    Figure 00430001
  • Zum Verständnis der Systemdynamik von (21) ist es nützlich, festzustellen, dass in der Nähe der Nullstellen der Sinusfunktionen von (17a), die beiden dynamischen Systeme identisch werden, da die Sinusfunktionen jeweils durch eine lineare Funktion ersetzbar werden. D.h. in der Nähe des Phasenclusters (19) gilt die Äquivalenz der Gleichungssysteme (21) und (17a,b). Ein hinreichend stabiles stimmhaftes Synchronisationscluster der in (17a) bzw. (17b) definierten Dynamik bleibt somit auch unter der durch (21) definierten Dynamik stabil. Der Unterschied zeigt sich im verkleinerten Einzugsbereich des betreffenden Phasenclusters. Aufgrund der Symmetrie der Sinusfunktion ergeben sich für die neu hinzugekommenen stabilen Phasencluster der in (21) definierten Dynamik analoge Stabilitätsbereiche.
  • Da bei der Systemdynamik (21) der vorteilhafte Attraktionsbereich des Phasencluster (19) nicht automatisch erreicht wird, müssen für die Schattenphasen ϑj,t geeignete Startwerte gewählt werden. Dies kann erreicht werden, indem zu einem Zeitpunkt tS eines glottalen Schließereignisses alle Schattenphasen ϑj,t jeweils auf den Anfangswert ((ψj,t + π)mod2π) – π)/hj gesetzt werden oder (ohne Veränderung der Dynamik der Schattenoszillatoren) auf den Wert ((hj ϑj,t + π)mod2π) – π)/hj umgesetzt werden. Der Zeitpunkt tS wird vorteilhafterweise anhand des Maximums der Amplitude einer geeigneten Teilbandanregung oder einer resynthetisierten Anregung bestimmt, die durch Summation komplexwertiger oder paarwertiger Treiberphasen-Kopplungsfunktionen ermittelt wird. Die beschriebene Wahl der Startwerte der Schattenphasen führt gemäß Gleichung (18) zu einem vergleichsweise hohen Wert des Kohärenzgrad rt. Ein stimmhaftes Sprachsignal zeichnet sich dadurch aus, dass der Kohärenzgrad rt auch zu späteren Zeitpunkten in der Nähe dieses Startwertes verbleibt.
  • Da die Treiberphase nicht unabhängig von den primären Responsephasen bestimmt wird, wird die Existenz mindestens zweier Teilbänder mit einer Treiberphasen-Kopplungsfunktion mit maximal zulässiger Periodenlänge qmax zu einer Minimalanforderung an ein stimmhaftes Signal. Im Fall eines vokalartigen Lautes ergibt sich die zusätzliche Anforderung, dass die Treiberphasen-Kopplungsfunktionen komplexwertig oder paarwertig sein müssen. Vokalartige Laute besitzen somit mindestens zwei Teilbänder, die einen Kopplungsstärkefaktor nahe Eins aufweisen. In einer vorteilhaften Ausführung der Erfindung wird ein vokalartiges Sprachsignal bzw. ein vokalartiger Teil eines Sprachsignals anhand der Bedingung erkannt, dass ein geeignet zeitlich gemittelter Kohärenzgrad oberhalb einer Schranke S2 bleibt, die im Bereich 2/N < S2 < 1 gewählt wird, wobei diese Bedingung vorteilhafterweise nur nach Beendigung einer konvergenten iterativen Verbesserung des fundamentalen Treibers ausgewertet wird. Demgegenüber wird ein stimmloser Teil eines Sprachsignals daran erkannt, dass ein geeignet zeitlich gemittelter Kohärenzgrad innerhalb dieses Sprachabschnittes unterhalb eine Schranke S1 fällt, die im Bereich 0 < S1 < 2/N gewählt wird. Die übrigen Fälle bleiben in der besagten vorteilhaften Ausführung mit jeweils geeigneter endlicher Wahrscheinlichkeit den übrigen stimmhaften Konsonanten vorbehalten. In einer besonders bevorzugten Ausführung der Erfindung werden die Kopplungsstärke ε, die Schranken S1 und S2 sowie die Abhängigkeit der Eignungsgrade fi von den Eigenschaften der Treiberphasen-Kopplungsfunktionen so gewählt, dass die durch die besagten Bedingungen definierten Stimmhaftigkeitsklassen im zeitlichen und interindividuellen Mittel mit den von einem Hörerkollektiv wahrgenommenen Stimmhaftigkeitklassen zusammenfallen. Im stimmlosen Fall wird in einer vorteilhaften Ausführung die anhand Gleichung (18) „verbesserte" Treiberphase wieder verworfen und die vorläufige Treiberphase als endgültig übernommen.
  • Insbesondere wenn die Grenzfrequenz der Zeitskalentrennung als Grundfrequenz gewählt wird, konvergieren die Treiberphasen-Kopplungsfunktionen mehrerer Teilbänder (nichtpathologischer) stimmhafter Sprache in der Regel gegen die Periodizität p = 1 und die für die Identifizierung des Sprechers relevante potentielle subharmonische bzw. nichtlineare Periodenverlängerung der Oszillationen der Glottis wird weitgehend in die Kurzzeitschwankungen der Amplitude und der Phasengeschwindigkeit des fundamentalen Treibers verlagert. Um die besagten Kurzzeitschwankungen von der Prosodie zu trennen, ist es vorteilhaft, die Grenzfrequenz der Zeitskalentrennung auf eine Sprecher spezifische, subharmonische Frequenz FD/qmax abzusenken und die Rekonstruktion der Anregungszustände mit Treiberphasen-Kopplungsfunktionen durchzuführen, bei denen in der Fouriersumme (7) die höherfrequenten Terme weggelassen werden, die mit der Periodizität p = 1 unverträglich sind. In diesem Fall wird es erforderlich, den als Voraussetzung für prioritäre Eignung eines Teilbandes zur Ermittlung der fundamentalen Treiberphase eingeführten Begriff der einfachen Periodizität einer Treiberphasen-Kopplungsfunktion zu erweitern auf die für stimmhafte Phonation maximal zulässige Periodizität qmax. Das bedeutet, dass auch Teilbänder mit Treiberphasen-Kopplungsfunktionen der Periodizität p ≤ qmax als phasensynchron und damit als prioritär beobachtungsrelevant für die fundamentale Treiberphase eingestuft werden.
  • Es stellt sich heraus, dass die maximale Periodizität stimmhafter Phonation qmax sprecherabhängig gewählt werden muss. Um die durch einfache Synchronisation gekennzeichneten, stimmhaften Sprachabschnitte von den stimmlosen Sprachabschnitten deutlich unterscheiden zu können, ist es erforderlich, dass die Periodenlänge pmax der Treiberphasen-Kopplungsfunktionen stimmloser Laute sich hinreichend deutlich von der maximalen Periodiodenlänge qmax stimmhafter Phonation unterscheidet. Dies stellt eine Mindestanforderung an die Länge des Zeitfensters der jeweiligen Synchronisationsanalyse, die jedoch insbesondere bei Grundfrequenzen oberhalb von 100 Hz problemlos eingehalten werden kann. In einer vorteilhaften Ausführung der Erfindung wird außerdem pmax als ganzzahliges Vielfaches von qmax gewählt.
  • In Kompatibilität zu den linearen Vorhersagemodellen (3) werden die Bewegungsgleichungen des Entschlüsselungsautomaten in zeitdiskreter Form ausgewertet. Die Zeitschrittweite wird hierbei so gewählt, dass kein wesentlicher Unterschied zum zeitkontinuierlichen Fall auftritt. In einer vorteilhaften Ausführung werden alle Zeitschrittweiten einschließlich der Teilband spezifischen Zeitschrittweiten Δ bzw. Δj kommensurabel zu einer gemeinsamen Elementarschrittweite gewählt. Obwohl der Entschlüsselungsautomat ein zustandskontinuierliches dynamisches System. darstellt, ist die Bezeichnung Automat zutreffend, da seine Dynamik durch eine vorgegebene, endliche Anzahl von Stabilitätsbereichen beherrscht wird.
  • Bei der iterativen Verbesserung des fundamentalen Treiberprozesses können zwei Stufen der Anpassung unterschieden werden, wobei diese Stufen vorteilhafterweise nicht algorithmisch getrennt ablaufen: Zum Einen die Anpassung des fundamentalen Treibers bei fester Teilbandzerlegung und zum Anderen die gemeinsame Anpassung mit den Filtermittenfrequenzen der Bandpassfilter. Die erstere Anpassung zeichnet sich insbesondere dadurch aus, dass mit zunehmender Verbesserung des fundamentalen Treibers zusätzliche Teilbänder die Bedingung einfacher Periodizität erfüllen, und somit die Anzahl der Beobachtungskanäle des fundamentalen Treibers zunimmt. Bei der iterativen Verbesserung der Filtermittenfrequenzen macht das vorgestellte Verfahren sich zunutze, dass stimmhafte Sprache sich aufgrund der angenäherten Periodizität der glottalen Anregung durch besondere Konzentration von Leistung in schmalen Frequenzbereichen auszeichnet und dass diese Frequenzbereiche ein kammartiges Grundraster aufweisen, das sich an der momentanen Grundfrequenz der Stimmlippen orientiert (Fant 1960). Die starke Abweichung von der spektralen Gleichverteilung bewirkt, dass die tatsächlichen Frequenzen der Teilbänder jeweils näher an den geeigneten Filtermittenfrequenzen liegen als die zur Erzeugung des Teilbandes jeweils benutzten Filtermittenfrequenzen. Die iterative „Verbesserung" des fundamentalen Treibers wird solange fortgesetzt, bis keine wesentliche Verbesserung mehr erzielt wird bzw. bis eine maximale Anzahl von Iterationen überschritten wird. Im letzteren Fall wird das betreffende Zeitintervall als stimmlos klassifiziert und die missglückte iterative „Verbesserung" der Treiberphase wird in einer vorteilhaften Ausführung der Erfindung wieder verworfen.
  • Die schrittweise Anpassung der Filtermittenfrequenzen der Bandpassfilter an die jeweilige Stimme erfolgt vorteilhafterweise im Rahmen der übergeordneten Zeitschleife in der das jeweilige Analysefenster überlappend vorgeschoben wird. Mit potentieller Ausnahme tonaler Sprachen wie der chinesischen Sprache reicht in einer vorteilhaften Ausführung der Erfindung in der Regel eine dreifache Überlappung der Analysefenster aus. Sowohl für den jeweils neuen Zeitabschnitt des Analysefensters als auch für die jeweils alten Zeitabschnitte ist es vorteilhaft, einen (zeitlich) linearen, stetigen Verlauf der Filtermittenfrequenzen anzunehmen. Die Bandpassfilter erhalten hierdurch stückweise die Eigenschaft sog. Gammachirp Filter. Für den jeweils neuen Zeitabschnitt werden die Verläufe der Filtermittenfrequenzen sowie der Verlauf der Phasengeschwindigkeit des vorläufigen fundamentalen Treibers in einer vorteilhaften Ausführung der Erfindung jeweils als gewichtetes Mittel des linear extrapolierten Verlaufs und des konstant fortgeschriebenen Verlaufs gewählt. Für den (oder die) jeweils nächst älteren Zeitabschnitte) wird der mehr oder weniger konvergent verbesserte fundamentale Treiberprozess des vorherigen Analysefensters als vorläufiger fundamentaler Treiberprozess übernommen und der vorteilhafterweise lineare Verlauf der Filtermittenfrequenzen wird so gewählt, dass sich für das erste Teilband eine gute Anpassung an den besagten fundamentalen Treiber ergibt. In einer vorteilhaften Ausführung dient der jeweils älteste Zeitabschnitt ausschließlich der Bestimmung der Treiberphasen-Kopplungsfunktionen. Insbesondere wird für diesen Zeitabschnitt keine Anpassung der Filtermittenfrequenzen vorgenommen.
  • Zu Beginn einer übergeordneten Zeitschleife wird in einer vorteilhaften Ausführung der Erfindung eine konventionelle Bestimmung der Grundfrequenz durchgeführt (z.B. durch Minimierung der mittleren absoluten Abweichung aufeinander folgender Signalwerte), wobei hierbei gegebenenfalls zwischen mehreren Stimmen ausgewählt wird. Sowohl die Filtermittenfrequenz des ersten Teilbandes als auch die Phasengeschwindigkeit des vorläufigen fundamentalen Treibers werden in der besagten Ausführung der Erfindung als konstant mit dem Wert der Grundfrequenz gewählt. Bei konstanter Phasengeschwindigkeit und Amplitude des Treibers reduziert sich die Synchronisationsanalyse auf die klassische Fourier Analyse und die Ermittlung der Treiberphasen-Kopplungsfunktionen entspricht der bekannten inversen Filterung der Teilbänder. Beim Übergang von einem stimmhaften zu einem stimmlosen Sprachabschnitt werden die Filtermittenfrequenzen mehr oder weniger plötzlich auf jeweils konstanten Werten eingefroren, die entweder exakt oder näherungsweise den Werten am Ende das stimmhaften Abschnitts entsprechen. Die anfängliche Fehlanpassung der Grundfrequenz beim Übergang von einem stimmlosen zu einem stimmhaften Sprachabschnitt bleibt in der Regel eng begrenzt, da menschliche Sprachen stimmhafte und stimmlose Abschnitte gut vermischen.
  • Aufgrund der großen Periodenlänge der Treiberphasen-Kopplungsfunktionen spielt der Grundfrequenzverlauf bei der Rekonstruktion stimmloser Sprachabschnitte eine untergeordnete Rolle. Es ist daher vorteilhaft im stimmlosen Fall eine konstante Phasengeschwindigkeit des fundamentalen Treibers anzunehmen. Auch die Phasen der Treiberphasen-Kopplungsfunktionen sind in der Regel nicht relevant. Im Fall stimmloser Stopkonsonanten sind jedoch die Teilbänder mit den für Antiresonanz charakteristisch präparierten Phasen von besonderer Bedeutung für die Phonemerkennung. Die auditive Wahrnehmung erkennt den Fall der Antiresonanz vermutlich nicht anhand der besonders präparierten Phasen sondern anhand der ebenfalls charakteristischen zeitlichen Entwicklung der Teilband spezifischen Verhältnisse der Responseamplituden zu den Anregungsamplituden. Die getrennte Rekonstruktion der Teilbandanregungsamplituden erweist sich daher sowohl im Fall der stimmhaften als auch im Fall der stimmlosen Stopkonsonanten als nützlich für die Phonemerkennung. Die Abundanz der Stopkonsonanten menschlicher Sprachen wird somit zu einem starken Hinweis, dass auch der menschliche Hörpfad bei Teilbandresonatoren hoher oder mittlerer Güte eine getrennte Rekonstruktion der Teilbandanregungen des Sprechtrakts durchführt bzw. zumindest eine getrennte Rekonstruktion der zugehörigen Amplituden.
  • Die Teilband übergreifende Ermittlung des fundamentalen Treibers ermöglicht eine robuste und präzise Rekonstruktion der Prosodie. Die präzise Ermittlung des fundamentalen Treibers sowie dessen Nutzbarmachung bereits auf der untersten (akustischen) Ebene der Sprachanalyse verspricht generell eine deutliche Verbesserung der automatischen Spracherkennung bei Störgeräuschen. Insbesondere ermöglicht eine vorteilhafte Ausführung der Erfindung die Lösung des sog. cocktail party Problem, d.h. die technische Realisation der bisher unerklärlichen Fähigkeit der auditiven Wahrnehmung, selbst monaural eine bestimmte Stimme aus einem Stimmengewirr heraushören zu können.

Claims (69)

  1. Verfahren zur Sprachanalyse, wobei ein Sprachsignal erfasst wird, • und durch Anwendung von mindestens zwei Bandpassfiltern auf das Sprachsignal zwei Teilbänder erzeugt werden, und ferner • für jedes dieser Teilbänder ein zeitdiskretes Vorhersagemodell für Responsezustände aufgestellt wird, das die Responsezustände jeweils mittels eines Treiberprozesses vorhersagt, gekennzeichnet durch folgende Schritte: • anhand des Sprachsignals wird ein beiden Teilbändern gemeinsamer vorläufiger fundamentaler Treiberprozess ermittelt, der durch eine Folge von vorläufigen Treiberphasen und eine Folge von nichtnegativen vorläufigen Treiberamplituden beschrieben wird, wobei unterschiedliche vorläufige Treiberphasen unterschiedlichen Zeitpunkten zugeordnet sind, • die zeitdiskreten Vorhersagemodelle für Responsezustände werden so gewählt, dass sie jeweils eine Treiberphasen-Kopplungsfunktion enthalten, die von einer vorläufigen Treiberphase abhängt, wobei die Treiberphasen-Kopplungsfunktion bezüglich dieser Treiberphase eine Periode aufweist und neben der zugehörigen Periodenlänge noch weitere Parameter enthält, • die Periodenlängen und weitere Parameter der Treiberphasen-Kopplungsfunktionen werden jeweils so bestimmt, dass eine mittels des vorläufigen fundamentalen Treiberprozesses erzeugte Folge von Responsezuständen das zugehörige Teilband approximiert, • die Periodenlängen der Treiberphasen-Kopplungsfunktionen werden dazu benutzt, das Sprachsignal oder Teile des Sprachsignals als stimmhaft oder als stimmlos zu klassifizieren, • im Fall eines stimmhaften Sprachsignals werden der vorläufige fundamentale Treiberprozess und die Treiberphasen-Kopplungsfunktionen dazu benutzt, eine Folge von verbesserten Treiberphasen zu ermitteln, wobei die Folge von verbesserten Treiberphasen wahlweise als Folge von vorläufigen Treiberphasen in weiteren Schritten dient.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass durch einen Signalwandler fortlaufende Werte {St\t = ..., m – 2, m – 1, m, ...} des Sprachsignals ermittelt werden, wobei der ganzzahlige Zeitindex t einen Wert m annimmt und wobei ferner eine vorläufige Grundfrequenz FD des Sprachsignals bestimmt wird.
  3. Verfahren nach Anspruch 1 oder nach beiden vorhergehenden Ansprüchen, dadurch gekennzeichnet, dass eine ganzzahlige harmonische Ordnungszahl hX ≥ 1 und eine ganzzahlige Indexschrittweite Δ ≥ 1 gewählt werden und ferner gemäß der Gleichung FX = hX FD eine Filtermittenfrequenz FX bestimmt wird, wobei X den Index eines der Teilbänder und FD die vorläufige Grundfrequenz bezeichnen.
  4. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein komplexwertiger oder paarwertiger Bandpassfilter mit der Filtermittenfrequenz FX gewählt wird, wobei ein komplexwertiger Bandpassfilter komplexwertige Teilbandzustände erzeugt und ein paarwertiger Bandpassfilter Teilbandzustände erzeugt, die aus einem Paar reeller Zahlen gebildet werden.
  5. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch Anwendung des komplexwertigen oder paarwertigen Bandpassfilters mit der Filtermittenfrequenz FX auf das Sprachsignal {St\t = ..., m – 2, m – 1, m, ...} eine Folge von mindestens drei Teilbandzuständen {X * / t\t = ..., m – 2Δ, m – Δ, m} erzeugt wird.
  6. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine zweite ganzzahlige harmonische Ordnungszahl hY ≥ 1 und eine zweite ganzzahlige Indexschrittweite Γ ≥ 1 gewählt werden und ferner gemäß der Gleichung FY = hY FD eine Filtermittenfrequenz FY bestimmt wird, wobei Y den Index eines der Teilbänder oder eines weiteren Teilbandes und FD die vorläufige Grundfrequenz bezeichnen, und dass durch Anwendung eines komplexwertigen oder paarwertigen Bandpassfilters mit der Filtermittenfrequenz FY auf das Sprachsignal {St\t = ..., m – 2, m – 1, m, ...} oder wahlweise auf ein gleichzeitig und gleichartig ermitteltes weiteres Sprachsignal eine Folge von mindestens drei Teilbandzuständen {Y * / t\t = ..., m – 2Γ, m – Γ, m} erzeugt wird.
  7. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für einen Index s mit s ≤ m der vorläufige fundamentale Treiberprozess bestehend aus einer Folge von mindestens zwei vorläufigen Treiberamplituden {At\t = ..., s – Δ, s} und einer Folge von mindestens zwei vorläufigen Treiberphasen {ψt\t = ..., s – Δ, s} ermittelt wird, wobei Δ ≥ 1 die ganzzahlige Indexschrittweite bezeichnet.
  8. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eines der zeitdiskreten Vorhersagemodelle für Responsezustände als ein zeitdiskretes Vorhersagemodell für sekundäre Responsezustände gewählt wird, wobei das zeitdiskrete Vorhersagemodell für sekundäre Responsezustände eine komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion enthält, wobei ferner die komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion von einer der vorläufigen Treiberphasen abhängt, bezüglich dieser Treiberphase eine Periode aufweist und neben der Periodenlänge noch weitere Parameter enthält.
  9. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion als eine komplexwertige Funktion einer Treiberphase ψ mit der Periodenlänge 2π p gewählt wird, wobei die komplexwertige Funktion sich als ein Polynom der komplexen Variablen
    Figure 00510001
    darstellen lässt, wobei das Polynom komplexe Parameter enthält, und wobei p eine natürliche Zahl ist.
  10. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion als eine paarwertige Funktion der Treiberphase ψ mit der Periodenlänge 2π p und die paarwertige Funktion als endliche Fouriersumme der Form
    Figure 00520001
    mit den reellen Parametern dX,k und γX,k gewählt wird, wobei die Summationsgrenzen u und o von der harmonischen Ordnungszahl hX abhängen und die Bedingung 1 ≤ u ≤ p hx < o erfüllen.
  11. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eines der zeitdiskreten Vorhersagemodelle für Responsezustände eine Anregungsquellen spezifische Kopplungsfunktion QX,k(τ; Al, ψt) gemäß der Gleichung, QX,k(τ; At, ψt) = MX,k(At)GX,kt-τ),enthält mit einer nichtnegativ reellen, monoton nichtfallenden Treiberamplituden-Kopplungsfunktion MX,k(At), die von der Treiberamplitude zum Zeitpunkt t abhängt und der komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktion GX,kt-τ), die von der Treiberphase zum Zeitpunkt t – τ abhängt, wobei τ ≥ 0 eine ganzzahlige Ursachevorlaufzeitdifferenz bezeichnet und k ≥ 1 den Index einer Anregungsquelle bestimmt.
  12. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die nichtnegativ reelle, monoton nichtfallende Treiberamplituden-Kopplungsfunktion MX,k(At) als lineare Funktion MX,k(At) = At gewählt wird.
  13. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das zeitdiskrete Vorhersagemodell für sekundäre Responsezustände als Vorhersagemodell für einen komplexwertigen oder paarwertigen sekundären Responsezustand Xt+Δ gewählt wird und das besagte Vorhersagemodell gemäß der Gleichung
    Figure 00530001
    aufgestellt wird mit einer komplexwertigen oder paarwertigen Resonatorfunktion FX(Xt, Xt-Δ, ..., bX, ...) , die von mindestens einem der komplexwertigen oder paarwertigen sekundären Responsezustände Xt, Xt-Δ, ... und von mindestens einem Parameter bX sowie wahlweise von der Indexschrittweite Δ ≥ 1 abhängt, sowie mit einer komplexwertigen oder paarwertigen Anregung, die als Summe aus mindestens einer Anregungsquellen spezifischen Kopplungsfunktion QX,kk; At, ψt) gebildet wird, wobei τl ≥ 0, ... τK ≥ 0 die Ursachevorlaufzeitdifferenzen darstellen und wobei eine Summenobergrenze K ≥ 1 eine Anzahl der Anregungsquellen angibt.
  14. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die komplexwertige oder paarwertige Resonatorfunktion FX (Xt, Xt-Δ, ..., bX, ...) als lineare Funktion gemäß FX(Xt, Xt-Δ, ..., bX, ...) = bX Xt gewählt wird, wobei bX entweder den komplexen Resonatorparameter bX,1 + ibX,2 oder die zweidimensionale Resonatormatrix
    Figure 00530002
    darstellt, wobei bX,1 und bX,1 zwei reelle Zahlen darstellen.
  15. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Periodenlänge und weitere Parameter des zeitdiskreten Vorhersagemodells für sekundäre Responsezustände so bestimmt werden, dass eine mittels des für s = m – Δ ermittelten, vorläufigen fundamentalen Treiberprozesses und mittels der Folge von mindestens zwei Teilbandzuständen {X * / t\t = ..., m – 2Δ, m – Δ} erzeugte Folge von sekundären Responsezuständen die Folge von mindestens zwei Teilbandzuständen {X * / t\t = ..., m – Δ, m} approximiert.
  16. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Phase arctan(bX,2/bX,1) dazu benutzt wird, die Frequenz eines Formanten zu bestimmen und/oder der Dämpfungsfaktor
    Figure 00540001
    dazu benutzt wird, die zugehörige Resonatorgüte des besagten Formanten zu bestimmen, wobei bX,1 und bX,1 entweder den Real- und Imaginärteil des komplexen Resonatorparameters oder die erste Spalte der Resonatormatrix darstellen.
  17. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eines der zeitdiskreten Vorhersagemodelle für Responsezustände als ein zeitdiskretes Vorhersagemodell für primäre Responsezustände gewählt wird, wobei das zeitdiskrete Vorhersagemodell für primäre Responsezustände eine komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion enthält, wobei ferner die komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion von einer der vorläufigen Treiberphasen abhängt, bezüglich dieser Treiberphase eine Periode aufweist und neben der Periodenlänge noch weitere Parameter enthält.
  18. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, bei dem das zeitdiskrete Vorhersagemodell für primäre Responsezustände als Vorhersagemodell für den komplexwertigen oder paarwertigen primären Responsezustand Xt gewählt wird, und das besagte Vorhersagemodell gemäß der Gleichung
    Figure 00540002
    aufgestellt wird mit einer komplexwertigen oder paarwertigen Anregung, die als Summe aus mindestens einer Anregungsquellen spezifischen Kopplungsfunktion QX,kk; At, ψt) gebildet wird, wobei τI ≥ 0, ... τK ≥ 0 die Ursachevorlaufzeitdifferenzen darstellen und die Summenobergrenze K ≥ 1 die Anzahl der Anregungsquellen angibt.
  19. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Periodenlänge und weitere Parameter des zeitdiskreten Vorhersagemodells für primäre Responsezustände so bestimmt werden, dass eine mittels des fürs = m ermittelten, vorläufigen fundamentalen Treiberprozesses erzeugte Folge von primären Responsezuständen die Folge von mindestens zwei Teilbandzuständen {X * / t\t = ..., m – Δ, m} approximiert.
  20. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die in einem der zeitdiskreten Vorhersagemodelle für Responsezustände enthaltenen Parameter mittels Verfahren zur Anpassung und/oder Approximation von Funktionen an gegebene Daten bestimmt werden.
  21. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mehrere der in einem der zeitdiskreten Vorhersagemodelle für Responsezustände enthaltenen Parameter mittels Verfahren multipler linearer Regression bestimmt werden.
  22. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine mengenwertige Abbildung auf Phasen gewählt wird, die einen Zustand auf eine Menge mehrerer reeller Phasen {φn\n = 0, ± 1, ...} abbildet, wobei unterschiedliche Phasen mit gemeinsamem Urbild einen Abstand aufweisen, der ein ganzzahliges Vielfaches einer Periode P > 0 beträgt und ein Zustand entweder aus einer komplexen Zahl oder aus einem Paar reeller Zahlen gebildet wird.
  23. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass eine Eindeutigkeit erzeugende Abbildung einer Menge von Phasen auf eine eindeutige Phase gewählt wird, wobei die Abbildung wahlweise eine Vorgängerphase dazu benutzt, eine eindeutige Phase φ aus der Bildmenge {φn\n = 0, ± 1, ...} der besagten mengenwertigen Abbildung auszuwählen, wobei ferner die Vorgängerphase der eindeutigen Phase zeitlich vorangeht.
  24. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Eindeutigkeit erzeugende Abbildung jeweils diejenige Phase aus der Bildmenge {φn\n = 0, ± 1, ...} einer mengenwertigen Abbildung auf Phasen auswählt, die den Abstand zu einer vorhergesagten Phase minimiert, wobei die
    Figure 00560001
    zur Vorgängerphase aufweist, wobei FX die Filtermittenfrequenz, FS die Samplerate, Δ die ganzzahlige Indexschrittweite und P die Periode der mengenwertigen Abbildung auf Phasen darstellen.
  25. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die mengenwertige Abbildung um eine amplitudenwertige Abbildung ergänzt wird, die einen Zustand auf eine reelle Amplitude α mit α ≥ 0 abbildet, wobei die amplitudenwertige Abbildung so gewählt wird, dass die durch Zusammenfassung der mengenwertigen Abbildung und der amplitudenwertigen Abbildung entstehende andere mengenwertige Abbildung eine eindeutige, stetige und stetig differenzierbare Umkehrabbildung besitzt.
  26. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Periode P der mengenwertigen Abbildung auf Phasen den Wert 2π annimmt, dass die mengenwertige Abbildung, die einen komplexwertigen oder paarwertigen Zustand x + iy oder (x, y) auf mehrere reelle Phasen {φn\n = 0, ± 1, ...} abbildet, als Funktion φn = arctan(x, y) + 2π n mit n = 0, ± 1, ± 2, ... gewählt wird und dass die amplitudenwertige Abbildung als Funktion a = √x² + y² gewählt wird, wobei die bivariate Funktion arctan(x, y) den Bildbereich der univariaten Funktion arctan(y/x) so auf die volle Periode 2π erweitert, dass die durch Zusammenfassung der mengenwertigen und der amplitudenwertigen Abbildung vorhergesagte Phase den Abstand entstehende andere mengenwertige Abbildung eine im gesamten Bildbereich stetige und stetig differenzierbare Umkehrabbildung besitzt.
  27. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der vorläufige fundamentale Treiberprozess und mindestens eine der komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktionen dazu benutzt werden, jeweils eine Folge von primären Responsezuständen zu rekonstruieren, wobei die primären Responsezustände jeweils aus einer komplexen Zahl oder aus einem Paar reeller Zahlen gebildet werden.
  28. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Folge von paarwertigen Teilbandzuständen oder von paarwertigen primären Responsezuständen als eine Folge von Zuständen so gewählt wird, dass mit Ausnahme eines Zustands bei jedem Zustand der jeweils zweite Wert eines Paares gleich dem ersten Wert eines anderen Paares gewählt wird.
  29. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Anregungsquellen spezifische Treiberphasen-Kopplungsfunktion gebildet wird, indem ein Satz von komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktionen, die zu einer Anregungsquelle und einer Treiberamplituden-Kopplungsfunktion jedoch zu Vorhersagemodellen für Responsezustände unterschiedlicher Teilbänder gehören, aufsummiert wird.
  30. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Treiberphasen-Kopplungsfunktionsamplitude gebildet wird, indem die amplitudenwertige Abbildung auf eine der komplexwertigen oder paarwertigen Treiberphasen-Kopplungsfunktionen angewandt wird.
  31. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Treiberphase ψII bestimmt wird, für die die Treiberphasen-Kopplungsfunktionsamplitude ein relatives Maximum annimmt, wobei das relative Maximum nicht in der Nähe der Phase ψ = 0 liegt.
  32. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Treiberphase ψII des relativen Maximums dazu benutzt wird, gemäß der Gleichung
    Figure 00580001
    eine der Ursachevorlaufzeitdifferenzen τk zu bestimmen, wobei FS die Samplerate, FD die vorläufige Grundfrequenz und P die Periode der mengenwertigen Abbildung auf Phasen bezeichnen.
  33. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine approximierende Treiberphasen-Kopplungsfunktionsamplitude mit einer reduzierten Periodenlänge 2π q gebildet wird, indem in der Fouriersumme des Quadrates einer Treiberphasen-Kopplungsfunktionsamplitude mit der Periodenlänge 2π p mit p = n q alle Terme unterdrückt werden, die mit der Periodenlänge 2π q unverträglich sind, wobei die approximierende Treiberphasen-Kopplungsfunktionsamplitude mit einer reduzierten Periodenlänge jedoch nur dann gebildet wird, falls die Treiberphasen-Kopplungsfunktionsamplitude mit der reduzierten Periodenlänge die Treiberphasen-Kopplungsfunktionsamplitude mit der Periodenlänge 2π p approximiert, wobei ferner p, q und n natürliche Zahlen mit p > q und n > 1 darstellen.
  34. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine für Stimmhaftigkeit maximal zulässige Periodenlänge qmax bestimmt wird, die Sprecher spezifisch gewählt wird und jeweils die maximale Periodenlänge der für Stimmhaftigkeit zulässigen Treiberphasen-Kopplungsfunktionen vorgibt.
  35. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine nichtnegativ reelle Treiberphasen-Kopplungsfunktion mit einer für Stimmhaftigkeit zulässigen Periodenlänge q ≤ qmax als die approximierende Treiberphasen-Kopplungsfunktionsamplitude mit einer reduzierten Periodenlänge gebildet wird, wobei qmax die für Stimmhaftigkeit maximal zulässige Periodenlänge von Treiberphasen-Kopplungsfunktionen darstellt.
  36. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der vorläufige fundamentale Treiberprozess und die nichtnegativ reelle Treiberphasen-Kopplungsfunktion mit einer für Stimmhaftigkeit zulässigen Periodenlänge q ≤ qmax dazu benutzt werden, eine Folge von komplexwertigen primären Responsezuständen zu erzeugen, wobei ein Imaginärteil der primären Responsezustände durch komplexe analytische Ergänzung aus dem Realteil gewonnen wird.
  37. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch Anwendung der amplitudenwertigen Abbildung auf mindestens zwei der Folgen von primären Responsezuständen jeweils eine primäre Responseamplitude bestimmt wird.
  38. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch Anwendung der Kaskade der mengenwertigen Abbildung auf Phasen und der Eindeutigkeit erzeugenden Abbildung auf mindestens zwei der Folgen von primären Responsezuständen jeweils eine Folge von primären Responsephasen bestimmt wird, wobei hierbei in jeder Folge die Vorgängerphase durch mindestens eine primäre Responsephase repräsentiert wird.
  39. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der vorläufige fundamentale Treiberprozess und mindestens zwei der Treiberphasen-Kopplungsfunktionen dazu benutzt werden, jeweils eine Folge von normierten Differenzen aufeinanderfolgender primärer Responsephasen zu erzeugen, wobei eine normierte Differenz aufeinanderfolgender primärer Responsephasen als Quotient der Differenz zweier aufeinanderfolgender primärer Responsephasen und der zu den aufeinanderfolgenden primären Responsephasen gehörenden harmonischen Ordnungszahl gebildet wird.
  40. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens zwei der primären Responseamplituden dazu benutzt werden, eine verbesserte Treiberamplitude zu bestimmen.
  41. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine linear homogene Funktion L(A1, A2, ...) von mindestens zwei Amplituden A1, A2, ... gewählt wird, die durch Anwendung der amplitudenwertigen Abbildung gebildet werden, wobei die linear homogene Funktion L(A1, A2, ...) die Gleichung L(abeliebig A1, abeliebig A2, ...) = abeliebig L(A1, A2, ...)erfüllt, wobei ferner abeliebig einen beliebigen reellen Faktor mit abeliebig ≥ 0 bezeichnet, und die linear homogene Funktion Parameter enthält.
  42. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Parameter der linear homogenen Funktion in Kompatibilität zu Ergebnissen psychoakustischer Experimente gewählt werden, die Messungen einer Lautheitswahrnehmung enthalten.
  43. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet dass mindestens zwei Amplituden A1, A2, ... bestimmt werden, die durch Anwendung einer amplitudenwertigen Abbildung gebildet werden und jeweils aus einer geeigneten zeitlichen Mittelung hervorgehen, und dass diese Amplituden im Argument der linear homogenen Funktion gemäß der Gleichung AS = L(A1, A2, ...) dazu benutzt werden, einen Wert AS der Treiberamplitude mit einem Index s mit s ≤ m zu erzeugen und/oder zu verbessern.
  44. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens zwei der Folgen von primären Responsephasen dazu benutzt werden, eine Folge von verbesserten Treiberphasen zu bestimmen.
  45. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass jeder von mindestens zwei Folgen von primären Responsephasen jeweils ein zugehöriges zeitdiskretes Vorhersagemodell für Schattenphasen zugeordnet wird, wobei jedes zeitdiskrete Vorhersagemodell Kopplungen an die jeweils anderen Schattenphasen enthält und die jeweils zugehörige Folge von normierten Differenzen aufeinanderfolgender primärer Responsephasen als Antrieb benutzt.
  46. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die in dem dynamischen System der zeitdiskreten Vorhersagemodelle für Schattenphasen enthaltenen Kopplungen in Kompatibilität zu Ergebnissen psychoakustischer Experimente gewählt werden, wobei die psychoakustischen Experimente Messungen der Lautheitswahrnehmung und/oder einer Tonhöhenwahrnehmung enthalten.
  47. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass jeder von mindestens zwei Folgen von primären Responsephasen jeweils eine zugehörige Folge von Schattenphasen zugeordnet wird, wobei jede Folge von Schattenphasen durch das zugehörige zeitdiskrete Vorhersagemodell erzeugt wird, wobei ferner zu einem bestimmten Anfangszeitpunkt der Anfangswert der Schattenphase jeweils gleich dem zeitgleichen Wert der zugehörigen primären Responsephase gesetzt wird.
  48. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Folgen von Schattenphasen mindestens ein phase locking zwischen jeweils zwei der Folgen von Schattenphasen aufweisen, falls das dynamische System der zeitdiskreten Vorhersagemodelle für Schattenphasen durch nur geringfügig unterschiedlich gewählte Folgen von normierten Differenzen aufeinanderfolgender primärer Responsephasen angetrieben wird, wobei ein phase locking zweier Folgen von Schattenphasen sich dadurch auszeichnet, dass der Abstand beliebiger Paare von zeitgleichen Schattenphasen bei einer fortlaufenden Vorhersage der Schattenphasen beschränkt bleibt.
  49. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine komplexwertige oder paarwertige Ordnungsparameterfunktion gewählt wird, die von mindestens zwei zeitgleichen Schattenphasen abhängt, wobei die komplexwertige oder paarwertige Ordnungsparameterfunktion bezüglich jeder zeitgleichen Schattenphase eine Periode aufweist.
  50. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die komplexwertige oder paarwertige Ordnungsparameterfunktion Parameter enthält, die in Kompatibilität zu Ergebnissen von psychoakustischen Experimenten gewählt werden, die Messungen der Lautheitswahrnehmung und/oder der Tonhöhenwahrnehmung enthalten.
  51. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch Anwendung der komplexwertigen oder paarwertigen Ordnungsparameterfunktion auf mindestens zwei der Folgen von Schattenphasen eine Folge von komplexwertigen oder paarwertigen Ordnungsparametern erzeugt wird.
  52. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch Anwendung der Kaskade der mengenwertigen Abbildung auf Phasen und der Eindeutigkeit erzeugenden Abbildung auf die Folge von komplexwertigen oder paarwertigen Ordnungsparametern eine Folge von Ordnungsparameterphasen gebildetet wird und die Folge von Ordnungsparameterphasen als verbesserte Folge von Treiberphasen benutzt wird.
  53. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Phasendifferenz ψj – ψk zwischen zwei verbesserten Treiberphasen dazu benutzt wird, gemäß der Gleichung
    Figure 00620001
    einen verbesserten Wert der Grundfrequenz FD zu bestimmen, wobei hierbei j und k zwei Indizes mit k < j < m bezeichnen, und wobei P die Periode der mengenwertigen Abbildung auf Phasen darstellt und FS die Samplerate.
  54. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die verbesserte Grundfrequenz FD als die vorläufige Grundfrequenz FD weiterer Schritte benutzt wird.
  55. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Folge von vorläufigen Treiberphasen anhand der vorläufigen Grundfrequenz FD ermittelt wird.
  56. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Sprachsignal als stimmhaft klassifiziert wird, falls die Vorhersagemodelle für Responsezustände von mindestens zwei Teilbändern jeweils eine komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion mit einer Periodenlänge q ≤ qmax enthalten oder jeweils eine nichtnegativ reelle Treiberphasen-Kopplungsfunktion mit einer Periodenlänge q ≤ qmax enthalten, wobei qmax die für Stimmhaftigkeit maximal zulässige Periodenlänge von Treiberphasen-Kopplungsfunktionen darstellt.
  57. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Sprachsignal als Vokal oder vokalartiger Laut klassifiziert wird, falls die Vorhersagemodelle für Responsezustände von mindestens zwei Teilbändern jeweils genau eine komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion mit einer Periodenlänge q ≤ qmax enthalten, wobei qmax die für Stimmhaftigkeit maximal zulässige Periodenlänge von Treiberphasen-Kopplungsfunktionen darstellt.
  58. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Sprachsignal als stimmhaft klassifiziert wird, falls mindestens zwei der Folgen von Schattenphasen das phase locking aufweisen.
  59. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Sprachsignal als Vokal oder vokalartiger Laut klassifiziert wird, falls mindestens zwei der Folgen von primären Responsephasen das phase locking aufweisen.
  60. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein durch Anwendung der amplitudenwertigen Abbildung auf die komplexwertige oder paarwertige Ordnungsparameterfunktion gebildeter Kohärenzgrad dazu benutzt wird, das Sprachsignal oder Teile des Sprachsignals als stimmhaft oder als stimmlos zu klassifizieren.
  61. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Kohärenzgrad dazu benutzt wird, dem Sprachsignal eine Wahrscheinlichkeit für Stimmhaftigkeit und/oder eine Wahrscheinlichkeit für Vokalartigkeit zuzuordnen.
  62. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die zeitliche Entwicklung des Verhältnisses der sekundären Responseamplituden zu den primären Responseamplituden dazu benutzt wird, ein Teilband als resonant oder als antiresonant zu klassifizieren.
  63. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für ein stimmhaftes Sprachsignal eine Stimmen spezifische Kopplungsfunktion gebildet wird, indem alle Kopplungsfunktionen, die entweder eine komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktion mit einer Periodenlänge q ≤ qmax enthalten, oder komplexwertige oder paarwertige Treiberphasen-Kopplungsfunktionen, die eine approximierende Treiberphasen-Kopplungsfunktionsamplitude mit einer Periodenlänge q ≤ qmax besitzen, aufsummiert werden und die Stimmen spezifische Kopplungsfunktion zusammen mit dem vorläufigen fundamentalen Treiberprozess dazu benutzt wird, eine rekonstruierte Stimme zu erzeugen, wobei qmax die für Stimmhaftigkeit maximal zulässige Periodenlänge von Treiberphasen-Kopplungsfunktionen darstellt.
  64. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die rekonstruierte Stimme von einem stimmhaften Sprachsignal abgezogen wird und für das resultierende Signal wahlweise eine neue Grundfrequenz und ein neuer fundamentaler Treiberprozess bestimmt wird.
  65. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für mindestens zwei Teilbänder des weiteren Sprachsignals ein abgetrenntes dynamisches System von Vorhersagemodellen für Schattenphasen gebildet wird, das keine Kopplungen an die übrigen Schattenphasen aufweist, und eine weitere komplexwertige oder paarwertige Ordnungsparameterfunktion gebildet wird, die ausschließlich von zeitgleichen Schattenphasen des abgetrennten dynamischen Systems abhängt, und ferner eine weitere Folge von komplexwertigen oder paarwertigen Ordnungsparameterphasen erzeugt wird.
  66. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die mittlere Differenz zwischen den beiden Folgen von Ordnungsparameterphasen dazu benutzt wird, eine Ursachevorlaufzeitdifferenz zwischen den zwei Spachsignalen zu bestimmen.
  67. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Eigenschaften der Vorhersagemodelle für Responsezustände, wobei die Eigenschaften durch die Resonatorgüte und/oder die Eigenfrequenz der Resonatorfunktion, das Verhältnis der primären Responseamplituden zu den jeweils zugehörigen sekundären Responseamplituden, die Anzahl der Anregungsquellen und/oder Eigenschaften der Treiberphasen-Kopplungsfunktionen wie die Periodenlänge, der Wertebereich und/oder die Ursachevorlaufzeitdifferenz bestimmt werden, Eigenschaften des Kohärenzgrades der Schattenphasen und/oder Eigenschaften des Treiberamplitudenprozesses in beliebiger Auswahl und Kombination dazu benutzt werden, eine Phonemklasse oder ein Phonem zu bestimmen oder Wahrscheinlichkeiten für mehrere Phoneme und/oder Phonemklassen zu bestimmen.
  68. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Eigenschaften der Vorhersagemodelle für Responsezustände, wobei die Eigenschaften durch die Resonatorgüte einer Resonatorfunktion, die Eigenschaften der Treiberphasen-Kopplungsfunktionen wie die Periodenlänge und/oder die Ursachevorlaufzeitdifferenz bestimmt werden, Eigenschaften des Kohärenzgrades und/oder Eigenschaften des fundamentalen Treiberprozesses in beliebiger Auswahl und Kombination dazu benutzt werden, eine Sprecherklasse oder einen Sprecher zu bestimmen oder Wahrscheinlichkeiten für mehrere Sprecher und/oder Sprecherklassen zu bestimmen.
  69. Vorrichtung zur Durchführung des Verfahren nach einem der Ansprüche 2 bis 68 mit • einem Signalwandler zur Ermittlung von Werten {St\t = ..., m – 2, m – 1, m, ...} eines Sprachsignals, • mit einem Computer, der so mit dem Signalwandler verbunden ist, dass die Werte des Sprachsignals in dem Computer eingespeist werden, • mit einem Programm zur Steuerung des Computers, mit dem folgende Schritte durchführbar sind: • durch Anwendung von mindestens zwei Bandpassfiltern auf das Sprachsignal werden zwei Teilbänder erzeugt, • für jedes dieser Teilbänder wird ein zeitdiskretes Vorhersagemodell für Responsezustände aufgestellt, das die Responsezustände jeweils mittels eines Treiberprozesses vorhersagt, • anhand des Sprachsignals wird ein beiden Teilbändern gemeinsamer vorläufiger fundamentaler Treiberprozess ermittelt, der durch eine Folge von vorläufigen Treiberphasen und eine Folge von nichtnegativen vorläufigen Treiberamplituden beschrieben wird, wobei unterschiedliche vorläufige Treiberphasen unterschiedlichen Zeitpunkten zugeordnet sind, • die zeitdiskreten Vorhersagemodelle für Responsezustände werden so gewählt, dass sie jeweils eine Treiberphasen-Kopplungsfunktion enthalten, die von einer vorläufigen Treiberphase abhängt, wobei die Treiberphasen-Kopplungsfunktion bezüglich dieser Treiberphase eine Periode aufweist und neben der zugehörigen Periodenlänge noch weitere Parameter enthält, • die Periodenlängen und weitere Parameter der Treiberphasen-Kopplungsfunktionen werden jeweils so bestimmt, dass eine mittels des vorläufigen fundamentalen Treiberprozesses erzeugte Folge von Responsezuständen das zugehörige Teilband approximiert, • die Periodenlängen der Treiberphasen-Kopplungsfunktionen werden dazu benutzt, das Sprachsignal oder Teile des Sprachsignals als stimmhaft oder als stimmlos zu klassifizieren, • im Fall eines stimmhaften Sprachsignals werden der vorläufige fundamentale Treiberprozess und die Treiberphasen-Kopplungsfunktionen dazu benutzt, eine Folge von verbesserten Treiberphasen zu ermitteln, wobei die Folge von verbesserten Treiberphasen wahlweise als Folge von vorläufigen Treiberphasen in weiteren Schritten dient.
DE200410046045 2004-09-21 2004-09-21 Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen Expired - Fee Related DE102004046045B3 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200410046045 DE102004046045B3 (de) 2004-09-21 2004-09-21 Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410046045 DE102004046045B3 (de) 2004-09-21 2004-09-21 Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Publications (1)

Publication Number Publication Date
DE102004046045B3 true DE102004046045B3 (de) 2005-12-29

Family

ID=35455242

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200410046045 Expired - Fee Related DE102004046045B3 (de) 2004-09-21 2004-09-21 Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Country Status (1)

Country Link
DE (1) DE102004046045B3 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69518674T2 (de) * 1994-01-28 2001-06-13 France Telecom Verfahren und Gerät zur Spracherkennung
DE69623360T2 (de) * 1995-01-12 2003-05-08 Digital Voice Systems Inc Schätzung von Anregungsparametern
DE10311913B3 (de) * 2003-03-17 2004-11-25 Forschungszentrum Jülich GmbH Verfahren und Vorrichtung zur Analyse von Sprachsignalen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69518674T2 (de) * 1994-01-28 2001-06-13 France Telecom Verfahren und Gerät zur Spracherkennung
DE69623360T2 (de) * 1995-01-12 2003-05-08 Digital Voice Systems Inc Schätzung von Anregungsparametern
DE10311913B3 (de) * 2003-03-17 2004-11-25 Forschungszentrum Jülich GmbH Verfahren und Vorrichtung zur Analyse von Sprachsignalen

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kawahara H., Masuda-Katsuse I., de CheveignE A.: In: "Speech Comunication" 27, 187-207, 1999 *
Kawahara H., Masuda-Katsuse I., de Cheveigné A.: In: "Speech Comunication" 27, 187-207, 1999
McAulay R.J. and Quatieri, T.F.: Speech analysis/ synthesis based on a sinusoidal representation, IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 34, pp 744-754 (1986) *

Similar Documents

Publication Publication Date Title
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
EP3074974B1 (de) Hörhilfevorrichtung mit grundfrequenzmodifizierung
EP1388145B1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102004046045B3 (de) Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen
EP2380171A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE10311913B3 (de) Verfahren und Vorrichtung zur Analyse von Sprachsignalen
WO2011113741A1 (de) Verfahren zum test von hörhilfegeräten
DE102017101653B3 (de) System und Verfahren zur Ermittlung von zumindest einer Frequenz einer auditiven Wahrnehmung oder Schwächung der auditiven Wahrnehmung einer Person bei dieser Frequenz
EP1062659B1 (de) Verfahren und vorrichtung zur bearbeitung eines tonsignals
EP1078354B1 (de) Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung
EP1170723B1 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110401