DE10311913B3 - Verfahren und Vorrichtung zur Analyse von Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur Analyse von Sprachsignalen Download PDF

Info

Publication number
DE10311913B3
DE10311913B3 DE2003111913 DE10311913A DE10311913B3 DE 10311913 B3 DE10311913 B3 DE 10311913B3 DE 2003111913 DE2003111913 DE 2003111913 DE 10311913 A DE10311913 A DE 10311913A DE 10311913 B3 DE10311913 B3 DE 10311913B3
Authority
DE
Germany
Prior art keywords
driver
subband
function
equation
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2003111913
Other languages
English (en)
Inventor
Friedhelm R. Dr. Drepper
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Forschungszentrum Juelich GmbH
Original Assignee
Forschungszentrum Juelich GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Forschungszentrum Juelich GmbH filed Critical Forschungszentrum Juelich GmbH
Priority to DE2003111913 priority Critical patent/DE10311913B3/de
Application granted granted Critical
Publication of DE10311913B3 publication Critical patent/DE10311913B3/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

Stimmhafte Sprache zeichnet sich durch qualitativ vielfältige mode locking Phänomene zwischen harmonisch angeregten akustischen Moden des Vokaltraktes aus, deren differenzierte Analyse jedoch aufgrund der starken Instationarität der Sprache mit dem vorherrschenden stationären, linearen Quelle-Filter-Modell nur unvollständig gelingt. Durch Einführung einer an die jeweilige Grundfrequenz angepassten Unterbandzerlegung mit Gehör angepassten Bandbreiten und Unterband spezifischen Quelle-Filter(Treiber-Response)-Modellen mit Fundamentalbandphasen synchronen Quellen wird eine topologisch äquivalente Rekonstruktion einer Vielzahl von akustischen Moden des Sprachtraktes erzeugt, die eine differenzierte Analyse der besagten mode locking Phänomene erlaubt. Das für stimmhafte Tonkomplexe charakteristische mode locking drückt sich in stationären (invarianten) Synchronisations-Manningfaltigkeiten im gemeinsamen Zustandsraum der Unterbänder aus. Die Phonem spezifischen Eigenschaften werden einerseits als topologisch invariante Resonatoreigenschaften der rekonstruierten Responsedynamik und andererseits als Phonemklassen spezifischer Verlust der für Vokale typischen, linearen Phasensynchronisation sichtbar (hörbar).

Description

  • Die Erfindung betrifft ein Verfahren zur Analyse von Sprachsignalen, wobei eine Zerlegung der Sprachsignale in wenigstens zwei Unterbänder erfolgt.
  • Die Erfindung betrifft ferner eine für die Durchführung des Verfahrens geeignete Vorrichtung.
  • Ein bekanntes Verfahren ist in der deutschen Übersetzung DE 695 18 674 T2 der europäischen Patentschrift EP 0 665 531 B1 offenbart.
  • Das Buch Vary P., U. Heute, W. Hess, Digitale Sprachsignalverarbeitung, B.G. Teubner Verlag, Stuttgart (1998) beschreibt gleichfalls mehrere bekannte Verfahren zur digitalen Verarbeitung von Sprachsignalen.
  • Viele der bekannten Verfahren beruhen auf dem Quelle-Filter-Modell der Spracherzeugung. Dies trifft insbesondere auch auf die US-amerikanische Patentschrift US 4 343 969 zu, die ein Verfahren sowie einen Apparat zur Echtzeit-Erkennung und Klassifizierung von Sprache verschiedener Tonlagen beschreibt. Das Verfahren basiert auf der Annahme, dass die Artikulation eines beliebigen Lautes als Ausgangssignal eines linearen Filters interpretiert bzw. dargestellt werden kann. Das in der US-amerikanischen Patentschrift beschriebene Verfahren benutzt eine endliche Anzahl von Phonem spezifisch vordefinierten Filtern, bzw. von zugehörigen inversen Filtern, die testweise auf das zu analysierende Sprachsignal angewandt werden.
  • Schließlich wird dasjenige Phonem bestimmt, dessen inverser Filter zu der betragsmäßig kleinsten „Anregung des Vokaltraktes" führt.
  • Mehrere weitere bekannte Verfahren sind in dem Buch Schroeder M.R., Computer Speech, Springer (1999) dargestellt.
  • Verfahren zur Analyse von Sprachsignalen werden für eine Vielzahl von Anwendungsgebieten eingesetzt. Die bekanntesten Anwendungsgebiete sind Spracherkennung, Sprechererkennung sowie Sprachübertragung und Sprachspeicherung.
  • Die bekannten Verfahren zur Analyse von Sprachsignalen eignen sich jeweils nur für einen Einsatz in einem einzelnen der Anwendungsgebiete.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Analyse von Sprachsignalen bereitzustellen, das eine hohe Erkennbarkeit von für eine Mensch-Maschine-Kommunikation erforderlichen Sprachbestandteilen ermöglicht. Ferner soll die Erfindung auch eine möglichst schnelle Erfassung der Informationen ermöglichen und sich vorzugsweise auch für einen Einsatz in Echtzeit eignen.
  • Erfindungsgemäß wird diese Aufgabe durch ein Verfahren zur Sprachanalyse gelöst, wobei Sprachsignale erfasst werden und wobei durch Anwendung eines Bandpassfilters ein Unterband erzeugt wird, wobei erfindungsgemäß folgende Schritte eingesetzt werden:
    • – Es werden Werte {Sm |m = ..., 0, 1, 2, ...} eines Sprachsignals ermittelt.
    • – Eine ganzzahlige Indexschrittweite Δ ≥ 2 sowie eine natürliche Zahl NX ≥ 6 werden gewählt.
    • – Unter Verwendung des Sprachsignals {Sm |m = ..., 0, 1, 2, ...} werden Folgen von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} und Treiberphasen {ψ |n = 0, 1, 2, ..., NX} erzeugt.
    • – Durch Anwendung eines reell- oder komplexwertigen Bandpassfilters mit der Filtermittenfrequenz FX auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} werden Werte X eines Unterbandes {X |n = 0, 1, 2, ..., NX} erzeugt.
    • – Es wird eine Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} aufgestellt mit einer Kopplungsfunktion, die von einer Treiberphase der Folge {ψ |n = 0, 1, 2, ..., NX} und von mindestens einer Treiberamplitude der Folge {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} abhängt, wobei die Kopplungsfunktion bezüglich der besagten Treiberphase eine Periode aufweist und wobei die besagte Bewegungsgleichung mindestens einen Parameter enthält.
    • – Mindestens ein Parameter der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} wird durch Anpassung der besagten Bewegungsgleichung an die Werte des Unterbandes {X |n = 0, 1, 2, ..., NX}, an Treiberphasen {ψ |n = 0, 1, 2, ..., NX} und an Treiberamplituden {r |n = 0, 1, 2, ..., NX} bestimmt.
  • Die Erfindung nutzt die Erkenntnisse, dass stimmhafte Tonkomplexe sich besonders gut dadurch ermitteln lassen, dass Werte {Sm |m = ..., 0, 1, 2, ...} eines Sprachsignals ermittelt werden, dass unter Verwendung des Sprachsignal {Sm |m = ..., 0, 1, 2, ...} Folgen von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit r ≥ 0 und Treiberphasen {ψ |n = 0, 1, 2, ..., NX} erzeugt werden, dass durch Anwendung eines Bandpassfilters mit der Filtermittenfrequenz FX auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} Werte X eines Unterbandes {X |n = 0, 1, 2, ..., NX} erzeugt werden, und dass ein Bandpassfilter zur Bestimmung der Treiberphasen {ψ |n = 0, 1, 2, ..., NX} eingesetzt wird.
  • Ferner wird diese Aufgabe durch eine Vorrichtung nach Anspruch 50 gelöst.
  • Vorteilhafte Weiterbildungen sind Gegenstand der Ansprüche 2 bis 49.
  • Die Erfindung hat mehrere Vorteile.
  • Sie eignet sich sowohl für einen Einsatz in der Erkennung von gesprochenen Informationen als auch zur Identifizierung von Sprechern.
  • Die Erfindung ermöglicht eine wirksamere Übermittlung von Sprachsignalen, insbesondere eine größere Flexibilität in der Bandbreite der Übermittlung.
  • Außerdem lässt sich mit Hilfe der Erfindung eine verteilte Sprachanalyse durchführen. Dies ist in einer Vielzahl von Anwendungsfällen zweckmäßig. Beispielsweise lassen sich hierdurch verteilte Diktiersysteme realisieren. So ist es beispielsweise möglich, zwischen dem Sprecher und einer Datenverarbeitungseinheit, welche die Sprachsignale verarbeitet, einen Übertragungskanal vorzusehen.
  • Außerdem ermöglicht die Erfindung eine bessere Bestimmung von Tonhöhen.
  • Die Erfindung ist mit einer Vielzahl von weiteren Vorteilen verbunden.
  • Bei einem Einsatz der Erfindung kann jeweils ausgewählt werden, welche der Vorteile der Erfindung genutzt werden sollen.
  • Beispielsweise ist es durch die Erfindung möglich, die Spracherkennungsraten von Diktiersystemen erheblich zu erhöhen.
  • So ist es beispielsweise durch die Erfindung möglich, in Spracherkennungssystemen, wie sie beispielsweise in digitalen Diktiersystemen eingesetzt werden, bisher von einem Sprecher nicht zuvor gesprochene Worte korrekt zu erkennen, ohne dass es erforderlich ist, dass in einer Datenbank zuvor eine Vielzahl von ähnlich klingenden Tonfolgen erfasst wurden.
  • Ein Einsatz in einer Sprechererkennung ist gleichermaßen zweckmäßig.
  • So ist es beispielsweise möglich, die Sprachsignale zu einer Identifizierung von Personen heranzuziehen. Diese Sprecheridentifikation kann sehr schnell erfolgen und eignet sich daher auch für einen Einsatz in Echtzeit.
  • Dies ist bei einer Vielzahl von Anwendungsgebieten von Vorteil. So ist es beispielsweise möglich, akustische Berechtigungskontrollsysteme, beispielsweise für einen Zugang zu gesicherten Räumen oder für einen Zugriff auf gesicherte Daten zu ermöglichen. Hierbei wirkt sich ein weiterer Vorteil der Erfindung aus, dass die Identifizierbarkeit auch dann ermöglicht wird, wenn sich einzelne physiologische oder medizinische Parameter des Sprechers geändert haben. So wird die Erkennbarkeit beispielsweise durch eine Erkältung des Sprechers nicht beeinträchtigt.
  • Eine besonders bevorzugte Ausführungsform der Erfindung zeichnet sich dadurch aus, dass eine Zerlegung der Sprachsignale in wenigstens zwei Unterbänder erfolgt.
  • Ferner ist es vorteilhaft, dass für wenigstens ein Unterband eine implizite Bewegungsgleichung ermittelt wird.
  • Insbesondere betrifft die Erfindung ein Verfahren und eine Vorrichtung zur wahrnehmungsgemäßen Analyse und Synthese stimmhafter Tonkomplexe anhand invarianter Mannigfaltigkeiten Resonanzraum-äquivalenter Unterbanddynamik eines Sprachsignals.
  • Die Erfindung stellt ein vorzugsweise einheitliches akustisches Modell stimmhafter Tonkomplexe bereit, das sich für einen umfassenden Einsatz der Sprache bei der Mensch-Maschine-Kommunikation eignet, und das sowohl für die Erkennung, Kodierung und Synthese von Sprache als auch für die Erkennung von Sprechern geeignet ist.
  • Die Erfindung ermöglicht sowohl eine Trennung der phonemspezifischen Eigenschaften des Vokaltraktes (Resonanzraum) beziehungsweise der Artikulationskonstellation (insbesondere der Koordinationseigenschaften der Schallquellen) von den sprecherspezifischen Eigenschaften der Phonation (insbesondere der unterbandspezifischen Periodenlängen).
  • Dies ist von besonderer Bedeutung, da bei Tonkomplexen wie Nasalen oder stimmhaften Frikativen bzw. Approximanten nicht von einem unverzweigten Sprachrohr mit einer einzigen Schallquelle ausgegangen werden kann.
  • Stimmhafte Sprache zeichnet sich durch sog. mode-locking Phänomene zwischen unterschiedlichen, harmonisch angeregten – akustischen – Schwingungsmoden des Resonanzraumes – Vokaltraktes – aus. Das mode-locking beruht hierbei auf der synchronisierten Anregung dieser Moden durch stark lokalisierte Schallerzeugung – insbesondere durch die Phonation innerhalb der Glottis –. Im Rahmen der Theorie der verallgemeinerten Synchronisation in Treiber – Response Systemen ist in vergleichsweise jüngerer Vergangenheit gezeigt worden, dass mode-locking bzw. Synchronisation kein undifferenziertes Phänomen darstellt, sondern einen Oberbegriff für eine Vielzahl von insbesondere auch qualitativ unterschiedlichen Koordinationsmöglichkeiten, die durch mehr oder weniger glatte und/oder stetige Invariante Mannigfaltigkeiten – Linien oder Flächen – im gemeinsamen Zustandsraum der Treiber und Responseoszillatoren beschrieben werden können.
  • Ein im Zusammenhang mit der Spracherkennung wichtiger Spezialfall verallgemeinerter Synchronisation ist die topologische Äquivalenz zwischen Treiber und Response, die durch eine Konjugation – monoton stetige, eindeutig invertierbare Abbildung – zwischen den gekoppelten Subsystemen ausgezeichnet ist. Zusammen mit dem Oberbegriff der bedingten asymptotischen Stabilität sind diese Begriffe in der Lage, die Synchronisations- bzw. Koordinations-Phänomene stimmhafter Signale differenzierter zu beschreiben.
  • Ein zweites wichtiges Merkmal stimmhafter Sprache ist die typischerweise instationäre Variation der Amplitude und Tonhöhe der Phonation, wobei insbesondere bei der Variation der Amplitude auch kürzere Zeitskalen herunter bis auf weniger als 50 ms eine wichtige Rolle spielen. In diesem Zusammenhang ist es von besonderem Interesse, dass das Phänomen der Synchronisation nicht auf periodischen oder quasiperiodischen Antrieb beschränkt ist, sondern auch bei stochastischen oder deterministisch chaotischen Treibern auftritt. Die bisherige Anwendung des Quelle-Filter-Modells auf die Erkennung stimmhafter Sprache beruht auf der Annahme eines stationären Phonationsprozesses. Diese Annahme beschränkt das Quelle-Filter-Modell jeweils auf die Beschreibung relativ kurzer Ausschnitte stimmhafter Sprache – typischerweise 20 ms –. Derartig kurze Ausschnitte sind jedoch eher weniger geeignet, die für stimmhafte Phoneme charakteristischen Invarianten Mannigfaltigkeiten zu erkennen.
  • Wegen der ubiquitären Instationarität der menschlichen Sprache ist es vorteilhaft, auf die Annahme eines stationären Phonationsprozesses und damit insbesondere auf das Schätzen von Spektren zu verzichten zugunsten der Untersuchung verallgemeinerter Synchronisation in Treiber- Response Systemen mit potentiell instationärem und/oder nichtlinearem Antrieb.
  • Eine besonders bevorzugte Ausführungsform der Erfindung fasst die Phoneme (Atome) der Sprache nicht mehr als stationäre Prozesse auf, sondern als stationäre bzw. Invariante Mannigfaltigkeiten im gemeinsamen Zustandsraum der instationären Treiber und Response-Oszillatoren. Leider können jedoch bei der Sprachkommunikation weder die akustischen Responsemoden innerhalb des Vokaltrakts noch deren Anregungen innerhalb der Glottis unmittelbar beobachtet werden.
  • Besonders bevorzugte Ausführungsbeispiele des erfindungsgemäßen Verfahrens sehen vor, mithilfe geeignet gewählter Bandpassfilter sowohl eine fundamentale Treibermode als auch höherfrequente Unterbänder zu bestimmen, die jeweils topologisch äquivalente Rekonstruktionen entsprechend angeregter akustischer Moden des Resonanzraumes darstellen. In der Artikulationskonstellation eines unverzweigten Sprachrohres mit einer räumlich und frequenzmäßig gut lokalisierten Schallquelle (z.B. im Fall der Vokalerzeugung) ist die Existenz einer solchen Unterbandzerlegung garantiert, da sich die Responseprozesse der verschiedenen harmonischen Anregungen ungestört überlagern und folglich durch geeignete Bandpassfilter getrennt werden können. Die räumliche und frequenzmäßige Lokalisation der Schallquelle bewirkt bzw. begünstigt, dass die Phonationsdynamik durch einen elementaren Oszillator mit zwei vergleichsweise langsam veränderlichen Zustandsgrößen beherrscht wird, die alle übrigen, schnelleren Zustandsgrößen der Phonation bzw. deren Auswirkung auf das Schallfeld „versklaven". Hierdurch wird es möglich, die Anregung des Schallfeldes als eine Synchronisationsmannigfaltigkeit eines fundamentalen Treiberoszillators darzustellen, dessen potentiell instationäre Dynamik vollständig durch eine Treiberamplitude und eine Treiberphase beschrieben wird.
  • In einer Vielzahl von Einsatzgebieten der Erfindung ist es vorteilhaft, eine lineare Abhängigkeit der Anregung von der momentanen Treiberamplitude anzunehmen bzw. allgemeiner die Anregungsmannigfaltigkeit als Produkt einer nichtnegativen Anregungsamplitude und einer oszillatorischen von Treiberphasen abhängigen Anregungsfunktion darzustellen, wobei die letztere Anregungsfunktion die zentrale Rolle bei der phänomenologische Beschreibung der Dynamik stimmhafter Tonkomplexe übernimmt. Die Versklavung der schnellen Freiheitsgrade der Anregung bewirkt eine Periodizität der von Treiberphasen abhängigen Anregungsfunktion, wobei es im Zusammenhang mit der Behandlung instationärer Prozesse von entscheidender Bedeutung ist, dass sich die Periodizität nicht auf die Zeit, sondern auf die Treiberphase bezieht. Die Periodenlänge der Anregungsfunktion ist sprecherabhängig und fällt vielfach mit der fundamentalen Periode der Treibermode zusammen.
  • Vorzugsweise lässt sich die bandlimitiert glatte Anregungsfunktion gut durch eine endliche Fourier-Reihe approximieren. Dies ermöglicht eine besonders schnelle Analyse und Weiterverarbeitung der Sprachsignale. Die unterschiedlichen Terme der harmonischen Approximation der von Treiberphasen abhängigen Anregungsfunktion können jeweils als eine Elementaranregung interpretiert werden, die durch die fundamentale Treiberphase synchronisiert wird, wobei die zugehörige Invariante Mannigfaltigkeit die elementare Form einer rein harmonischen Funktion mit jeweils unterschiedlicher Periodizität aufweist.
  • In mehreren Einsatzgebieten ist es zweckmäßig, eine endlich-dimensionale, lineare Dynamik der akustischen Responsemoden zu berücksichtigen. Aufgrund der Bandbegrenzung, sowie einer an das Unterband angepassten Wahl der Zeitschrittweite dieser Unterbänder (sowie aufgrund einer an das Unterband angepassten Wahl der Zeitschrittweite) reicht hierbei eine zweidimensionale lineare Responsedynamik aus.
  • Das Ziel der Bandpasszerlegung besteht somit vorzugsweise darin, Unterbänder zu erzeugen, die jeweils als niedrigdimensionaler, linearer Response auf genau eine der rein harmonischen Elementaranregungen dargestellt bzw. approximiert werden können. Im Vorfeld geeigneter Bandpassfilterung muss jedoch jedes Unterband zunächst einmal als linearer Response auf eine Überlagerung mehrerer Elementaranregungen dargestellt werden. Das Ziel der an den Phonationsprozess angepassten Bandpassfilterung kann somit als eine möglichst weitgehende Diagonalisierung der den jeweiligen Unterbändern zugrunde liegenden Elementaranregungen erreicht werden.
  • Wenn der Einfluss einer zu starken Instationarität des Treiberprozesses ausgeschlossen werden kann, deutet das Scheitern der Diagonalisierung mittels Fundamentalband getriebener Unterbandanregungen auf eine konsonantische Artikulationskonstellation im Vokaltrakt hin. Hierbei kann ein partielles Scheitern der Diagonalisierung als ein stimmhafter Konsonant (z.B. mit einer zweiten von der ersten Schallquelle nur partiell abhängigen bzw. versklavten Schallquelle) gedeutet werden und ein vollständiges, alle Unterbänder betreffendes Scheitern als ein stimmloser Konsonant. Sowohl im Fall des weitgehenden Gelingens der Diagonalisierung als auch im Fall des unvollständigen Gelingens liefert der Vergleich der Invarianten Mannigfaltigkeiten der Anregung mit den Synchronisations- bzw. Koordinationseigenschaften der hierdurch jeweils hervorgerufenen Responseperozesse wertvolle Hinweise zur Art des Phonems. Bei weitgehender Diagonalstruktur der Anregungen kann der Fall nahezu rein harmonischer Responsemannigfaltigkeiten als Vokal und der Fall des weitgehenden Verlustes der sog. identischen Synchronisation der Elementaranregungen als Nasal interpretiert werden. Im Fall der unvollständigen Diagonalisierung der Anregungen richtet sich die Phonemerkennung sowohl auf qualitative Eigenschaften der bandspezifischen Anregungs-Mannigfaltigkeiten als auch auf die Untersuchung des Synchronisationsverlustes auf dem Weg von der Anregung zum Response. Die Synchronisationsmannigfaltigkeiten der Responsedynamik sind hierbei potentiell komplex, d.h. potentiell weder glatt noch stetig. Erste Ergebnisse deuten darauf hin, dass insbesondere im Fall der Approximanten und Frikative stimmhafter menschliche Sprache die qualitativen Differenzierungsmöglichkeiten asymptotisch stabiler Responsedynamik weitgehend ausreizt.
  • Weitere Vorteile, Besonderheiten und zweckmäßige Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen und der nachfolgenden Darstellung bevorzugter Ausführungsbeispiele anhand der Zeichnung.
  • Die Zeichnung zeigt
  • 1 Invariante Mannigfaltigkeiten (hier beispielhaft als Linien dargestellt) stimmhafter Tonkomplexe aufgenommener Sprachsignale.
  • Die in 1 dargestellten stimmhaften Tonkomplexe menschlicher Sprache zeichnen sich durch stationäre Mannigfaltigkeiten aus, die sich sowohl hinsichtlich des Abstandes zur Tonerzeugung in der Glottis als auch hinsichtlich der jeweiligen Oszillations- bzw. Windungszahl der für das Unterband spezifischen Anregung unterscheiden. Zur besseren Anschauung werden sowohl die Anregungen als auch die hierdurch erzeugten Responseprozesse durch zeitverwandte (aufgewickelte) Phasenvariablen dargestellt. Bei Vokaltrakt-äquivalenter Bandpassfilterung überträgt sich bei niederfrequenten harmonischen Anregungen die für die Glottis charakteristische, angenähert lineare Phasensynchronisation zur fundamentalen Treiberphase sowohl auf den Vokaltrakt als auch auf die Unterbänder des Schalldrucksignals am Ohr. Bei höherfrequenten harmonischen Anregungen geht die lineare Phasensynchronisation je nach Phonemklasse mehr oder weniger weitgehend im Vokaltrakt verloren.
  • Bei der Bestimmung der geeigneten Bandpassfilter macht das vorgestellte Verfahren sich zunutze, dass stimmhafte Sprache sich durch besondere Konzentration von Bewegungsenergie in relativ schmalen Frequenzbereichen auszeichnet und dass diese Frequenzbereiche aufgrund der angenäherten Periodizität der Schallquelle ein kammartiges Grundraster aufweisen, das sich an der – für das Betrachtungs- bzw. Schätzintervall spezifischen – mittleren Grundfrequenz der Stimmlippen orientiert. Im Vergleich zur Anregung zeigt das Spektrum der Vokaltraktantwort jedoch potentiell nicht vernachlässigbare Abweichungen vom harmonischen (äquidistanten) Grundraster. Ausgehend von einer konventionellen Bestimmung der Grundfrequenz (z.B. durch Minimierung der mittleren absoluten Abweichung aufeinanderfolgender Signalwerte wie in Ross et al. 1974 beschrieben) und dem hierdurch definierten harmonischen Grundraster werden durch Anwendung von Bandpassfiltern mit geeigneten Bandbreiten sowie mit iterativ angepassten Filtermittenfrequenzen Unterbänder und dazu passende Überlagerungen von Elementaranregungen bestimmt. Das Ziel der Anpassung ist hierbei, die Verteilung der Elementaranregungen auf die Unterbänder zunehmend diagonal zu machen. Der Idealfall (eines Vokals) zeichnet sich somit durch Unterbänder aus, die als linearer (zweidimensionaler) Response auf genau eine rein harmonische Anregung dargestellt werden können, wie es in 1 beispielhaft dargestellt ist.
  • Die Bandbreiten der besagten Bandpassfilter sollten hierbei nach Möglichkeit kleiner sein als der doppelte Frequenzabstand zur nächsthöheren Harmonischen, andererseits jedoch auch hinreichend breitbandig sein, sodass die relative Bandbreite oberhalb der für das jeweilige Betrachtungsintervall relevanten, relativen Bandbreite des instationär oszillierenden fundamentalen Treiberprozesses bleibt. Die aus Maskierungsexperimenten der Psychoakustik bekannten, gehörangepassten Bandbreiten z.B. nach dem ERB (equivalent rectangular bandwidth) Modell eignen sich besonders für einen Einsatz bei der Realisierung der Erfindung. Insbesondere die in dem Buch Moore B.C.J., An introduction to the Psychology of hearing, Academic Press (1989) dargestellten Gehör angepassten Bandbreiten sind besonders vorteilhaft. Diese Wahl der Bandbreiten führt zu einer a priori Begrenzung der harmonischen Kenngrößen erfolgreich trennbarer Unterbänder auf Werte kleiner als 10.
  • Ein weiterer Vorteil des hier vorgestellten Verfahrens besteht darin, dass der Erfolg einer Rekonstruktion der Dynamik harmonisch angeregter akustischer Moden des Resonanzraumes auch unabhängig von den bisher genannten Voraussetzungen überprüft werden kann. Das für stimmhafte Signale wesentliche mode-locking bezieht sich vorzugsweise auf akustische Moden, deren Frequenzen Vielfache der Grundfrequenz betragen. Die Einführung von zeitabhängigen und zeitverwandten (partiell stetig fortgesetzen bzw. abgewickelten) Phasen als Zustandsvariable der Anregungsund Responsedynamik schafft die Möglichkeit auch (1:n) bzw. (n:m) Mode- bzw. Phase locking als (mehr oder weniger lineare, diffeomorphe) Konjugation zu erkennen. Aufgrund der Transitivität und Umkehrbarkeit von Konjugationen in einer Kette von konjugiert gekoppelten Oszillatoren wird die Evidenz einer nahezu linearen Konjugation zwischen den Unterbandoszillatoren eines stimmhaften Signals zu einer Bestätigung für die topologische Äquivalenz aller beteiligten Oszillatoren, einschließlich der in 1 beispielhaft dargestellten Äquivalenz zwischen den jeweiligen harmonisch angeregten Schwingungsmoden im Resonanzraum des Untersuchungssystems und den entsprechenden bandpassgefilterten Unterbändern. Die Bestätigung Vokaltrakt-äquivalenter Unterbandzerlegung kann insbesondere zur quantitativen Bestimmung topologischer Invarianten der resonanten Dynamik benutzt werden. Hierfür können eine Vielzahl von Verfahren eingesetzt werden, wobei beispielsweise die in dem Buch Kantz H., T. Schreiber, Nonlinear time serien analysis, Cambridge Univ. Press (1997) dargestellten Verfahren zweckmäßige Beispiele zur Bestimmung der topologischen Varianten bereitstellen.
  • Als eine hochgradig nichtzufällige Eigenschaft zeichnet sich stimmhafte Sprache bei niederharmonischen Unterbändern generell durch eine gute Überprüfbarkeit der topologischen Äquivalenz aus (1). Insbesondere die selbstkonsistent bestimmte fundamentale Treiber-Phase kann hierbei robust als fast lineare Konjugation zu niederharmonischen Unterbandphasen erkannt and damit als ein topologisch äquivalentes Abbild der Phase der fundamentalen akustischen Mode bestätigt werden. Hierdurch ermöglicht das vorgestellte Verfahren insbesondere auch eine zuverlässige und präzise Bestimmung der momentanen Tonhöhe stimmhafter Sprache. Bei höherharmonischen Unterbändern mit erfolgloser Diagonalisierung der Elementaranregungen kann bei Ausrichtung der Bandpassfilterung am harmonischen Grundraster näherungsweise angenommen werden, dass ein Verlust der Konjugation zwischen Unterbändern überwiegend durch Aufbrechen der Konjugationskette im Vokaltrakt passiert und nicht auf dem Weg zwischen Vokaltrakt und Ohr (1). Auch in diesem Fall kann die Vokaltraktangepasste Unterbandzerlegung somit zur quantitativen Bestimmung topologischer Invarianten der Dynamik der harmonisch angeregten akustischen Moden des Vokaltraktes beitragen. Bei allgemeiner Artikulationskonstellation des Vokaltrakts lässt sich stimmhafte menschliche Sprache somit anhand der Existenz einer auf Bandpassfilter basierten Unterbandzerlegung definieren bzw. erkennen, die einen überprüfbar topologisch äquivalenten, fundamentalen Treiberoszillator aufweist sowie weitere bedingt asymptotisch stabile Unterbänder.
  • Überaschenderweise hat sich gezeigt, dass die Überprüfbarkeit der topologischen Äquivalenz bei menschlicher Sprache zum Teil bis zu deutlich höher harmonischen Unterbändern gelingt, als dies allein aufgrund der eingangs genannten (a priori) Voraussetzungen erfolgreicher Bandpassfilterung zu erwarten wäre. Die aktive Isolierung höher harmonischer Moden seitens der Stimmerzeugung nimmt bei gesungener Sprache besonders extreme Form an. Das erstaunlich umfassende Gelingen des vorgestellten Verfahrens zur Bestimmung Vokaltraktäquivalenter Treiber- und Responseprozesse einschließlich der hierdurch definierten Invarianten Mannigfaltigkeiten kann nur im Rahmen eines evolutionären und ontogenetischen Anpassungsprozesses verstanden werden, bei dem es zu einer Passung zwischen den Eigenschaften der stimmhaften Sprache und den Fähigkeiten der auditiven Wahrnehmung der Menschen kommt. Stimmhafte Sprache stellt sich somit als Ergebnis eines Anpassungsprozesses heraus, der gute Erkennbarkeit in einem Stimmengewirr begünstigt. Bezüglich der auditiven Wahrnehmung des Menschen muss ferner angenommen werden, dass sie offenbar in der Lage ist, die geschickte Bandpasszerlegung vorzunehmen bzw. auszuwählen, die auch im Fall bandbegrenzt, instationärer Phonation zur weitgehenden topologischen Äquivalenz der Unterbänder zu den akustischen Moden des Vokaltrakts führt. Ein auf das vorgestellte Analyseverfahren aufbauendes Modell gehöräquivalenter Wahrnehmung wird vor allem durch die zentrale Bedeutung der Tonhöhe für die Sprachkommunikation bestätigt. Weitere Bestätigung ist in der erstaunlichen monauralen Stimmtrennungs- und Sprecherunterscheidungsfähigkeit der auditiven Wahrnehmung des Menschen zu sehen, die (insbesondere bei rauer Phonation) bisher weder durch Wahrnehmungsmodelle erklärt noch durch Sprach- bzw. Sprechererkennungsalgorithmen imitiert werden konnte.
  • Viele Unterscheidungsmerkmale stimmhafter Phoneme fallen mit topologischen Invarianten der Responsedynamik der Unterbänder bzw. mit topologisch Invarianten Eigenschaften der zugehörigen Invarianten Mannigfaltigkeiten zusammen. Unter den topologischen Invarianten der Dynamik kommt bei der Phonemerkennung den bedingten Lyapunov-Exponenten der Unterbänder eine besondere Bedeutung zu, da sie unmittelbar mit Resonatoreigenschaften des Sprachtraktes, wie Resonatorgüte und Eigenfrequenz, verknüpft sind, sowie den Lyapunov-Exponenten des Treiberprozesses. Für einen Einsatz bei der Erfindung besonders geeignete Komponenten des Treiberprozesses sind in dem Artikel Pecora L.M. and T.L. Caroll, Phys. Rev. Lett. 64, 821 (1990) dargestellt. Die Resonatoreigenschaften sind bekanntlich stark von der Geometrie des Vokaltraktes abhängig und daher besonders zur Unterscheidung der Vokale geeignet und die letzteren insbesondere zur Erkennung von stimmhaften Stopkonsonanten und Plosiven. Die Unterscheidung verlängerbarer Konsonanten beruht zusätzlich auf qualitativen Eigenschaften der Invarianten Mannigfaltigkeiten, insbesondere auf dem Unterschied zwischen den Mannigfaltigkeiten der Anregung und denen des Responses. Der Synchronisationsverlust innerhalb des Vokaltrakts kann vorteilhafterweise durch Einführung jeweils von Treiberphasen abhängiger Anregungsund Responsephasenfunktionen dargestellt werden (1), insbesondere anhand des sich hieraus ergebenden funktionalen Zusammenhangs zwischen der (partiell abgewickelten) Responsephase und der zeitgleichen Anregungsphase. Im Fall der Approximanten und Frikative kann der Verlust der Stetigkeit der Responsemannigfaltigkeiten vorteilhafterweise anhand der für Treiberphasen spezifischen Verteilung der Residuen der Invarianten Responsemannigfaltigkeiten diagnostiziert werden. Besonders vorteilhaft sind hierbei durch die Varianz der Residuen der Bewegungsgleichung normierte Verteilungen.
  • Ein weiterer wichtiger Vorteil der Erfindung ist die schnelle und zuverlässige Auswertung der dargestellten qualitativen Merkmale, da die betreffenden Funktionen ausschließlich bzw. überwiegend durch Parameter beschrieben werden, die mit Hilfe multipler linearer Regression bestimmt werden können. Im Fall der Responsemannigfaltigkeiten der Approximanten und Frikative sollte hierbei jedoch vorzugsweise auf die Annahme gaußverteilter Residuen verzichtet werden.
  • Die Erfindung ermöglicht es erstmals, in einer automatisierten Spracherkennung mehrere Vorteile zu realisieren, die bisher nur in der menschlichen Spracherkennung möglich waren.
  • Um eine zu große Bandbreite der fundamentalen Treibermode zu vermeiden, ist es vorteilhaft, den besagten Einfluss nichtlinearer Phonationsdynamik mit Hilfe der Periodizität pX von Treiberphasen abhängigen Anregungsfunktion des Hauptanspruchs darzustellen. Die potentielle Vielfalt der Kombinationsmöglichkeiten der Periodizität pX mit der Periodizität qX der. von Treiberphasen abhängigen Responsefunktion sowie mit der Windungszahl wX der Responsephasenfunktion φX) bietet hierbei eine plausible Erklärungsmöglichkeit der erstaunlichen Sprecherunterscheidungsfähigkeit der auditiven Wahrnehmung.
  • Bei weitgehender Diagonalstruktur der Elementaranregungen der Vokaltrakt-äquivalenten Unterbänder stimmhafter menschlicher Sprache kommt die vorgestellte Vokaltrakt- und Wahrnehmung äquivalente Unterbandzerlegung auch den Anforderungen der Sprachkodierung und Sprachsynthese entgegen, da die Diagonalstruktur eine massive Reduzierung der Zahl der von Null verschiedenen Modellparameter begünstigt. Die für die Sprachkodierung wünschenswerte Umkehrbarkeit der Bandpasszerlegung erfordert Bandbreiten der Unterbänder, die insbesondere bei hoher Grundfrequenz und niederfrequenten Unterbändern die ERB Bandbreiten überschreiten. Es stellt sich jedoch heraus, dass auch Filterbänke mit Eignung für die Sprachkodierung für die wahrnehmungsgemäße (d.h. auf die Analyse der Synchronisation bzw. Koordination Vokaltrakt-äquivalent gefilterter Unterbänder ausgerichtete) Spracherkennung geeignet sein können. Somit bietet das vorgestellte Verfahren die Grundlage für ein einheitliches akustisches Modell stimmhaft instationärer Tonkomplexe, das für die Kodierung und Synthese von Sprache, für die dezentrale Erkennung von Sprache und Sprechern sowie für die objektive Ermittlung der subjektiv wahrnehmbaren Sprachqualität geeignet ist.
  • In der Druckschrift Drepper F.R., Phys. Rev. E 62, 6376–6382, (2000) wurde bereits ein Verfahren vorgestellt, das die Bewegungsgleichung eines bandlimitierten Responseprozesses ermittelt und das die Anregung als endliche Fourier Reihe der Phase eines bandlimitiert instationären Treibers approximiert.
  • Beispielhaft sieht die Erfindung eine Einführung geeigneter schmalbandiger Unterbänder vor und andererseits die Darstellung der Quelle als Überlagerung einer Reihe verallgemeinert synchronisierter Anregungen, deren gemeinsamer, fundamentaler Treiber zusammen mit den dazu passenden Unterbändern durch Bandpassfilterung des Schalldrucksignals selbstkonsistent (Vokaltrakt-äquivalent) bestimmt wird.
  • Außerdem realisiert die Erfindung Phonationsprozesse als Treiber.
  • Außerdem rekonstruiert die Erfindung einen Vokaltraktresponse als Unterband.
  • Ein weiterer Vorteil der Erfindung ist die Schaffung eines Verfahrens zur wahrnehmungsgemäßen Analyse stimmhafter Tonkomplexe anhand invarianter Mannigfaltigkeiten Resonanzraum-äquivalenter Unterbanddynamik eines Sprachsignals.
  • Verfahrensgemäß werden zeitlich nacheinander, vorzugsweise äquidistant in der Zeit mit der Samplerate FS, Werte {Sm |m = ..., 0, 1, 2, ...} eines Sprachsignals ermittelt. Der Index m dient hierbei der fortlaufenden Numerierung der ermittelten Werte. Bei dem Sprachsignal handelt es sich in der Regel um breitbandig oszillierende Aufzeichnungen des Schalldrucks, der mithilfe eines Mikrophons ermittelt wird. In vielen Fällen werden auch gleichzeitige Aufzeichnungen von mindestens zwei Kanälen benutzt, bei denen die beschriebenen mode locking Phänomene auch zwischen bandbegrenzten Bestandteilen verschiedener Kanäle von Interesse sind.
  • In einer vorteilhaften Ausgestaltung des Verfahrens wird eine ganzzahlige, zielbestimmende bzw. bandspezifische Oszillations- bzw. Windungszahl hX ≥ 1 der betreffenden Treiberphasen abhängigen Anregungsfunktion festgelegt, die für das betreffende Unterband des zunächst betrachteten einzigen Sprachsignals charakteristisch ist. In einer weiteren vorteilhaften Ausgestaltung des Verfahrens wird mit Hilfe eines konventionellen Verfahrens (wie z.B. durch Maximierung der Autokorrelationsfunktion oder durch Minimierung der mittleren absoluten Abweichung aufeinanderfolgender Werte) ein Wert FD für die Grundfrequenz des Sprachsignals ermittelt. Ferner wird eine für das betreffende Unterband geeignete, ganzzahlige Indexschrittweite Δ ≥ 2 ermittelt, wobei Δ vorzugsweise ein Viertel der bandspezifischen Periodenlänge in Einheiten von 1/FS approximiert und wobei die bandspezifische Periodenlänge 1/(hXFD) beträgt, d. h. vorzugsweise Δ ≈ FS/(4hXFD). Die ganzzahlige Indexschrittweite Δ ≥ 2 führt zu einer Reduzierung der Zahl NX der für das betreffende Unterband erforderlichen bzw. nichtredundanten Werte. Hierbei gilt NX ≥ 6.
  • Das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} wird dazu benutzt, Folgen von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r |n = 0, 1, 2, ..., NX} und Treiberphasen {ψ |n = 0, 1, 2, ..., NX} zu erzeugen.
  • In einer vorteilhaften Ausgestaltung des Verfahrens wird hierzu ein Bandpassfilter Paar mit der fundamentalen Filtermittenfrequenz FD gewählt, das bei Anwendung auf eine rein harmonische Folge von Werten {Sm |m = ..., 0, 1, M, ...} mit der Frequenz FD zu einem Paar von Folgen {x1,m |m = 0, Δ, 2Δ, ..., NXΔ} und {x2,m |m = 0, Δ, 2Δ, ..., NXΔ} führt, sowie gemäß
    Figure 00240001
    zu einer Folge von Amplituden {am |m = 0, Δ, 2Δ, ..., NXΔ}, deren relative Varianz kleiner ist als Eins und vorzugsweise verschwindet. Das reellwertige Bandpassfilter Paar mit der fundamentalen Filtermittenfrequenz FD kann hierbei auch dem Real- und Imaginärteil eines entsprechend gewählten, komplexwertigen Bandpassfilters entsprechen. Die rein harmonische Folge von Werten {Sm |m = ..., 0, 1, 2, ...} mit der Frequenz FD bezeichnet eine beliebige Linearkombination der beiden Folgen {cos(2πmFD/FS)|m = ..., 0, 1, 2, ...} und {sin(2πmFD/FS)|m = ..., 0, 1, 2, ...} Beispiele geeigneter Bandpassfilterpaare werden erhalten, indem ein linearer Bandpassfilter mit endlicher oder auch unendlicher Impulsantwort entweder mit der Hilberttransformierten des gefilterten Signals oder mit dem um die bevorzugte, ganzzahlige Indexschrittweite Δ ≥ 2 verzögerten gefilterten Signal kombiniert wird. Eine weitere vorteilhafte Ausgestaltung des besagten Filterpaares kann mithilfe der komplexwertigen Wavelet Transformation gemäß der Druckschrift Lachaux et al. (1999) gewonnen werden, bei dem ein komplexwertiger Bandpassfilter der Form
    Figure 00250001
    mit ωD = 2πFD/FS, der Bandbreite 1/σ und der Filterlänge 2T benutzt wird. Als geeignete Bandpassfilterpaare kommen auch Kombinationen von linearen Filtern und nichtlinearen Filtern in Frage, wie z.B. zwei lineare Filter mit einem zwischengeschalteten Gleichrichterschritt.
  • Die Anwendung des Bandpassfilter Paares mit der fundamentalen Filtermittenfrequenz FD auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} führt zu einem Paar von bandbegrenzten {D1,m |m = 0, Δ, 2Δ, ..., NXΔ} und {D2,m |m = 0, Δ, 2Δ, ..., NXΔ}, welches gemäß
    Figure 00250002
    zur Bestimmung einer Folge von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} und gemäß ψ = arctan 2(D1,nΔ, D2,nΔ) zur Bestimmung einer Folge von Treiberphasen {ψ |n = 0, 1, 2, ..., NX} benutz wird, wobei hierbei die bivariate Funktion arctan2(x,y) den Wertebereich der monovariaten Funktion arctan(y/x) von π auf 2π erweitert.
  • Durch Anwendung eines optional komplexwertigen Bandpassfilters mit der Filtermittenfrequenz FX, die eingangs vorzugsweise als FX = hXFD gewählt wird, werden aus dem Sprachsignal {Sm |m = ..., 0, 1, 2, ...} Werte X eines Unterbandes {X |n = 0, 1, 2, ..., NX} erzeugt. Die Bandbreite des besagten Bandpassfilters wird vorteilhafterweise in Annäherung an eine aus der Psychoakustik bekannte Gehörangepasste Bandbreite gewählt, wie sie z.B. mit Hilfe des ERB (equivalent rectangular bandwidth) Modell beschrieben wird. In einer für die Sprachkodierung vorteilhaften Ausgestaltung wird der Bandpassfilter mit der Filtermittenfrequenz FX als Bestandteil einer linearen Filterbank gewählt, wobei hierbei eine Gammatone Filterbank (Hohmann 2002) vorteilhaft ist.
  • Es wird eine Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} aufgestellt mit einer Kopplungsfunktion, die u.A. von einer Treiberphase der Folge {ψ |n = 0, 1, 2, ..., NX} und von mindestens einer Treiberamplitude der Folge {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} abhängt, wobei die Kopplungsfunktion bezüglich der Treiberphase eine Periode aufweist. Vorzugsweise wird die Bewegungsgleichung in der Form X(n+1)Δ = LX(X, X(n–1)Δ, ...) + AX(r, r(n–1)Δ, ..., X, X(n–1)Δ)GX)gewählt, wobei die von mindestens einem Wert des Unterbandes abhängende, optional komplexwertige Funktion LX(X, X(n–1)Δ, ...) eine stetige, vorzugsweise lineare Funktion darstellt, die Anregungsamplitude AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) eine stetige, nichtnegativ reelle Funktion mindestens einer Treiberamplitude und optional bis zu zwei Unterband Werten darstellt und die stetige und glatte, optional komplexwertige Treiberphasen abhängige Anregungsfunktion GX(ψ) die Periode 2πpX aufweist mit der natürlichen Zahl pX ≥ 1. Die stetige und glatte, periodische Anregungsfunktion kann vorteilhafterweise durch eine endliche Fourierreihe approximiert werden, die sich in die Form
    Figure 00270001
    bringen lässt, bzw. als komplexwertige analytische Ergänzung dieser Funktion dargestellt werden. Eine vorteilhafte Ausgestaltung des Verfahrens wird erreicht, indem die von mindestens einem Wert des Unterbandes abhängende, optional komplexwertige Funktion LX(X, X(n–1)Δ, ...) als lineare Funktion LX(X, X(n–1)Δ, ...) = –αX,1X – αX,2X(n–1)Δ und die Anregungsamplitude AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) als lineare Funktion AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) = r gewählt wird. Die explizite Bewegungsgleichung nimmt dann die besonders einfache Form X(n+1)Δ = –αX,1X – αX,2X(n–1)Δ + rGX) an.
  • Die Parameter der Bewegungsgleichung des Unterbandes {X |n = 0, 1, 2, ..., NX} werden durch Anpassung der Bewegungsgleichung an die werte des Unterbandes {X |n = 0, 1, 2, ..., NX} an die Treiberphasen {ψ |n = 0, 1, 2, ..., NX} und an die Treiberamplituden {r |n = 0, 1, 2, ..., NX} bestimmt.
  • In einer vorteilhaften Ausgestaltung werden die Parameter der Treiberphasenabhängigen Anregungsfunktion GX) sowie optional Parameter der Funktionen LX(X, X(n–1)Δ, ...) und AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) durch Anpassung der Bewegungsgleichung an die Werte des Unterbandes {X |n = 0, 1, 2, ..., NX} an die Treiberphasen {ψ |n = 0, 1, 2, ..., NX} und an die Treiberamplituden {r |n = 0, 1, 2, ..., NX} bestimmt. Die Anpassung erfolgt hierbei besonders einfach durch Minimierung der Summe der Betragsquadrate der Residuen Rn mit Rn = X(n+1)Δ – LX(X, X(n–1)Δ, ...) – AX(r, r(n–1)Δ, ..., X, X(n–1)Δ)GX) oder mittels eines probabilistischen Schätzverfahrens zur Anpassung der Parameter (wie z.B. maximum likelihood Verfahren oder Bayessche Schätzverfahren, einschließlich geeigneter Näherungen), bei dem die Residuen Rn oder optional die normierten Residuen RnX(r, ψ, X, X(n–1)Δ) als lineare, vorzugsweise gaußverteilte Zufallsprozesse mit endlicher Impulsantwort beschrieben werden, wobei die positiv reelle Funktion σX(r, ψ, X, X(n–1)Δ) eine optionale Zustandsabhängigkeit der Standardabweichung der Residuen beschreibt.
  • In einer vorteilhaften Ausgestaltung wird die Zahl NX der für die Anpassung verwendeten Wertetripel X, ψ und r hinreichend groß gewählt, sodass eine angenäherte Kolinearität der bei der multiplen linearen Regression benutzten Basisvektoren vermieden wird. Als alternative Maßnahme zur Vermeidung der Kolinearität können die Parameter der Funktion LX(X, X(n–1)Δ, ...) auch anhand des folgenden Anpassungskriteriums bestimmt werden.
  • Die Anpassung der Filtermittenfrequenz FX und/oder anderer Parameter der Bewegungsgleichung des Unterbandes {X |n = 0, 1, 2, ..., NX} an das Sprachsignal erfolgt mit Hilfe eines Zielkriteriums, das bei mindestens einem Anpassungsschritt einen Abstand von Treiberphasen abhängigen Anregungsfunktion GX) zu den rein harmonischen Funktionen mit der bandspezifischen Windungszahl hX verkleinert, wobei ein Abstand einer periodischen Funktion zu den rein harmonischen Funktionen mit der Windungszahl w eine Abbildung von periodischen Funktionen auf eine nicht-negative reelle Zahl darstellt, die für rein harmonische Funktionen mit der Windungszahl w minimal wird. Rein harmonische Funktionen mit der Windungszahl w werden durch beliebige Linearkombination der beiden Funktionen cos(wψ) und sin(wψ) erhalten.
  • In einer vorteilhaften Ausgestaltung erfolgt die Anpassung der Filtermittenfrequenz FX und/oder anderer Parameter der Funktionen LX(X, X(n–1)Δ, ...) und AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) an das Sprachsignal mit Hilfe eines Zielkriteriums, das bei mindestens einem Anpassungsschritt einen Abstand der von Treiberphasen abhängigen Anregungsfunktion GX(ψ) zu den rein harmonischen Funktionen mit der bandspezifischen Windungszahl hX verkleinert. Eine vorteilhafte Ausgestaltung des Verfahrens wird mit einer Zielfunktion erreicht, die als Unterband spezifischer (mittlerer) Abstand von Index k zum Produkt der bandspezifischen Windungszahl hX mit der Periodenzahl pX gemäß
    Figure 00300001
    gewählt wird, wobei die Fourieramplituden {dX,k |k = 0, 1, ..., K} sich auf die endliche Fourierapproximation
    Figure 00300002
    der periodischen Funktion GX(ψ) mit KX ≥ pX beziehen, und bei dem das Zielkriterium eine Minimierung der Zielfunktion beschreibt.

Claims (50)

  1. Verfahren zur Sprachanalyse, wobei Sprachsignale erfasst werden und wobei durch Anwendung eines Bandpassfilters ein Unterband erzeugt wird, gekennzeichnet durch folgende Schritte: – Es werden Werte {Sm |m = ..., 0, 1, 2, ...} eines Sprachsignals ermittelt. – Eine ganzzahlige Indexschrittweite Δ ≥ 2 sowie eine natürliche Zahl NX ≥ 6 werden gewählt. – Unter Verwendung des Sprachsignals {Sm |m = ..., 0, 1, 2, ...} werden Folgen von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} und Treiberphasen {ψ |n = 0, 1, 2, ..., NX} erzeugt. – Durch Anwendung eines reell- oder komplexwertigen Bandpassfilters mit der Filtermittenfrequenz FX auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} werden Werte X eines Unterbandes {X |n = 0, 1, 2, ..., NX} erzeugt. – Es wird eine Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} aufgestellt mit einer Kopplungsfunktion, die von einer Treiberphase der Folge {ψ |n = 0, 1, 2, ..., NX} und von mindestens einer Treiberamplitude der Folge {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} abhängt, wobei die Kopplungsfunktion bezüglich der besagten Treiberphase eine Periode aufweist und wobei die besagte Bewegungsgleichung mindestens einen Parameter enthält. – Mindestens ein Parameter der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} wird durch Anpassung der besagten Bewegungsgleichung an die Werte des Unterbandes {X |n = 0, 1, 2, ..., NX}, an Treiberphasen {ψ |n = 0, 1, 2, ..., NX} und an Treiberamplituden {r |n = 0, 1, 2, ..., NX} bestimmt.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine fundamentale Filtermittenfrequenz FD bestimmt wird und dass ein Bandpassfilter-Paar mit der fundamentalen Filtermittenfrequenz FD gewählt wird, das bei Anwendung auf eine rein harmonische Folge von Werten {sm |m = ..., 0, 1, 2, ...} mit der Frequenz FD zu einem Paar von Folgen {x1,m|m = 0, Δ, 2Δ, ..., NXΔ} und {x2,m|m = 0, Δ, 2Δ, ..., NXΔ} führt, sowie gemäß
    Figure 00330001
    zu einer Folge von Amplituden {am |m = 0, Δ, 2Δ, ..., NXΔ} deren relative Varianz kleiner ist als Eins und da durch Anwendung des Bandpassfilter-Paares mit der fundamentalen Filtermittenfrequenz FD auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} ein Paar von bandbegrenzten Signalen, {D1,m|m = 0, Δ, 2Δ, ..., NXΔ} und {D2,m|m = 0, Δ, 2Δ, ..., NXΔ} und gemäß
    Figure 00330002
    zur Bestimmung der Folge von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} und gemäß ψ = arctan 2(D1,nΔ, D2,nΔ) zur ermittelt Bestimmung der Folge der Treiberphasen {ψ |n = 0, 1, 2, ..., NX} benutzt wird.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass zusätzliche Werte {Vm |m = ..., 0, 1, 2, ...} eines oszillierenden Signals ermittelt werden und dass durch Anwendung des Bandpassfilter-Paares mit der fundamentalen Filtermittenfrequenz FD auf das oszillierende Signal die Folgen von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} und Treiberphasen {ψ |n = 0, 1, 2, ..., NX} erzeugt werden.
  4. Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass das Bandpassfilter-Paar mit der fundamentalen Filtermittenfrequenz FD von dieser Filtermittenfrequenz unabhängige, relative Bandbreiten aufweist, die etwa eine Oktave betragen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die ganzzahlige Indexschrittweite Δ ≥ 2 den reellen Wert FS/(4hXFD) approximiert, d. h. ein Viertel der bandspezifischen Periodenlänge 1/(hXFD) in Einheiten der Zeitschrittweite 1/FS, wobei FS die Samplingrate und FD die fundamentale Filtermittenfrequenz des zweiten Anspruchs darstellt.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Anpassung eines oder mehrerer Parameter der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} durch Minimierung der Summe der Betragsquadrate der Fehler bzw. Residuen der Bewegungsgleichung erfolgt oder mittels eines probabilistischen Schätzverfahrens zur Anpassung von Parametern, bei dem die Residuen Rn und/oder normierte Residuen als lineare, gauß-verteilte Zufallsprozesse mit endlicher Impulsantwort beschrieben werden, wobei die Normierung eine optionale Zustandsabhängigkeit der Standardabweichung der Residuen berücksichtigt.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} in der Form X(n+1)Δ = LX(X, X(n–1)Δ, ...) + AX(r, r(n–1)Δ, ..., X, X(n–1)Δ)GX)aufgestellt wird, wobei die von mindestens einem Wert des Unterbandes abhängende, reel- oder komplexwertige Funktion LX(X, X(n–1)Δ, ...) eine stetige, lineare Funktion darstellt, und wobei die Anregungsamplitude AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) eine stetige, nichtnegativ reelle Funktion von mindestens einer Treiberamplitude und optional von bis zu zwei Unterbandwerten darstellt und die stetige und glatte, reell- oder komplexwertige, treiberphasenabhängige Anregungsfunktion GX) die Periode 2πpX aufweist mit der natürlichen Zahl pX ≥ 1.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Parameter der Anregungsfunktion GX) und/oder Parameter der Funktionen LX(X, X(n–1)Δ, ...) und/oder AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) der Bewegungsgleichung durch Minimierung der Summe der Betragsquadrate der Residuen Rn mit Rn = X(n+1)Δ – LX(X, X(n–1)Δ, ...) – AX(r, r(n–1)Δ, ..., X, X(n–1)Δ)GX) bestimmt werden und/oder dass eine Bestimmung mittels eines probabilistischen Schätzverfahrens zur Anpassung der Parameter erfolgt, bei dem die Residuen Rn oder optional die normierten Residuen RnX(r, ψ, X, X(n–1)Δ) als lineare, gaußverteilte Zufallsprozesse mit endlicher Impulsantwort beschrieben werden, wobei die positiv reelle Funktion σX(r, ψ, X, X(n–1)Δ) eine optionale Zustandsabhängigkeit der Standardabweichung der Residuen beschreibt.
  9. Verfahren nach dem Anspruch 8, dadurch gekennzeichnet, dass die Anpassung der Filtermittenfrequenz FX und/oder anderer Parameter der Funktionen LX(X, X(n–1)Δ, ...) und/oder AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) an das Sprachsignal mit Hilfe eines Zielkriteriums erfolgt, das bei mindestens einem Anpassungsschritt einen Abstand der Treiberphasen abhängigen Anregungsfunktion GX) zu den rein harmonischen Funktionen mit der bandspezifischen Windungszahl hX mit hX ≥ 1 verkleinert.
  10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Anpassung der Filtermittenfrequenz FX und/oder anderer Parameter der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} an das Sprachsignal mit Hilfe eines Zielkriteriums erfolgt, das bei mindestens einem Anpassungsschritt einen Abstand der Kopplungsfunktion des Hauptanspruchs zu den rein harmonischen Funktionen mit der bandspezifischen Windungszahl hX mit hX ≥ 1 verkleinert.
  11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Abstand einer periodischen Funktion zu den rein harmonischen Funktionen mit einer Windungszahl w als eine Abbildung von periodischen Funktionen auf eine nicht-negative reelle Zahl gewählt wird, die für rein harmonische Funktionen mit der Windungszahl w minimal wird.
  12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine zielgerechte Windungszahl hY, mit hY > hX, eine ganzzahlige Indexschrittweite Γ mit 1 ≤ Γ ≤ Δ und Γ ≈ FS/(4hYFD) sowie eine natürliche Zahl NY, mit NY ≥ NX gewählt werden und potentiell weitere Treiberamplituden {r |n = 0, 1, 2, ..., NY} mit {r ≥ 0 |n = 0, 1, 2, ..., NY} und Treiberphasen {ψ |n = 0, 1, 2, ..., NY} gebildet werden.
  13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass durch einen reell- oder komplexwertigen Bandpassfilter mit einer Filtermittenfrequenz FY mit FY > FX auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} Werte Y eines Unterbandes {Y |n = 0, 1, 2, ..., NY} erzeugt werden.
  14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass eine weitere Bewegungsgleichung für das Unterband {Y |n = 0, 1, 2, ..., NY} aufgestellt wird mit einer Kopplungsfunktion, die von einer Treiberphase der Folge {ψ |n = 0, 1, 2, ..., NY} und von mindestens einer Treiberamplitude der Folge {r |n = 0, 1, 2, ..., NY} mit {r ≥ 0 |n = 0, 1, 2, ..., NY} abhängt und bezüglich der Treiberphase eine Periode aufweist.
  15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass mindestens ein Parameter der Bewegungsgleichung für das Unterband {Y |n = 0, 1, 2, ..., NY} durch Anpassung der Bewegungsgleichung an die Werte des Unterbandes {Y |n = 0, 1, 2, ..., NY} an die Treiberphasen {ψ |n = 0, 1, 2, ..., NY} und an die Treiberamplituden {r |n = 0, 1, 2, ..., NY} bestimmt wird.
  16. Verfahren nach einem der Ansprüche 2 bis 15, dadurch gekennzeichnet, dass eine Anpassung der fundamentalen Filtermittenfrequenz FD an das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} mit Hilfe einer Zielfunktion erfolgt, die sowohl Parameter der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} als auch Parameter der Bewegungsgleichung für das weitere Unterband {Y |n = 0, 1, 2, ..., NY} enthält.
  17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass bei der Anpassung der fundamentalen Filtermittenfrequenz FD bei mindestens einem Anpassungsschritt mindestens eine der beiden Abstände der von der Treiberphase ψ abhängenden Anregungsfunktionen Gx(ψ) und Gx(ψ) zu den rein harmonischen Funktionen mit der jeweils bandspezifischen Windungszahl hx oder hy verkleinert wird.
  18. Verfahren nach einem der Ansprüche 2 bis 17, dadurch gekennzeichnet, dass die Filtermittenfrequenz FX als ganzzahliges Vielfaches der fundamentalen Filtermittenfrequenz FD gewählt wird, wobei das Frequenzverhältnis der bandspezifischen Windungszahl hX entspricht, d.h. FX = hXFD.
  19. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kopplungsfunktion bezüglich der Treiberphase die Periode 2πpX mit der natürlichen Zahl pX ≥ 1 aufweist und durch eine endliche Fourierreihe approximiert wird, die sich in der Form
    Figure 00480001
    mit KX ≥ pX darstellen lässt.
  20. Verfahren nach einem der Ansprüche 2 bis 19, bei dem eine Anregungsfunktion GX(ψ) eine Periode 2πpX mit der natürlichen Zahl pX ≥ 1 aufweist und durch eine endliche Fourierreihe approximiert wird.
  21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass die Anregungsfunktion GX(ψ) durch eine endliche Fourierreihe approximiert wird die in der Form
    Figure 00480002
    mit KX ≥ pX dargestellt werden kann und/oder durch eine komplexwertige analytische Ergänzung dieser Funktion approximiert wird, wobei in beiden Fällen die Treiberphase ψ der stetig fortgesetzten (abgewickelten) Form verwendet wird.
  22. Verfahren nach Anspruch 21, bei dem eine stetige und glatte, 2πpX periodische, Anregungsfunktion GX(ψ) dazu benutzt wird, eine 2πpX periodische Anregungsphasenfunktion αX(ψ) gemäß
    Figure 00490001
    zu bilden, wobei Fourieramplituden {dX,k |k = 0, 1, ..., KX} sich auf die endliche Fourierreihe der Approximation der Anregungsfunktion GX(ψ) beziehen.
  23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass die 2πpX periodische Anregungsphasenfunktion αX(ψ) dazu benutzt wird um eine Windungszahl wA,X der Anregungsphasenfunktion zu bilden und wobei die Windungszahl wA,X die Zahl der Zyklen zählt, die αX(ψ) durchläuft, wenn ψ den Zyklus 0 ≤ ψ ≤ 2πpX durchläuft.
  24. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Abstand einer 2πpX periodischen Funktion G(ψ) zu den rein harmonischen Funktionen mit der Windungszahl w als mittlerer Abstand von Index k zum Produkt der Windungszahl w mit der Periodenzahl p gemäß
    Figure 00500001
    gewählt wird, wobei die Fourieramplituden {dk |k = 0, 1, ..., K} sich auf die endliche Fourierapproximation
    Figure 00500002
    der periodischen Funktion G(ψ) mit K ≥ p beziehen.
  25. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Negativität der Lyapunov Exponenten der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} dazu benutzt wird, um die für Stimmhaftigkeit geltenden Stabilitätskriterien auszuwerten.
  26. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Resonatoreigenschaften des Unterbandes, die die Resonatorgüte Qx (Dämpfungszeitkonstante in Einheiten der Periodenlänge) oder die Eigenfrequenz vx (Frequenz des autonomen Responseoszillators) bestimmt werden.
  27. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Anregungsamplitude AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) als linear homogene Funktion AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) = r γ(X2 + X2 (n–1)Δ)(γ–1)/2 gewählt wird mit 0 < γ ≤ 1.
  28. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine von mindestens einem Wert des Unterbandes {X |n = 0, 1, 2, ...} abhängende, reell- oder komplexwertige Funktion LX(X, X(n–1)Δ, ...) und eine nichtnegativ reelle Anregungsamplitude AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) als lineare Funktionen gemäß LX(X, X(n–1)Δ, ...) = –αX,1X – αX,2X(n–1)Δ und AX(r, r(n–1)Δ, ..., X, X(n–1)Δ) = r gewählt werden.
  29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass die Stimmhaftigkeit des Sprachsignals anhand der Stabilitätskriterien, 0 < αX,2 < 1 und α2 X,1 < 025αX,2, identifiziert wird.
  30. Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass die Resonatoreigenschaften des Unterbandes wie die Resonatorgüte
    Figure 00510001
    und die Eigenfrequenz
    Figure 00510002
    bestimmt werden.
  31. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Bandbreite ΔFX des Bandpassfilters für das Unterband {X |n = 0, 1, 2, ..., NX} mit der Filtermittenfrequenz FX in Annäherung an eine aus der Psychoakustik bekannte, Gehör angepasste Bandbreite gewählt wird, wie sie z.B. mit Hilfe des ERB (equivalent rectangular bandwidth) Modells beschrieben wird.
  32. Verfahren nach einem der Ansprüche 9 bis 31, dadurch gekennzeichnet, dass die bandspezifische Windungszahl hY größer als hX(1 + 0.5ΔFX/FX) gewählt wird, wobei hX die bandspezifische Windungszahl des Anspruchs 9 darstellt.
  33. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Bandbreite ΔFX des Bandpassfilters für das Unterband {X |n = 0, 1, 2, ..., NX} mit der Filtermittenfrequenz FX so gewählt wird, dass die Unterbandzerlegung {X |n = 0, 1, 2, ..., NX}, {Y |n = 0, 1, 2, ..., NY} ... das Sprachsignal exakt oder angenähert rekonstruiert.
  34. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX}, eine Folge von Treiberphasen {ψ ∼ |n = 0, 1, 2, ...} sowie eine Folge von Treiberamplituden {r ∼ |n = 0, 1, 2, ...} zur Erzeugung einer Rekonstruktion {X ∼ |n = 0, 1, 2, ...} genutzt werden.
  35. Verfahren nach einem der vorhergehenden Ansprüche, bei dem invariante Mannigfaltigkeiten im gemeinsamen Zustandsraum der Unterbanddynamik des Sprachsignals bestimmt werden.
  36. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Folge von Treiberphasen {ψ |n = 0, 1, 2, ..., NX} eine Folge von Treiberamplituden {r |n = 0, 1, 2, ..., NX} sowie ein Unterband {X |n = 0, 1, 2, ..., NX} dazu benutzt werden, um eine invariante Response-Mannigfaltigkeit der Form X = BX(r, X, X(n–1)Δ)MX)anzupassen, wobei die Responseamplitude BX(r, X, X(n–1)Δ) eine nichtnegative, reelle Funktion der Treiberamplitude r und optional des Unterbandwerte Paares X, X(n–1)Δ darstellt und die optional komplexwertige Treiberphasen abhängige Responsefunktion MX(ψ) mit der Periode 2πqX durch eine endliche Fourierreihe approximiert wird, die sich in die Form
    Figure 00540001
    mit UX ≥ qX bringen lässt oder als komplexwertige, analytische Ergänzung dieser Funktion darstellen lässt, wobei qX eine natürliche Zahl mit vorzugsweise qX ≥ pX bezeichnet und wobei die Treiberphase ψ während jeweils qX Zyklen stetig fortgesetzt (abgewickelt) wird.
  37. Verfahren nach Anspruch 36, dadurch gekennzeichnet, dass die Anpassung der Invarianten Response-Mannigfaltigkeit an die Folge von Treiberphasen {ψ |n = 0, 1, 2, ..., NX}, die Folge von Treiberamplituden {r |n = 0, 1, 2, ..., NX} sowie das Unterband {X |n = 0, 1, 2, ..., NX} durch Minimierung der Summe der Betragsquadrate der Residuen Un mit Un = X – BX(r, X, X(n–1)Δ)MX) erfolgt oder mittels eines probabilistischen Schätzverfahrens (wie maximum likelihood Verfahren oder Bayesscher Schätzverfahren, einschließlich geeigneter Näherungen), bei dem die Residuen Un oder optional die normierten Residuen UnX(r, ψ, X, X(n–1)Δ) als stationäre Zufallszahlen angenommen werden, wobei die positiv reelle Funktion ΣX(r, ψ, X, X(n–1)Δ) eine optionale Zustandsabhängigkeit der Standardabweichung der Residuen Un beschreibt.
  38. Verfahren nach Anspruch 36 oder 37, bei dem die 2πqX periodische Treiberphasen abhängige Responsefunktion MX(ψ) dazu benutzt wird, eine 2πqX periodische Responsephasenfunktion φX(ψ) gemäß
    Figure 00550001
    zu bilden.
  39. Verfahren nach Anspruch 38, dadurch gekennzeichnet, dass eine Windungszahl wR,X gebildet wird, die die Zahl der Zyklen zählt, die φX(ψ) durchläuft, wenn ψ den Zyklus 0 ≤ ψ ≤ 2πqX durchläuft.
  40. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Eigenschaften der Invarianten Mannigfaltigkeiten der vorhergehenden Ansprüche zur Analyse der Koordination der Unterbanddynamik des Sprachsignals benutzt werden.
  41. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Eigenschaften der Bewegungsgleichung des Unterbandes {X |n = 0, 1, 2, ..., NX} wie die Resonatorgüte QX und die Eigenfrequenz vX der Ansprüche 26 oder 30 und/oder der Abstand der Treiberphasen abhängigen Anregungsfunktion GX(ψ) zu den rein harmonischen Funktionen mit der bandspezifischen Windungszahl hX der Ansprüche 11 oder 24 als Merkmale zur Phonem Klassifizierung bzw. Phonem Erkennung benutzt werden.
  42. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Unterband spezifische Maße des Koordinationsverlustes auf dem Weg von der Anregung zum Response wie die Differenz der Windungszahl wR,X der 2πqX periodischen Responsephasenfunktion φX(ψ) zur Windungszahl wA,X der 2πqX periodischen Anregungsphasenfunktion αX(ψ) oder ein Maß für die Abweichung vom linearen funktionalen Zusammenhang zwischen (abgewickelten) Responsephasen φXm) und den zeitgleichen (abgewickelten) Anregungsphasen αXm) oder die Zunahme des Abstands der Treiberphasen abhängigen Responsefunktion MX(ψ) zu den rein harmonischen Funktionen mit der bandspezifischen Windungszahl hX gegenüber dem entsprechenden Abstand der Anregungsfunktion GX(ψ) als Merkmale zur Phonem Klassifizierung bzw. Phonem Erkennung benutzt werden, wobei die besagten Abstände entsprechend Anspruch 11 oder 24 bestimmt werden.
  43. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Eigenschaften der Treiberphasen spezifischen Verteilung der normierten Betragsquadrate der Residuen Un der Response-Mannigfaltigkeit des Anspruchs 37 als Merkmale zur Phonem Klassifizierung bzw. Phonem Erkennung benutzt werden, wobei sich die Normierung auf die Varianz der Residuen Rn der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} bezieht.
  44. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Eigenschaften der Kopplungsfunktion des Hauptanspruchs wie die Periodenlänge 2πqX oder die Abweichung der Windungszahl wA,X der 2πqX periodischen Anregungsphasenfunktion αX(ψ) des Anspruchs 22 von der bandspezifischen Windungszahl hX und/oder Eigenschaften der Treiberphasen abhängigen Responsefunktion MX(ψ) des Anspruchs 36 wie die Periode qX oder die Windungszahl wR,X der Responsephasenfunktion φX(ψ) des Anspruchs 39 als Merkmale zur Erkennung von Sprechern benutzt werden.
  45. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Differenz zwischen zwei stetig fortgesetzen Treiber-Phasen ψ des Hauptanspruchs zur Bestimmung der momentanen Tonhöhe fn verwandt wird.
  46. Verfahren nach Anspruch 45, dadurch gekennzeichnet, dass die momentane Tonhöhe als
    Figure 00620001
    bestimmt wird, wobei h bzw. Δ die bandspezifische Windungszahl hX bzw. die Indexschrittweite Δ des Hauptanspruchs bezeichnen.
  47. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die mittleren Differenzen zwischen zwei jeweils gleichzeitig und gleichartig bestimmten Anregungsphasenfunktionen mehrerer Unterbänder zweier gleichartig ermittelter Sprachsignale zur Bestimmung einer eindeutigen Zeitverschiebung zwischen den zwei gleichartig ermittelten Sprachsignalen benutzt wird.
  48. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Folgen von Treiberphasen {ψ |n = 0, 1, 2, ..., NX} und Unterband Werten {X |n = 0, 1, 2, ..., NX} des Hauptanspruchs dazu benutzt werden, um ein algorithmisches oder visuelles Modell der subjektiv wahrnehmbaren Sprachqualität zu erzeugen.
  49. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Residuen Rn der Bewegungsgleichung des Unterbandes {X |n = 0, 1, 2, ..., NX} mit Parametern der Funktionen LX(X, X(n–1)Δ, ...), AX(r, X, X(n–1)Δ) und GX) des Anspruchs 7 gebildet werden, die teilweise oder vollständig mit Hilfe einer Anpassung an ein Referenzsignal gewonnen werden, und/oder die Residuen Un der Invarianten Mannigfaltigkeit des Anspruchs 36 mit Parametern der Funktionen BX(r, X, X(n–1)Δ) und MX) gebildet werden, die teilweise oder vollständig mit Hilfe einer Anpassung an ein Referenzsignal gewonnen werden, und die jeweils betreffenden Residuen dazu benutzt werden, um ein objektives Maß für die subjektiv wahrnehmbare Abweichung eines Sprachsignals vom Referenzsignal zu bestimmen.
  50. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 2 bis 49 mit – einer Meßsonde zur Ermittlung von Werten {Sm |m = ..., 0, 1, 2, ...} eines Sprachsignals, – mit einem Computer, der so mit der Meßsonde verbunden ist, dass die Werte des Sprachsignals in dem Computer eingespeist werden, – mit einem in diesem Programm zur Steuerung des Computers, mit dem folgende Schritte durchführbar sind: – Es wird eine ganzzahlige Indexschrittweite Δ ≥ 2 sowie eine natürliche Zahl NX ≥ 6 gewählt. – Unter Verwendung des Sprachsignals {Sm |m = ..., 0, 1, 2, ...} werden Folgen von Treiberamplituden {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} und Treiberphasen {ψ |n = 0, 1, 2, ..., NX} erzeugt. – Durch Anwendung eines reell- oder komplexwertigen Bandpassfilters mit der Filtermittenfrequenz FX auf das Sprachsignal {Sm |m = ..., 0, 1, 2, ...} werden Werte X eines Unterbandes {X |n = 0, 1, 2, ..., NX} erzeugt. – Es wird eine Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} aufgestellt mit einer Kopplungsfunktion, die von einer Treiberphase der Folge {ψ |n = 0, 1, 2, ..., NX} und von mindestens einer Treiberamplitude der Folge {r |n = 0, 1, 2, ..., NX} mit {r ≥ 0 |n = 0, 1, 2, ..., NX} abhängt, wobei die Kopplungsfunktion bezüglich der besagten Treiberphase eine Periode aufweist und wobei die besagte Bewegungsgleichung mindestens einen Parameter enthält. – Mindestens ein Parameter der Bewegungsgleichung für das Unterband {X |n = 0, 1, 2, ..., NX} wird durch Anpassung der besagten Bewegungsgleichung an die Werte des Unterbandes {X |n = 0, 1, 2, ..., NX}, an Treiberphasen {ψ |n = 0, 1, 2, ..., NX} und an Treiberamplituden {r |n = 0, 1, 2, ..., NX} bestimmt.
DE2003111913 2003-03-17 2003-03-17 Verfahren und Vorrichtung zur Analyse von Sprachsignalen Expired - Fee Related DE10311913B3 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2003111913 DE10311913B3 (de) 2003-03-17 2003-03-17 Verfahren und Vorrichtung zur Analyse von Sprachsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003111913 DE10311913B3 (de) 2003-03-17 2003-03-17 Verfahren und Vorrichtung zur Analyse von Sprachsignalen

Publications (1)

Publication Number Publication Date
DE10311913B3 true DE10311913B3 (de) 2004-11-25

Family

ID=33393755

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003111913 Expired - Fee Related DE10311913B3 (de) 2003-03-17 2003-03-17 Verfahren und Vorrichtung zur Analyse von Sprachsignalen

Country Status (1)

Country Link
DE (1) DE10311913B3 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004046045B3 (de) * 2004-09-21 2005-12-29 Drepper, Friedhelm R., Dr. Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
DE69518674T2 (de) * 1994-01-28 2001-06-13 France Telecom Verfahren und Gerät zur Spracherkennung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
DE69518674T2 (de) * 1994-01-28 2001-06-13 France Telecom Verfahren und Gerät zur Spracherkennung

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Caroll, Phys. Rev. Lett. 64, 821 (1990), Pecora L.M. and T.L. *
Drepper F.R., Phys. Rev. E 62, 6376-6382, (2000) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004046045B3 (de) * 2004-09-21 2005-12-29 Drepper, Friedhelm R., Dr. Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Similar Documents

Publication Publication Date Title
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE3306730C2 (de)
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
Kleinschmidt Localized spectro-temporal features for automatic speech recognition.
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
WO2007073949A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1014340A2 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE10311913B3 (de) Verfahren und Vorrichtung zur Analyse von Sprachsignalen
DE102004046045B3 (de) Verfahren und Vorrichtung zur Analyse von instationären Sprachsignalen

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20111001