DE60033549T2 - Verfahren und vorrichtung zur signalanalyse - Google Patents

Verfahren und vorrichtung zur signalanalyse Download PDF

Info

Publication number
DE60033549T2
DE60033549T2 DE60033549T DE60033549T DE60033549T2 DE 60033549 T2 DE60033549 T2 DE 60033549T2 DE 60033549 T DE60033549 T DE 60033549T DE 60033549 T DE60033549 T DE 60033549T DE 60033549 T2 DE60033549 T2 DE 60033549T2
Authority
DE
Germany
Prior art keywords
signal
segment
time
signals
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60033549T
Other languages
English (en)
Other versions
DE60033549D1 (de
Inventor
Catharinus Tjeerd Catharinus ANDRINGA
Catharinus Hendrikus DUIFHUIS
Catharinus Pieter Willem VAN HENGEL
Catharinus Michael Gerardus HEEMSKERK
Catharinus Maartje Marjolein NILLESEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOUND INTELLIGENCE BV
Original Assignee
SOUND INTELLIGENCE BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOUND INTELLIGENCE BV filed Critical SOUND INTELLIGENCE BV
Publication of DE60033549D1 publication Critical patent/DE60033549D1/de
Application granted granted Critical
Publication of DE60033549T2 publication Critical patent/DE60033549T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R23/00Arrangements for measuring frequencies; Arrangements for analysing frequency spectra
    • G01R23/16Spectrum analysis; Fourier analysis
    • G01R23/175Spectrum analysis; Fourier analysis by delay means, e.g. tapped delay lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

  • Diese Erfindung betrifft eine Vorrichtung zum Berechnen von Frequenzkennlinien gemäß dem Oberbegriff von Anspruch 1. Des Weiteren betrifft die Erfindung eine Vorrichtung zum Ermitteln von Spitzen eines Signals gemäß dem Oberbegriff von Anspruch 12. Die Erfindung betrifft des Weiteren ein Signalerkennungssystem-, ein Datenkompressionssystem-, ein Datendekompressionssystem- und ein Signalverbesserungssystem-Gerät, das solche Vorrichtungen und Verfahren zum Ausführen von Funktionen der Vorrichtung enthält.
  • Vorrichtungen wie die oben beschriebenen kennt man aus dem Artikel "Using an Auditory Model and Leaky Autocorrelators to Tune In to Speech" von T. Andringa, veröffentlicht in ESCA Eurospeech 97, Rhodos, Griechenland, ISSN 1018-4074, Seiten 2859-2862. Aus diesem Andringa-Artikel von 1997 ist die Verwendung eines Hörmodells bekannt, das die Arbeitsprinzipien der Basilarmembran imitiert. Der Ausgang der Segmente des Modells dient als ein Eingang für einen Satz undichter Autokorrelatoren, die auf eine bestimmte feste Periodizität abgestimmt sind. Die Aktivität der reagierenden Autokorrelatoren als eine Funktion der Segmentanzahl ist dann ein direktes Maß für das Spektrum des zu detektierenden periodischen Signals.
  • Mit der in diesem zum Stand der Technik gehörenden Dokument beschriebenen Vorrichtung ist es möglich, ein Energiespektrum eines Signals zu rekonstruieren, dessen Grundperiode sowohl bekannt als auch konstant ist. Es besteht jedoch insofern ein Problem, als das bekannte Gerät keine korrekte und/oder optimale Rekonstruktion des Energiespektrums ausführt, wenn die Periode unbekannt ist, nicht konstant ist, oder beides. Die Aufgabe der Erfindung ist die Bereitstellung eines Gerätes, das eine korrekte Rekonstruktion des Signals ermöglicht, wenn die Periode des Tonsignals unbekannt ist und/oder nicht konstant ist.
  • Gemäß einem ersten Aspekt der Erfindung stellt die Erfindung zu diesem Zweck eine Vorrichtung gemäß Anspruch 1 und ein Verfahren gemäß Anspruch 27 bereit. Gemäß einem zweiten Aspekt der Erfindung stellt die Erfindung zu diesem Zweck eine Vorrichtung gemäß Anspruch 12 und ein Verfahren nach Anspruch 38 bereit.
  • Es ist anzumerken, dass aus H. Messner und Y. Bar-Ness, "Closed-loop autocorrelator and its application to frequency discrimination", IEE Proceedings, Abschnitt A-I, Band 133, Nr. 1, Februar 1986, ein Regelkreis-Autokorrelator bekannt ist. Der Autokorrelator hat eine Leitung mit variabler Laufzeit, und der Autokorrelatorausgang wird zum Steuern der Laufzeit rückgekoppelt.
  • In den abhängigen Ansprüchen sind besonders vorteilhafte Ausführungsformen der Erfindung dargelegt. Weitere Aufgaben, Ausführungsformen, Modifikationen, Auswirkungen und Details der Erfindung gehen aus der folgenden Beschreibung hervor, in der auf Figuren in der angehängten Zeichnung eingegangen wird.
  • 1.1 zeigt ein Schaubild der bekannten Basilarmembran.
  • 1.2 zeigt ein Blockschaubild des Gerätes gemäß der Erfindung.
  • 1.3 zeigt die Autokorrelationsfunktion, die in Bezug auf ein einzelnes Segment des Basilarmembranmodells ermittelt wird.
  • 1.4 zeigt das voraussichtliche Frequenzenergiespektrum, das mit Bezug auf alle Segmente des Basilarmembranmodells ermittelt wird.
  • 1.5 zeigt die Ergebnisse von 1.3 und 1.4 in einer zweidimensionalen Figur zusammengefasst.
  • 1.6 zeigt ein Blockschaubild eines ersten Beispiels des in 1.2 gezeigten Tiefpassfilters.
  • 1.7 zeigt ein Blockschaubild eines zweiten Beispiels des in 1.2 gezeigten Tiefpassfilters.
  • 1.8 zeigt ein Blockschaubild einer Erweiterung des zweiten Beispiels des in 1.7 gezeigten Tiefpassfilters.
  • 1.9 zeigt schaubildhaft ein Flussdiagramm eines beispielhaften Verfahrens gemäß der Erfindung.
  • 2.1 zeigt eine schematische Darstellung der abgewickelten Basilarmembran und einige beispielhafte Kurvendarstellungen der BM-Segment-Geschwindigkeit als Funktionen der Zeit.
  • 2.2 zeigt ein zweidimensionales Diagramm oder Cochleogramm der Bewegung von Segmenten des BM-Modells als eine Funktion der Zeit für das Wort "NUL".
  • 2.3 zeigt einen Querschnitt der Position des Balkens bei 175 ms in dem Cochleogramm von 2.2.
  • 2.4 zeigt ein Diagramm des Frequenzgangs des BM-Modells als eine Funktion der Segmentposition.
  • 2.5 zeigt ein Diagramm der Energie als eine Funktion der Segmentposition für Sinuswellen von unterschiedlichen Frequenzen.
  • 2.6 zeigt ein Diagramm einer Energieverteilung als eine Funktion der Segmentposition und eine Auswahl der harmonischen Näherung der Energieverteilung.
  • 2.7 zeigt ein Diagramm der abgestimmten Autokorrelation (AAK) für ein rauschfreies Signal und ein Signal mit hinzugefügtem Cocktailpartygeräusch.
  • 2.8 zeigt ein zeitnormiertes Korrelogramm, das von dem /U/ in /NUL/ abgeleitet ist.
  • 2.9 zeigt ein Diagramm von Kämmen, die aus einem Signal ermittelt wurden, mit und ohne Rauschen.
  • 2.10 zeigt ein Diagramm von Autokorrelationen einiger Kämme und die örtliche Frequenz, die anhand eines dieser Kämme errechnet wurde.
  • 2.11 zeigt ein Diagramm von Autokorrelationen gemäß Berechnung bei t = 250 ms ab /NUL/ in 2.9.
  • 2.12 zeigt Kurvendarstellungen von Augenblicksfrequenzen, die unter klaren und unter Rauschbedingungen berechnet wurden, als eine Funktion der Zeit.
  • 2.13 zeigt ein Cochleogramm und Kurvendarstellungen von Kämmen und Augenblicksfrequenzkonturen als eine Funktion der Zeit für die Sentenz /NUL EEN TWEE DRIE/.
  • 2.14 zeigt ein Diagramm von örtlichen Augenblicksperioden, des Kehrwertes der Augenblicksfrequenzkonturen von 2.13 und des Kurvenresultats eines Glättungsverfahrens, dem diese örtlichen Augenblicksperioden unterzogen wurden.
  • 2.15 zeigt ein Diagramm von Grundperiodenkonturhypothesen im Einklang mit den geglätteten Konturen von 2.14 und Grundperiodenkonturen, die anhand dieser Hypothesen ausgewählt wurden.
  • 2.16 zeigt ein Diagramm von Tonhöhenkonturen, die anhand der ausgewählten Konturen von 2.15 als eine Funktion der Zeit berechnet wurden.
  • 2.17 zeigt ein Diagramm des Resultats einer abgestimmten Autokorrelationsauswahl auf der Grundlage der berechneten Periodenkonturen von 2.16.
  • 2.18 zeigt einen Teil der zeitnormierten Korrelation (ZNK), von der die Autokorrelation von 2.10 abgeleitet ist.
  • 2.19 zeigt ein Diagramm der Regionen von 2.13, wo der AAK-Wert größer ist als ein Viertel der örtlichen Energie, und der von diesen Regionen abgeleiteten Maske.
  • 2.20 zeigt Kurvendarstellungen eines verrauschten Signals, eines klaren Signals und eines resynthetisierten Signals, das von dem verrauschten Signal abgeleitet ist.
  • 2.21 zeigt Kurvendarstellungen des verrauschten Signals von 2.20 in aufeinanderfolgenden Schritten des Rekonstruktionsprozesses.
  • 2.22 zeigt einen Querschnitt eines rekonstruierten Cochleogramms, das t = 275 ms in 2.21 entspricht.
  • 2.23 zeigt Cochleogrammdarstellungen der durch den Cepstralkoeffizienten dargestellten Informationen, die zur Erkennung verwendet werden.
  • 3.1 zeigt ein Diagramm der Auswahl von Spitzen in einem Spektrum anhand einer Spitzenschablone.
  • 3.2A-C zeigen Kurvendarstellungen der Ergebnisse von aufeinanderfolgenden Schritten der Spitzenauswahl.
  • 3.3A-G zeigen Kurvendarstellungen von Tonhöhenverteilungen für Eingangsfrequenzen: 175 Hz, 350 Hz, 525 Hz und 750 Hz.
  • 3.4A-G zeigen Kurvendarstellungen von Tonhöhenverteilungen für Eingangsfrequenzen: 250 Hz, 375 Hz, 500 Hz und 750 Hz.
  • 3.5A-B zeigen eine Matrix und Reihen, die für die Kombination von Eingangsfrequenzen von 3.3 ausgewählt wurden, und die resultierende Endverteilung.
  • 3.6 zeigt schaubildhaft ein Flussdiagramm von aufeinanderfolgenden Schritten eines allgemeinen Tonhöhenberechnungsverfahrens.
  • 3.7A-B zeigen Kurvendarstellungen einer Autokorrelation und einer summierten Autokorrelation.
  • Im Folgenden wird die Erfindung anhand der Erkennung von Sprache in einem Signal beschrieben. Obgleich die Erfindung vorteilhaft auf dem Gebiet der Spracherkennung Anwendung finden kann, betrifft die Erfindung die Signalverarbeitung im Allgemeinen und ist in keiner Weise auf die Verarbeitung von Tonsignalen oder Sprache enthaltenden Signalen beschränkt. Obgleich die aufeinanderfolgenden Schritte des Verfahrens in Wechselwirkung miteinander beschrieben sind, können die Schritte des Weiteren auch in unterschiedlichen Verfahren angewendet werden, wie weiter unten noch erläutert wird.
  • In dieser Anmeldung ist ein Hör-Ereignis als eine Darstellung definiert, die idealerweise alle errechenbaren oder ermittelbaren Informationen einer einzelnen Quelle darstellt. Für viele Signalverarbeitungsverfahren und – geräte ist es wichtig, sich einer solchen Darstellung so dicht wie möglich anzunähern.
  • Die meisten der bekannten (Sprach-) Signalverarbeitungsverfahren, die sich einer solchen Darstellung zu nähern beabsichtigen, basieren auf einer quasi-stationären Annahme. Das bedeutet, dass bestimmte Aspekte des Signals, wie Amplitude und Frequenzgehalt, als von einem Prozess stammend modelliert werden können, von dem man annehmen kann, dass er über kurze Perioden konstant ist (für Sprache wird in der Regel ein Wert von etwa 10 ms gewählt). Der Grund für diese Annahme ist, dass Signale, d. h. Sprache, durch ein physikalisches System erzeugt werden, das sich nicht unendlich schnell ändern kann.
  • Dies ist eine sehr sinnvolle Annahme, von der in dieser Anmeldung umfassend Gebrauch gemacht wird. Jedoch gilt die Annahme ausschließlich für das Signal einer einzelnen Quelle. Wenn ein Signal durch zwei Quellen erzeugt wird, so ändert es sich schneller, und gewiss anders, als von einer einzelnen Quelle erwartet werden kann. Folglich kann eine Form von Quasi-Stationärheit, die für eine einzelne Quelle Gültigkeit hat, nicht auf Mischungen von Quellen angewendet werden. In einer willkürlichen, unbekannten Umgebung ist die Situation noch schlimmer, da Signalanteile vorhanden sein können, für die Quasi-Stationärheit niemals eine brauchbare Annäherung ist. Wenn trotzdem Quasi-Stationärheit angewendet wird, so verschlechtern die hervorgerufenen Annäherungsfehler das kombinierte Signal irreparabel und verringern daher die Wahrscheinlichkeit des Erreichens einer korrekten Beschreibung des Signals und/oder eines korrekten Erkennungsergebnisses.
  • Quasi-Stationärheit implementiert man häufig mittels Blockbildung des Signals zu Frames und der Annahme, dass die Sequenz aufeinanderfolgender Frames eine hinreichend adäquate Beschreibung des Frequenzgehalts der Signale im zeitlichen Verlauf ergibt. Da sich die Breite des Frames (oder die effektive Breite eines Fensters) umgekehrt proportional zur Frequenzauflösung verhält, wird ein Kompromiss zwischen zeitlicher und Frequenzauflösung erreicht. Signale, bei denen Frequenzdetails und zeitliche Details gleichermaßen wichtig sind, können in einer Frame-basierten Verfahrensweise nicht optimal verarbeitet werden. Ein Hauptproblem ist die Kombination von Informationen im zeitlichen Verlauf. Die Verwendung von Frames erzeugt Unstetigkeiten, die es erschweren, die Stetigkeit von zugrundeliegenden Signalkomponenten zu ermitteln. Dies wiederum macht es schwieriger, Signalinformationen von einer einzelnen Quelle einer einzelnen Darstellung zuzuordnen. Die Verwendung von nicht-rechteckigen Fenstern und einer Verwerfungsphase (die zeitlichen Informationen innerhalb des gefensterten Signals) verschlimmert dieses Problem noch mehr.
  • Das hat zur Folge, dass eine große Anzahl von Signalverarbeitungstechniken und praktisch alle Sprachsignalverarbeitungstechniken schlecht zur Verwendung an willkürlichen Signalen geeignet sind. Insbesondere sollten Techniken wie das Short Term Fourier Transform (STFT)-, das Linear Prediction (LP)- und das Frame-basierte Filterbank-Verfahren nicht für willkürliche Signale verwendet werden. Diese Techniken werden trotzdem auf diese Signale angewendet, oft ohne großen Erfolg, oder mit Erfolg in einem sehr schmalen Bereich von Anwendungen.
  • Quasi-Stationärheit mit einer richtigen Abtastzeit kann nur auf Signalanteile von einer einzelnen Quelle sicher angewendet werden. Für eine unbekannte Mischung von (Ton)- Quellen ist eine geeignetere Form der Signalverarbeitung erforderlich. Es ist eine Aufgabe der Erfindung, ein solches System bereitzustellen.
  • Darum wird ein System bereitgestellt, das die Regelmäßigkeiten der Quelle so gut wie möglich ausnutzt. Leider sind die Regelmäßigkeiten der Quelle unbekannt, weil die Quelle noch nicht klassifiziert ist. In diesem Fall kann das System nur das schwächste vorherige Wissen annehmen. Aber jede (Ton)-Quelle weist einen Beginn, eine optionale stetige Entwicklung und ein Ende auf. Folglich haben alle (Ton)-Quellen, die nicht impulsartig sind, einen sich stetig entwickelnden Teil.
  • Im Fall von Sprache, den meisten Arten von Musik und einer breiten Anzahl weiterer Signale herrscht die meiste Zeit eine stetige Entwicklung vor. Im Fall von Sprache könnte man lediglich für einige Verschlusslaute wie /t/, /k/ oder /p/ argumentieren, dass eine stetige Entwicklung fehlt. Äußerungen wie "Why I owe you an hour?" hingegen können so ausgesprochen werden, dass die gesamte Äußerung ein einziges durchgängiges Ganzes bildet.
  • Die Stetigkeit von Frequenz und Amplitude sind genau definierte Signaleigenschaften, die einer breiten Anzahl von Tonquellen gemein sind. Eine solche Stetigkeit, sofern sie aus dem Signal abgeleitet werden kann, kann daher ohne weitere Kenntnis des Signaltyps ausgenutzt werden. Die Stetigkeit von Signalkomponenten ist daher außerordentlich gut geeignet, die Zuordnung der akustischen Evidenz einzelner Tonquellen zu Hör-Ereignissen zu unterstützen. Solange eine Signalkomponente eine stetige Entwicklung aufweist, stammt sie wahrscheinlich von einer einzelnen Quelle. Bei dieser Schlussfolgerung kann man sich recht sicher sein, weil die Wahrscheinlichkeit gering ist, dass unkorrelierte Quellen zu Signalkomponenten führen, die nahtlos aneinanderpassen. Des Weiteren sind auch Signaleigenschaften wie eine Grundfrequenzkontur stetig und können helfen, unterschiedliche Signalkomponenten zu gruppieren: Alle Oberschwingungen einer einzelnen quasi-periodischen Tonquelle bleiben ganzzahlige Vielfache der Grundfrequenz. Frequenzkonturen im Einklang mit einer bestimmten Grundfrequenzkontur gehören wahrscheinlich zur selben Quelle oder, wie es oft bei Musik der Fall ist, zu mehreren Quellen mit einer korrelierten zeitlichen Entwicklung.
  • Folglich bildet die Stetigkeit von Signalkomponenten einen der zuverlässigsten Hinweise für die Zuordnung von Informationen einer einzelnen Quelle zu einer einzelnen Darstellung. Solange dieser Prozess nicht vollendet ist, muss die Stetigkeit über Zeit und Frequenz beibehalten bleiben.
  • Ein Flussdiagramm eines beispielhaften Verfahrens für die Zuordnung von Informationen einer einzelnen Quelle zu einer einzelnen Darstellung gemäß der Erfindung, das die oben beschriebenen Einschränkungen erfüllt, ist in 1.9 gezeigt.
  • Zuerst wird in Schritt I ein BM-Signal eines Segments einer Basilarmembran von einem Basilarmembran-Gerät erzeugt. Dieses BM-Signal basiert auf einem Signal, das in einen Eingang der Basilarmembran eingespeist wird. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Das BM-Modell" beginnt, eingehender beschrieben.
  • Als zweites wird in Schritt II das BM-Signal integriert, um ein Maß für die Anregung jedes Segments bereitzustellen. Auf der Grundlage dieser Integration kann eine dreidimensionale Matrix aus Segmenten mal Zeit mal Anregungsmaß gebildet werden. Die visuelle Darstellung dieser Matrix wird als ein Cochleogramm bezeichnet. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Das Cochleogramm" beginnt, eingehender beschrieben.
  • Als drittes werden in Schritt III anhand von Informationen aus der dreidimensionalen Matrix individuelle Signalkomponenten, Kämme genannt, in der Matrix berechnet. Diese individuellen Komponenten sind Segment-Zeit-Regionen, wo eine Augenblicksfrequenzkontur berechnet werden kann. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Kammberechnung" beginnt, eingehender beschrieben.
  • Als viertes wird in Schritt IV eine Autokorrelation unter den Kämmen durchgeführt, was ein Maß für die Periodizität der Konturen darstellt. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Durchführen einer Autokorrelation unter Kämmen" beginnt, eingehender beschrieben.
  • Als fünftes werden in Schritt V die Autokorrelationswerte analysiert, um eine örtliche Frequenz für jeden Moment der Entwicklung der Grundperiodenkontur zu bestimmen. Diese örtliche Frequenz ist örtlich in Segment und Zeit. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Örtliche Augenblicksfrequenzkonturen" beginnt, eingehender beschrieben.
  • Als sechstes wird in Schritt VI die örtliche Frequenz zum Berechnen der Tonhöhe der Signale verwendet. Obgleich die Begriffe "Tonhöhe" und "Grundfrequenz" offiziell nicht austauschbar sind, wobei der erstere die (subjektive) Wahrnehmung des (physikalisch messbaren) letzteren ist, werden die Begriffe in diesem Dokument austauschbar verwendet. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Berechnung der Grundperiodenkontur" beginnt, eingehender beschrieben.
  • Als siebentes wird in Schritt VII ein Verfahren zum Korrelieren der Anregungen von Segmenten des BM-Modells angewendet. Da es unwahrscheinlich ist, dass unkorrelierte Anregungen zum selben Signal gehören, wird das Signal unter Heranziehung aller korrelierten Signalkomponenten genähert. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Abgestimmte Autokorrelation" beginnt, eingehender beschrieben.
  • Als achtes wird in Schritt VIII ein Verfahren zum Ermitteln, welche Basilarmembransegmente eine Periodizität aufweisen, die der Eigenfrequenz des Segments entspricht, angewendet. Dies erfolgt durch eine Korrelation zwischen der Anregung und der Anregung, die entsprechend der besten Periode des Segments verschoben ist. Die in diesem Schritt ermittelten Informationen können dafür verwendet werden, sowohl periodische als auch aperiodische Signalanteile wie Rauschimpulse und Beginnmomente zu berechnen. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Eigenperiodenkorrelation" beginnt, eingehender beschrieben.
  • Als neuntes wird in Schritt IX ein Beginndetektor angewendet. Dieser Schritt detektiert Beginnmomente und Endmomente durch Suchen nach schnellen Änderungen im Ausgang des Eigenperiodenkorrelators oder Cochleogramms. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Beginndetektion" beginnt, eingehender beschrieben.
  • Als zehntes wird in Schritt X ein Maskenbildungsverfahren angewendet. Diese Maskierungsvorrichtung verwendet die auf dieser Stufe verfügbaren Informationen zum Markieren von Regionen in Zeit und Ort, die wahrscheinlich von der Zielquelle stammen. Es können mehrere Maskierungen definiert werden, die jeweils Regionen mit unterschiedlichen Eigenschaften markieren. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Maskenbildung" beginnt, eingehender beschrieben.
  • Als elftes kann in Schritt XI ein Basilarmembrangegenfiltergerät angewendet werden. In diesem Schritt erfolgt eine Gegenfilterung der Anregung der Basilarmembran unter Verwendung der durch die Maskierungsvorrichtung gekennzeichneten Regionen, um ein resynthetisiertes Signal zu erhalten, das die Signalinformationen unter der Maske darstellt. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Basilarmembrangegenfilterung" beginnt, eingehender beschrieben
  • Als zwölftes kann in Schritt XII eine Cochleogrammrekonstruktionsvorrichtung angewendet werden. Dieser Schritt verwendet die Informationen, die anhand des Signals berechnet wurden und durch die Maske dargestellt werden, zum Messen individueller Signalkomponenten und zum Rekonstruieren eines Signals durch Hinzufügen der individuellen Signalkomponenten. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Cochleogrammrekonstruktionsvorrichtung" beginnt eingehender beschrieben.
  • Als dreizehntes kann in Schritt XIII eine Parametrisierungsvorrichtung auf das rekonstruierte Cochleogramm angewendet werden. Dieser Schritt stellt Informationen bereit, die sich als Eingang für eine Erkennungsvorrichtung eignen. Dieser Schritt wird in dem Abschnitt, der mit der Überschrift "Parametrisierung" beginnt, eingehender beschrieben.
  • Das BM-Modell
  • Ein Verfahren gemäß der Erfindung beginnt mit der Erzeugung eines BM-Signals. Im Hörsystem erfolgt die Umwandlung von Ton, d. h. von Druckschwankungen, in neurale Informationen um eine Struktur mit dem Namen Basilarmembran, wie schematisch in 2.1 gezeigt. Die Basilarmembran ist eine kohärente physische Struktur, die durch die physikalischen Prinzipien von Übertragungsleitungen beschrieben werden kann. Eine Übertragungsleitung ist eine Struktur, die sowohl in Zeit als auch Ort stetig ist, wobei im Fall der Basilarmembran der Ort der Frequenz entspricht, weil jeder Ort auf der Membran seine Eigenfrequenz hat. Folglich wandelt die Basilarmembran akustische Schwingungen in neurale Informationen um, so dass eine Stetigkeit in Zeit und Frequenz (über ihre Entsprechung zum Ort) für die Weiterverarbeitung beibehalten wird.
  • 2.1 zeigt eine sehr schematische Darstellung der wesentlichen Merkmale der Basilarmembran 1. Die Basilarmembran ist eine gewickelte Struktur 2 mit einer Länge von 3,5 cm, die sich in der Cochlea befindet, einer schneckenhausartigen Struktur von etwa 1 cm3. Die Seite der Basilarmembran nahe der Öffnung des Schneckenhauses ist am empfindlichsten für Frequenzen von etwa 20 kHz. Weiter im Inneren der Cochlea nimmt die Frequenz, für die jede Position am empfindlichsten ist, gemäß einer (ungefähr) logarithmischen Ort-Frequenz-Beziehung bis auf 20 Hz ab. Der Frequenzbereich der Basilarmembran beträgt darum 3 Größenordnungen oder etwa 10 Oktaven. Etwa 3000 Haarzellen, die gleichmäßig entlang der Basilarmembran verteilt sind, wandeln die örtlichen Schwingungen in abgestufte Potenziale um, die wiederum als Aktionspotenziale codiert werden und durch 30000 Neuronen zum Hirnstamm geleitet werden. Die Axone dieser Neuronen bilden den Hörnerv.
  • In der gezeigten beispielhaften Vorrichtung wird ein eindimensionales Übertragungsleitungsmodell der Basilarmembran verwendet, wie es bekannt ist aus: Duifhuis, H., Hoogstraten, H. W., van Netten, S. M., Diependaal, R. J. und Bialek, W. (1985). "Modelling the cochlear partition with coupled Van der Pol oscillators", in: "Peripheral Auditory Mechanisms", herausgegeben von J. B. Allen, J. L. Hall, A. E. Hubbard, S. T. Neely und A. Tubis (Springer, New York) Seiten 290-297. Die relevantesten Eigenschaften des Modells sind Stetigkeit sowohl in Zeit und Ort und eine Eins-zu-eins-Ort-Frequenz-Beziehung. Das hat zur Folge, dass das Basilarmembranmodell als eine Filterbank mit physikalisch gekoppelten Filtern interpretiert werden kann: Benachbarte Filter weisen zu allen Zeitpunkten ähnliche Verschiebungen auf. Obgleich aber ein Basilarmembran (BM)-Modell Teilen des Säugetier-Hörsystem ähnelt, ist die Erfindung nicht auf ein Übertragungsleitungsmodell mit einer solchen Ähnlichkeit zum Säugetier-Hörsystem beschränkt. Zur Klarstellung sei angemerkt, dass in dieser Anmeldung der Begriff "BM-Modell" für jede nicht-gleichförmige Übertragungsleitungsvorrichtung mit einer ähnlichen Funktion wie eine Cochlea verwendet wird.
  • Es ist möglich, ein anderes Basilarmembranmodell anzuwenden, wie zum Beispiel das bekannte Basilarmembranmodell, das wie das eigentliche Basilarmembran nicht-linear ist. In diesem Ausführungsbeispiel der Erfindung wird eine vorteilhaft lineare Version des Modells verwendet. Obgleich oft angenommen wird, dass ein nicht-lineares Modell eine bessere Leistung hat, da es stärker dem menschlichen Hörsystem ähnelt, wurde festgestellt, dass ein lineares Modell mit einer zufriedenstellenden Leistung implementiert werden kann. Diese lineare Version des BM-Gerätes erfordert weniger Verarbeitung, hat einen einfacheren Aufbau und lässt sich einfacher implementieren.
  • Diese Linearität gestattet eine effiziente Implementierung als eine Überlappungs-und-Ergänzungs-Filterbank, und sie hilft beim Lösen des zentralen Problems: Wie trennt man eine Mischung von Signalen? Schließlich bedeutet Linearität Additivität, was so interpretiert werden kann, dass eine Mischung von Signalen a und b geteilt werden kann, ohne dass Querterme zum Tragen kommen, die sowohl von a als auch von b abhängen. Das Fehlen von Quertermen, was in den meisten nicht-linearen Systemen nicht garantiert werden kann, vereinfacht den Aufbau und die Implementierung eines Signaltrennungssystems und erfordert weniger Verarbeitung.
  • Des Weiteren hat das bekannte Basilarmembranmodell eine interne Aktualisierungsfrequenz von 400 kHz und umfasst 400 Segmente, die den gesamten menschlichen Frequenzbereich erfassen. Um die Verarbeitungszeit in dem Ausführungsbeispiel weiter zu verkürzen, ist das gezeigte BM-Modell als eine Filterbank mit 100 Kanälen implementiert, die einen Frequenzbereich zwischen 30 und 6100 Hz abdecken. Die Filterbankimplementierung erfordert eine Ein- und Ausgangsabtastfrequenz von 20 kHz. Dadurch wird im Vergleich zu dem bekannten Modell eine Steigerung der Berechnungseffizienz erreicht.
  • In 2.1 ist ein Teil des elektrisch äquivalenten Schaltbildes der Basilarmembran des Innenohrs gezeigt. Auf der linken Seite in der Figur kann ein Signal VTon dargestellt werden, das durch eine Reihe von bis zu 400 gegenseitig gekoppelten Filtern zweiter Ordnung, Segmente genannte, verarbeitet wird. Jedes Filter zweiter Ordnung stellt eine bestimmte Massenträgheit (Spulen), Steifigkeit und Dämpfung dar, wodurch bestimmt wird, wie schnell Oszillationen in dem dargestellten Signal VTon durch die gegenseitig verbundenen Filter zweiter Ordnung gedämpft werden. Dem tatsächlichen Innenohr nachempfunden, findet eine Kopplung zwischen den individuellen Segmenten und den Nervenbahnen statt, welche die Tonsignaleindrücke an das Gehirn übermitteln.
  • Das beschriebene BM-Modell wird vorteilhaft in dem Verfahren angewendet, das oben mit Bezug auf 1.9 beschrieben wurde. Das BM-Modell kann jedoch vorteilhaft in jedem Signalerkennungssystem angewendet werden, solange das System die BM-Signale verwendet.
  • Das Cochleogramm
  • Es wird davon ausgegangen, dass eine Zeit-Frequenz-Darstellung, wie ein FFT-basiertes Energiespektrogramm, die relevantesten Informationen für die Interpretation des Signals darstellt. Leider ist es sowohl in Zeit als auch Frequenz unstetig. Eine spektrogrammartige Zeit-Frequenz-Darstellung, die in Ort (und indirekt auch Frequenz) stetig ist, kann durch Mitteln der Energie von (überlappenden) Frames jedes Basilarmembransegments errechnet werden. Jedoch impliziert diese Vorgehensweise Quasi-Stationärheit, die zu vermeiden ist, da der Eingang noch nicht als ein Signal identifiziert ist, für das Quasi-Stationärheit zutrifft.
  • Diese Probleme werden durch die Verwendung einer stetigen Alternative sowohl in Zeit als auch Ort (Frequenz) für das FFT-Spektrogramm gelöst. Es ist festgestellt worden, dass eine solche Alternative das undichte integrierte Quadrat der Verschiebung oder Quadrat der Geschwindigkeit der Basilarmembransegmente ist. Die Verwendung der Geschwindigkeit (welche die erste Ableitung der Verschiebung ist) wird der Verwendung der Verschiebung vorgezogen, weil die Verwendung der Geschwindigkeit die Hochfrequenzkomponenten verstärkt, was die Maskierungseffekte von Hochfrequenzkomponenten durch Niederfrequenzkomponenten verringert. "Undichte Integration" beschreibt einen Prozess, wo das System an jedem Zeitpunkt Informationen über seinen vorherigen Zustand verliert, aber den gegenwärtigen Zustand erfährt. In dieser Ausführungsform wird das folgende undichte Integrationsverfahren gewählt: rs(t) = rs(t – Δt)e–Δt/τ + xs(t)xs(t), s = 1 ... smax (1)
  • In dieser Formel bezeichnet rs(t) den Wert der undichten integrierten Energie von Segment s zum Zeitpunkt t, Δt ist die Abtastperiode, t – Δt bezeichnet die Zeit der vorherigen Abtastung, und xs(t) ist der momentane Ausgangswert des Kanals. Die Zeitkonstante τ dieses Systems erster Ordnung bestimmt einen Speicherumfang. Für große Werte von τ ist der Exponent sehr nahe bei Eins. Für kleine Werte wird der Einfluss des Exponenten stärker, da er den Anteil des vorherigen Wertes von rs(t) verringert. Der Quadratterm xs(t)xs(t) ist nicht-negativ. Somit ist rs(t) ebenfalls nicht-negativ.
  • Gleichung 1 kann verallgemeinert werden als: rs(t) = L(xs(t)) (2)
  • In dieser Gleichung bezeichnet die Funktion L jede Form des Herausfilterns der niedrigen Frequenzanteile. Somit kann jede Art des Herausfilterns der niedrigen Frequenzanteile angewendet werden, doch die Anwendung eines undichten Integrators ist besonders vorteilhaft, da ein undichter Integrator eine Funktion ausführt, die Funktionen des menschlichen Hörsystems ähnelt, wie weiter unten noch erläutert wird. Das Signal X(t) kann jede Form des Maßes der örtlichen Aktivierung sein. So kann die halbwellengleichgerichtete Geschwindigkeit, die Verschiebung oder die Beschleunigung oder jede sonstige Form, die ein (nicht-negatives) Maß der örtlichen Aktivierung ergibt, verwendet werden. Jedoch ist die Verwendung des Quadrats der Geschwindigkeit besonders vorteilhaft, weil davon ausgegangen wird, dass die Geschwindigkeit die Antriebskraft für die Haarzellen im menschlichen Hörsystem ist, und das Quadrieren dieses Werts ist eine rechnerisch einfache Operation, die ein Energiemaß ergibt.
  • Nach dem Herausfiltern der niedrigen Frequenzanteile können weitere Schritte ausgeführt werden, um das Signal zu ermitteln. Zum Beispiel kann eine einfache visuelle Inspektion des Cochleogramms angewendet werden. Um eine zuverlässige Arbeitsweise des Signals zu ermöglichen, was in einer automatisierten Weise erhalten werden kann, müssen weitere Schritte unternommen werden. Die Erfindung stellt diese Schritte bereit, wie weiter unten noch erläutert wird. Jedoch ist die Erfindung nicht auf diese konkreten weiteren Schritte beschränkt.
  • Der Wert von τ wird in dieser Anmeldung bei 10 ms gehalten, kann aber angepasst werden. Echte Neuronen führen auch einen undichten Integrationsprozess aus, und 10 ms sind ein normaler Wert für Neuronen im Hörsystem. Während der Eingang von Gleichung 1 die quadrierte Basilarmembrangeschwindigkeit ist, ist das neurophysiologische Äquivalent die vollständig positive amplitudenkomprimierte halbwellengleichgerichtete Basilarmembrangeschwindigkeit. Die Halbwellengleichrichtung erfolgt durch die Haarzellen im Cortischen Organ. Das natürliche System weist eine Dynamikbereichskompression der BM-Bewegungen x auf, die oft als eine Kubikwurzel (~x0,3) angenähert wird.
  • Die Dynamikbereichskompression ist notwendig, um alle relevanten Merkmale in denselben Bereich zu bringen. Das ist wichtig, weil rs(t), gemäß Gleichung 2 berechnet, einen Dynamikbereich hat, der aufgrund der Eigenart natürlicher Signale, wie zum Beispiel Sprache, 50 dB oder mehr betragen kann. Um das Quadrat in Gleichung 2 zu kompensieren, wird der Effekt der Kubikwurzel verdoppelt und durch x0,15 angenähert: Rs(t) = [rs(t)]0,15 (3)
  • Diese nicht-lineare Dynamikbereichskompression wird ausschließlich für visuelle Darstellungen verwendet. Alle visuellen Darstellungen verwenden diese Form der Kompression, sofern nicht ausdrücklich etwas anderes ausgesagt wird.
  • Da der undichte Integrationsprozess ein Prozess zum Herausfiltern der niedrigen Frequenzanteile ist, kann der Ausgang rs(t) auf Abtastraten in der Größenordnung der Integrationszeitkonstante heruntergetastet werden. Um schlagartige Beginnmomente verarbeiten zu können, wird eine Abtastrate von 200 Hz, was 1 Abtastung je 5 ms entspricht, gewählt. Das führt zu dem Cochleogramm als der gewünschten doppelt-stetigen Zeit-Frequenz-Darstellung. 2.2 zeigt das Cochleogramm des holländischen Wortes /NUL/(deutsch: NULL), gesprochen von einer weiblichen Person. Dieses Wort ist Teil einer Zielsentenz /NUL EEN TWEE DRIE/, die in der gesamten vorliegenden Anmeldung als Beispiel eines unbekannten Signals verwendet wird. Obgleich die Abtastung ein Tonsignal ist, ist die Erfindung keinesfalls auf Sprache oder Ton beschränkt, wie oben schon angemerkt wurde.
  • In 2.2 ist das Breitband, beginnend mit ungefähr t = 50 ms und f = 220 Hz, die erste Oberschwingung h1, die der Grundfrequenz f0 entspricht. Die Grundfrequenz steigt während der Äußerung auf einen Wert oberhalb 350 Hz an. Das Band über und parallel zu der ersten Oberschwingung ist die zweite Oberschwingung h2. Die niedrigsten Oberschwingungen bilden einen ersten Formanten F1. Ein zweiter Formant F2 wird nach dem Übergang vom /N/ zum /U/ bei t = 120 ms sichtbar und fällt während des /L/ von 2000 Hz auf einen Wert von einigen hundert Hertz. Es ist zu beachten, dass diese Änderung der Formantposition dazu führt, dass unterschiedliche Oberschwingungen als der hervorstechendste Anteil der örtlichen Frequenz aufeinander folgen. Ein dritter Formant F3 ist während des /N/ marginal sichtbar, tritt aber während des Rests der Äußerung deutlich hervor. In den höherfrequenten Regionen sind ein vierter und eventuell sogar ein fünfter Formant sichtbar.
  • Der Übergang vom /U/ zum /L/ ist gleichmäßig; der Übergang vom /N/ zum /U/ ist infolge des Übergangs vom nasalen /N/ zum Vokal /U/ teilweise unstetig. Am Ende des /N/ verlässt die Zungenspitze den Gaumen, wodurch der Anteil der Mundhöhle zum Anteil der Nasenhöhle hinzukommt. Es ist zu beachten, dass die Beginn-Unstetigkeit des Wortes schlagartig und das Ende gleichmäßig ist. Das liegt an dem exponentiellen Abklingen des undichten Integrationsprozesses und dem Ausklingeffekt der Basilarmembran in Kombination mit der Nichtlinearität von Gleichung 3.
  • Ein vertikaler Querschnitt des Cochleogramms bei t = 175 ms ist in 2.3 gezeigt. Diese Figur zeigt eine Darstellung der Energieverteilung als Funktion der Segmentanzahl (die obere horizontale Achse) oder der entsprechenden Frequenz (untere Achse), was den Informationen unter der vertikalen Linie in 2.2 entspricht. Es ist die mit Spitzen versehene Struktur zu beachten. Bei geringeren Segmentanzahlen entsprechen die Spitzen aufgelösten Oberschwingungen. Bei höheren Segmentanzahlen werden die individuellen Oberschwingungen weniger gut aufgelöst und verschmelzen schließlich zu Formanten. Dieses Verhalten ist eine direkte Folge der nicht-linearen Ort-Frequenz-Beziehung. In der Figur sind verschiedene Oberschwingungen gezeigt. Die ersten drei, die 9., die 13., die 18. und die 25. Oberschwingung dominieren den Frequenzgang. Die 4. bis 8. Oberschwingung sind gerade aufgelöst, und für die 10. bis 12. Oberschwingung gibt es nur minimal sichtbare Anzeichen. Diese Oberschwingungen sind (teilweise) durch die anderen Komponenten maskiert. Obgleich die höheren Oberschwingungen nicht aufgelöst sind, tragen sie trotzdem noch zur Gestalt der Formanten bei und tragen zur Klangfarbe des Vokals /U/ bei.
  • Das Mitziehen von Segmenten ist eine sehr wichtige Eigenart eines Übertragungsleitungsmodells und ist auf die Tatsache zurückzuführen, dass die Basilarmembran eine einzelne stetige Struktur bildet. Wenn eine hervorstechende Signalkomponente ein bestimmtes Segment ansteuert, so zieht das Segment seine Nachbarsegmente mit, und diese ziehen wieder ihre Nachbarsegmente mit, usw. Dieser Effekt wird rasch als eine Funktion des Ortes gedämpft. Nur Signalkomponenten, die dem Mitnahmeeffekt anderer Signalkomponenten widerstehen können, erreichen örtliche Dominanz und erzeugen Spitzen. Ein Mitziehen ist, wie das Maskieren, auf der Hochfrequenzseite ausgeprägter als auf der Niederfrequenzseite.
  • In den meisten Figuren ist eine Ort-Frequenz-Beziehung zu sehen, die experimentell bestimmt wurde. In dem originalen BM-Modell ist die Resonanzfrequenz der ungekoppelten Segmente entsprechend der Greenwood-Ort-Frequenz-Beziehung gewählt, wobei x in mm vom Scheitel gemessen:
    Figure 00220001
  • Der Segmentindex s kann unter Nutzung der Länge der BM, der Anzahl der Segmente in dem Originalmodell und der Tatsache, dass in dieser Ausführungsform nur eines von drei Segmenten tatsächlich benutzt wird, zu x in Beziehung gesetzt werden.
  • Die Wechselwirkung zwischen Segmenten verschiebt die Eigenfrequenz auf einen geringfügig niedrigeren Wert. 2.4 zeigt die Greenwood-Ort-Frequenz-Beziehung als die gestrichelte Linie. Die echte Eigenfrequenz als eine Funktion der Segmentanzahl ist als die dünne schwarze Linie gezeigt. Sie liegt immer unter der Greenwood-Ort-Frequenz-Beziehung. Analog zur Eigenfrequenz eines Segments hat jede Frequenz ein eigenes Segment. Die tatsächliche Ort-Frequenz-Beziehung basiert auf dem Messen der Ansprechstärke jedes Segments auf einen Bereich von logarithmisch beabstandeten Sinuskurven mit Einheitsamplitude. Die resultierende Matrix, deren Werte logarithmisch grauskalencodiert sind, bildet den Hintergrund von 2.4. Es ist zu beachten, dass Hochfrequenzsegmente mehr auf Niederfrequenzstimulation ansprechen als umgekehrt.
  • Da (quasi-)periodische Signale aus einer Kombination von Sinusanteilen bestehen, ist es nützlich, das Ansprechverhalten der BM auf einzelne Frequenzstimuli zu studieren. Das Ansprechverhalten der BM auf eine bestimmte Frequenz wird als ein "Sinusfrequenzgang" bezeichnet. Verschiedene Beispiele sind in 2.5 gezeigt. Ungeachtet der Ansteuerfrequenz haben alle BM-Frequenzgänge eine ähnliche asymmetrische Form mit einem ausgeprägteren Ende in Richtung der Hochfrequenzseite als in Richtung der Niederfrequenzseite.
  • 2.5 zeigt Stabilzustandssituationen, die nur nach einer ausreichenden Anzahl von Oszillationen (zum Beispiel zehn) und/oder einigen (zum Beispiel fünf) Malen der Integrationszeitkonstante t erreicht werden können. Natürliche Signale weisen selten Signalkomponenten auf, die sich langsam genug ändern, um diese Stabilzustandsannahme zu rechtfertigen. Auf der Niederfrequenzseite der BM sind die Tonhöhe sowie die Amplitude während der 50 ms oder mehr, die zur Erreichung eines Stabilzustands benötigt werden, selten konstant genug. Das führt zu breiteren Frequenzgängen als der ideale Sinusfrequenzgang. Auf der Hochfrequenzseite der BM wird ein Stabilzustand schneller erreicht, aber zufällige Schwankungen der Tonhöhe von natürlichen Signalen verbreitern die Frequenzgänge hier ebenso.
  • Der Integrator und das entsprechende Cochleogramm können in dem Verfahren, das oben mit Bezug auf 1 beschrieben wurde, verwendet werden, doch in allen Situationen, wo ein Maß der Aktivierung im Fall von oszillierenden Signalkomponenten benötigt wird, kann die oben erwähnte Vorgehensweise verwendet werden.
  • Berechnen individueller Signalkomponenten
  • Da das in diesem Signalerkennungssystem verwendete BM-Modell linear ist, ist sein Ansprechverhalten eine Summierung der Ansprechverhalten auf die individuellen Komponenten der ansteuernden Tonquellen. Im Fall einer quasi-periodischen Tonquelle s(t) kann der Eingang folgendermaßen beschrieben werden:
    Figure 00240001
    wobei an(t) die Amplitude des Oberschwingungsanteils hn(t) ist. Die Oberschwingung ist eine Funktion der Periodenkontur T(t) und einer Phasenfunktion fn(t).
  • Das Cochleogramm dieses Signals wird durch Gleichung 1 definiert. Das Quadrat und eine hinreichend lange Integrationszeitkonstante t gewährleisten, dass der Effekt des Phasenterms ϕn(t) verschwindet, mit Ausnahme einiger außergewöhnlicher Phänomene, die hier nicht weiter berücksichtigt werden. In den meisten Fällen ändert sich a(t) langsam im Vergleich zum Wert der Zeitkonstante t des undichten Integrationsprozesses von Gleichung 1. Das bedeutet, dass an(t) (für kurze Intervalle) als eine Konstante behandelt werden kann, die den Cochleogrammanteil von hn(t) mit einem Faktor <an 2(t)> skaliert. Das < > bezeichnet einen zeitlichen Durchschnitt gemäß Berechnung durch den undichten Integrationsprozess. Der Cochleogrammanteil von hn(t) ist als R[hn(t)] bezeichnet. Für ein sich langsam entwickelndes hn(t) kann R[hn(t)] durch die Sinusfrequenzgänge angenähert werden, wie in 2.4 und 2.5 gegeben.
  • Das bedeutet, dass das Cochleogramm R(t), das aus einem Signal s(t) gemäß Gleichung 1 resultiert, angenähert werden kann als:
    Figure 00250001
  • Rn(t) ist der Frequenzgang eines Oberschwingungsanteils hn(t) mit Einheitsamplitude, angenähert durch eine Abfolge der Sinusfrequenzgänge der besten Segmente entsprechend der zeitlichen Entwicklung der örtlichen Augenblicksfrequenz hn(t). Die Gewichtung wn(t) bestimmt die Skalierung dieses Sinusfrequenzgangs.
  • Im Prinzip ist die Gewichtung wn(t) der Sinusfrequenzgänge unbekannt und sollte anhand des Signals berechnet werden. Zum Berechnen der Anteile der individuellen Oberschwingungen der Signale in 2.3 werden zwei unterschiedliche Herangehensweisen für geeignet befunden.
  • Die erste vom Anmelder entwickelte Herangehensweise nutzt die Asymmetrie in den Sinusfrequenzgängen durch Vernachlässigen des Maskierens in Richtung der Niederfrequenzseite. In diesem Fall wird das Signal in 2.3 angenähert, indem man zuerst den Sinusfrequenzgang gewichtet, welcher der Frequenz der Grundfrequenz entspricht. Dies erklärt einen Teil der Anregung in der Position der zweiten Oberschwingung; der Rest wird der zweiten Oberschwingung zugerechnet. An der Position der nächsten Oberschwingung wird der Anteil der vorherigen Oberschwingungen subtrahiert, und der Rest wird der momentanen Oberschwingung zugerechnet. Dieser Prozess kann sich fortsetzen, bis die Frequenz der Oberschwingungen die Eigenfrequenz des letzten Segments übersteigt, aber in der Praxis ist er auf BM-Regionen beschränkt, wo Oberschwingungen aufgelöst werden. Dieses Verfahren funktioniert darum besonders gut für die ersten Oberschwingungen und kann für die spektrale Rekonstruktion verwendet werden, wie weiter unten erläutert wird.
  • Das zweite vom Anmelder entwickelte Verfahren soll eine numerische Lösung der Matrixgleichung Rw = E finden. In dieser Gleichung ist E der Zielcochleogrammquerschnitt, R ist der Satz Sinusfrequenzgänge, die zu den Frequenzen der individuellen Oberschwingungen gehören, und w sind die gewünschten Gewichtungswerte. Bei Anwendung auf das Signal in 2.3 ist die Grundfrequenz f0 1/4.60 = 217 Hz (wie anhand der ZNK in 2.8 berechnet werden kann). Die zugehörigen Oberschwingungsfrequenzen sind nf0. Die Eigenfrequenz des letzten Segments der BM ist 6100 Hz. Die höchste Oberschwingungsanzahl, die ausgedrückt werden kann, ist darum 28. Für jede Frequenz kann ein Sinusfrequenzgang ausgewählt und der Matrix R hinzugefügt werden. Das Lösen von w = R–1E (im Sinne eines kleinsten Quadrats) und das Setzen negativer Werte von wn auf Null führt zu den Ergebnissen in 2.6.
  • Das obere Feld von 2.6 zeigt das Ziel E mit der durchgezogenen Linie, und das untere Feld zeigt den skalierten Anteil wn jeder Oberschwingung. Die Strich-Punkt-Kurve im oberen Feld zeigt die gewichtete Summe der Sinusfrequenzgänge. Wie zu sehen ist, ist die Übereinstimmung sehr gut, und der Oberschwingungsgehalt der ersten drei Formanten kann verlässlich berechnet werden. Die Gewichte der höchsten Oberschwingungen können nur um Formantspitzen herum verlässlich berechnet wurden. An anderen Positionen überlappen sich die Sinusfrequenzgänge, die zu den Oberschwingungen gehören, nahezu vollständig, und numerische Fehler könnten die Ergebnisse beeinflussen. Niedrigere Grundfrequenzen verschlimmern dieses Problem, aber die Verwendung von mehr Segmenten in dem BM-Modell behebt das Problem.
  • Dieses zweite Verfahren ist ein effizientes und recht elegantes Verfahren zum Analysieren des Oberschwingungsgehalts eines periodischen Signals, wenn die Grundfrequenzkontur bekannt ist. Die Technik funktioniert auch, wenn sich die Tonhöhe der Signale rasch ändert. In diesem Fall müssen die Auswirkungen von Gruppenlaufzeiteffekten berücksichtigt werden, indem man einen Satz Frequenzen wählt, welche die örtlichen Augenblicksfrequenzen der Oberschwingungen widerspiegeln. Dennoch ist diese Korrektur unkompliziert, wenn korrekte Tonhöhenkonturen erzeugt werden.
  • Abgestimmte Autokorrelation
  • Um eine Mischung von Signalen ohne Gewissheit über den Signalursprung zu teilen, muss man die schwächsten möglichen Grundannahmen, d. h. die allgemeinsten Signaleigenschaften, verwenden. Eine wichtige allgemeine Eigenschaft ist, ob ein Signal quasi-periodisch ist oder nicht. In Sprache, Musik und einer Vielzahl weiterer Signale stellen quasi-periodische Zeichen den größten Teil der Zeit und Energie dar. Es ist zu beachten, dass perfekt periodische Signale nicht häufig vorkommen. Die meisten natürlichen Signale weisen Amplituden- und/oder Frequenzmodulationen infolge von Eigenschaften der Quelle auf. Dies begrenzt die Brauchbarkeit des bekannten Systems, das bei Andringa 1997 vorgestellt wurde.
  • Eine Tonquelle y(t) ist als quasi-periodisch mit Grundperiodenkontur definiert, wenn für jede Oberschwingung yi(t): yi(t) = yi(t + T)(t)) (7)
  • Wenn die Oberschwingung yi(t) der Tonquelle Segmente s der Basilarmembran mit sich führt, so weist der Frequenzgang xs(t) des Segments ebenfalls Quasi-Periodizität auf. Folglich: xs(t) = xs(t + T(t)) (8)
  • Wenn T(t) bekannt ist, so kann die Gleichung 8 mit Gleichung 2 kombiniert werden, was zu
    Figure 00280001
    führt.
  • Das bedeutet, dass unter der Bedingung, dass T(t) die korrekte Grundperiodenkontur ist, rs,T(t)(t) sich dicht den Cochleogrammanteilen für alle Segmente nähert, die durch die Tonquelle y(t) rekrutiert werden. Das ist wichtig, weil T(t) eine Signaleigenschaft mit einer sehr hohen Wahrscheinlichkeit der Einzigartigkeit für die Tonquelle y(t) ist. Der Satz Werte rs,T(t)(T) ist als die abgestimmte Autokorrelation(AAK) definiert, weil er auf Autokorrelationswerten basiert und auf eine Grundperiodenkontur T(t) abgestimmten ist (und somit auch auf eine Grundfrequenzkontur f0(t) = 1/T(t)).
  • Gleichung 9 gilt nur für eine korrekte Grundperiodenkontur. Für Grundperiodenkonturen, die nicht mit der Kontur der Zielquelle korreliert sind, werden die Werte von xs(t) und xs(t + T) nicht korreliert, und ihr Durchschnitt ist nahe null. Das bedeutet, dass die AAK Werte ähnlich dem Energiemaß des Cochleogramms für eine korrekt berechnete Periodenkontur und Werte nahe 0 für zufällig ausgewählte oder unkorrelierte Periodenkonturen aufweist:
    Figure 00290001
  • Diese Eigenschaft bildet die Grundlage für die Zuordnung von Informationen von bestimmten Tonquellen zu Hör-Ereignissen.
  • Wenn es nicht bekannt ist, welche Segmente durch die quasi-periodische Quelle rekrutiert werden, so wird die AAK aller Segmente unter Verwendung von:
    Figure 00290002
    berechnet.
  • Diese Formel beinhaltet eine Korrektur für die segmentabhängige Gruppenlaufzeit. Die Reaktionszeit eines linearen Systems kann als Gruppenlaufzeit formalisiert werden. Die Gruppenlaufzeit eines linearen Systems kann als der Schwerpunkt des quadrierten Impulsfrequenzgangs hs(t) von Segment s definiert werden:
    Figure 00300001
  • Die Gruppenlaufzeit führt zu einer segmentabhängigen Zeitverschiebung in dem Ausdruck der Oberschwingungen, die der Periodenkontur entsprechen. Die Ergebnisse in 2.7 sind unter Verwendung einer korrekten segmentabhängigen Periodenkontur Ts(t) = (t + ds) berechnet: rs,T(t)(t) = rs,T(t)(t – Δt)e–Δt/τ + xs(t)xs(t + Ts(t)) (13)s = 1 ... smax
  • Die oberen Felder von 2.7 zeigen das Cochleogramm des Wortes /NUL/ (vgl. 2.2) und die positiven Werte der zugehörigen AAK. Die unteren Felder zeigen das Cochleogramm dieses Signals, wenn ein Cocktailpartygeräusch hinzugefügt wird, was ein Signal-Rausch-Verhältnis von 0 dB zur Folge hat (Gleichheit von Signal- und Rauschenergie). Das Feld rechts unten zeigt die zugehörige AAK. Verglichen mit dem Feld darüber bleiben die meisten der hervorstechenden Strukturen erhalten. Die AAK ist nicht über die gesamten 500 ms definiert, da die Periodenkontur der Tonquelle nur definiert ist, wenn die Tonquelle vorhanden ist. Es ist zu beachten, dass negative Werte der AAK-Darstellung nur in sichtbaren Darstellungen auf null gesetzt werden. Dies geschieht in der gesamten vorliegenden Anmeldung.
  • Eine abgestimmte Autokorrelation, die aus einer richtig berechneten Periodenkontur resultiert, stellt quasi-periodische Informationen in Übereinstimmung mit dieser Kontur dar. Es gibt keine Garantie, dass alle Informationen zu derselben Quelle gehören, aber es ist garantiert, dass alle periodischen Anteile der Zielquelle, die BM-Regionen mitziehen, dargestellt werden.
  • Die abgestimmte Autokorrelation ist sehr zuverlässig. Das hat verschiedene Gründe. Erstens wählt die abgestimmte Autokorrelation alle Segmentbereiche aus, die durch Zieloberschwingungen dominiert werden. Im Fall von Breitbandsignalen, wie Sprache, in denen einige wenige Oberschwingungen oder Formanten dominieren, ist ein mit Spitzen versehenes Cochleogramm das Ergebnis. Die Wahrscheinlichkeit, dass Formanten, oder ähnliche Strukturen, anderer Töne noch stärkere Spitzen erzeugen, welche dieselben Regionen noch ausgeprägter dominieren, ist in der Regel gering (aber nicht null). Diese Wahrscheinlichkeit hängt natürlich stark vom Signal-Rausch-Verhältnis (SRV) und der Verteilung von Energie über den Frequenzbereich ab. Mit gemeinsamen Breitbandsignalen, welche die Zielsprache mit einem Signal-Rausch-Verhältnis von –6 dB (Verhältnis = 1:4) maskieren, wird die Anzahl der unmaskierten Spitzen der Zielsprache auf ein Maß verringert, wo es schwierig wird, einen Satz verlässlicher Startpunkte für die Suche von Hör-Ereignissen zu finden. Die menschliche Sprachwahrnehmung verschlechtert sich rasch unter diesen Bedingungen.
  • Ein zweiter Grund für die Zuverlässigkeit der AAK ist, dass eine Quelle nicht zu dominieren braucht, um einen gleichbleibenden örtlichen Anteil abzugeben. Solange die Durchschnittsanteile x(t)x(t + T) von einer weniger dominanten Quelle größer sind als der Durchschnitt von x'(t)x'(t + T) einer Quelle, die örtlich dominiert, liefert die weniger dominante Quelle, selbst wenn sie optisch maskiert ist, einen positiven Anteil. Da es keine Spitzen gibt, erbringt diese Situation keine verlässlichen Startpunkte für die Berechnung von Hör-Ereignissen. Das könnte erklären, warum einige verrauschte Sentenzen bei der ersten Präsentation nicht wahrgenommen werden können, wenn der Hörer nicht weiß, was er zu erwarten hat, während dieselbe Sentenz erkennbar ist, wenn sich der Hörer eine korrekte Erwartung bilden konnte. Zum Beispiel könnte ein unbedarfter Hörer mit einer Zielsentenz bei einem SRV von –6 dB Schwierigkeiten haben, während ein erfahrener Hörer die Zielsentenz bei –10 dB oder weniger wahrnehmen kann.
  • Das wichtigste Problem bei der Anwendung der AAK ist die Notwendigkeit einer korrekten Berechnung der Grundperiodenkontur T(t). Da sie nicht direkt verfügbar ist, muss sie anhand des Signals berechnet werden. Es gibt eine große Vielzahl von Tonhöhenberechnungstechniken, aber keine davon funktioniert richtig bei willkürlichen (verrauschten) Signalen. Die abgestimmte Autokorrelation kann vorteilhaft in Kombination mit einer zuverlässigen Tonhöhenberechnungstechnik angewendet werden, die bei einem willkürlichen verrauschten Signal richtig funktioniert. Eine solche Technik wird in dem Abschnitt zur Tonhöhenberechnung beschrieben.
  • Wenden wir uns zunächst 1.1 zu, wo ein Teil des elektrotechnisch äquivalenten Schaltbildes der Basilarmembran des Innenohres gezeigt ist. Auf der linken Seite in der Figur kann ein Eingangssignal VTon dargestellt werden, das durch eine Reihe von bis zu 400 gegenseitig gekoppelten Filtern zweiter Ordnung, Segmente genannte, verarbeitet wird. Jedes Filter zweiter Ordnung stellt eine bestimmte Massenträgheit (Spulen), Steifigkeit und Dämpfung dar, wodurch bestimmt wird, wie schnell Oszillationen in dem dargestellten Signal VTon durch die gegenseitig verbundenen Filter zweiter Ordnung gedämpft werden. Dem tatsächlichen Innenohr nachempfunden, findet eine Kopplung zwischen den individuellen Segmenten und den Nervenbahnen statt, welche die Tonsignaleindrücke an das Gehirn übermitteln.
  • Mit Hilfe eines solchen elektrisch äquivalenten Schaltbildmodells der Basilarmembran, wie in 1.1 gezeigt, kann das erfindungsgemäße Gerät funktionieren. Zu diesem Zweck ist das Basilarmembranmodell von 1.1 in 1.2 in dem Block mit der Bezugszahl 1 enthalten. In das Basilarmembranmodell 1 wird ein Tonsignal 2 eingespeist, das mit Rauschen kontaminiert ist. An ein oder mehrere Segmente des Basilarmembranmodells 1 ist ein Tiefpassfilter 3 angeschlossen. Dieses Tiefpassfilter 3 gibt ein Ausgangssignal 4 aus, das einen Schätzwert des Eingangssignals 2 darstellt.
  • Die Filterfunktion, die in dem Tiefpassfilter 3 enthalten ist, wird zweckmäßig gewählt. Zu diesem Zweck ist in einer ersten Variante der Erfindung das Tiefpassfilter als ein Vervielfacher konstruiert, der einen ersten und einen zweiten Eingang aufweist. Während in den ersten Eingang ein Signal eingespeist wird, das von einem Segment der Basilarmembran stammt und über einen vorgegebenen Zeitraum anliegt, wird in den zweiten Eingang das Signal eingespeist, das über eine einstellbare Zeit T1 verschoben ist; und der Vervielfacher gibt ein Zeit-T1-abhängiges Ausgangssignal aus, das von der Frequenz abhängt, die im Wesentlichen in dem Signal dieses Segments vorhanden ist, und ein Maß für den Frequenzgehalt des Tonsignals bildet.
  • In einer anderen Variante der Erfindung ist das Tiefpassfilter als ein Vervielfacher mit einem ersten und einem zweiten Eingang aufgebaut. Während für jedes Segment der Basilarmembran in den ersten Eingang ein Signal eingespeist wird, das von diesem Segment stammt, wird in den zweiten Eingang das Signal eingespeist, das über eine Zeit T2 verschoben ist; und der Vervielfacher gibt ein segmentabhängiges Ausgangssignal aus, das ein Maß für ein Frequenzenergiespektrum bildet, das im Wesentlichen in dem Tonsignal während des Zeitraums vorhanden ist.
  • In einer mathematischeren Formulierung und grafischen Darstellung kann die Erfindung des Weiteren folgendermaßen verdeutlicht werden.
  • Für die Berechnung des Frequenzgehalts und des Frequenzenergiespektrums wird das Blockschaubild in 1.6 verwendet, wobei xs(t) das Signal darstellt, das von dem Basilarmembranmodell 1 stammt, und T eine einstellbare Zeitverschiebung bezeichnet.
  • Hier ist α = e–δ/T, und außerdem wird eine Zeitachse (für t und T) verwendet, die so skaliert ist, dass δt = 1.
  • In der Implementierung des Gerätes zum Ermitteln des Frequenzgehalts ist das Informationssignal, das von dem Basilarmembranmodell 1 kommt, eine Segmentreihe s(t), die eine schrittweise stetige Funktion ist, so dass innerhalb eines vorgegebenen Zeitraums in der grafischen Darstellung in 1.7 die Segmentanzahl konstant ist. Der Ausgabesatz {rs(t),0(t), ... rs(t),Tm(t)} stellt die momentane Autokorrelation unter der Segmentkontur zum Zeitpunkt t dar.
  • 1.3 zeigt eine typische Kurve des oben angesprochenen Ausgabesatzes zu einer bestimmten Zeit t, wobei T auf der x-Achse angezeigt wird.
  • In der Implementierung des Gerätes zum Ermitteln des Frequenzenergiespektrums erscheinen die Messergebnisse der Segmente von dem Basilarmembranmodell 1, welche die niedrigen Frequenzen darstellen, mit einiger Verzögerung im Verhältnis zu den Segmenten, die sich auf die höheren Frequenzen beziehen. Für ein gegebenes Signal T(t) erfordert dies eine Korrektur durch die Formel Ts(t) = T(t + ds), wobei ds die örtliche Gruppenlaufzeit des Segments s ist.
  • Dies führt zu der folgenden in 1.8 gezeigten Implementierung.
  • In diesem Fall wird ein Energiegehalt für jedes Segment des Basilarmembranmodells 1 ermittelt, was zu einem Ausgabesatz {r1,T1(t)(t), ..., rsm,Tsm(t)} führt, der sich auf die Zeit t bezieht.
  • 1.4 stellt grafisch das entsprechende Messergebnis dar, wobei die Segmentanzahlen des Basilarmembranmodells 1 auf der x-Achse angegeben sind.
  • Wenden wir uns nun 1.5 zu, wo eine grafische Darstellung der Autokorrelationswerte gezeigt ist und – als Variablen – die Zeitverschiebung T auf der x-Achse und die Segmentanzahlen des Basilarmembranmodells auf der y-Achse angegeben sind. Es ist hier anzumerken, dass die Ausführungsform des Gerätes zum Ermitteln des Frequenzgehalts eines einzelnen Segments ein Messergebnis erbringt, das einem horizontalen Querschnitt entspricht, so dass er zum Beispiel für das Segment des Basilarmembranmodells ermittelt werden kann, das eine Resonanzfrequenz von etwa 470 Hz hat. Das Gerät, das zum Ermitteln des Frequenzenergiespektrums aller Segmente des Basilarmembranmodells dient, erbringt ein Messergebnis, das einem Querschnitt in vertikaler Richtung entspricht, zum Beispiel bei t = 4,7 ms gemessen.
  • Zeitnormiertes Korrelogramm
  • Gleichung 13 kann zu einer allgemeineren stetigen Autokorrelationsfunktion verallgemeinert werden:
    Figure 00360001
  • Diese Funktion wird in der Regel als eine Zeitentwicklungsmatrix mit den Dimensionen (Anzahl der Segmente) X (Anzahl der Perioden). In dieser Anmeldung wird sie als zeitnormiertes Korrelogramm (ZNK) bezeichnet. Die positiven Werte der ZNK können in einer ähnlichen Weise wie die AAK-Spektrogramme gezeigt werden. Das ist in 2.8 gezeigt.
  • Diese Figur zeigt die ZNK für t = 175 ms inmitten des /U/ von NUL. Die vertikale Linie bei T = 0 entspricht dem Energiespektrum, das in 2.3 gezeigt wurde. Das vertikale Band bei T = 4.6 ms stellt die AAK für die Grundperiode T0 dar. Dieses Band wird um 9,2 ms herum für 2T0 wiederholt. Diese Bänder bilden die Spitzen einer großen vertikalen Struktur, die in dem Maße schmaler wird, wie die Frequenzen der individuellen Oberschwingungen zunehmen. Jede breitbandige quasi-periodische Quelle hat eine ähnliche Struktur, deren Gesamtstruktur ausschließlich durch die Augenblicksgrundperiode ermittelt wird.
  • Von zentraler Bedeutung ist, dass die ZNK in Zeit, Periodizität und Ort (wobei der Ort zur Frequenz in Beziehung steht) stetig ist. Die Bezeichnung ZNK ist von der Tatsache abgeleitet, dass ihre Definition in Gleichung 14 gewährleistet, dass, wenn ein quasi-periodisches Signal zum Zeitpunkt to beginnt, seine ZNK zu dieser Zeit beginnt, sich aufzubauen, und zwar ungeachtet der Periode T des Signals. Für t < to ist der zeitliche Durchschnitt von x(t)x(t + T(t)) nahe null, während er nach t0 groß und positiv und vom Wert von T(t) unabhängig ist. Diese Form der Beginnzeitpunktnormierung hilft beim Studieren der zeitlichen Entwicklung aller Arten von Quellen. Eine tiefergehende Besprechung, wo unterschiedliche Definitionen von Korrelogrammen verglichen werden, erfolgt weiter unten in diesem Abschnitt.
  • Da es unwahrscheinlich ist, dass unkorrelierte Quellen eine ähnliche Entwicklung der Augenblicksgrundfrequenz aufweisen, ist die Wahrscheinlichkeit gering, dass die vertikalen Strukturen von unterschiedlichen Quellen sich überlappen. Das ist nicht der Fall für den Energieterm bei T = 0, wo alle Tonquellen übereinander ausgedrückt werden. Die Einführung von Periodizität als eine zusätzliche Signaldimension gestattet nicht nur das Teilen einer Mischung eines periodischen und eines aperiodischen Signals, sondern auch von Mischungen quasi-periodischer Signale! Es ist zu beachten, dass dies teilweise eine Idealisierung ist. Die Kombination von zwei oder mehr quasi-periodischen Signalen führt zu einer Überlagerung der individuellen ZNKs, die schwieriger zu interpretieren ist als eine einzelne.
  • Der vertikale Querschnitt der ZNK entspricht einer Autokorrelationsverzögerung T für alle Segmente s. Der horizontale Querschnitt entspricht der vollen laufenden Autokorrelation eines einzelnen Segments. Für aperiodische Signale würde die Korrelation rasch als eine Funktion von T abfallen, aber da diese Quelle periodisch ist, hat die Autokorrelation das Aussehen einer Kosinuswelle. Es ist zu beachten, dass die meisten Segmente durch eine einzelne Oberschwingung dominiert werden. Das ist am hervorstechendsten für Segmente, die den unteren Oberschwingungen entsprechen. Die Periodizität der örtlichen laufenden Autokorrelation widerspiegelt die Frequenz der Hauptantriebskraft des Segments als eine Funktion der Zeit. Die erste Periode, die in allen Segmenten auftritt, ist 4,60 ms, was 217 Hz entspricht. Für die zweite Oberschwingung hat die zweite Periode eine Spitze bei 4,6 ms. Dies entspricht einer Augenblicksfrequenz von 1/(4,6/2) = 434 Hz, wie erwartet.
  • Direkt über 2000 Hz wird eine Region der BM durch die neunte Oberschwingung dominiert. Diese Region entspricht dem zweiten Formanten. Es ist zu beachten, dass die Position der zehnten Oberschwingung nicht berechnet werden kann, da sie durch die neunte maskiert wird. Der dritte Formant wird direkt unterhalb 3000 Hz ausgedrückt und wird durch die 13. Oberschwingung bei 2826 Hz dominiert. Es ist zu beachten, dass die ZNK die Ermittlung von örtlichen Augenblicksfrequenzen mit sehr hoher Genauigkeit gestattet. Das ist eine direkte Folge der Vermeidung einer Frame-basierten Herangehensweise und der Beibehaltung der Stetigkeit. Die Details des Algorithmus' zur Berechnung der örtlichen Frequenz werden weiter unten erläutert.
  • Die ZNK ist eine extrem reichhaltige Darstellung, aber ihr wichtigstes Merkmal ist, dass die ZNK willkürliche stetige Pfade durch Zeit (t), Ort (s) und Periodizität (T) darstellen kann.
  • Das bedeutet, dass, wenn wir eine Periodenkontur T(t) als eine Quelleneigenschaft kennen oder als Hypothese aufstellen, wir die Folgen von T(t) als eine stetige Funktion der Zeit untersuchen können. Wenn andererseits bekannt ist, dass eine Segmentsequenz s(t) Informationen einer einzelnen Tonquelle darstellt, so ist es möglich, die ZNK zum Studium der Entwicklung von Informationen zu verwenden, die durch die laufende Autokorrelation unter der Segmentsequenz s(t) dargestellt werden. Die Verwendung eines zeitabhängigen Pfades entlang Segmenten ist vorteilhaft, da die Grundperiode eines Signals für eine große Vielzahl verschiedener Signale, wie zum Beispiel Sprachton und Musikton, im zeitlichen Verlauf nicht konstant ist.
  • Es ist zu beachten, dass die ZNK eine bewusste Wahl der Richtung der Korrelation verwendet. Für Frame-basierte Autokorrelationen auf der Basis von:
    Figure 00390001
    ist es egal, ob die Korrelation auf Verzögerungen basiert, die t + n oder t – n entsprechen. Solange alle Anteile summiert werden, ist das Ergebnis das gleiche. Es ist die Konvention, ein Minuszeichen zu wählen, da es einem kausalen System ohne Laufzeit ähnelt. Für eine stetig aktualisierte (oder laufende) Autokorrelation führt die Wahl von "t – n" zu einer anderen zeitlichen Ordnung von Informationen als eine Implementierung auf der Grundlage von "t + n".
  • In diesem Abschnitt werden drei unterschiedliche stetige Implementierungen eines Korrelogramms auf der Basis einer undichten Integration besprochen. Jedoch kann die Erfindung auch mit vielen anderen Korrelatorvarianten angewendet werden. Die erste Wahl ist:
    Figure 00390002
  • Diese Gleichung ist die definierende Funktion der Matrixelemente einer zeitentwickelnden Matrix. Die konforme Gleichung 11 bezeichnet den Wert der Autokorrelation des Segments s und der Autokorrelationsverzögerung T. Das hochgestellte "–" bezieht sich auf das Minuszeichen im letzten Term. Die Matrixindizes der s-Dimensionsspanne und jene der T-Dimensionsspanne wieder mit xs(t) bezeichnen die Ausgabe des BM-Segments s. Diese Implementierung ist kausal ohne die Notwendigkeit einer Laufzeit.
  • Eine zweite Implementierung, welche die ZNK definiert, schaut in der Zeit nach vorn:
    Figure 00400001
  • Unter Weglassung der Indizes wird diese Implementierung als r+(t) bezeichnet. Weil künftige Informationen erst verarbeitet werden können, wenn sie verfügbar sind, bringt diese Implementierung eine Zeitdifferenz zwischen der momentanen Zeit t und dem Moment, in dem das volle Korrelogramm verfügbar ist, von Tmax (zum Beispiel 12, 5 ms) mit sich.
  • Oft wird eine Form von Gruppenlaufzeitnormierung ausgeführt. Während der Normierung wird die Gruppenlaufzeit als eine Laufzeit behandelt und nicht als eine Kombination aus einer Laufzeit und einer zeitlichen Verschwommenheit des Ausdrucks der Energie. Die Gruppenlaufzeitnormierung wird durch Zeitverschiebung des Frequenzgangs eines Basilarmembransegments mit der örtlichen Gruppenlaufzeit ds ausgeführt. Die Informationen von Hochfrequenzsegmenten zum Zeitpunkt t werden mit Informationen von Niederfrequenzsegmenten 30 ms oder später in der Zeit kombiniert. Das führt zu einer Darstellung des Energieausdrucks, die mitunter zweckmäßig ist. Eine Gruppenlaufzeitnormierung kann entweder mit einem "+"- oder einem "–"-Zeichen ausgeführt werden. Hier wird nur die "+"-Version betrachtet, aber eine "–"-Version ist ebenso möglich:
    Figure 00400002
  • Im Vergleich zu Gleichung 14 ist eine noch längere Laufzeit notwendig. Während die minimale Laufzeit in Gleichung 14 Tmax was, ist nun die Laufzeit Tmax + ds. Der Kehrwert von Tmax ist die niedrigste Frequenz, die in dem Korrelogramm auszudrücken ist. Für Sprache ist eine brauchbare untere Grenze 80 Hz oder 12,5 ms, und die entsprechende Gruppenlaufzeit ist 28 ms. Die kombinierte Laufzeit ist folglich mehr als 40 ms. Wichtiger als diese Laufzeit mag die Tatsache sein, dass rgd(t) Informationen darstellt, die ursprünglich 30 ms oder mehr in der Zeit getrennt wurden. Mit einer Frameabtastrate von 5 ms entspricht dies 6 Frames oder mehr.
  • Vom Standpunkt der Beibehaltung der Stetigkeit bewahrt Gleichung 18 die Stetigkeit der Zeit weniger gut als die anderen Implementierungen. In diesen Implementierungen beinhaltet eine Änderung zwischen benachbarten Segmenten a und b zum Zeitpunkt t einen minimalen Zeitschritt, während im Fall einer Gruppenlaufzeitnormierung die effektive Änderung sa(t) → sb(t + Δt + d(sb) – d(sa)) (19)ist.
  • Weil die Gruppenlaufzeit sich zwischen benachbarten Segmenten geringfügig unterscheidet, wird eine zusätzliche zeitliche Verschiebung eingetragen, welche die Gültigkeit der Stetigkeitsannahme während schneller Änderungen des Signals verringern kann. Da die Stetigkeit der ZNK ist eine Basisannahme ist (d. h. eine Annahme, die während der Verarbeitung nicht überprüft werden kann), kann eine Verletzung der Stetigkeit zu unvorhersagbaren Ergebnissen führen. Jedoch ist die Gruppenlaufzeit selbst eine stetige Funktion des Ortes in dem hier verwendeten Übertragungsleitungsmodell. Dies impliziert, dass die Stetigkeit in der Kombination mit der Gruppenlaufzeit garantiert bleibt.
  • Natürliche Signale sind selten stationär, weshalb wir die Korrelogrammversion wählen müssen, die am besten geeignet ist, nicht-stationäre Signale widerzuspiegeln. Das ist die ZNK, weil sie im Vergleich mit r(t) und rgd(t) Beginnmomente und Signaländerungen im Moment ihres Eintretens widerspiegelt. Des Weiteren führt die Art und Weise, wie r(t) sich aufbaut, zu allen Arten von praktischen Problemen im Kontext der Aufgaben und Lösungen des restlichen Teils dieser Übersicht, besonders während der Beginnmomente und während schneller Änderungen. Das r(t) ist darum keine geeignete Wahl. Die Kombination eines Minus-Zeichens in Kombination mit der Gruppenlaufzeitnormierung verkompliziert dies zusätzlich. Das ist der Grund, warum es gar nicht erst in Betracht gezogen wurde.
  • Die Verwendung der Gruppenlaufzeitnormierung ist nicht unbedingt erforderlich. Jedoch kann rgd(t) im Gegensatz zu r(t) ohne weitere Probleme verwendet werden. Es erzeugt eine sichtbare Darstellung, bei der die Effekte der Gruppenlaufzeit teilweise korrigiert sind.
  • Berechnung von Kämmen
  • Die augenblicklichen Informationen zur örtlichen Frequenz, wie sie mit der ZNK erhalten werden, bilden die Grundlage für die optimale Berechnung von Tonhöhenkonturen in unbekannten verrauschten Situationen. Rechnerisch ist die ZNK extrem ineffizient, weil sie die Größenordnung (Anzahl der Segmente) × (Anzahl der Abtastungen in der Sekunde) × (Anzahl der Perioden) hat. Für 100 Segmente entspricht eine Abtastfrequenz von 20 kHz und eine maximale Periode von 25 ms (500 unterschiedliche Werte) 109 × (2 Multiplikationen + 1 Addition) in der Sekunde. Obgleich es möglich ist, die Effizienz der Berechnung beträchtlich zu steigern, ist eine effizientere Herangehensweise erforderlich.
  • Diese Herangehensweise findet man durch Ermitteln von Regionen in dem Cochleogramm, wahrscheinlich hervorstechende Informationen über eine einzelne Signalkomponente (zum Beispiel eine Oberschwingung) erbringen. Wie im Kontext von 2.3 besprochen, versucht jeder Signalanteil eine Region der Basilarmembran mit einzubeziehen. Das bedeutet, dass jede Position im Allgemeinen durch eine einzelne Signalkomponente dominiert wird. Des Weiteren weisen alle diese Regionen eine Spitze an der Position auf, die der Frequenz der Signalkomponente entspricht. Das bedeutet, dass jede Spitze einer einzelnen Signalkomponente entspricht. Signalanteile wie die 10. bis 12. Oberschwingung in 2.3 sind nahezu vollständig durch stärkere Anteile maskiert und treten nicht als separate Spitzen in Erscheinung. Wenn der Suchraum auf Spitzen in dem Cochleogramm reduziert wird, so wählt man effizient Positionen, wo Informationen von individuellen Signalkomponenten verlässlich berechnet werden können.
  • Um die Anzahl von Störspitzen zu verringern, können Kämme durch Kombinieren von Spitzen im zeitlichen Verlauf gebildet werden. Alle Spitzenpositionen, die nicht als Elemente verlässlicher Kämme klassifiziert werden können (deren Auswahl in dem Abschnitt über Zuverlässigkeitsmessgrößen eingehender erläutert wird), werden verworfen. Dies führt zu 2.9, die zwei komplementäre Darstellungen zeigt. Das linke Feld zeigt die Kämme gemäß Berechnung in einem 0 dB-Cocktailpartygeräusch, das über das Cochleogramm von /NUL/ gelegt wurde. Das rechte Feld zeigt die komplementären Informationen: das verrauschte Cochleogramm mit den Kämmen gemäß Berechnung in einem klaren Signal.
  • Die Felder gestatten einen bequemen Vergleich zwischen Kammberechnungen in Rauschen im Verhältnis zu Berechnungen in klaren Situationen. Die in dem verrauschten Signal berechneten Kämme stimmen oft mit den hervorstechendsten Spitzen des klaren Ziels überein. Da die Kämme aus einem verrauschten Signal berechnet werden, stellen sie auch Positionen dar, wo Informationen der Quelle dominieren. Wie in dem rechten Feld zu sehen ist, besteht der Cocktailparty-Hintergrund hauptsächlich aus den Intensitätsspitzen in der Sprache anderer Sprecher. Da diese Intensitätsspitzen kürzer dauern als die gesamte Tonquelle, sind die Kämme weniger verlässlich. Für Hintergründe, die aus einer Vielzahl unkorrelierter Quellen bestehen, oder Hintergründe, die aperiodische Geräusche enthalten, ist dies oft der Fall. Diese Anforderung hilft das Problem zu lösen, da sie effizient den Suchraum reduziert, indem die wichtigsten Quellen von Informationen ausfindig gemacht werden.
  • Ein wichtiger Fall tritt ein, wenn zwei Signalanteile Frequenzen aufweisen, die einem einzelnen Segment oder seinen engen Nachbarn entsprechen. In diesem Fall wechseln sich Perioden mit konstruktiver und destruktiver Interferenz ab. Das führt zu einer Amplitudenmodulation mit einer Periode, die der Kehrwert der Frequenzdifferenz zwischen beiden Signalkomponenten ist, und zur Bildung eines Kamms an der Position, die der gewichteten mittleren Frequenz beider Komponenten entspricht. Der undichte integrierte Energiewert, der zu diesem Kamm gehört, weist Amplitudenmodulation auf. In verrauschten Situationen kann dies zu unterbrochenen Kämmen führen.
  • Zu einer anderen wichtigen Wechselwirkung zwischen Signalkomponenten kommt es, wenn die Signalkomponenten Segmenten entsprechen, die weiter auseinander liegen, so dass beide ihre entsprechenden besten Segment mitziehen. Irgendwo dazwischen (infolge der asymmetrischen Natur des Maskierens in der Regel nahe dem Hochfrequenzsegment) gibt es Segmente, die einen vergleichbaren von beiden Komponenten verspüren. Diese Segmente müssen zwei unterschiedlichen Frequenzen folgen, ohne die BM zu zerreißen. Folglich ist die durchschnittliche örtliche Amplitude (und folglich die entsprechende Energie) gering. Die entsprechende örtliche Energie ist ebenfalls gering.
  • Dies führt unvermeidlich zu einer Situation mit zwei Spitzen, die durch ein Tal getrennt sind. Für Signalanteile, die über eine gewisse Zeit fortbestehen, verbinden sich die entsprechenden Spitzen zu zeitlichen Kämmen. Das beweist die Existenz von stabilen Kämmen, die hinreichend getrennten, sich stetig entwickelnden Signalkomponenten entsprechen.
  • Berechnung einer laufenden Autokorrelation
  • Die örtlichen Augenblicksfrequenzkonturen werden unter Verwendung einer laufenden Autokorrelation berechnet. Unter Verwendung des neuen Verfahrens zum Bestimmen der Kämme haben wir nun einen Satz stetiger Kämme {si(t)}, und da die ZNK in Zeit t und Ort s stetig ist, ist es möglich, eine laufende Autokorrelation entlang dem Kamm s(t) als: rs(t),T(t) = L(xs(t)(t), xs(t)(t + T)) (20)T = [o, Tmax]
    zu berechnen.
  • Das sich die Spitzenposition gleichmäßig ändert, tut dies auch ihre zugehörige Autokorrelation. Es ist die Symmetrie mit der abgestimmten Autokorrelation von Gleichung 13 zu beachten. Diese Gleichung stellte einen Satz von Funktionen über alle Segmente s mit der Periodenkontur T(t) als eine Funktion der Zeit dar, während Gleichung 20 ein Satz Funktionen über alle T mit der Segmentsequenz s(t) als eine Funktion der Zeit ist. Die AAK beschreibt vertikale Querschnitte der ZNK und die laufende Autokorrelation als einen horizontalen Querschnitt.
  • Typische Beispiele von Autokorrelationen, die in dieser Weise berechnet wurden, sind in den linken Feldern von 2.10 gezeigt. Die obere Autokorrelation ist ein typisches, gut ausgeprägtes Beispiel, das für eine große Mehrzahl von Kämmen repräsentativ ist. In einigen Situationen zeigt die Autokorrelation eine Mischung aus Frequenzanteilen. Die untere Autokorrelation zeigt ein Beispiel, wo die dritte Oberschwingung teilweise durch die zweite maskiert ist. Dies führt zu einer wirren Autokorrelation und einer komplizierteren oder sogar unmöglichen Berechnung der örtlichen Augenblicksfrequenz (ÖAF) (wie im nächsten Abschnitt beschrieben). Das System geht von einer gut ausgeprägten Autokorrelation aus. Gelegentlich kommt es zu schlecht ausgeprägten Autokorrelationen, die zu (falschen) ÖAF-Berechnungen führen, die nicht der Eigenfrequenz der Segmente entsprechen. Es ist festgestellt worden, dass diese Werte verworfen werden können.
  • Berechnung von örtlichen Augenblicksfrequenzkonturen (ÖAF)
  • Die Autokorrelation in dem oberen Feld von 2.10 entspricht der vierten Oberschwingung des Zielsignals von 2.9 zum Zeitpunkt t = 285 ms. Diese Situation wird gewählt, weil sie keinem sehr hervorstechenden Kamm entspricht und die örtliche Frequenz sicht rasch ändert. Die örtlichen Augenblicksfrequenzen können durch Berechnen der durchschnittlichen Spitzenentfernung angenähert werden, in diesem Fall 13 Oszillationen, die in 12,0 ms passen. Das entspricht 1083 Hz. Aber das ist, wie gezeigt wird, eine unnötige Anwendung einer Quasi-Stationärheit, die zu der durchschnittlichen örtlichen Frequenz zwischen t = 285 ms und t = 285 + 12 ms führt.
  • Die Verwendung einer Annäherung der ersten Ordnung der Entwicklung der Entfernung zwischen den Spitzen verbessert die Berechnung der örtlichen Augenblicksfrequenz. Dies kann durch Messen der Entfernung in Abtastungen zwischen Spitzen und Einpassen eines Modells erster Ordnung durch diese Werte implementiert werden. Der Wert dieses Modells für die Autokorrelationsspitzen bei T = 0 ergibt einen Berechnungswert für die ÖAF. Das ist ein effizientes Verfahren, aber dieses Verfahren kann mit zeitlichen Diskretisierungseffekten behaftet sein, da die Abtastperiode von 0,05 ms im Vergleich zur örtlichen Augenblicksperiode von 0,94 ms nicht insignifikant klein ist.
  • Zeitliche Diskretisierungseffekte werden durch Verbessern der Berechnung der Spitzenpositionen unter Verwendung einer quadratischen Dreipunktpassung verringert. Das führt zu einer zehnfachen Verbesserung der Berechnung der Spitzenposition. Das rechte Feld zeigt die Frequenzen, die den neu berechneten Entfernungen zwischen den Spitzen und der linearen Einpassung durch diese Werte entsprechen. Der resultierende ÖAF-Wert an der Position von Spitze 0 ist 1064±5 Hz. Der Fehler ist kleiner als 0,5 %. Für Sprachtöne verhindern Schwankungen der Tonhöhe eine höhere Genauigkeit. Es ist zu beachten, dass sich die ÖAF um 25 Hz oder 2,35 % je 10 ms ändert. Eine Änderungsrate von 2,35 je 10 ms entspricht einem Faktor 10 oder 3,3 Oktaven in der Sekunde. Das sind natürliche Werte für spontane Sprache.
  • Die Berechnung der örtlichen Augenblicksfrequenz ist sowohl in Zeit als auch Frequenz sehr genau, weil feste Zeitfenster vermieden werden. Die Berechnung der örtlichen Augenblicksfrequenz unter Verwendung eines gefensterten Signals ist durch die Anwendung einer Quasi-Stationärheit und den Kompromiss zwischen zeitlicher und Frequenzauflösung begrenzt:
    Figure 00470001
  • Die Wahl der Breite des Fensters bestimmt die zeitliche Auflösung wie auch die Frequenzauflösung. Ein Vergrößern des Fensters verringert die zeitliche Auflösung Δt, aber vergrößert die Frequenzauflösung Δf und umgekehrt.
  • Zusätzliche Annahmen zum Signal, wie zum Beispiel die Annahme, dass das Signal aus einem einzelnen Oberschwingungskomplex besteht, kann die Berechnung der Augenblicksfrequenz vergrößern, aber mit willkürlichen Signalen kann die Gültigkeit dieser Annahmen nicht garantiert werden.
  • Für die ZNK-basierte ÖAF-Berechnung gilt ebenfalls die Gleichung 21, aber in einer anderen Weise. Sie stützt sich auf ein Mitziehen und ist auf Signalanteile beschränkt, die zu Kämmen führen. Das bedeutet, dass zwei Komponenten mit Frequenzen, die benachbarten Segmenten entsprechen, nicht aufgelöst werden können, da sie zu einem einzelnen Kamm führen. Das gleiche gilt für Situationen, wo eine einzelne Komponente die andere maskiert. Diese Unfähigkeit kann gemindert werden durch Vergrößern der Anzahl von BM-Segmenten und Schärfen der Frequenzkurven. Aber das Schärfen der Frequenzkurven führt zu einer Zunahme der Gruppenlaufzeit gemäß Gleichung 21. In einer Übertragungsleitung kann Δt von Gleichung 21 als Gruppenlaufzeit interpretiert werden, während Δf ein Maß der Schärfe der Abstimmkurven bezeichnet.
  • Die Genauigkeit der ZNK-basierten ÖAF-Berechnung ist darum auf Signalkomponenten beschränkt, die Kämme erzeugen. Sie ist des Weiteren durch die Anzahl der Spitzen und die Genauigkeit der Spitzenpositionsberechnung in der laufenden Autokorrelation beschränkt. Und schließlich ist sie durch die Gültigkeit der Annäherung der ersten Ordnung beschränkt. Im Fall sich langsam ändernder Signalanteile werden stabile Kämme gebildet, und die maximale Verzögerung der Autokorrelation kann so gewählt werden, dass eine Anzahl von Perioden dargestellt wird, die eine sehr genaue ÖAF-Berechnung ohne Ungültigmachung der Annäherung der ersten Ordnung gestattet. Es ist zu beachten, dass der Fehler in Verbindung mit der Einpassung der ersten Ordnung ein Maß der Verlässlichkeit des Berechnungswertes erbringt. Dies kann zum Beispiel während der Tonhöhenberechnung verwendet werden.
  • 2.11 zeigt Beispiele einiger Autokorrelationen, die zu einer Zeit t = 250 ms (siehe 2.9) der verrauschten /NUL/ berechnet wurden. Das untere Feld zeigt die laufende Autokorrelation der Kämme 2, 4, 6, 7 und 8 (die Nummerierung beginnt am niedrigstes Kamm) bei t = 250 ms in dem linken Feld von 2.9. Die Autokorrelationen lassen darauf schließen, dass diese Kämme von Oberschwingungen stammen, die zur selben Quelle gehören. Sie alle passen zu einer Periodizität von 4,10 ms (244 Hz). Das obere Feld zeigt die Autokorrelation der Kämme 1, 3 und 5, die nicht zu dieser Periodizität passen. Von diesen könnten Kamm 3 und 5 zu einer Periodizität von 2,9, 5,8 oder 8,7 ms passen.
  • Die Berechnung der örtlichen Augenblicksfrequenz ist unempfindlich gegen Rauschen. ÖAF-Werte werden in 2.12 für zwei Bedingungen berechnet und gezeigt. Die Punkte sind die Werte der örtlichen Augenblicksfrequenzen gemäß Berechnung anhand der klaren /NUL/. Die Sternchen sind anhand der verrauschten /NUL/ berechnet. Es ist zu beachten, dass die meisten Frequenzanteile in dem klaren Signal deutlich in der verrauschten Umgebung präsent bleiben. Eine nähere Untersuchung zeigt, dass die Störung oft geringer als 2 Prozent ist. Das zeigt an, dass die Kämme eine sehr verlässliche Quelle für Informationen zur Berechnung individueller Signalkomponenten bilden.
  • Berechnung der Grundperiodenkontur
  • Die Entwicklung einer verlässlichen und unempfindlichen Tonhöhenberechnungstechnik ist schwierig. Der Hauptgrund dafür ist, dass es im Allgemeinen unmöglich ist zu bestimmen, welche Signalanteile oder Signaleigenschaften zu einer bestimmten Quelle gehören, bevor die Quellen erkannt werden. Das ist eine direkte Folge der Unfähigkeit, den Signaltyp, zum Beispiel ob das Signal Sprache ist oder nicht, zu bestimmen, ohne in der Lage zu sein, das Signal zu erkennen.
  • Doch obgleich dieses Problem im Allgemeinen unlösbar ist, können einige Merkmale, wie sich gleichmäßig entwickelnde Oberschwingungen, verwendet werden. Sie können verwendet werden, solange der Benutzer gewährleistet, dass keine anderen Arten von Tönen auftreten. Leider ist dies nicht das, was man sich für ein System wünscht, das mit unbekannten Situationen umgehen kann.
  • Es wurden zwei Grundperiodenkonturberechnungstechniken entwickelt: eine für klare Signale, die in dem Abschnitt "Berechnung der Tonhöhe von klaren Signalen" beschrieben ist, und eine für Signale, die mit Rauschen kontaminiert sind oder Signale von mehreren Quellen enthalten und die im nächsten Abschnitt beschrieben ist.
  • Zuverlässige Berechnung der Grundperiodenkontur für verrauschte Signale
  • Dieser Abschnitt beschreibt eine Ausführungsform einer Technik zum Berechnen von Periodenkonturen komplexer Signale. Er ist in zwei Teile geteilt. Der erste Teil gibt einen Überblick, und der zweite Teil gibt einen detaillierteren Überblick.
  • Diese Eigenschaft wird für die Konturen verwendet, die in dem unteren Feld von 2.14 gezeigt sind. Das obere Feld von 2.15 zeigt alle Grundperiodenkonturhypothesen in Übereinstimmung mit den geglätteten Konturen von 2.14. Einige der Grundperiodenkonturhypothesen überlappen oder erweitern einander gleichmäßig. Das ist ein klares Anzeichen dafür, dass die Periodenkonturen von derselben Quelle stammen. Die Wahrscheinlichkeit, dass unkorrelierte Periodenkonturen ein zusammenhängendes Ganzes bilden, ist gering. Das untere Feld zeigt eine Auswahl des oberen Feldes auf der Grundlage dreier Hauptkriterien: die Konturen müssen eine bestimmte Mindestlänge haben, zum Beispiel 50 ms; sie müssen hinreichend gleichmäßig sein, und im Fall mehrerer gleichzeitiger Konturen werden nur die längsten Konturen ausgewählt. Das führt zu einer kräftigen Verringerung, und es führt oft zu einem Satz, der einen mehr oder weniger korrekten Tonhöhenkonturkandidaten enthält.
  • Der letzte Schritt vergleicht die übrigen gleichzeitigen Kandidaten mit den ursprünglichen Informationen zur örtlichen Periodizität, wie in 2.14 gezeigt, um zu bestimmen, welcher Kandidat die meisten der Periodenwerte erklärt und, um Oktavenfehler zu vermeiden, ein sinnvolles Verhältnis von ungeradzahligen und geradzahligen Oberschwingungen aufweist. Die Kandidaten, die diese Anforderungen am besten erfüllen, bilden die letztendliche Ausgabe des Algorithmus'.
  • 2.16 zeigt einen Vergleich zwischen Tonhöhenkonturen, die anhand von Signalen mit unterschiedlichen Signal-Rausch-Verhältnissen von Störgeräuschen berechnet wurden. Von einigen Unterschieden während des Beginns und des Endes abgesehen, ist der Algorithmus in der Lage, die korrekten Konturen für SRVs von –3 dB und besser zu finden. Wenn der Algorithmus eine korrekte Kontur erzeugt, so liegt die Übereinstimmung in der Regel weit innerhalb 1 % des tatsächlichen Wertes. Der Algorithmus identifiziert die Regionen, wo die hervorstechendsten Oberschwingungen der Zieltöne immer noch recht gut in der Lage sind, unter diesen Bedingungen örtlich zu dominieren, und nutzt des Weiteren Periodizitätsinformationen zum Finden der Tonhöhenkontur, die so viele dieser Regionen wie möglich kombiniert. Weil die Periodizitätsinformationen in diesen Regionen immer noch praktisch unbeeinträchtigt sind, muss die Tonhöhenkontur von ähnlicher Qualität sein, wie sie unter klaren Bedingungen berechnet wird. Während des Beginns und des Endes ist das örtliche Signal-Rausch-Verhältnis ungünstiger, wodurch es schwieriger wird, die Periodenkontur unzweideutig zu bestimmen.
  • Da die Tonhöhenkonturberechnungstechnik nach langen, gleichmäßigen und verlässlich nachgewiesenen Grundfrequenzkonturen sucht, findet sie alle Kombinationen von Anzeichen, die nachgewiesen werden können.
  • Grundperiodenkonturberechnung in Rauschen
  • Die Entwicklung einer verlässlichen und unempfindlichen Tonhöhenberechnungstechnik ist nicht unkompliziert, weil es im Allgemeinen unmöglich ist zu bestimmen, welche Signalanteile oder Signaleigenschaften zu der Zielklasse gehören, bevor das Signal erkannt wurde. Eine erste Periodenkonturberechnungsvorrichtung ist für Signale wie Sprache entwickelt worden, die in komplexen, unbekannten und veränderlichen Umgebungen erzeugt wird. Es ist auf ein hohes Maß an Unempfindlichkeit ausgelegt. Eine Beschreibung dieser Vorrichtung wird in diesem Abschnitt gegeben. Eine zweite Vorrichtung zur Berechnung der Grundperiodenkontur ist für rauschfreie Signale entwickelt worden. Ihre Funktion stützt sich auf die Annahme, dass das Ziel nicht mit Rauschen kontaminiert ist. Diese Vorrichtung basiert auf der Eigenschaft, dass alle Oberschwingungen einer periodischen Quelle eine gemeinsame Periodizität aufweisen. Diese Erfindung wird in dem Abschnitt "Grundperiodenberechnung für rauschfreie Signale" vorgestellt.
  • Als Indikatoren für verlässliche Quellen von Informationen sind festgestellt worden:
    • 1. die energiereichsten Kämme in jedem Moment
    • 2. lange Kämme
    • 3. gleichmäßige Kämme
    • 4. Kämme mit Frequenzen, die der örtlichen Eigenfrequenz entsprechen
  • Kämme, in denen mehrere dieser Merkmale kombiniert sind, sind besonders verlässlich. Die dargestellte Ausführungsform verwendet eine Herangehensweise, die anhand der vollständigen Äußerung arbeitet, aber es ist möglich, die Vorrichtung in einer Weise zu re-implementieren, die Berechnungen von Periodenkonturhypothesen mit einer Laufzeit von nur 100 ms oder weniger erzeugt. Die untere Grenze dieser Laufzeit wird durch eine Kombination von Gruppenlaufzeiteffekten, durch das zeitliche Ausmaß, das für die Berechnung von örtlichen Frequenzen benötigt wird, und vor allem durch die Anzahl von Periodenhypothesen bestimmt, die das System erzeugen darf. Mit einer Laufzeit von 50 ms hat das System weniger Informationen zur Verfügung, um die Anzahl der wahrscheinlichen Grundperiodenkandidaten zu verringern, als wenn es die Möglichkeit hat, Informationen über 100 ms zu integrieren. Optional hängt die Laufzeit von dem Signal selbst ab. Sehr verlässliche Informationen erfordern eine kurze Laufzeit, während weniger verlässliche Informationen mehr und längere Verarbeitung erfordern.
  • Dieser Abschnitt beschreibt eine Vorrichtung, die sich auf einen Satz fester Kriterien stützt, die unter den meisten Umständen gut funktionieren. Der nächste Abschnitt gibt einen Satz Zuverlässigkeitsmessgrößen an, die an die Stelle der festen Kriterien dieser Ausführungsform treten können, um die Flexibilität und Zuverlässigkeit der Implementierung zu verbessern.
  • Diese Ausführungsform verwendet den Periodebereich.
  • Alternative Implementierungen könnten den Frequenzbereich verwenden.
  • 3.6 gibt einen Überblick über die fünf Schritte des Algorithmus' zur Berechnung der zuverlässigen Grundperiodenkontur.
  • Schritt 1 berechnet Kämme und örtliche Augenblicksperiodenkonturen (der Kehrwert der ÖAF-Konturen). Schritt 2 wählt die zuverlässigsten Augenblicksperiodenkonturen. Schritt 3 klont diese Konturen zu allen möglichen Grundperiodenkonturen. Schritt 4 kombiniert die geklonten Periodenkonturen zu verlässlichen Grundperiodenkonturhypothesen. Schritt 5 ist optional und wählt die zuverlässigsten Grundperiodenkonturen, so dass in jedem Moment nur eine einzige Grundperiodenkonturhypothese existiert.
  • Die Eingabe in den Algorithmus sind die Informationen, die in 2.9 dargestellt sind, und umfasst das Cochleogramm, die Kämme und die örtliche Augenblicksperiode.
  • Der erste Schritt ist bereits in dem Abschnitt "ÖAF-Berechnung" beschrieben worden.
  • Die zweite Stufe des Algorithmus' ist die Auswahl und Glättung der energiereichsten Kämme. Dieser Algorithmus beginnt mit der Detektion von Augenblicksperioden, deren entsprechendes bestes Segment sich um mehr als ein Segment von dem besten Segment des Kamms unterscheidet. Diese Periodenwerte werden durch die eigene Periode des Segments ersetzt (auch als die beste Periode bezeichnet). Die verfügbaren Informationen sind in dem oberen Feld von 2.14 gezeigt. Zur besseren Erkennbarkeit sind nur Perioden kleiner als 5 ms (d. h. Frequenzen höher als 200 Hz) gezeigt. Da sich diese Darstellung auf eine Situation mit einem Signal-Rausch-Verhältnis von 0 dB stützt, zeigt sie viele Störanteile, die verworfen werden müssen.
  • Es wird jedem Kamm gefolgt, und solange aufeinanderfolgende Perioden innerhalb von 5 % voneinander liegen, werden sie derselben Periodenkontur zugeordnet. Wenn zwei aufeinanderfolgende Perioden nicht innerhalb von 5 liegen, so wird eine zusätzliche Prüfung ausgeführt, um zu überprüfen, ob der nächste Wert innerhalb von 5 % liegt. Wenn ein gültiger nächster Wert gefunden werden kann, so wird die Lücke mit dem Durchschnitt seiner Nachbarn ausgefüllt. Andernfalls wird eine neue Kontur begonnen. Alle Konturen werden mit einer geglätteten Version p(t) der Kontur verstärkt (siehe das untere Feld von 2.14). Das Glätten erfolgt unter Verwendung einer linearen 5-Punkt-Annäherung (25 ms). In der Mitte der Kontur basiert die geglättete örtliche Periode auf eine örtliche Nachbarschaft von 2 Frames auf jeder Seite. In den zwei ersten oder letzten Punkten einer Kontur basieren die geglätteten Periodenwerte auf den entsprechenden Werten der Annäherung der ersten Ordnung. Schließlich wird die durchschnittliche Ordinalität jeder Kontur berechnet. Die Ordinalität ist ein Maß der relativen Bedeutung im Hinblick auf die Energie. Ein Segment des energiereichsten Kamms hat die Ordinalität 1, das zweit-energiereichste Segment hat die Ordinalität 2, usw. Eine Periodenkontur wird akzeptiert, wenn ihre Länge 50 ms überschreitet und ihre durchschnittliche Ordinalität maximal 2 beträgt, oder alternativ, wenn ihre Länge 75 ms überschreitet.
  • Die glatten Kämme p(t) können gegebenenfalls von Oberschwingungen der Zielsprache stammen. Es wird davon ausgegangen, dass jede Kontur eine einzelne Oberschwingungszahl von Anfang bis Ende darstellt. Wenn die Oberschwingungszahl n bekannt wäre, so wäre die Grundperiode p0(t) bekannt, da:
    Figure 00560001
  • Als eine weitere Einschränkung sind gültige Grundperiodenwerte auf Werte zwischen 2,5 ms (400 Hz) und 13,3 ms (75 Hz) beschränkt – ein Bereich, in den die meisten Sprecher fallen. Zum Beispiel kann einen Periode p = 6 ms das Ergebnis der zweiten Oberschwingung einer Grundperiode p0 = 12 ms oder der ersten Oberschwingung von p0 = 6 ms sein. Eine Periode p' = 2 ms kann jede Oberschwingungszahl im Bereich von 2 bis 6 darstellen. Das entspricht jedem p0 in dem Satz {4, 6, 8, 10, 12} ms. Wenn p und p' von derselben Quelle stammen, so haben sie dieselbe Grundperiode p0 gemeinsam, in diesem Fall entweder 6 oder 12 ms.
  • Wie in dem oberen Feld von 2.15 dargestellt, werden die geglätteten Periodenkonturen mit jeder möglichen Oberschwingungszahl multipliziert und zu allen möglichen Grundperioden geklont. Das beinhaltet eine Änderung in den entsprechen charakteristischen Segmenten der Konturen, und da jedes Segment seine eigene Gruppenlaufzeit hat, impliziert dies eine zeitliche Verschiebung gemäß: t → t + d(snp) – d(sp) nt{1, 2, ... } (23)d(sp) und d(snp) sind die Gruppenlaufzeiten, die zu den Segmenten gehören, die am empfindlichsten auf die Periode p bzw. die Periode np ansprechen. Es ist zu beachten, dass diese Zeitverschiebung implizit die Augenblicksgrundperiode als die Periode der ersten Oberschwingung definiert.
  • Der dritte Schritt kombiniert die geklonten Konturen zu gleichmäßigen Grundperiodenkonturhypothesen. Das ist ein komplizierter Prozess, da Konturen oft in unterschiedlicher Weise kombiniert werden können. Wenn die örtlichen Perioden von zwei geklonten Konturen im Durchschnitt innerhalb von 3 % voneinander fallen, so werden sie zu einer einzelnen Hypothese kombiniert. Konturen, die einander teilweise oder vollständig erweitern, werden kombiniert, wenn eine Passung zweiter Ordnung berechnet werden kann, die zu beiden Konturen innerhalb von 3 % während 25 ms passt. Die Zeitverschiebung von Gleichung 22 ist sehr wichtig, weil sie einen verlässlichen Vergleich zwischen mehreren Konturen gestattet. Wenn diese Form der Gruppenlaufzeitkorrektur fehlt, so werden keine Konturen derselben Quelle während schneller Änderungen der Tonhöhe kombiniert. Schließlich werden Grundperiodenhypothesen kürzer als 50 ms verworfen. Das führt zu einer kräftigen Verringerung, und es führt oft zu einem Satz, der einen mehr oder weniger korrekten Tonhöhenkonturkandidaten enthält. Dieser Satz ist in dem unteren Feld von 2.15 gezeigt. Der momentane Satz Grundperiodenkonturhypothesen könnte eine geeignete Ausgabe bilden. Aber für Anwendungen, in denen es wichtig ist, maximal eine Periodenkontur je Zeitschritt zu wählen, ist ein optionaler letzter Schritt möglich.
  • Dieser optionale fünfte und letzte Schritt beinhaltet eine erzwungene Wahl zwischen gleichzeitigen Konturhypothesen. Bei Anwendung in standardmäßigen ASE-Systemen ist dies eine sehr wichtige Stufe, weil er bestimmt, welche Hör-Ereignisse gebildet werden. Diese Wahl entscheidet, welcher Teil des Signals gemäß den Erwartungen und Einschränkungen des Erkennungssystems interpretiert wird. Fehler auf dieser Stufe führen zu Erkennungsfehlern. Dies gewährleistet einen sehr sorgfältigen Entscheidungsprozess, der auf allen verfügbaren Informationen basiert, d. h. allen Kämmen und ihren entsprechenden Augenblicksperioden. Der Entscheidungsprozess wählt maximal eine einzelne Periodenkontur für jeden Moment. Die gewählte Hypothese maximiert die Anzahl von Augenblicksperiodenwerten, die sie als eine mögliche Oberschwingung beanspruchen kann, in Kombination mit einer ausgewogenen Verteilung von geradzahligen und ungeradzahligen Oberschwingungen.
  • Die Anzahl der durch die Grundperiodenkonturhypothese p(t) beanspruchten Oberschwingungen wird durch Zählen der Anzahl von Augenblicksperiodenwerten ermittelt, die folgende Bedingung erfüllen:
    Figure 00580001
  • ps,t ist der Augenblicksperiodenwert, der von einem Kamm zum Zeitpunkt t im Segment s abgeleitet wurde. Und p(t + ds) ist die Grundperiodenhypothese, die mit einem Wert ds gruppenlaufzeitkorrigiert wird, um die erwartete Augenblicksgrundperiode der Position von Segment s zu bezeichnen. Auch hier ist eine Gruppenlaufzeitkorrektur notwendig, weil die Augenblicksfrequenzinformationen von unterschiedlichen Regionen der Basilarmembran verglichen werden. Das Kriterium der Gleichung oben ist entspricht dem Akzeptieren einer Abweichung von 5,1 % um den erwarteten Wert herum.
  • Eine Variante dieser Gleichung kann verwendet werden, um die Anzahl der ungeradzahligen und geradzahligen Oberschwingungen zu zählen, die innerhalb von 5,1 % des erwarteten Wertes liegen:
    Figure 00580002
  • Der Index i bezieht sich auf alle möglichen Periodenwerte ps,t, während p(t + di) der benötigte Gruppenlaufzeitkorrekturwert für die örtliche Augenblicksgrundperiode ist, die zum Zeitpunkt t im Segment s widergespiegelt wird. Np(t) ist die Gesamtzahl akzeptierter Oberschwingungen, und Nop(t) und Nep(t) sind die Anzahl ungeradzahliger und geradzahliger Oberschwingungen. In diesem Fall fallen die ungeradzahligen Oberschwingungen um die Minimalwerte herum, während die geradzahligen Oberschwingungen mit den Maximalwerten der Kosinusfunktion übereinstimmen. Die quadratischen Klammern bezeichnen einen Booleschen Wert: 1, wenn die Aussage wahr ist, und 0, wenn die Aussage falsch ist.
  • Die beste Hypothese von zwei oder mehr gleichzeitigen Hypothesen ist die, die Durchschnittliche Anzahl der Oberschwingungen je Frame Anteil der ungeradzahligen Oberschwingungen
    Figure 00590001
    maximiert.
  • L ist die Länge der Grundperiodenkonturhypothese, die als eine Anzahl von Frames ausgedrückt ist. Beide Kriterien sind wichtig. Die durchschnittliche Anzahl beanspruchter Oberschwingungen ist ein Maß der Qualität der Hypothese. Kurze Hypothesen, die eine große Anzahl von Oberschwingungen je Frame beanspruchen, sind in der Regel längeren Hypothesen vorzuziehen, die eine geringere Anzahl von Oberschwingungen je Frame beanspruchen. Der Anteil ungeradzahliger Oberschwingungen ist niedrig, wenn die Grundperiodenkontur eine Oktave zu niedrig ist. Das geschieht recht oft, weil Störanteile im Allgemeinen die durchschnittliche Anzahl beanspruchter Oberschwingungen vergrößern. Das kombinierte Kriterium verringert die durchschnittliche Anzahl ungeradzahliger Oberschwingungen je Frame. Das einfache Kriterium hat eine hohe Wahrscheinlichkeit, die korrekte Hypothese zu auswählen.
  • Die ausgewählte Hypothese wird unter Verwendung aller beanspruchten Oberschwingungen neu berechnet und geglättet. Das Glätten ist ähnlich dem Glätten, das auf der ersten Stufe angewendet wird. Da alle beanspruchten Oberschwingungen zu der Berechnung beitragen, ist die Anzahl von Datenpunkten viel größer. Die örtliche lineare Annäherung in jedem Frame stützt sich nun auf alle Datenpunkte, die nach der Gruppenlaufzeitkorrektur einer Umgebung von 25 ms entsprechen. Wenn es 25 Datenpunkten gibt, die einer kleineren Umgebung entsprechen, so basiert die örtliche Berechnung auf diesen 25 Punkten. Die Verwendung von Gleichung 22 definiert die Grundperiodenkontur als die Augenblicksperiodenkontur der ersten Oberschwingung. Um die Forderungen des Auswahlalgorithmus' im Abschnitt "Auswahl von periodischen Signalanteilen" zu erfüllen, wird die Periodenkontur zeitverschoben, um die Augenblicksperiode der Quelle anstatt der Augenblicksperiode der ersten Oberschwingungen widerzuspiegeln.
  • Die endgültige Ausgabe des Algorithmus' ist eine Sequenz von Parametern, welche die Annäherung der ersten Ordnung an jeden Frame definieren. Ein Parameter ergibt die örtliche Augenblicksgrundperiode, der andere die zeitliche Ableitung. Da beide zeitlich geglättet werden, kann die tatsächliche Periode um die berechneten Werte herum schwanken. Die Technik, die in "Auswahl von periodischen Signalanteilen" beschriebenen ist, bestimmt über den endgültigen und optimalsten Wert.
  • 2.16 zeigt einen Vergleich zwischen Tonhöhenkonturen, die anhand von Signalen mit unterschiedlichen Signal-Rausch-Verhältnissen von Störgeräuschen berechnet wurden. Abgesehen von einigen Unterschieden während des Beginns und des Endes ist der Algorithmus in der Lage, die korrekten Konturen für SRVs von –3 dB und besser zu finden. Wenn der Algorithmus eine korrekte Kontur erzeugt, so liegt die Übereinstimmung in der Regel weit innerhalb von 1 % des tatsächlichen Wertes. Die Vorrichtung identifiziert die Regionen, wo die hervorstechendsten Oberschwingungen der Zieltöne immer noch recht gut in der Lage sind, örtlich zu dominieren, und die Vorrichtung nutzt Periodizitätsinformationen zum Finden der Tonhöhenkontur, die so viele dieser Regionen wie möglich kombiniert. Weil die Periodizitätsinformationen in diesen Regionen immer noch praktisch unbeeinträchtigt sind, muss die Tonhöhenkontur von ähnlicher Qualität sein, wie sie unter klaren Bedingungen berechnet wird. Während des Beginns und des Endes ist das örtliche Signal-Rausch-Verhältnis ungünstiger, wodurch es schwieriger wird, die Periodenkontur unzweideutig zu bestimmen.
  • Experimente lassen darauf schließen, dass der Algorithmus korrekte Periodenkonturen in über 95 % der Fälle oder mehr für die meisten verrauschten Situationen mit einem SRV von über 0 dB berechnen kann. In diesen Fällen gestattet er eine sehr gute AAK-Berechnung. Zwischen 0 und –3 dB verringert sich die Wahrscheinlichkeit einer korrekten Berechnung auf 70 %. Unter –3 dB ist die Vorrichtung aufgrund der festen Parameter nicht zuverlässig. Seine Zuverlässigkeit kann mit Hilfe der Zuverlässigkeitsmessgrößen gesteigert werden, die im nächsten Abschnitt dargestellt sind.
  • Im nächsten Abschnitt wird ein alternatives Verfahren vorgestellt, um die möglichen Tonhöhenwerte in jedem (Abtast-) Moment in der Zeit zu bestimmen (Schritt 3). An diese Werte kann man dann von Tonhöhenkonturen aus in einer Weise anknüpfen, die der Vorgehensweise ähnelt, die für die Berechnung von Kämmen beschrieben wurde (wie in dem Abschnitt zur Kammberechnung beschrieben). Die Bildung einer globalen Zuverlässigkeitswertung für diese Tonhöhenkonturen wird ebenfalls im nächsten Abschnitt dargestellt.
  • Dieses alternative Verfahren gestattet die Ermittlung von Tonhöhenkonturen mit einer minimalen Laufzeit, wie zuvor in diesem Abschnitt angesprochen.
  • Zuverlässigkeitsmessgrößen
  • Wie zuvor beschrieben, wählt die Berechnung der Grundperiodenkontur die zuverlässigsten Informationen aus. Wenn Zuverlässigkeitsmessgrößen auf der höchsten Ebene des Systems ermittelt werden müssen (Auswahlvorrichtung), so spielen Zuverlässigkeitsmessgrößen, die auf unteren Ebenen ermittelt werden, eine wichtige Rolle. Die eine oder die mehreren Zuverlässigkeitmessgrößen auf einer bestimmten Ebene bestehen aus Zuverlässigkeitsmessgrößen, die von unteren Ebenen zur Verfügung stehen, sowie aus neuen Informationen, die auf der Ebene selbst gewonnen werden. Von der niedrigsten zur höchsten Ebene können die folgenden Zuverlässigkeitsmessgrößen definiert werden:
    • 1) Die Zuverlässigkeit individueller Spitzen in der Energieabgabe in einem bestimmten Moment in der Zeit. Diese Messgröße hängt von dem örtlichen Signal-Rausch-Verhältnis (SRV) ab.
    • 2) Die (globale) Zuverlässigkeit eines Kamms kann aus den (örtlichen) Zuverlässigkeitswerten hergeleitet werden, die für die Spitzen ermittelt wurden, die zum Erzeugen des Kamms verwendet werden. Weitere Einflüsse können von der Länge des Kamms und der Stetigkeit des Kamms (sowohl in Position als auch Energie) kommen.
    • 3) Die Zuverlässigkeit von Frequenzkonturen hängt von der Zuverlässigkeit des Kamms ab, unter dem die Frequenzen ermittelt werden. Auch die Stetigkeit der Frequenz kann eine Rolle spielen, sowie die Einpassung der Autokorrelation in eine Standardform.
    • 4) Während der Auswahl der Kämme werden keine Zuverlässigkeitsmessgrößen ermittelt, aber sie tragen zur Zuverlässigkeit auf höheren Ebenen bei, indem nur Kämme ausgewählt werden, von denen angenommen werden kann, dass sie zur selben Quelle gehören.
    • 5) Die (globale) Zuverlässigkeit einer Tonhöhenkontur wird hergeleitet aus: – den Zuverlässigkeiten der Kämme, die zur Ermittlung der Tonhöhe/der Kämme beitragen, die zu dieser Tonhöhenkontur passen; – einer Passgenauigkeitsmessgröße, die innerhalb des Tonhöhenermittlungsverfahrens ermittelt wurde; – der Stetigkeit der Tonhöhe.
    • 6) Die Zuverlässigkeitmessgröße der endgültigen Auswahl kann auf die Zuverlässigkeit der Tonhöhenkontur gestützt werden, auf der die Auswahl basiert. Außerdem kann der Betrag an Maskierung, die möglicherweise an jeder Position vorliegt, ermittelt und dafür verwendet werden, eine Zuverlässigkeitswertung zu erzeugen, die von Zeit und Ort abhängt.
  • Die oben angesprochenen Messgrößen werden unten eingehender erläutert. Anhand von 3.1. werden weiter unten Spitzensuche und Berechnung des örtlichen SRV eingehender erläutert. Zu jedem Zeitpunkt finden sich Spitzen im Energieausgang des BM-Modells. Diese Spitzen sind örtliche Maxima (der Energie als eine Funktion der Position). Die Position der Spitze kann mit höherer Präzision als die Diskretisierungsschritte, die in dem Modell verwendet werden, unter Verwendung einer quadratischen Interpolation ermittelt werden. Der nächste Schritt ist die Suche nach einer Spitzenschablone (in einem zuvor festgelegten Satz Spitzenschablonen), die eine Spitze hat, die der Position des örtlichen Maximums am nächsten liegt. Das geschieht für alle Spitzen individuell.
  • Als nächstes müssen die Punkte des Energiespektrum (ES) ermittelt werden, die gut in die Schablone (grSpec) passen. Ein Einpassungsverfahren unter Verwendung der vertikalen Entfernung zwischen ES und grSpec würde zu einer schlechten Passung an der steilen Schräge der Schablone führen, wohingegen die Passung an den flacheren Regionen viel besser wäre. Darum wurde ein Verfahren geschaffen, das mit dem Drehwinkel arbeitet, der benötigt wird, um einen Punkt des ES auf der Schablone grSpec anzuordnen. Dieses Verfahren beginnt an der Spitzenposition. Zuerst prüft es den Punkt links von dieser Position. Wenn die Richtungen, in denen der Punkt auf dem ES und der Punkt auf der grSpec zu finden sind, nicht weiter als ein Grad auseinander liegen, so wird davon ausgegangen, dass der ES-Punkt auf der Schablone grSpec angeordnet werden könnte, und die Aufmerksamkeit wird dem nächsten Punkt zugewandt. Solange der Drehwinkel, der benötigt wird, um den ES-Punkt auf der Schablone grSpec anzuordnen, kleiner ist als ein Grad, wird angenommen, dass die Punkten des ES zu der Schablone passen. Wenn ein Punkt gefunden wird, der eine Drehung von mehr als einem Grad erfordert, so wird der Punkt als "nicht-passend" klassifiziert, und die Suche zur Linken wird beendet, und der Prozess wird auf der rechten Seite der Spitze wiederholt.
  • 3.2a zeigt ein Energiespektrum mit einer Schablone für eine der Spitzen. In 3.2b ist der Kosinus des Drehwinkels gezeigt, der benötigt wird, um die ES-Punkte auf der Schablone anzuordnen. Es ist klar, dass der Kosinus für Punkte nahe der Spitze nahe 1 ist (kleine Winkel). Der Wechsel zu Werten nahe 0, oder sogar zu negativen Werten, ist recht abrupt und entspricht recht genau der Grenze der Region, die wir intuitiv als die Passungsregion angeben würden. In 3.2c schließlich sind die Punkte, die als gut zu Spitzenschablonen passend markiert sind, in roter Farbe dargestellt.
  • 3.3a zeigt die Energieabgabe der Cochlea als eine Funktion der Zeit und Position für das Signal "eins vier null". In 3.3b sind die rot gefärbten Bereiche die Teile, die als zu Spitzenschablonen passend klassifiziert sind.
  • Wenn ein Bereich ermittelt wird, der zu einer Spitze passt, so kann ein Maß für das örtliche SRV erhalten werden. Dieses Maß sollte das Verhältnis zwischen der Energie an der Spitze und der Energie an den Enden der Passungsregion angeben. Weil die Werte an beiden Enden sehr verschieden sein können, wird ein Durchschnitt zwischen den beiden verwendet. Es ist zu beachten, dass, weil die dB-Skala eine logische Skala zur Verwendung für das SRV ist, die SRVs für beide Seiten in dBs ermittelt und dann gemittelt werden. In 3.3c sind die Passungsbereiche farbcodiert, wobei die SRV-Werte für die Passungsregionen ermittelt sind. 3.4 zeigt die Ergebnisse dieser Technik unter Geräuschbedingungen (Geräusch eines Automobilwerkes, 0 dB). Es ist klar, dass das Verfahren die Regionen identifiziert, wo verlässliche Informationen gewonnen werden können, um den Frequenzgehalt von gesprochenen Teilen eines Sprachsignals unter Geräuschbedingungen zu ermitteln.
  • In dieser Anmeldung wird die Ermittlung einer örtlichen Frequenz unter einem Kamm beschrieben. Weil das Signal unter einem Kamm ungefähr sinusförmig ist und die Frequenz nahe der örtlichen Eigenfrequenz (oder besten Frequenz) fc liegt, kann davon ausgegangen werden, dass die Autokorrelation eine Kosinusgestalt hat, deren erstes Maximum bei der Laufzeit liegt, die 1/fc entspricht. Das impliziert, dass 1/fc als ein erster Berechnungswert für eine Spitzensuche genommen werden kann, die zum Beispiel mit Interpolation arbeiten kann, um die Spitze beträchtlich schneller und genauer zu finden als das beschriebene Verfahren. Als eine zusätzliche Zuverlässigkeitsmessgröße kann die Entsprechung zwischen den Autokorrelationswerten und der angenommenen Kosinusgestalt ermittelt werden.
  • Im vorangegangenen Teil wurden Kämme ermittelt. Nun muss ermittelt werden, welche Kämme zusammengehören und/oder welche Kämme zur Zielquelle gehören. Dafür wird die Annahme verwendet, dass unser Ziel an jedem Zeitpunkt (in jedem 5 ms-Frame) eine eindeutig definierte Tonhöhe hat. Wir müssen darum bestimmen, welche Kämme eine gemeinsame Tonhöhe benutzen. Oder anders ausgedrückt: Wir müssen eine Tonhöhenfrequenz finden, welche die meisten der gefundenen Kämme erklärt. Der Tonhöhenberechnungswert kann dann in dem folgenden Abschnitt als eine Grundlage für die Auswahl der Quelle anhand des Hintergrundes verwendet werden.
  • Die Tonhöhenberechnung verwendet die Frequenzen aller Kämme, die in dem vorherigen Abschnitt ermittelt wurden. Diese Frequenzen bilden die Eingabe in eine sogenannte Summierung harmonischer Unterschwingungen (siehe JASA 83(1), Januar 1988, Measurement of pitch by subharmonic summation, D. J. Hermes, für eine detaillierte Beschreibung).
  • Diese Summierung harmonischer Unterschwingungen funktioniert so, wie im Folgenden erläutert wird. Für jede Frequenz, die gefunden wurde, werden die Tonhöhenwerte, die zu dieser Frequenz geführt haben könnten, ermittelt. Diese möglichen Tonhöhenwerte werden harmonische Unterschwingungen genannt. Um große Anzahlen möglicher Tonhöhenwerte zu vermeiden, insbesondere im Niederfrequenzbereich, wurde der Bereich der möglichen Tonhöhenwerte auf [45 Hz-400 Hz] beschränkt. Dieser Bereich umfasst die Tonhöhenwerte, die man in menschlichen Stimmen findet. Auch der Bereich möglicher Eingangsfrequenzen wurde beschränkt (auf [70 Hz-2000 Hz]). Das ist der Bereich, in dem Frequenzen exakt ermittelt werden können. Wir haben nun einen Satz möglicher Tonhöhenwerte für jede der Frequenzen, die in dem momentanen Frame zu finden sind.
  • Weil die Frequenzen nicht mit unendlicher Genauigkeit ermittelt werden können, werden Gaußsche Verteilungen um jeden möglichen Tonhöhenwert herum gebildet. Das führt zu einer Möglichkeitsverteilung von Tonhöhenkandidaten für jede Frequenz, die in dem momentanen Frame gefunden wird (Eingangsfrequenz). Diese Verteilungen werden über alle Eingangsfrequenzen summiert. Wenn eine Tonhöhe eine hohe Wahrscheinlichkeit in den meisten der Verteilungen hat, so bekommt sie eine hohe Wahrscheinlichkeit in der summierten Verteilung. Wenn ein Tonhöhenwert eine hohe Wahrscheinlichkeit in nur einem kleinen Teil der einzelnen Verteilungen hat, so wird seine Wahrscheinlichkeit in der summierten Verteilung verringert. Diese Vorgehensweise führt zu einer hohen Spitze bei der Tonhöhe, die in dem größten Anteil der einzelnen Verteilungen vorliegt. Das ist in 3.3 veranschaulicht.
  • 3.3A-D zeigen die Tonhöhenverteilungen für einzelne Frequenzen. In 3.3A wird eine Eingangsfrequenz von 175 Hz verwendet. In 3.3B wird eine Eingangsfrequenz von 350 Hz verwendet In 3.3C wird eine Eingangsfrequenz von 525 Hz verwendet In 3.3D wird eine Eingangsfrequenz von 750 Hz verwendet. Diese Frequenzen sind die ersten vier Oberschwingungen von 175 Hz. In 3.3A hat die niedrigste Frequenz (175 Hz) nur zwei mögliche Tonhöhen in dem Tonhöhenbereich: 87,5 Hz und 175 Hz. Für die höheren Oberschwingungen in den 3.3B-D nimmt die Anzahl möglicher Tonhöhen zu. Logischerweise sehen wir eine Spitze bei 175 Hz in allen 3.3A-D.
  • Aber bei 87,5 Hz erhalten wir auch einer Spitze in allen vier Verteilungen. Das liegt daran, dass es genau 175 Hz/2 ist. Das bedeutet, dass alle Oberschwingungen von 175 Hz ebenfalls Oberschwingungen von 87,5 Hz sind. Das sind die einzigen zwei Frequenzen in dem Bereich [45 Hz-400 Hz], wo alle vier Oberschwingungen eine Spitze haben. Ein Summieren der Verteilungen führt zu dem Diagramm in 3.3E. es ist bereits klar, dass 87,5 Hz und 175 Hz die besten Kandidaten sind, aber wir erhalten auch signifikante Anteile auf anderen Frequenzen (zum Beispiel bei 350 Hz und 116, 6667 Hz).
  • Aber diese Tonhöhenkandidaten erklären nur einen Teil der Eingangsfrequenzen. Darum multiplizieren wir jeden Tonhöhenkandidaten mit dem Anteil an Eingangsfrequenzen, die er erklärt. Das führt zu dem Diagramm in 3.3F. Es ist offenbar, dass die zusätzlichen Spitzen in der Verteilung signifikant verringert sind. Wir haben aber immer noch zwei Kandidaten übrig: 87,5 Hz und 175 Hz. Weil wir Oberschwingungen von 175 Hz wählten, wollen wird, dass dies der beste resultierende Kandidat ist. Eine Art, das zu tun, ist, dem Kandidaten bei 87,5 Hz "Punkte" wegen der Tatsache "abzuziehen", dass er bei 262,5 Hz, 437,5 Hz, 612,5 Hz usw. hätte Zwischenharmonische entstehen lassen, aber diese Frequenzen finden sich nicht in der Eingabe. Der Kandidat bekommt bei 87,5 Hz "Punkte" wegen der Tatsache "abgezogen", dass die Hälfte seiner Oberschwingungen in der Eingabe fehlt. Denn die Situation, die wir hier für 175 Hz und 87,5 Hz vorgefunden haben, kommt häufig vor und führt zu sogenannten Oktavenfehlern. Der Punktabzug für fehlende Oberschwingungen ist schwerwiegender (quadratisch, was man als eine doppelte Anwendung dieser Korrektur ansehen könnte). Die Endverteilung, die in dem Diagramm in 3.3G gezeigt ist, zeigt nun eine hohe Spitze bei 175 Hz und keine echten Alternativen mit hohen Wahrscheinlichkeiten – so, wie wir es haben wollen.
  • Die Situation ist ein wenig komplizierter, wenn wir die folgenden Frequenzen verwenden: 250 Hz, 375 Hz, 500 Hz und 750 Hz. Die resultierenden Kurvendarstellungen sind in 3.4A-G in einer ähnlichen Reihenfolge wie die Kurvendarstellungen in 3.3A-G gezeigt. Die Frequenzen könnten die 2., 3., 4. und 6. Oberschwingung von 125 Hz sein. In diesem Fall hätten wir eine beträchtliche Anzahl fehlender Oberschwingungen. Oder wir könnten die 1., 2. und 3. Oberschwingung von 250 Hz und zufällig eine 375 Hz-Komponente von einer anderen Quelle haben. In 3.4E können wir sehen, was das Ergebnis unserer Summierung harmonischer Unterschwingungen ist. Es ist klar, dass es in diesem Fall zwei Alternativen für die Tonhöhe gibt: 125 Hz und 250 Hz, und diese Alternativen sind mit ungefähr gleicher Wahrscheinlichkeit korrekt.
  • In einer derartigen Situation müssen wir zusätzliche Informationen von anderen Frames verwenden, um eine Wahl zwischen den zwei Alternativen treffen zu können. Wenn wir in dem nächsten oder vorherigen Frame andere Oberschwingungen von 125 Hz finden, so ist es diese Alternative, die gewählt wird. Wenn wir jedoch nur die Oberschwingungen von 250 Hz finden und die 375 Hz-Komponente eine andere Zeitentwicklung hat als die anderen, so können wir schlussfolgern, dass sie von einer anderen Quelle erzeugt wurde.
  • Weil das Ermitteln der Verteilung von harmonischen Unterschwingungen für alle Frequenzkomponenten in dem momentanen Frame rechnerisch aufwändig sein kann, haben wir entschieden, eine Matrix zu bilden, die mit Verteilungen harmonischer Unterschwingungen für eine große Anzahl (550) von Eingangsfrequenzen gefüllt wird. Diese wird die "Tonhöhenmatrix" genannt und kann bei der Initialisierung errechnet werden. Aus dieser Matrix können die Verteilungen für die Eingangsfrequenzen ganz einfach durch lineare Interpolation zwischen den zwei Reihen mit Frequenzen, die der Eingangsfrequenz am nächsten liegen, ermittelt werden. Die Matrix und die Reihen, die für den Fall der Kombination 175, 350, 525 und 700 Hz ausgewählt werden, sind in 3.5 zusammen mit der resultierenden Endverteilung gezeigt.
  • Grundperiodenberechnung für rauschfreie Signale
  • Es ist eine Grundperiodenberechnungsvorrichtung entwickelt worden, die auf rauschfreie (Sprach-) Signale angewendet werden kann. Der in diesem Abschnitt vorgestellte Algorithmus soll eine schnelle Alternative für die allgemeinere Periodenberechnungstechnik sein, die an früherer Stelle vorgestellt wurde. Diese Vorrichtung kann zum Berechnen der Grundperiodenkontur für Sprachdatenbanken vor einer automatischen Spracherkennung verwendet werden.
  • Die Anforderungen an einen Grundperiodenberechnungsalgorithmus zum Messen der Zuverlässigkeit eines Spracherkennungssystems unterscheiden sich geringfügig von einem System, das darauf abzielt, so viel von der Quelle wie möglich auszuwählen und zu verfolgen. Das wird in der allgemeinen Grundperiodenberechnung optimiert.
  • Für einen ASE-Test ist es notwendig, eine Signaldarstellung zu erzeugen, die den gespeicherten Schablonen so gut wie möglich ähnelt. Das bedeutet, dass Rauschen die Auswahl so wenig wie möglich kontaminieren darf. Während des Beginns, aber häufiger während des Endes, könnte die Signalenergie relativ gering sein, während nur wenig sprachliche Informationen übertragen werden. Zum Beispiel haben die Informationen nach t = 360 ms in dem Wort /NUL/ in 2.2 nut wenig Folgen, während eine ansteigende Tonhöhe für wenigstens weitere 100 ms berechnet werden kann. Während dieser letzten 100 ms nimmt das Signal-Rausch-Verhältnis rasch ab, was zu einer stärker kontaminierten AAK-Auswahl führt. Um diese Kontaminierung zu verringern, ist es von Vorteil, bei der Entscheidung, ob der Beginn oder das Ende eines Signals Sprache enthält oder nicht, konservativ zu sein.
  • Das wird durch Beschränken sowohl der Energie als auch des Abklingverhaltens der Kämme in der Niederfrequenzhälfte des Basilarmembranmodells implementiert. Dieser Teil der Basilarmembran wird kaum durch sprachfreie Signalkomponenten beeinflusst. Wenn der Energieverlust 50 oder mehr in 10 ms entspricht oder wenn die Energie nicht 1 der erwarteten maximalen Energie der Äußerung übersteigt, so werden die Frames als sprachfrei angesehen. Dieses kombinierte Kriterium kann durch ausgeklügeltere Kriterien ersetzt werden.
  • Das Abklingkriterium ist ein bisschen restriktiver als das Abklingen des undichten Integrationsprozesses bei Fehlen einer Eingabe. Das Abklingen in 10 ms, das mit einer Zeitkonstante einer undichten Integration von 10 ms verbunden ist, ist e – 10/t = e – 1 = 0,37, während die angelegte Schwelle 0,5 ist. Für Sprachsignale ist diese Schwelle sehr effizient. Weil die Grundperiodenkonturberechnung sehr gut ist und weil sich nur wenig Ansteuerungsenergie in dem Signal befindet, kann die Auswahl, die auf der intermittierenden Grundperiodenkontur basiert, in der Regel fast nicht von einer Auswahl unterschieden werden, die auf einer stetigen Version der Periodenkontur basiert. Die Kombination beider Kriterien führt zu Grundperiodenkonturen, die im Allgemeinen ein früheres Ende haben, wie es für ASE-Anwendungen erforderlich ist.
  • Der Grundperiodenalgorithmus basiert auf einer Summierung der Autokorrelation entlang Kämmen. Dieser Algorithmus ähnelt Korrelogramm-basierten Algorithmen, die beanspruchen, Aspekte der menschlichen Tonhöhenwahrnehmung zu modellieren. Der Hauptunterschied ist die Verwendung der laufenden Autokorrelationen unter Kämmen anstelle des Berechnens und Summierens eines FFT-basierten Korrelogramms. Das verringert den Rechenaufwand, und weil keine Quasi-Stationärheit angewendet wird, kann eine bessere Berechnung der Augenblickstonhöhe für Signale mit einer rasch wechselnden Tonhöhe erreicht werden. Wie im Kontext von 2.7 angesprochen, stimmen die Autokorrelationen entlang Kämmen, die von derselben Quelle stammen, mit der Grundperiode als der ersten gemeinsamen Periodizität, die allen Kämmen gemein ist, überein. 3.7 zeigt ein typisches Beispiel eines Satzes Autokorrelationen und der entsprechenden Summierung. Es ist zu beachten, dass alle Autokorrelationen einfach addiert werden und keine Gruppenlaufzeitkorrektur ausgeführt wurde. Das Ergebnis ist darum eine Annäherung. Die Optimierung in dem Auswahlalgorithmus (siehe "Auswahl von periodischen Signalanteilen") bestimmt die endgültige Augenblicksgrundperiode.
  • In jeden Frame werden die drei höchsten Spitzen in der summierten Autokorrelation mit Werten höher als dem 0,3-fachen der örtlichen Energie entlang dem Kamm ausgewählt und – mit den höchsten zuerst – gemäß dem Autokorrelationswert sortiert. Wenn keine Spitze das Kriterium erfüllt, so wird der Frame als sprachfrei angesehen. Es wird davon ausgegangen, dass eine dieser Autokorrelationsverzögerungen dem gewünschten Grundperiodenwert für diesen Frame entspricht. Die ausgewählten Spitzen werden zu zeitlichen Konturen kombinierte. Konturen mit einer Dauer von weniger als 25 ms werden verworfen. In jedem Frame werden die übrigen Konturen mit der entsprechenden besten Frequenz des Segments des niedrigsten Kamms verglichen. Konturen, die 60 oder mehr der Zeit innerhalb von 10 % der besten Frequenz des niedrigsten Kamms fallen, werden ausgewählt, und die anderen Konturen werden verworfen. Schließlich werden die ausgewählten Periodenkonturen mit dem gleichen Verfahren geglättet, wie es in dem Abschnitt "Grundperiodenberechnung in Rauschen" beschrieben ist. Die endgültige Ausgabe des Algorithmus' sind = im Einklang mit den Anforderungen des AAK-Auswählalgorithmus' im Abschnitt "Auswahl von periodischen Signalanteilen" – die Parameter, welche die Annäherung der ersten Ordnung der örtlichen Augenblicksgrundperiode bei jedem Frame definieren.
  • Diese Technik kombiniert zwei Wissensquellen, die einander ergänzen: Periodizitätsinformationen in den Autokorrelationen ermöglichen eine genau Periodizitätsberechnung und Positionsinformationen erleichtern die Wahl des korrekten Grundperiodenkandidaten
  • Auswahl von periodischen Signalanteilen
  • Der nächste Schritt ist die eigentliche Zuordnung von Informationen zu Hör-Ereignissen. Das untere Feld von 2.17 zeit typische Beispiele von AAK-basierten Hör-Ereignissen. Die Anwendung einer einzelnen Beschränkung, einer Periodenkontur, hat bereits eine vorteilhafte Auswirkung auf das verrauschte Signal in dem oberen Feld. Auf der Niederfrequenzseite wählt das AAK-Cochleogramm verlässlich die ersten Oberschwingungen aus, und auf der Hochfrequenzseite weist es große Bereiche der Zeit-Frequenz-Ebene (eigentlich der Zeit-Ort-Ebene) dem Hör-Ereignis zu. Auf der Niederfrequenzseite werden die ausgewählten Regionen durch eine einzelne Oberschwingung dominiert. Auf der Hochfrequenzseite werden die Regionen durch Formanten dominiert: Komplexe von Oberschwingungen, die eine gemeinsame Grundperiode haben.
  • Weil kleine Tonhöhenberechnungsfehler zu großen Auswirkungen führen können, stützen sich die AAK-Auswahlen vorzugsweise auf einen örtlichen Optimierungsprozess. Die Grundperiodenkontur, die durch die Tonhöhenberechnungsalgorithmen berechnet wurde, beschreibt die allgemeine Entwicklung der Periodenkontur gut, aber stellt keine schnellen Tonhöhenschwankungen dar. Der Berechnungsprozess führt für jeden Frame zu einem Periodenwert und einer örtlichen zeitlichen Ableitung. Das ergibt eine verlässliche Anzeige der örtlichen zeitlichen Entwicklung, aber die tatsächliche Augenblicksperiode kann um diese durchschnittliche Entwicklung herum schwanken. Die örtliche Periodenberechnung und ihre Ableitung führen zu örtlichen Augenblicksperiodizitätswerten Ts. Die gestrichelte Linie in 2.18 zeigt diese als eine örtliche Augenblicksperiodizitätskurve. Um den optimalen Wert für die Augenblicksperiode zu berechnen, wird diese Kurve in der Periodizität nach oben und nach unten zu verschieben (d. h. nach rechts und nach links in 2.18), und die entsprechenden ZNK-Werte für jede Wahl der örtlichen Augenblicksperiode werden berechnet. Die Wahl der Augenblicksperiode, welche die Summe der positiven Werte der komprimierten ZNK maximiert, wird als die endgültige Augenblicksperiode gewählt, auf der die Auswahl basiert.
  • Die beste Augenblicksperiode ist der Wert, der den Bereich unter den positiven Werten und der x-Achse optimiert. Dieses Optimierungsverfahren ist eine sehr effiziente Art, die Auswirkungen natürlicher Tonhöhenschwankungen und kleiner Periodenberechnungsfehler zu verringern.
  • Obgleich die Auswahl, die in 2.17 gezeigt ist, auf korrekten Periodenkonturen basierte, kann nicht garantiert werden, dass die Auswahl korrekt ist. Einer der Sprecher im Hintergrund könnte die Quelle einer der Periodenkonturen sein. Eine Weiterverarbeitung unter Nutzung der Kenntnis möglicher Quellentypen wie zum Beispiel Sprechtypen von Sprechern und aller Aspekte der Sprache muss dieses Problem lösen. Glücklicherweise umfassen die Informationen, die durch ein Hör-Ereignis dargestellt werden, das auf einer korrekten Periodenkontur basiert, die in recht verrauschten Situationen berechnet wurde, genaue Informationen über die relative Bedeutung einzelner Oberschwingungen und Formanten. Das reicht aus, um die Anzahl möglicher Interpretationen der Daten auf einige wenige Hypothesen zu verringern.
  • Obgleich das AAK-Konzept keine nicht-periodischen Informationen zu Hör-Ereignissen zuordnen kann, kann es dabei helfen, die Position wahrscheinlicher Kandidaten aperiodischer Hör-Ereignisse zu bestimmen, die demselben Strom zugeordnet werden könnten. Bei normaler Sprache ist die Position aperiodischer Signalkomponenten stark mit den periodischen Komponenten korreliert. In den meisten Fällen enden diese Anteile unmittelbar vor oder während des Beginns und beginnen während oder nach dem Ende eines periodischen Anteils. Im Fall des /T/ von /TWEE/(/ZWEI/), das bei t = 1000 ms beginnt und in dem Segmentbereich von 90 bis 100 in dem oberen Feld von 2.17 am deutlichsten wahrzunehmen ist, kann eine einfache Form der Schablonenübereinstimmung hinreichen, um wahrscheinliche Kandidaten aperiodischer Anteile zu detektieren.
  • Die Eigenperiodenkorrelation (EPK)
  • Um mit aperiodischen Signalen wie Beginnmomenten und aperiodischen Geräuschen umzugehen, wurden andere Vorrichtungen erfunden. Während periodische Signale durch einen diskreten Satz Signalanteile gekennzeichnet sind, ist ein aperiodisches Signal durch eine stetige Verteilung von Frequenzen gekennzeichnet. Ein typisches aperiodisches Signal wie ein Einheitsimpuls stellt eine gleichmäßig gewichtete Verteilung von Frequenzen dar. Jeder Frequenzbereich versucht, den Bereich von Basilarmembransegmenten mit einer entsprechenden Eigenfrequenz fc mitzuziehen. Das führt zu einer Situation, in der jedes Segment der BM im Durchschnitt mit seiner Eigenfrequenz oszilliert. Das führt zu einer vorläufigen Definition der Eigenperiodenkorrelation (EPK) als: ts c(t) = L(xs(t), xs(t + Tc,s)) (27)wobei Tc,s die Eigenperiode des Segments bezeichnet. Die EPK erbringt Werte nahe den Energiewerten des Cochleogramms für Basilarmembranregionen, die mit der Eigenperiode oszillieren. Sie erzeugt auch hohe Werte für Regionen, die durch Niederfrequenzkomponenten mitgezogen werden, die mit einer viel größeren Periode als der Eigenperiode oszillieren. Um zu gewährleisten, dass die EPK weniger empfindlich auf die letzteren Regionen reagiert, kann die EPK umdefiniert werden zu:
    Figure 00760001
    was der halben Differenz zwischen der Korrelation zwischen xs(t) und xs(t + Tc,s) und der Korrelation zwischen xs(t) und xs(t + Tc,s/2) entspricht. Wenn die Segmente mit einer Periode nahe der Eigenperiode oszillieren, so ist die letztere Korrelation negativ, aber mit einem absoluten Wert, der mit der ersten Korrelation vergleichbar ist. Die halbe Differenz zwischen den zwei Korrelationen führt zu EPK-Werten nahe Cochleogramm-Werten. Für Segmente, die mit einer Periode größer als dem Doppelten der Eigenperiode oszillieren, kommt es zu einer positiven Korrelation zwischen xs(t) und xs(t + Tc,s/2), was die EPK auf kleine Werte im Vergleich zu denen des Cochleogramms verringert. Es ist möglich, alternative Ausführungsformen der EPK zu formulieren, die ein ähnliches Verhalten aufweisen, indem man Anteile in Abhängigkeit von unterschiedlichen Anteilen von Tc kombiniert.
  • Die EPK kann in einer Vorrichtung zur Berechnung aperiodischer (und periodischer) Signalkomponenten verwendet werden. Entsprechend ihren Definitionen reagiert die EPK maximal auf Segmente, die mit einer Periode nahe der Eigenfrequenz oszillieren. Regionen, auf die das zutrifft, können anhand eines Kriteriums wie: rs c(t) > Cs rs(t), Cs < 7 (29)identifiziert werden.
    wobei Cs eine Konstante ist, die von der gleichen Segmentanzahl abhängen kann. Ein typischer Wert dieser Konstante ist 0,85 für alle Werte von s. Regionen der Segment-Zeit-Ebene, die dieses Kriterium erfüllen, werden durch Signalkomponenten mit Frequenzen mitgezogen, die der Eigenfrequenz entsprechen. Es ist zu beachten, dass die EPK ein brauchbares Verfahren zum Bestimmen aperiodischer Signalkomponenten bietet, aber auch effektiv dafür verwendet werden kann, die Genauigkeit zu erhöhen, mit der Regionen identifiziert werden können, die durch periodische Signalkomponenten mitgezogen wurden. Das kann in der Berechnung von Zuverlässigkeitsmessgrößen verwendet werden.
  • Detektion von Beginn und Ende
  • Die EPK wie auch das Cochleogramm können dafür verwendet werden, Beginn- und Endmomente festzustellen. Diese sind per Definition aperiodisch und führen darum zu einem Kontinuum von Frequenzkomponenten. Beginnmomente können sich in der Anstiegszeit unterscheiden. Der schnelle Beginn einer Sinuskurve führt zu einer Transiente mit einem sehr breiten Frequenzgehalt, der sich innerhalb eines Mehrfachen der örtlichen Gruppenlaufzeit ds zu einem idealen Sinusfrequenzgang entwickelt. Ein allmählicherer Aufbau der Sinuskurve führt zu verringerten Transienten in Kombination mit einem allmählichen Aufbau der Stärke des idealen Sinusfrequenzgangs. Wenn die Anstiegszeit der Sinuskurve im Vergleich zur örtlichen Gruppenlaufzeit gering ist, so stellen die Transienten einen breiten Frequenzbereich dar, was zu einem hervorstechenden impulsartigen Ansprechverhalten führt. Wenn die Anstiegszeit im Vergleich zur örtlichen Gruppenlaufzeit groß ist, so sind die Transienten klein oder fehlen. Zu jedem Zeitpunkt nach dem Beginn nähert sich der ideale Sinusfrequenzgang dem BM-Ansprechverhalten an. Es ist zu beachten, dass Endmomente als der Beginn eines neuen Signals erscheinen, das destruktiv mit dem alten Signal interferiert. Die Techniken für die Detektion von Endmomenten sind darum der Detektion von Beginnmomenten sehr ähnlich. Wir konzentrieren uns darum auf Beginnmomente.
  • Eine der Möglichkeiten zum Detektieren von Beginnmomenten ist das Messen, ob der skalierte Energiegradient, der entweder von dem Cochleogramm oder der EPK stammt, eine Schwelle:
    Figure 00780001
    übersteigt.
  • Ein Beispiel einer Schwelle CBeginn(s,t0), die verwendet werden kann, ist n-mal die Energievarianz während [t – t0, t] ms (n = 2 und t0 = 20 funktionieren gut bei verrauschter Sprache). Es können alternative Schwellen formuliert werden, die von der örtlichen Gruppenlaufzeit abhängen und/oder von dem Gradienten in der Segmentrichtung s abhängen.
  • In den meisten Anwendungen ist es wichtig, den Typ der Signalkomponente zu identifizieren, der am Anfang steht. Dies kann durch eine sorgfältigere Analyse der Details des Beginns und der darauffolgenden Entwicklung der Signalkomponente erreicht werden. Die Breite (im Hinblick auf den Frequenzbereich der ansprechenden Segmente) und Dauer der anfänglichen Transiente in Kombination mit der Anstiegszeit des Stabilzustandssignals ist ein verlässlicher Indikator der Anstiegszeit des Signals. Im Fall von Sprache führen die Verschlusslaute /B/, /P/ und insbesondere das /T/ zu einer Transiente, die eine große Anzahl von Segmenten beinhaltet. Diese zeigen sich als eine vertikale Struktur in einer grafischen Darstellung der Beginnmomente. Die breiten Transienten fehlen oder haben minimale Geräuschimpulse, wie das /s/ und das /f/. Die Beginnmomente von stimmhafter Sprache sind oft langsam im Vergleich zur örtlichen Gruppenlaufzeit, und Beginneffekte sind minimal. Künstliche Töne wie die Pieptöne eines Telefons lassen sich problemlos anhand eines für Sprache uncharakteristischen schnellen Beginns (und Endes) identifizieren.
  • Maskenbildung
  • Für Anwendungen wie automatische Spracherkennung und Sprachcodierung ist es wichtig, Signalkomponenten zu identifizieren, die den charakteristischen Anforderungen des zu erkennenden Signaltyps entsprechen. Die Kombination des Cochleogramms, der EPK und der AAK-Auswahlen mit der entsprechenden Periodenkontur kann verwendet werden, um eine Maske zu identifizieren, d. h. einen Satz Bereiche in der Segment-Zeit-Ebene, die Signalkomponenten widerspiegeln, welche die Anforderungen der Zielklasse erfüllen. Die Maske definiert, welche Signalkomponenten während der Sprachcodierung oder Spracherkennung verarbeitet werden, und ist darum von entscheidender Bedeutung.
  • Das Bilden einer Maske ist ein zweistufiger Prozess. Auf Stufe eins werden alle Signalkomponenten individuell beschrieben, und Signalkomponenten, die nicht die charakteristischen Anforderungen der Zielklasse von Signalen erfüllen, werden verworfen. Auf Stufe zwei werden alle akzeptierten Signalkomponenten in Kombination miteinander ausgewertet, und es wird eine endgültige Auswahl getroffen. Weil die Maskenbildung entscheidend von den charakteristischen Eigenschaften der Zielklasse abhängt, ist es unmöglich, einen kompletten Satz Kriterien zu formulieren. Der übrige Teil dieses Abschnitts bespricht einige brauchbare Kriterien unter Verwendung von Sprachsignalverarbeitung als ein Beispiel.
  • Die Erststufenauswertung von Signalkomponenten beinhaltet die Identifizierung von einzelnen Signalkomponenten. Diese Stufe wird durch Ausschließen von Regionen mit unzureichender Energie oder von Regionen, wo die Energie mit einer Rate nahe der Rate abnimmt, die mit dem Herausfiltern der niedrigen Frequenzanteile verbunden ist, ermöglicht. Wenn das Herausfiltern der niedrigen Frequenzanteile als ein undichter Integrator implementiert wird, so wird sie bei Fehlen von Eingaben innerhalb von τ ms auf e – 1 = 0,37 des ursprünglichen Wertes verringert – eine geeignete Schwelle für Sprache zum Ausschließen aller Signalkomponenten, die mit einer Rate abklingen, die einem Verlust der Hälfte der Energie je τ ms entspricht. Dieses Ausschließen von Regionen kann implementiert werden als:
    Figure 00800001
  • MOrg ist die komplette Segment-Zeit-Ebene. CEnergie(s,t) ist die Schwelle für die Energie. Diese Schwelle kann ein absoluter Wert oder ein Wert sein, der von einem Langzeitdurchschnitt der örtlichen Energie abhängt. CAbklingen(t) ist die Schwelle für die Abklingrate.
  • Im Fall von quasi-periodischen Signalen kann eine Grundperiodenkontur berechnet werden, und eine AAK-Auswahl kann errechnet werden. Um die wichtigsten Oberschwingungsanteile innerhalb der AAK-Auswahl zu identifizieren und die meisten Störanteile infolge beiläufiger Korrelationen zu verwerfen, kann die AAK-Auswahl mit den Energiewerten des Cochleogramms verglichen werden. Wann immer die AAK-Auswahl einen bestimmten Anteil, zum Beispiel 0,25, der örtlichen Energie überschreitet, wird die entsprechende Zeitsegmentregion akzeptiert. Das führt zu einer Maske MAAK, die definiert ist durch: MAAK = M{rs,T(t) (t) > CAAK(s,t)rs(t)} (32)
  • M bezeichnet die komplette Segment-Zeit-Ebene, CAAK(s,t) ist die Schwelle für die Akzeptanz, die von s und t abhängen kann, rs,T(t) und rs(t) bezeichnen die AAK-Auswahl bzw. das Cochleogramm. Es ist zu beachten, dass jede Periodenkontur T(t) zu einer AAK-Maske führt.
  • Regionen, die durch eine passende Frequenzkomponente mitgezogen werden, können identifiziert durch: MEPK = M{rs c(t) > CEPK(s)rs(t)} (33)wobei rcs(t) eine EPK bezeichnet, wie sie zum Beispiel berechnet wurde, und CEPK(s) ein segmentabhängiges Kriterium für ein örtliches Mitziehen ist.
  • Beginnmomente können unter Verwendung einer ähnlichen Strategie identifiziert werden:
    Figure 00820001
    wobei der skalierte Energiegradient (der unter Verwendung einer EPK oder des Cochleogramms berechnet wurde), eine Schwelle CBeginn(s,t0) überschreiten muss, die von der Position entlang der BM und einer von to abhängigen Zeitdauer abhängen kann.
  • Es ist zu beachten, dass die Beginnmaske oft eine Teilmaske der EPK-Maske und/oder der AAK-Maske ist. Die Spitzen der AAK-Auswahl zeigen sich auch in der EPK-Maske. Die Informationen, die "unter" den kombinierten Masken dargestellt sind, bieten eine Fülle von grundlegenden Signaleigenschaften, die dafür verwendet werden können, Maskenregionen von der weiteren Verarbeitung auszuschließen. Das erfordert Kenntnisse über das Zielsignal. Zu typischen Kriterien für Sprache zum Ausschließen bestimmter Regionen von der Weiterverarbeitung gehören:
    • • AAK-Auswahlen, die Tonhöhen außerhalb eines normalen menschlichen Tonhöhenbereichs entsprechen
    • • AAK-Auswahl mit einer (zu) konstanten Tonhöhe
    • • AAK-Auswahl mit einem unrealistischen Formantmuster
    • • AAK-Auswahlen mit unrealistisch schnellen Beginnmomenten
    • • kohärente Bereiche der AAK-Masken, die zu kurz sind (zum Beispiel 20 ms für Hochfrequenzkomponenten und 40 ms für Niederfrequenzkomponenten) oder weniger als zwei oder drei Segmente enthalten.
  • Die Berechnung von aperiodischen Anteilen ist durch Anwenden zweier komplementärer Verfahren möglich. Das erste Verfahren schließt Regionen, die durch die AAK-Masken dargestellt werden (eine für jede Periodenkontur T(t), von der EPK-Maske aus, und zwar gemäß: MAperiodisch = MEPK – MAAK (35)
  • Das führt zu einer Maske für aperiodische Informationen. Die Maske kann so angepasst werden, dass sie nur kohärente Anteile eines ausreichenden Bereichs der Segment-Zeit-Ebene nach klassenspezifischen Kriterien zeigt.
  • Ein alternatives Verfahren besteht darin, eine laufende Autokorrelation für die kohärenten Hauptregionen der EPK-Maske zu berechnen. Wenn die laufende Autokorrelation innerhalb eines Mehrfachen der örtlichen Eigenperioden auf Werte nahe null abnimmt, so ist die Region aperiodisch. Diese Herangehensweise kann verwendet werden, um festzustellen, dass die Regionen, die im ersten Durchgang berechnet wurden, wirklich aperiodisch sind. Die Kombination beider Verfahren führt zu einer verlässlichen Berechnung von kohärenten Regionen der Segment-Zeit-Ebene, die aperiodische Regionen widerspiegeln.
  • Auf der zweiten Stufe der Maskenbildung werden die einzelnen Signalkomponenten kombiniert. Für diese Stufe müssen andere zielklassenabhängige Beschränkungen verwendet werden. Typische Beschränkungen für Sprache sind:
    • • Sprachfreie Komponenten von Sprachsignalen sind stark mit den Sprachanteilen von Sprache korreliert. Isolierte Sprachsignalkomponenten können verworfen werden.
    • • Sprachkomponenten, die sich in der durchschnittlichen Tonhöhe zu sehr unterscheiden, stammen unwahrscheinlich von derselben Quelle. Akzeptierte Sprachsignalanteile müssen eine sprachlich plausible Periodenkontur bilden.
    • • Überlappende Tonhöhenkonturen können nicht von derselben Quelle stammen.
  • Die Anwendung dieser Beschränkungen führt zu einer oder mehreren Masken, die diverse Formen von Informationen darstellen, die von der Zielquelle stammen könnten. Es ist die Aufgabe weiterer Verarbeitungsstufen, diese Informationen optimal zu nutzen.
  • Es ist zu beachten, dass alle Variablen, die zum Erstellen von Masken verwendet werden, eine zugehörige Zuverlässigkeitmessgröße haben. Diese Zuverlässigkeitsmessgrößen können während des Maskenbildungsprozesses verwendet werden.
  • Umgekehrte Basilarmembranfilterung
  • Weil die AAK eine verlässliche Grundlage für die Zuordnung von Informationen zu Hör-Ereignissen bildet, könnte man sich die Frage stellen, ob sie zum Auftrennen eines Kombinationstones in die konstituierenden Tonquellen verwendet werden könnten.
  • Alle quasi-periodischen Signalanteile, die eine bestimmte Region in der Zeit-Ort-Ebene des AAK-Cochleogramms dominieren, stellen Basilarmembranoszillationen dar. Da diese Ausführungsform des Basilarmembranmodells als ein Stoßantwort-basiertes nicht-rekursives Filter (NRF) implementiert ist, ist es möglich, die Filterung umzukehren, indem man die Stoßantwort in der Zeit umkehrt und die Frequenzeffekte kompensiert, die durch die doppelte Verwendung des Basilarmembranfilters verursacht werden.
  • Eine volle Umkehrung führt zu der ursprünglichen Signalmischung. Aber wenn eine Umkehrfilterung auf die Regionen der Zeit-Ort-Ebene gestützt wird, die durch die Zielquelle rekrutiert werden, so stützt sich die Ausgabe idealerweise ausschließlich auf Informationen des Ziels. Die Masken, wie im vorherigen Abschnitt definiert, können für diesen Zweck verwendet werden. Um die Auswirkungen auf die Beginn- und Endmomente zu verringern, wird die Maske so angepasst, dass sie aus langen stetigen Anteilen einzelner Segmente besteht. Kleine Löcher in den positiven Werten der AAK-Spuren werden ausgefüllt, und isolierte positive Punkte werden verworfen. Schließlich wird die Maske mit gleichmäßigen, 10 ms breiten Beginn- und Endmomenten versehen. Das führt zu der Maske, wie sie in dem unteren Feld von 2.19 gezeigt ist.
  • Um die Tonqualität zu verbessern, wird der Hintergrund nicht vollständig verworfen, sondern mit einem einstellbaren Faktor verringert, in diesem Fall ein Faktor von 100 in der Amplitude (40 dB im Hinblick auf die Energie). Indem der Hintergrund nicht vollständig verworfen wird, wird eine unnatürliche "tiefe" Stille verringert, und einige Spuren von aperiodischen Anteilen, wie das /T/ von /TWEE/, verbleiben in dem Signal, was die Wahrnehmung erleichtert. Wenn der resultierende resynthetisierte Ton wieder dem Basilarmembranmodell dargeboten wird, so kann das Cochleogramm des resynthetisierten Tons errechnet werden. Das ist in dem mittleren Feld von 2.20 dargestellt. Die Resynthese enthielt keine sprachfreien Regionen, aber diese Regionen können zu der Maske hinzugefügt werden. Es ist jedoch sehr schwierig, Sprache enthaltende und sprachfreie Regionen zuverlässig zu kombinieren.
  • Das obere Feld zeigt das Cochleogramm des ursprünglichen Signals. Dieses Signal bildete die einzige Informationsquelle. Es wurden weder vorher bekannte Informationen verwendete, noch waren sie erforderlich. Das untere Feld bildet die klare Referenz. Abgesehen von der zweiten Formantstruktur des letzten Wortes, die vollständig maskiert ist, sind alle wichtigen periodischen Anteile getreu wiedergegeben. Es ist zu beachten, dass das resynthetisierte Cochleogramm "unschärfer" ist, was auf Störanteile des Hintergrundes zurückzuführen ist. Eine Möglichkeit, das zu vermeiden, ist, alle einzelnen Signalkomponenten zu messen und zu glätten und sie in einem echten Sprachsyntheseprozess zusammenzufügen.
  • Rekonstruktion des Cochleogramms
  • Der resynthetisierte Ton, wie er im vorherigen Abschnitt berechnet wurde, kann in standardmäßige Erkennungssysteme eingespeist werden, wie zum Beispiel Spracherkennungssoftware wie Philips Freespeech und L&H VoiceXPress. Eine alternative und rechnerisch günstige Eingabe in ein Erkennungssystem kann auf das AAK-Cochleogramm gestützt werden.
  • Eine geeignete Eingabe in ein ASE-System ist eine Darstellung, welche die zeitliche Entwicklung der Spektralhülle der Zielsprache beschreibt, während die Tonhöheneffekte unterdrückt werden. Wie das obere rechte Feld von 2.7 beweist, ähnelt das AAK-Cochleogramm der Sprache enthaltenden Teile eines klaren Signals stark dem standardmäßigen Cochleogramm. Die AAK-Cochleogramme in dem unteren Feld von 2.17 können so angepasst werden, dass sie dem klaren Cochleogramm besser ähneln, indem die negativen Werte aufgefüllt werden.
  • Dieser Rekonstruktionsprozess ist ein Zwei-Schritt-Prozess, der in 2.21 veranschaulicht ist. Die erste Stufe sucht nach Anzeichen einzelner Oberschwingungen und verwendet diese Anzeichen zum Berechnen der unteren Hälfte der Rekonstruktion. Die zweite Stufe fügt Informationen über den Rest des Spektrums unter Verwendung der Maske und einer Annäherung diverser Maskierungseffekte hinzu.
  • Die erste Stufe des Algorithmus' ist die Berechnung von kohärenten Kämmen in den ersten 60 Segmenten der Auswahl. Die Kämme werden – wie in dem Grundperiodenberechnungsalgorithmus – durch Kombinieren aufeinanderfolgenden Spitzen gebildet, die sich im Hinblick auf die Segmentanzahl um weniger als 2 unterscheiden. Kämme, die länger als 15 ms sind, werden als Kandidaten für Oberschwingungen akzeptiert. Da die Grundperiodenkontur bekannt ist, ist es möglich, die Segmentanzahlen der ersten Oberschwingungen vorherzusagen. Die Kämme, die im Durchschnitt innerhalb 1 Segments des erwarteten Wertes der ersten 4 Oberschwingungen liegen, werden als Oberschwingungen akzeptiert. Es ist zu beachten, dass dieses Kriterium Störkämme auf der Basis einer Nichtübereinstimmung in der zeitlichen Entwicklung verwerfen kann. Die Anzahl von Oberschwingungen, die auf diese Weise modelliert werden können, richtet sich nach der räumlichen Auflösung der Basilarmembran. Mit einem schärfer abgestimmten BM-Modell und einer größeren Anzahl von Segmenten kann eine größere Anzahl von Oberschwingungen individuell modelliert werden. In diesem Fall wurden 4 Oberschwingungen individuell behandelt, weil sich die Akzeptanzregionen der ersten 4 Oberschwingungen in dem vorliegenden BM-Modell nicht überlappen. Der Algorithmus ist für den Wert dieses Parameters nur schwach empfänglich.
  • Das obere linke Feld von 2.21 zeigt alle in Frage kommenden Kämme. Die Energie-Entwicklung entlang dieser Kämme wird geglättet, indem jeder Wert mit einem aus drei Punkten bestehenden örtlichen Durchschnitt ersetzt wird. Die geglätteten Oberschwingungskämme werden dafür verwendet, einen Berechnungswert des ursprünglichen Cochleogramms zu rekonstruieren, indem Anteile aufeinanderfolgender Oberschwingungen gemäß Gleichung 6 hinzugefügt werden. Dieser Prozess ist im obersten Feld von 2.22 gezeigt.
  • Die Rekonstruktion beginnt mit dem Gewichten des idealen Sinusfrequenzgangs (wie in 2.5 gezeigt) der Grundfrequenz. Es wird davon ausgegangen, dass Oberschwingungen einander nur aufwärts in der Frequenz beeinflussen. An der Position der zweiten Oberschwingung kann ein Teil der Energie der ersten Oberschwingung zugerechnet werden, und der Rest der Energie wird verwendet, den idealen Sinusfrequenzgang der zweiten Oberschwingung zu gewichten. In 2.22 muss ein großer Anteil der Energie der Position der dritten Oberschwingung der zweiten Oberschwingung zugerechnet werden. Die vierte ist relativ wichtiger. Die resultierende teilweise Rekonstruktion unter Verwendung von 4 Oberschwingungen ist in Schwarz gezeigt.
  • Die zweite Stufe des Algorithmus' ist die Rekonstruktion des Hochfrequenzbereichs. Die Maske wird wieder verwendet, um die Regionen festzustellen, die am wahrscheinlichsten Informationen des Ziels darstellen. Die ausgewählten Werte unter der Maske, welche die teilweise Rekonstruktion überschreiten, ersetzen die Werte der teilweisen Rekonstruktion. Das Ergebnis dieses Schritts ist in dem unteren linken Feld von 2.21 gezeigt. Diese Stufe führt zu einem Hochfrequenzanteil mit unrealistisch steilen Anstiegen und Gefällen. Die schwarzen Spitzen in dem oberen Feld von 2.22 zeigen dies deutlich. Um die Rekonstruktion realistischer zu machen, ohne zusätzliche Informationen hinzuzufügen, können die Kämme der Maske mit Flanken verstärkt werden, welche die Maskierungseffekte in Übereinstimmung mit einer Quelle darstellen, welche die Position der Spitze anregt, die der Flanke am nächsten liegt. Diese können wieder anhand der Sinusfrequenzgänge berechnet werden und der Rekonstruktion hinzugefügt werden. Schließlich können der Ausklingeffekt des BM und der Effekt der undichten Integration als ein exponentielles Abklingen modelliert werden. Dies modelliert den Vorwärtsmaskierungseffekt der Rekonstruktion. Die endgültigen Rekonstruktionen sind in dem unteren rechten Feld von 2.21 gezeigt und in dem unteren Feld von 2.22 in Schwarz gezeichnet.
  • Eine visuelle Inspektion zeigt, dass die Rekonstruktion oft von hoher Qualität ist. Ein Teil des Signals, zum Beispiel der Hochfrequenzbereich von 2.22, hat ein sehr ungünstiges örtliches Signal-Rausch-Verhältnis. Wie in dem unteren Feld von 2.22 zu sehen ist, ist die Wahrscheinlichkeit einer korrekten Rekonstruktion hoch, wenn das gestrichelte Ziel nahe der Strich-Punkt-Linie liegt, die der Gesamtenergie entspricht. Das entspricht Situationen, wo das örtliche SRV günstig ist (SRV > 3 dB). Wenn die Entfernung zwischen der gestrichelten und der Strich-Punkt-Linie größer wird, nimmt die Wahrscheinlichkeit zu, dass die Rekonstruktion falsch ist. Wenn die Entfernung größer als 3 dB ist, was einem örtlichen SRV von 0 dB entspricht, so enthält die Rekonstruktion wahrscheinlich Störanteile. Ein Beispiel kann um das Segment 71 herum beobachtet werden.
  • Das führt zu synthetischen Korrelogrammen, wie in 2.23 gezeigt. Das obere Feld zeigt die "Rekonstruktion" auf der Basis der AAK des klaren Signals. Ein Vergleich mit dem unteren Feld von 2.20 zeigt, dass die Hauptkomponenten beider Figuren sehr ähnlich sind. Das zeigt die Gültigkeit des Rekonstruktionsverfahrens an. Das untere Feld von 2.23 zeigt die Rekonstruktion auf der Basis der AAK gemäß Berechnung anhand verrauschter Daten. Da ein Teil dieses Signals maskiert ist und einige Störanteile des Hintergrundes hinzugefügt werden, ist die Übereinstimmung nicht perfekt, aber die Hauptmerkmale beider Figuren sind ähnlich (bei einer visuellen Inspektion).
  • Die hier beschriebene Vorgehensweise ist nicht die einzige mögliche Art, zu einer Rekonstruktion des Signals von einer einzelnen Quelle zu gelangen. Wie in der Beschreibung der verschiedenen Teilprozesse angesprochen, gibt es Alternativen. Solche Alternativen würden die Verwendung von Zuverlässigkeitsmessgrößen, wie im Abschnitt "Zuverlässigkeit" beschrieben, zum Leiten der Bildung der Maske oder das Umkehrmatrixverfahren zum Bestimmen der Stärke einzelner Oberschwingungen beinhalten.
  • Eine alternative Ausführungsform des Rekonstruktionsprozesses verwendet eine Variante der Signalkomponentenberechnungstechnik, in dem Abschnitt "Berechnen einzelner Signalkomponenten" beschrieben ist. In dieser Ausführungsform wird eine Maske verwendet, um verlässliche Regionen festzustellen. Sowohl E als auch R werden si angepasst, dass Werte außerhalb der Maske auf null gesetzt werden. Die Lösung von w = R–1 E ergibt die gewünschte Gewichtung.
  • Dieser Rekonstruktionsprozess kann auch verwendet werden, um den Oberschwingungsgehalt des ausgewählten Signals zu bestimmen. Diese Beschreibung kann zum Beispiel verwendet werden, um die Daten, die das Signal darstellen, effizient zu codieren. Eine solche Beschreibung des Oberschwingungsgehalts kann auch in der weiteren Signalanalyse verwendet werden.
  • Parametrisierung
  • Ein HMM-basiertes ASE-System erfordert eine Berechnung der Spektralhülle der Zielsprache ohne ablenkende Faktoren wie Tonhöheninformationen. Die Darstellung, die in 2.23 gezeigt ist, ist nicht sonderlich geeignet, da die energiereichsten Komponenten die ersten Oberschwingungen sind. Obgleich sie Formantinformationen tragen, hängt die detaillierte Realisierung des ersten Formanten stark von der Tonhöhe ab. Um die Auswirkung irrelevanter Tonhöhenunterschiede zu verringern und den zweiten und dritten Formanten hervorzuheben, können die Werte des komprimierten Cochleogramms mit einem segmentabhängigen Faktor multipliziert werden. Dieser Faktor ist zum Beispiel 1 für das erste Segment und 5 für das letzte Segment. Der Multiplikationsfaktor von Zwischensegmenten kann eine lineare Interpolation zwischen den zwei Extremen sein.
  • Das ist eine Operation mit einem ähnlichen Effekt wie eine Vorverzerrung, eine Form des Herausfilterns der niedrigen Frequenzanteile, die in der Regel im Rahmen der Standardmethodologie der ASE angewendet wird, und führt zu einem Spektrum, an dem alle Frequenzen mit ähnlicher Energie beteiligt sind. Auf diese Form der Vorverzerrung kann ein Algorithmus folgen, der die Spektralhülle berechnet, zum Beispiel durch Verbinden der Spitzen aufeinanderfolgender Oberschwingungen.
  • Als ein letzter Schritt muss die Hülle des Cochleogramms so effizient wie möglich codiert werden. Um einen Satz Parameter zu erzeugen, der den MFCC-Werten ähnelt, kann eine Kosinustransformation des "erweiterten" Cochleogramms ausgeführt werden. Das Ergebnis ist eine Variante eines Cepstrums. Die ersten 8 bis 14 Werte des Cepstrums, die niedrige räumliche Frequenzen darstellen, werden behalten; der Rest wird verworfen. Schließlich wird der Zeitschritt zwischen aufeinanderfolgenden Frames von 5 ms auf 10 ms durch Mitteln aufeinanderfolgender Werte erhöht. Das bringt den Frame-Schritt auf einen Standardwert und beschleunigt die Verarbeitung. Diese Werte werden auf einer Festplatte gespeichert und werden als Eingabe in das Spracherkennungssystem verwendet.
  • Die gespeicherten Parameter sind nicht sehr informativ, aber sie können mittels der Umkehrkosinustransformation in eine Cochleogramm-artige Darstellung zurückverwandelt werden. Das Ergebnis ist in 2.24 gezeigt.
  • Beide Felder widerspiegeln die Informationen, die dem Spracherkennungssystem zur Verfügung stehen. Das obere Feld basiert auf dem ursprünglichen klaren Signal. Die Energieanteile je Segment werden durch Werte zwischen 1 und 5 verstärkt, und die Spektralhülle wird mit 12 Cepstralkoeffizienten codiert. Im Vergleich zu dem unteren Feld von 2.24 sind die Hochfrequenzsegmente viel ausgeprägter; die ersten Oberschwingungen sind weniger hervorstechend, und die Formantmerkmale sind breiter. Das untere Feld basiert auf dem rekonstruierten AAK-Cochleogramm von 2.23. Es hat eine gute allgemeine Übereinstimmung mit dem idealen Cochleogramm, ist aber infolge von Maskierung und störender Hintergrundanteile verrauscht. Diese zwei Darstellungen eignen sich als Eingabe in Erkennungssysteme.

Claims (54)

  1. Vorrichtung zum Berechnen von Frequenzkennlinien eines Eingangssignals mit: einem Basilarmembran-Gerät, auf das das Eingangssignal gegeben wird; und mindestens zwei Korrelatoren, die mit einem anderen Segment des Basilarmembran-Geräts verbunden sind, wobei jeder der beiden Korrelatoren Folgendes aufweist: einen ersten Eingang, der mit einem entsprechenden Segment des Basilarmembran-Geräts verbunden ist, zum Empfangen eines von dem Segment stammenden Segmentsignals, das eine vorgegebene Zeit lang anliegt; und mindestens einen zweiten Eingang, der mit demselben Segment des Basilarmembran-Geräts verbunden ist, zum Empfangen des über eine einstellbare Zeitverschiebung T1 verschobenen Segmentsignals, wobei die einstellbaren Zeitverschiebungen der mindestens zwei Korrelatoren miteinander gekoppelt sind und die Korrelatoren ein Zeitverschiebungs(T1)-abhängiges Ausgangssignal bereitstellen, das weiterhin von Frequenzen abhängig ist, die im Wesentlichen in dem Segmentsignal des Segments vorhanden sind, und das Ausgangssignal ein Maß für den Frequenzgehalt des Signals bildet.
  2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die einstellbare Zeitverschiebung T1 so eingestellt wird, dass sie im Wesentlichen dem Kehrwert der Frequenz eines der Segmente entspricht.
  3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass mehrere Segmente des Basilarmembran-Geräts jeweils mit einem einzelnen Korrelator verbunden sind und dass die Vorrichtung weiterhin einen Kreuzkorrelator aufweist, der mit den entsprechenden Ausgängen mindestens einer Anzahl der Korrelatoren verbunden ist, zum Bestimmen gemeinsamer Perioden, die überwiegend in den Segmentsignalen der Segmente vorhanden sind.
  4. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens einer der Korrelatoren als undichter Autokorrelator implementiert ist, der zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00930001
    worin r das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  5. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens einer der Korrelatoren als Tiefpassfilter implementiert ist, das zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00940001
    worin r das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  6. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens einer der Korrelatoren als zeitnormierter Korrelator implementiert ist, der zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00940002
    worin R+ das Ausgangssignal ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  7. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Korrelator als zeitnormierter Korrelator mit einem Gruppenlaufzeit-Entzerrer implementiert ist.
  8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass der zeitnormierte Korrelator mit einem Gruppenlaufzeit-Entzerrer zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00940003
    worin Rgd das Ausgangssignal ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist, ds die Gruppenlaufzeit als Funktion der Segmentposition ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  9. Vorrichtung nach Anspruch 3 und einem der Ansprüche 4-8, dadurch gekennzeichnet, dass die einstellbare Zeitverschiebung T2 so festgelegt wird, dass sie von mindestens einer gemeinsamen Periode abhängt, die überwiegend in den Segmentsignalen der Segmente vorhanden ist.
  10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, dass die einstellbare Zeitverschiebung T2 so festgelegt wird, dass sie weiterhin von einer Segment-abhängigen Gruppenlaufzeit von mindestens zwei Segmentsignalen abhängt.
  11. Vorrichtung nach Anspruch 9 oder 10, die weiterhin Folgendes aufweist: Mittel zum Ermitteln eines Zeit-Segment-Bereichs eines Cochleagramms mit einer Frequenzkomponente des Anregungssignals und Mittel zum Einstellen der einstellbaren Zeitverschiebung in Abhängigkeit von dem ermittelten Bereich.
  12. Vorrichtung zum Ermitteln von Spitzen in einem Eingangssignal mit: einem Basilarmembran-Gerät, auf das das Eingangssignal gegeben wird; mindestens zwei Integratoren, die jeweils mit einem Eingang eines Segments des Basilarmembran-Geräts verbunden sind, zum Erzeugen eines Segment-Anregungssignals aus einem Basilarmembran-Signal und zum Senden des Segment-Anregungssignals zu einem Ausgang des Integrators und einem Spitzensuchgerät, das mit den Ausgängen der Integratoren verbunden ist, zum Ermitteln von Spitzen in den Segment-Anregungssignalen, und mindestens ein Korrelator mit: einem ersten Eingang, der mit einem entsprechenden Segment des Basilarmembran-Geräts verbunden ist, zum Empfangen eines von einem Segment einer gewählten Position stammenden Segmentsignals, das eine vorgegebene Zeit lang anliegt; und mindestens einen zweiten Eingang, der mit demselben Segment des Basilarmembran-Geräts verbunden ist, zum Empfangen des über eine einstellbare Zeitverschiebung verschobenen Segmentsignals, wobei der Korrelator außerdem mit dem Spitzensuchgerät kommunikativ verbunden ist, um die einstellbare Zeitverschiebung und die gewählte Position des Segments in Abhängigkeit von den von dem Spitzensuchgerät ermittelten Spitzen zeitlich zu ändern.
  13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass der Korrelator als undichter Autokorrelator implementiert ist, der zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00960001
    worin r das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s(t) die Segmentposition als Funktion der Zeit ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  14. Vorrichtung nach einem der Ansprüche 12-13, dadurch gekennzeichnet, dass der Korrelator als zeitnormierter Korrelator implementiert ist, der zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00960002
    worin R+ das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s(t) die Segmentposition als Funktion der Zeit ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  15. Vorrichtung nach einem der Ansprüche 12-14, dadurch gekennzeichnet, dass der Korrelator als zeitnormierter Korrelator mit einem Gruppenlaufzeit-Entzerrer implementiert ist.
  16. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet, dass der zeitnormierte Korrelator mit einem Gruppenlaufzeit-Entzerrer zum Ausführen einer Operation eingerichtet ist, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00960003
    worin Rgd das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s(t) die Segmentposition als Funktion der Zeit ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist, ds die Gruppenlaufzeit als Funktion der Segmentposition ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  17. Vorrichtung nach einem der vorhergehenden Ansprüche, die weiterhin ein mit dem Basilarmembran-Gerät verbundenes FPCE-Gerät zur Grundperiodenkontur-Berechnung aufweist, wobei das FPCE-Gerät Folgendes aufweist: einen mit dem Basilarmembran-Gerät verbundenen Eingang; ein Kammbestimmungsgerät zum Bestimmen von mutmaßlichen Kämmen und momentanen Periodenkonturen; einen mit dem Kammbestimmungsgerät verbundenen Kammwähler zum Auswählen der zuverlässigsten gleichmäßigen momentanen Periodenkonturen; einen mit dem Kammwähler verbundenen Kloner zum Klonen von Periodenkonturen zu allen möglichen Grundperioden, wobei jede Kombination aus Periodenkonturen von möglichen Grundperioden eine Konturhypothese bildet; einen mit dem harmonischen Kloner verbundenen Geklonte-Konturen-Wähler zum Auswählen der zuverlässigsten Periodenkonturen; einen mit dem Geklonte-Konturen-Wähler verbundenen Wähler zum Auswählen mindestens einer Konturhypothese, die einem wesentlichen Teil der gewählten zuverlässigsten gleichmäßigen momentanen Periodenkonturen entspricht; und einen mit dem Wähler verbundenen Ausgang zum Weitersenden der gewählten Konturhypothese.
  18. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Signal ein Tonsignal ist.
  19. Signalerkennungssystem mit: einem Eingang; einer Vorrichtung nach einem der Ansprüche 1-18; mit der Vorrichtung verbundenen Speichermitteln, die Daten enthaften, die zu erkennende Signale darstellen; einem Prozessor, der zum Vergleichen eines Signals von dem Ausgang der Vorrichtung mit den zu erkennenden Signalen und zum Ermitteln eines ähnlichsten Signals, das dem Signal von dem Ausgang der Vorrichtung am ähnlichsten ist, aus den zu erkennenden Signalen eingerichtet ist; und einem Ausgang.
  20. Signalerkennungssystem nach Anspruch 19, dadurch gekennzeichnet, dass die zu erkennenden Signale Sprachsignale darstellen.
  21. Datenkomprimierungssystem mit: einem Eingang; einer mit dem Eingang verbundenen Vorrichtung nach einem der Ansprüche 1-18; Verarbeitungsmitteln zum Lesen der von der Vorrichtung ermittelten Signalkomponentenwerte eines an dem Eingang der Vorrichtung empfangenen Signals und zum Senden der Werte an einen mit den Verarbeitungsmitteln verbundenen Ausgang.
  22. Datenexpansionssystem mit: einem Eingang zum Empfangen von Signalkomponentenwerten, die mit einem System nach Anspruch 21 ermittelt werden; Verarbeitungsmitteln zum Lesen der Signalkomponentenwerte und zum Wiederherstellen eines Originalsignals und einem Ausgang zum Ausgeben des Originalsignals.
  23. Signalverbesserungssystem mit: einem Eingang; einer ersten Vorrichtung nach einem der Ansprüche 1-18; einem mit einem Ausgang der ersten Vorrichtung verbundenen Maskierungsgerät zum Auswählen von Teilen eines Anregungssignals; einer zweiten Vorrichtung, die im Wesentlichen ein Gegenteil der ersten Vorrichtung ist, zum Rekonstruieren eines Cochleagramms der ausgewählten Teile des Anregungssignals und die einen mit dem Ausgang des Maskierungsgeräts verbundenen Eingang hat; und einem Ausgang, der mit einem Ausgang der zweiten Vorrichtung verbunden ist.
  24. Signalverbesserungssystem nach Anspruch 22, dadurch gekennzeichnet, dass das Maskierungsgerät Folgendes aufweist: ein Kohärente-Kämme-Bestimmungsgerät zum Auswählen von kohärenten Kämmen; einen Sinusfrequenzgang-Addierer zum Ersetzen der ausgewählten kohärenten Kämme durch einen Sinusfrequenzgang; einen Addierer zum Ersetzen eines Sinusfrequenzgangs durch ein Originalsignal, wenn die Intensität des Sinusfrequenzgangs geringer als die Intensität des Originalsignals ist; und ein Glättungsgerät zum Entfernen von Unstetigkeiten in dem Signal.
  25. Vorrichtung oder System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Eingangssignal Sprache von mindestens einem Lautsprecher enthält.
  26. Vorrichtung oder System nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Quellensignal ein unbekanntes Gemisch von Signalen ist.
  27. Verfahren zum Berechnen von Frequenzkennlinien eines Eingangssignals mit den Schritten: Empfangen des Eingangssignals; Simulieren einer Reaktion auf das Eingangssignal eines Basilarmembran-Geräts, wodurch ein Basilarmembransignal erzeugt wird, wobei das Basilarmembran-Gerät mehrere Segmente hat; Erzeugen von Segmentsignalen von mindestens zwei Segmenten aus dem Basilarmembransignal; Erzeugen von verschobenen Signalen durch Verschieben von mindestens zwei der Segmentsignale mit einer einstellbaren Zeitverschiebung T1, wobei die einstellbaren Zeitverschiebungen von mindestens zwei der Segmentsignale miteinander gekoppelt werden; Korrelieren des verschobenen Signals mit dem entsprechenden Segmentsignal, wodurch ein Zeitverschiebungs-abhängiges Ausgangssignal erhalten wird, das weiterhin von Frequenzen abhängig ist, die im Wesentlichen in dem Anregungssignal des Segments vorhanden sind, und das Ausgangssignal ein Maß für den Frequenzgehalt des Anregungssignals bildet.
  28. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass die einstellbare Zeitverschiebung T1 so eingestellt wird, dass sie im Wesentlichen dem Kehrwert der Frequenz eines der Segmente entspricht.
  29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass das verschobene Signal aus einem Anregungssignal erzeugt wird und das verschobene Signal mit diesem Anregungssignal für jedes einer Vielzahl von Segmenten kombiniert wird und dass das Verfahren weiterhin das Kreuzkorrelieren des Zeitverschiebungs-abhängigen Signals zum Bestimmen gemeinsamer Perioden, die in den Anregungssignalen vorhanden sind, aufweist.
  30. Verfahren nach einem der Ansprüche 27-29, dadurch gekennzeichnet, dass das Korrelieren einen Schritt der undichten Autokorrelation aufweist, der das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 00990001
    worin r das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  31. Verfahren nach einem der Ansprüche 27-30, dadurch gekennzeichnet, dass das Korrelieren einen Schritt des Herausfilterns der niedrigen Frequenzanteile aufweist, der das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 01000001
    worin r das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  32. Verfahren nach einem der Ansprüche 25-2727-31 (Anm. d. Übers.: muss wohl „27-31" heißen), dadurch gekennzeichnet, dass das Korrelieren einen Schritt des zeitnormierten Korrelierens aufweist, der das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 01000002
    worin R+ das Ausgangssignal ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  33. Verfahren nach einem der Ansprüche 27-32, dadurch gekennzeichnet, dass das Kombinieren durch einen Schritt des zeitnormierten Korrelierens ausgeführt wird, der einen Schritt der Gruppenlaufzeit-Entzerrung umfasst.
  34. Verfahren nach Anspruch 33, dadurch gekennzeichnet, dass das Kombinieren durch einen Schritt des zeitnormierten Korrelierens ausgeführt wird, der das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 01000003
    worin Rgd das Ausgangssignal ist, X das Anregungssignal ist, s die Segmentposition ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist, ds die Gruppenlaufzeit als Funktion der Segmentposition ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  35. Verfahren nach einem der Ansprüche 31-34, dadurch gekennzeichnet, dass die einstellbare Zeitverschiebung T2 in Abhängigkeit von mindestens einer gemeinsamen Periode, die überwiegend in den Anregungssignalen der Segmente vorhanden ist, festgelegt wird.
  36. Verfahren nach einem der Ansprüche 27-35, dadurch gekennzeichnet, dass die einstellbare Zeitverschiebung T2 weiterhin in Abhängigkeit von einer Segment-abhängigen Gruppenlaufzeit von mindestens zwei Anregungssignalen festgelegt wird.
  37. Verfahren nach den Ansprüchen 27-36, dadurch gekennzeichnet, dass nach dem Schritt des Erzeugens mindestens eines Anregungssignals ein Schritt des Ermittelns eines Zeit-Segment-Bereichs des Cochleagramms mit einer Frequenzkomponente des Anregungssignals ausgeführt wird und die einstellbare Zeitverschiebung in Abhängigkeit von dem ermittelten Bereich eingestellt wird.
  38. Verfahren zum Ermitteln von Spitzen in einem Signal mit den Schritten: Empfangen des Eingangssignals an einem Eingang; Simulieren einer Reaktion auf das Eingangssignal eines Basilarmembran-Geräts mit mehreren Segmenten, wodurch ein Basilarmembransignal erzeugt wird; Erzeugen von Segment-Anregungssignalen von mindestens zwei Segmenten aus dem Basilarmembransignal; Ermitteln von Spitzen in den Anregungssignalen und für mindestens zwei der Segmente einer gewählten Position: Empfangen eines von dem Segment stammenden Segmentsignals, das eine vorgegebene Zeit lang anliegt; und Empfangen des über eine einstellbare Zeitverschiebung verschobenen Segmentsignals, wobei sich die einstellbare Zeitverschiebung und/oder die gewählte Position des Segments in Abhängigkeit von den ermittelten Spitzen zeitlich ändern.
  39. Verfahren nach Anspruch 38, dadurch gekennzeichnet, dass das Kombinieren durch einen Schritt der undichten Autokorrelation ausgeführt wird, der das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 01010001
    worin R das Ausgangssignal ist, X das Anregungssignal ist, s(t) die Segmentposition als Funktion der Zeit ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  40. Verfahren nach Anspruch 38, dadurch gekennzeichnet, dass das Kombinieren durch einen Schritt des zeitnormierten Korrelierens ausgeführt wird, der das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 01010002
    worin R+ das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s(t) die Segmentposition als Funktion der Zeit ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  41. Verfahren nach einem der Ansprüche 38-40, dadurch gekennzeichnet, dass das Kombinieren als Schritt des zeitnormierten Korrelierens mit einer Gruppenlaufzeit-Entzerrung implementiert wird.
  42. Verfahren nach Anspruch 41, dadurch gekennzeichnet, dass die zeitnormierte Korrelation mit einer Gruppenlaufzeit-Entzerrung das Ausführen einer Operation umfasst, die durch den folgenden mathematischen Algorithmus dargestellt wird:
    Figure 01020001
    worin Rgd das Ausgangssignal des Korrelators ist, X das Anregungssignal ist, s(t) die Segmentposition als Funktion der Zeit ist, t die Zeit ist, T die einstellbare Zeitverschiebung ist, ds die Gruppenlaufzeit als Funktion der Segmentposition ist und L ein Verfahren zum Herausfiltern der niedrigen Frequenzanteile ist.
  43. Verfahren nach einem der Ansprüche 27-42, das weiterhin das Berechnen einer Grundperiodenkontur mit den folgenden Schritten aufweist: Bestimmen von mutmaßlichen Kämmen und momentanen Periodenkonturen; Auswählen der zuverlässigsten gleichmäßigen momentanen Periodenkonturen; Klonen von Periodenkonturen zu allen möglichen Grundperioden, wobei jede Kombination aus Periodenkonturen von möglichen Grundperioden eine Konturhypothese bildet; Auswählen der zuverlässigsten Periodenkonturen; Auswählen mindestens einer Konturhypothese, die einem wesentlichen Teil der ausgewählten zuverlässigsten gleichmäßigen momentanen Periodenkonturen entspricht; und Weitersenden der gewählten Konturhypothese.
  44. Verfahren nach den Ansprüchen 25-38; 27-43, dadurch gekennzeichnet, dass das Signal ein Tonsignal ist.
  45. Verfahren zum Erkennen von Signalen mit: einem Verfahren nach einem der Ansprüche 25-39; 27-44; Vergleichen eines Ausgangssignals mit einem zu erkennenden Signal und Ermitteln eines ähnlichsten Signals, das dem Signal am ähnlichsten ist, aus den zu erkennenden Signalen.
  46. Verfahren nach den Ansprüchen 40, 45, dadurch gekennzeichnet, dass die zu erkennenden Signale Sprachsignale darstellen.
  47. Verfahren zum Komprimieren von Daten mit: einem Verfahren nach einem der Ansprüche 25-43; 27-46; Lesen der mit dem Verfahren ermittelten Signalkomponentenwerte eines empfangenen Signals und Weitersenden der Werte.
  48. Verfahren zum Expandieren von Daten mit den Schritten: Empfangen von Signalkomponentenwerten, die mit einem Verfahren nach den Ansprüchen 44, 47 ermittelt werden; Lesen der Signalkomponentenwerte und Wiederherstellen eines Originalsignals und Ausgeben des Originalsignals.
  49. Verfahren zum Verbessern eines Signals mit: einem ersten Verfahren nach einem der Ansprüche 25-39; 27-43; Auswählen von Teilen eines Anregungssignals und einem zweiten Verfahren, das im Wesentlichen ein Gegenteil des ersten Verfahrens ist, zum Rekonstruieren eines Cochleagramms der ausgewählten Teile des Anregungssignals, wobei als Eingabe die ausgewählten Teile verwendet werden.
  50. Verfahren nach Anspruch 49, dadurch gekennzeichnet, dass das Auswählen Folgendes umfasst: Auswählen von kohärenten Kämmen; Ersetzen der ausgewählten kohärenten Kämme durch einen Sinusfrequenzgang; Ersetzen eines Sinusfrequenzgangs durch ein Originalsignal, wenn die Intensität des Sinusfrequenzgangs geringer als die Intensität des Originalsignals ist; und Entfernen von Unstetigkeiten in dem Signal.
  51. Verfahren nach einem der Ansprüche 27-50, dadurch gekennzeichnet, dass das Tonsignal Sprache von mindestens einem Lautsprecher enthält.
  52. Verfahren nach einem der Ansprüche 27-51, dadurch gekennzeichnet, dass das Quellensignal ein unbekanntes Gemisch von Signalen ist.
  53. Rechnerprogramm zum Abarbeiten auf einem Rechnersystem, dadurch gekennzeichnet, dass das Rechnerprogramm Code-Teile zum Ausführen von Schritten der Verfahren nach einem der Ansprüche 27-52 enthält, wenn es auf einem Rechnersystem abgearbeitet wird.
  54. Datenträger, der Daten enthält, die ein Rechnerprogramm nach Anspruch 53 darstellen.
DE60033549T 1999-11-05 2000-11-06 Verfahren und vorrichtung zur signalanalyse Expired - Lifetime DE60033549T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NL1013500 1999-11-05
NL1013500A NL1013500C2 (nl) 1999-11-05 1999-11-05 Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
PCT/NL2000/000808 WO2001033547A1 (en) 1999-11-05 2000-11-06 Methods and apparatuses for signal analysis

Publications (2)

Publication Number Publication Date
DE60033549D1 DE60033549D1 (de) 2007-04-05
DE60033549T2 true DE60033549T2 (de) 2007-11-22

Family

ID=19770203

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60033549T Expired - Lifetime DE60033549T2 (de) 1999-11-05 2000-11-06 Verfahren und vorrichtung zur signalanalyse

Country Status (10)

Country Link
US (1) US6745155B1 (de)
EP (1) EP1228502B1 (de)
JP (1) JP4566493B2 (de)
CN (1) CN1286084C (de)
AT (1) ATE354849T1 (de)
AU (1) AU1740801A (de)
CA (1) CA2390244C (de)
DE (1) DE60033549T2 (de)
NL (1) NL1013500C2 (de)
WO (1) WO2001033547A1 (de)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60237860D1 (de) * 2001-03-22 2010-11-18 Panasonic Corp Schallmerkmalermittlungsgerät, Schalldatenregistrierungsgerät, Schalldatenwiederauffindungsgerät und Verfahren und Programme zum Einsatz derselben
US7136813B2 (en) * 2001-09-25 2006-11-14 Intel Corporation Probabalistic networks for detecting signal content
FR2834363B1 (fr) * 2001-12-27 2004-02-27 France Telecom Procede de caracterisation d'un signal sonore
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7376553B2 (en) * 2003-07-08 2008-05-20 Robert Patel Quinn Fractal harmonic overtone mapping of speech and musical sounds
US7672834B2 (en) * 2003-07-23 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and temporally relating components in non-stationary signals
US7522961B2 (en) * 2004-11-17 2009-04-21 Advanced Bionics, Llc Inner hair cell stimulation model for the use by an intra-cochlear implant
US7242985B1 (en) * 2004-12-03 2007-07-10 Advanced Bionics Corporation Outer hair cell stimulation model for the use by an intra—cochlear implant
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US7729775B1 (en) 2006-03-21 2010-06-01 Advanced Bionics, Llc Spectral contrast enhancement in a cochlear implant speech processor
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8311634B2 (en) * 2006-06-16 2012-11-13 Second Sight Medical Products Inc. Apparatus and method for electrical stimulation of human retina
US8457754B2 (en) * 2006-06-16 2013-06-04 Second Sight Medical Products, Inc. Apparatus and method for electrical stimulation of human neurons
US7864968B2 (en) * 2006-09-25 2011-01-04 Advanced Bionics, Llc Auditory front end customization
US7995771B1 (en) 2006-09-25 2011-08-09 Advanced Bionics, Llc Beamforming microphone system
KR20090130211A (ko) * 2007-05-21 2009-12-18 이 잉크 코포레이션 비디오 전기 광학 디스플레이를 구동하는 방법
EP2028651A1 (de) * 2007-08-24 2009-02-25 Sound Intelligence B.V. Verfahren und Vorrichtung zur Entdeckung spezieller Eingabesignalbeiträge
JP4925018B2 (ja) * 2008-04-04 2012-04-25 アンリツ株式会社 基本波ビート成分検出方法及びそれを用いる被測定信号のサンプリング装置並びに波形観測システム
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
US8359195B2 (en) * 2009-03-26 2013-01-22 LI Creative Technologies, Inc. Method and apparatus for processing audio and speech signals
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
CN101806835B (zh) * 2010-04-26 2011-11-09 江苏中凌高科技有限公司 基于包络分解的间谐波测量仪
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US20120197643A1 (en) * 2011-01-27 2012-08-02 General Motors Llc Mapping obstruent speech energy to lower frequencies
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
KR102212225B1 (ko) * 2012-12-20 2021-02-05 삼성전자주식회사 오디오 보정 장치 및 이의 오디오 보정 방법
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2963648A1 (de) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audioprozessor und Verfahren zur Verarbeitung eines Audiosignals mit vertikaler Phasenkorrektur
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US9980046B2 (en) * 2016-09-29 2018-05-22 Invensense, Inc. Microphone distortion reduction
CN109540545B (zh) * 2018-11-30 2020-04-14 厦门大学 拖拉机用动力输出总成异响诊断信号采集装置及处理方法
CN112763980B (zh) * 2020-12-28 2022-08-05 哈尔滨工程大学 一种基于方位角及其变化率的目标运动分析方法
US11830481B2 (en) * 2021-11-30 2023-11-28 Adobe Inc. Context-aware prosody correction of edited speech

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3622706A (en) * 1969-04-29 1971-11-23 Meguer Kalfaian Phonetic sound recognition apparatus for all voices
US4441202A (en) * 1979-05-28 1984-04-03 The University Of Melbourne Speech processor
CA1189147A (en) * 1980-12-12 1985-06-18 James F. Patrick Speech processors
US5473759A (en) * 1993-02-22 1995-12-05 Apple Computer, Inc. Sound analysis and resynthesis using correlograms
US6072885A (en) * 1994-07-08 2000-06-06 Sonic Innovations, Inc. Hearing aid device incorporating signal processing techniques
WO1997013127A1 (en) * 1995-09-29 1997-04-10 International Business Machines Corporation Mechanical signal processor based on micromechanical oscillators and intelligent acoustic detectors and systems based thereon
US5856722A (en) * 1996-01-02 1999-01-05 Cornell Research Foundation, Inc. Microelectromechanics-based frequency signature sensor
US5879283A (en) * 1996-08-07 1999-03-09 St. Croix Medical, Inc. Implantable hearing system having multiple transducers
US6501399B1 (en) * 1997-07-02 2002-12-31 Eldon Byrd System for creating and amplifying three dimensional sound employing phase distribution and duty cycle modulation of a high frequency digital signal
EP0980064A1 (de) * 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen

Also Published As

Publication number Publication date
JP4566493B2 (ja) 2010-10-20
CN1421030A (zh) 2003-05-28
WO2001033547A1 (en) 2001-05-10
ATE354849T1 (de) 2007-03-15
EP1228502B1 (de) 2007-02-21
CA2390244A1 (en) 2001-05-10
DE60033549D1 (de) 2007-04-05
WO2001033547B1 (en) 2001-11-29
NL1013500C2 (nl) 2001-05-08
EP1228502A1 (de) 2002-08-07
JP2003513339A (ja) 2003-04-08
US6745155B1 (en) 2004-06-01
CN1286084C (zh) 2006-11-22
AU1740801A (en) 2001-05-14
CA2390244C (en) 2011-07-19

Similar Documents

Publication Publication Date Title
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60023517T2 (de) Klassifizierung von schallquellen
DE60009206T2 (de) Rauschunterdrückung mittels spektraler Subtraktion
DE3306730C2 (de)
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE112009000805B4 (de) Rauschreduktion
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE69832195T2 (de) Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese
DE112016006218T5 (de) Schallsignalverbesserung
DE2825082A1 (de) Verfahren zur spracherkennung
DE10123366C1 (de) Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE112018006885T5 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
EP1014340A2 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition