-
-
Verfahren zur Referenzselektion für ein automatisches
-
Sprachverarbeitungs system Die Erfindung betrifft ein Verfahren zur
Referenzselektion für ein automatisches Sprachverarbeitungssystem, insbesondere
Spracherkennungssystem, bei dem die Sprachmuster mit Hilfe von Deskriptoren vorklassifiziert
werden.
-
Maschinelle Sprachverarbeitung umfaßt ganz allgemein das Erkennen,
Verstehen, Interpretieren von akustischen Sprachsignalen. Am Problem, den Inhalt
gesprochener Wörter und Wortfolgen mit maschinellen Mitteln zu erfassen, wird seit
Mitte dieses Jahrhunderts in aller Welt gearbeitet. Der Schwierigkeitsgrad ist von
zahlreichen Randbedingungen abhängig. Von wesentlicher Bedeutung ist in erster Linie,
ob bei der Kommunikation mit einem Automaten der Mensch isoliert gesprochene Wörter
oder kontinuierlich, mehr oder weniger gebunden gesprochene Sprache sprechen darf.
Eine weitere Randbedingung ist beispielsweise die phonetische Komplexität des Vokabulars.
Entscheidend für den Aufwand, der bei der automatischen Spracherkennung zu treiben
ist, ist die Unterscheidung- zwischen sprecherangepaßten und sprecherunabhängigen
Systemen.
-
Selbstverständlich spielt der Umfang des Wortschatzes, der einer Maschine
erfolgversprechend angeboten werden darf, eine ganz erhebliche Rolle. Schließlich
ist es sehr wichtig, ob die akustischen Sprachsignale ungestört oder beeinträchtigt,
durch Umweltgeräusche, Störungen technischer Übertragungswege oder ähnliches, dem
System angeboten werden.
-
Einen umfassenden Überblick zur gesamten Problematik sowie zu Lösungsmöglichkeiten
für das Gebiet der maschinellen bzw. automatischen Sprachverarbeitung bietet D.
J. Reddy in Proc. IEEE Band 64, Seiten 501 bis 531, April 1976. Dabei werden auch
die Grenzen aufgezeigt, die auch bei immer größer werdender Leistungsfähigkeit elektronischer
Rechenanlagen, höherer Integrationsdichte und sinkenden Preisen für elektronische
Schaltungen nicht so bald oder wohl überhaupt nicht erreicht werden können. Dies
geht insbesondere aus dem Abschnitt I. A, Wissensquellen (Sources of Knowledge),
hervor, in dem das Grundwissen erwähnt wird, auf das ein Mensch beim Erkennen, Verstehen
und Interpretieren von akustischen Sprachsignalen zurückgreift. Es sind dies: der
Sprachklang (Phonetik), die Aussprache (Phonologie), die Betonung und Intonation
(Prosodie), der bekannte Wortschatz in Form von Sprachmustern (Lexikon), die Grammatik
(Syntax), die Bedeutung von Wörtern und Sätzen (Semantik) sowie der jeweilige Zusammenhang
(Pragmatik).
-
Mit technischen Mitteln sind die dazu äquivalenten Funktionen teilweise
schon recht gut realisicrbar. Die fortschreitende Entwicklung auf dem Gebiet elektronischer
Speicher fordert dazu heraus, den beherrschbaren Wortschatz zu vergrößern. Da jedoch
der Aufwand für die Erkennung mit wachsendem Wortschatz überproportional ansteigt,
können die bisher bekannten Klassifizierungs- und Hypothesenbildungsverfahren sehr
schnell zu Engpässen führen.
-
Der Erfindung liegt als Aufgabenstellung deshalb die Forderung zugrunde,
den zeitlichen Aufwand, der im Zusammenhang mit einem durchzuführenden Sprachmuster-Re-
ferenzvergleich
erforderlich ist, gering zu halten.
-
Dies ist, wie erwähnt, für einen umfangreichen Vokabular-Katalog unverzichtbar,
kann sich aber auch für Systeme mit geringem Wortschatz in sehr vorteilhafter Weise
auswirken. Da ohnehin eine exakte Vorhersage des Inhalts einer Sprachprobe nicht
in allen Fällen möglich sein wird, soll für die Erfindung allgemein gelten, nur
so genau wie nötig zu werden und dabei so ungenau wie möglich zu bleiben.
-
Die Lösung dieser Aufgabe, für noch nicht identifizierte akustische
Sprachsignale entsprechende abgespeicherte Referenzen herauszusuchen, wird gemäß
der Erfindung dadurch gelöst, daß als Deskriptoren für die Sprachmuster im wesentlichen
akustische Ereignisse verwendet werden, die sich mit einfachen technischen Mitteln
aus akustischen Sprachsignalen extrahieren lassen, und daß aus den Kombinationen
extrahierter Deskriptoren entsprechende Selektionsschlüssel gebildet werden, die
den Zugang zu einer betreffenden Auswahl von Referenzen eröffnen.
-
Zur häheren Erläuterung dieses Verfahrens ist zunächst darauf hinzuweisen,
daß die Anzahl derartiger Deskriptoren möglichst gering sein soll. Sie müssen dementsprechend
verhältnismäßig große Bereiche charakteristischer Sprachmerkmale abdecken und brauchen
keine hohen Anforderungen bezüglich der qualitativen Genauigkeit im zugeordneten
Bereich zu erfüllen. In diesem Sinne ist anzustreben, daß die einzelnen Deskriptoren
sich voneinander gut unterscheiden lassen, möglichst sogar unähnliche akustische
Ereignisse charakterisieren. Die gewünschte Genauigkeit ergibt sich durch die jeweilige
Zusammenstellung von Deskriptoren.
-
Akustische Ereignisse, die sich mit einfachen Mitteln aus einem akustischen
Sprachsignal extrahieren lassen, sind: Phoneme, mit besonderer Signifikanz solche
wie Vokale und stimmhafte Konsonanten; Energie-Inhalte; Frequenz-Spektren; Autokorrelationsfunktionen;
Prädiktionskoeffizienten (LPC). Bei normaler Sprechgeschwindigkeit mit 100 bis 120
Wörtern pro Minute, im Schnitt zweisilbigen Wörtern sowie drei Lauten pro Silbe
ergibt sich eine Geschwindigkeit von 10 bis 12 Lauten pro Sekunde bzw. eine durchschnittliChe
Lautdauer von etwa 100 ms. Bei Schnellsprechern, die bis zu 180 Wörtern pro Minute
gebrauchen, ergeben sich bis zu 18 Laute pro Sekunde, womit das menschliche Aufnahmevermögen
bereits überfordert wird. Selbst wenn für jeden Laut ein Deskriptor extrahiert werden
sollte, fallen also nicht mehr als etwa 33 Deskriptoren pro Sekunde an. Da es ausreicht,
ein Wort zu identifizieren, werden also selbst bei hohen Genauigkeitsanforderungen
nur etwa 16 Deskriptoren bei Ausführungsformen der Erfindung benötigt.
-
Als Sprachmuster sollen sowohl isoliert gesprochene Wörter als auch
gebunden gesprochene Sätze verarbeitet werden können. Extrahierte Deskriptoren sind
deshalb in verhältnismäßig geringer Anzahl zu kombinieren, um den Zugang zu den
abgespeicherten Referenzen, die Wörter oder Wortteile umfassen, zu eröffnen. Bei
16 einwertigen Deskriptoren ergeben sich jedoch schon allein für Deskriptor-Paare
162 = 256 mögliche Zusammenstellungen. Da auch das Fehlen eines Deskriptors und
auch von beiden eines Paares eine Aussage darstellt, lassen sich insgesamt 273 verschiedene
Selektionsschlüssel mit maximal zwei Deskriptoren bilden.
-
Für maximal 3 Deskriptoren ergeben sich entsprechend
163
+ 162 + 161 + 160 = 4369 unterschiedliche Zusammenstellungen für die Selektionsschlüsselbildung.
Berücksichtigt man weiterhin, daß unter einem Selektionsschlüssel mehrere Referenzen
zugänglich sein können, ist ohne weiteres zu erkennen, wie in wenigen Schritten,
d. h. in kurzer Zeit, der Vorklassifizierungsprozeß mit durchaus feiner Auflösung
durchgeführt werden kann.
-
Nachfolgend werden besonders vorteilhafte Ausführungsformen der Erfindung
erläutert.
-
Zunächst können in weiterer Ausgestaltung des erfindungsgemäßen Verfahrens
signifikante Kombinationen von Deskriptoren aufgesucht und mit Vorrang zur Selektionsschlüsselbildung
herangezogen werden. Die Signifikanz kann beispielsweise häufig vorkommende Wörter
betreffen, wobei sowohl im allgemeinen Sprachgebrauch als auch insbesondere in berufsspezifischen
Fachsprachen eine erhebliche Anzahl betreffender Ausdrücke vorkommt.
-
Ist in einem solchen Fall der zugehörige Referenz-Sprachmustervergleich
erfolgreich abgeschlossen worden, können Rückschlüsse auf den verbliebenen Rest
des zu klassifizierenden Sprachmusters gezogen werden. Insbesondere könen Positionierungen
der Referenzen zum Sprachmuster oder auch von Deskriptoren bei der Selektionsschlüsselbildung
vorgenommen werden, die es erlauben, den eigentlichen Muster-Vergleich gezielt durchzuführen,
d. h. sogleich solche Bereiche aufzusuchen, in denen bei der Extraktion der Deskriptoren
die jeweilige signifikante Deskriptorkombination auftauchte.
-
Bei nicht voll befriedigendem Ergebnis einer ersten Referenzselektion
kann aus den extrahierten Deskripto-
ren ein modifizierter Selektionsschlüssel
gebildet und mit diesem der Zugang zu einer weiteren Auswahl von Referenzen eröffnet
werden. Dies ist von besonderer Bedeutung für Systeme, die nicht auf spezifische
Sprecher adaptiert sind. Infolge unterschiedlicher Phonetik, Phonologie und Prosodie
bei der Aussprache eines Wortes sowie aufgrund der Tatsache, daß von vornherein
verhältnismäßig grobe Deskriptoren extrahiert werden, können bei der Referenzselektion
durchaus auch Deskriptoren infrage kommen, die im ähnliche keitsbereich der extrahierten
Deskriptoren liegen. Die Anzahl von weiteren Durchläufen mit modifizierten Selektionsschlüsseln
hängt zum einen davon ab, ob es sich bei den aufzusuchenden Referenzen um Wortteile,
Wörter oder noch größere Segmente handelt, zum anderen davon, welche Ahnlichkeitsbereiche
für die betreffenden Deskriptoren zugelassen sind. Nach etwa 3 Durchläufen für ein
Wortteil bzw. 5 bis 10 Durchläufen für ein Wort empfiehlt es sich, gegebenenfalls
mit dem gesamten Wort- bzw. Wortteilschatz den Referenz-Sprachmustervergleich durchzuführen.
Sofern allerdings bereits für einen Teil des zu untersuchenden Sprachmusters der
Prozeß erfolgreich abgeschlossen werden konnte, braucht eine Referenzselektion nur
für ein nicht voll befriedigendes Teilergebnis eines vorangegangenen Selektionsprozesses
wiederholt zu werden.
-
Ebenfalls für sprecherunabhängige Systeme ist es sehr zweckmäßig,
als Deskriptoren sprachcharakteristische Phoneme zu verwenden. Dazu gehören insbesondere
Plosivlaute, Vokale und stimmhafte Konsonanten, die weitgehend unabhängig vom jeweiligen
Sprecher identifizierbar sind. Der Auswahl derartiger geeigneter Pho-
neme
kommt eine besondere Bedeutung schon allein deshalb zu, weil viele Laute nicht nur
von Sprecher zu Sprecher, sondern besonders auch in den einzelnen Dialekten unterschiedlich
ausgesprochen werden. Diese Randbedingungen verkehren sich praktisch in ihr Gegenteil,
wenn es sich - ähnlich dem Problem der Sprecher-Erkennung - um Systeme handelt,
die auf bestimmte Sprecher angepaßt sind. In einem solchen Fall können sprecherspezifische
Deskriptoren durchaus schneller zum Ziel führen.
-
Von wesentlicher Bedeutung für Ausführungsformen der Erfindung ist
die Möglichkeit, als Deskriptoren relative zeitliche Positionen von Phonemen zu
verwenden.
-
Hierunter ist einerseits zu verstehen, daß bei mehreren unterschiedlichen
Wörtern gleiche Phoneme in gleicher Reihenfolge sowie mit etwa gleichem gegenseitigen
Abstand auftreten, wodurch sich diese Wörter von allen anderen unterscheiden. Für
die Unterscheidung dieser insoweit ähnlichen Wörter untereinander ist dann in den
meisten Fällen ein weiterer Deskriptor ausreichend. Anderersuits können aufschlußreiche
Vorklassifizierungen auch dann erfolgen, wenn beispielsweise eine häufig vorkommende
Endung (...tion) erkannt wurde und der zeitliche Abstand eines Phonems in einer
vorhergehenden Silbe bestimmt wird.
-
Hierbei lassen sich Gruppen bilden und unterscheiden, bei denen solche
Phoneme etwa gleiche und mehrere unterschiedliche zeitliche Abstände von einer solchen
Endung aufweisen. Entsprechendes gilt für Abstände zwischen Vorsilben und bestimmten
Phonemen, wobei als zusätzlicher Vorteil eine gezielte zeitliche Positionierung
für den Referenz-Sprachmustervergleich vorge-
nommen werden kann,
wenn bereits ein Wortanfang oder ein Wortende festgestellt werden konnte.
-
Eine weitere wirkungsvolle Möglichkeit für die Vorklassifizierung
besteht darin, zwischen an sich häufig und an sich selten auftretenden Phonemen
zu unterscheiden und das Fehlen an sich häufig auftretender Phoneme in einer Sprachprobe
als zusätzliches Kriterium für die Selektionsschlüsselbildung heranzuziehen.
-
Die Effektivität dieser Maßnahme ist beispielsweise daran erkennbar,
daß bei einem Sprachmuster, in dem kein Deskriptor für das Phonem "e" aufgefunden
wurde, eine sehr große Anzahl abgespeicherter Referenzen für den Referenz-Sprachmustervergleich
eindeutig ausfällt.
-
Eine weitere Ausführungsform ergibt sich, wenn Selektionsschlüssel
für Segmente akustischer Sprachsignale gebildet werden. Derartige Segmente können
bei gebunden gesprochenen Wörtern auf kleinere Einheiten, also Einzelwörter oder
Wortteile abgestimmt werden. Diese Maßnahme ist jedoch auch für isoliert gesprochene
Wörter vorteilhaft, wenn beispielsweise auf eine Trennung Präfix - Stamm - Suffix
oder dergleichen abgezielt. wird. Selbstverständlich sollten erkannte, natürliche
Wortgrenzen zur Segmentbildung herangezogen werden. Da jedoch eine derartige Erkennung
natürlicher Wortgrenzen in einem Sprachmuster, bei dem zwar einige akustische Ereignisse
analysiert werden, nicht mit Sicherheit durchgeführt werden kann, ist es sinnvoll,
wenn die Segmentbildung - auch oder und - in Abhängigkeit von der Anzahl der aus
einer Sprachprobe extrahierten Deskriptoren erfolgt. Hierbei kommen leicht zu ermittelnde
Erfahrungswerte in Betracht, indem beispielsweise Segmente mit etwa drei Deskrip-
toren
gebildet werden. Eine Modifizierung zum Zwecke einer Wiederholung bei nicht voll
befriedigendem Ergebnis kann dann jeweils durch eine Verschiebung in der einen oder
der anderen Richtung erfolgen. Für eine Wiederholung eines Selektionsprozesses kann
die Segmentierung jedoch auch bevorzugt mit veränderter Anzahl extrahierter Deskriptoren
je Segment erfolgen.
-
Ein signifikantes Kriterium, Segmentgrenzen zu ändern, besteht darin,
daß zu Selektionsschlüsseln von Segmenten keine Referenzen abgelegt sind. Außerdem
können für häufig auftretende Wortübergänge die betreffenden Übergangslaute - z.
B. in Form von Deskriptoren - abgespeichert sein und zur Segmentbildung herangezogen
werden. Bei allen solchen Maßnahmen gilt der Grundsatz, zunächst verhältnismäßig
große Segmente zu bilden und zu untersuchen und erst bei nicht befriedigendem Ergebnis
bei den entsprechenden Sprachmuster-Referenz-Vergleichen auf kleinere Segmente überzugehen.
-
Eine weitere bevorzugte Ausführungsform der Erfindung ist dadurch
gekennzeichnet, daß als Deskriptor die Energie-Verteilung in einem akustischen Signal
verwendet wird. Ein derartiger Deskriptor ist naturgemäß mehrwertig, wie bereits
durch den Begriff "Verteilung" zum Ausdruck kommt. Hieraus ergibt sich, daß die
mit einem Integrator kurzer Zeitkonstante bestimmbare Energie-Verteilung, zweckmäßigerweise
in groben Stufen quantisiert, zu einfach voneinander unterscheidbaren Deskriptoren
führt, die außerordentlich aussagekräftig sind. So lassen sich hiermit beispielsweise
schon ziemlich genaue Rückschlüsse auf die Länge des zu untersuchenden Sprachmusters
ziehen.
-
Mit verhältnismäßig geringem zusätzlichen technischen Aufwand läßt
sich dieses Grundprinzip für Zwecke der Erfindung erheblich verbessern. So können
bei einem akustischen Sprachsignal die Energie-Inhalte in vorgegebenen Zeitintervallen
bestimmt und als Deskriptoren verwendet werden. Wenn das Verhältnis derartiger Energie
-Inhalte in den einzelnen Zeitintervallen zur Charakterisierung eines Sprachmusters
ausreicht, ist zudem keine Pegel-Normierung erforderlich. Die Bestimmung der Zeitintervalle
sollte derart erfolgen, daß der Bereich zwischen Wortgrenzen oder zwei Energieminima
in gleiche Teile zerlegt wird, um von Sprechgeschwindigkeiten unabhängig zu sein.
-
Vergleichbar aussagekräftige Ergebnisse lassen sich gemäß einer weiteren
Ausführungsform der Erfindung dadurch erzielen, daß bei einem akustischen Sprachsignal
die Energie-Inhalte in vorgegebenen Frequenzbändern bestimmt und als Deskriptoren
verwendet werden. Hieraus kann zumindest auf ähnliche Phoneme geschlossen werden,
bei denen sich die Lagen des jeweils ersten, zweiten und dritten Formanten von ähnlich
klingenden Phonemen wenig, von unähnlichen dagegen mehr unterscheiden. Als weiteres
Beispiel sei auf Zisch- und Plosivlaute hingewiesen, deren Energieanteile im höheren
Frequenzbereich liegen und damit Rückschlüsse auf das vorliegende Wort erlauben.
Werden die beiden zuletzt erwähnten Möglichkeiten der Bestimmung von Energie-Inhalten
sowohl in vorgegebenen Zeitintervallen als auch in vorgegebenen Frequenzbändern
zusammen durchgeführt, ergeben sich entsprechend der Anzahl möglicher Zusammenstellungen
derartiger Deskriptoren unterschiedliche Selektions-
schlüssel
und eine erhöhte Auflösung bei der Referenzauswahl.
-
Die Selektionsschlüsselbildung als solche findet automatisch, einem
vorgegebenen Programm entsprechend statt. Hierbei ist von besonderer Bedeutung für
die Erfindung, daß die extrahierten Deskriptoren einer Sprachprobe unterschiedlich
nach Art, Anzahl, Reihenfolge und gegenseitigem zeitlichen Abstand des Auftretens
gewichtet zur Selektionsschlüsselbildung herangezogen werden können. Eine derartige
unterschiedliche Gewichtung kann mehr oder weniger stark sein und zudem für mehrere
Durchläufe einer bestimmt ten Referenzauswahl variiert werden. Entscheidend für
alle solchen Maßnahmen ist der Gesichtspunkt, in möglichst kurzer Zeit für ein Sprachsignal
eine möglichst kleine Anzahl von gespeicherten Referenzen durch einen Vorklassifizierungsprozeß
auszuwählen. Der eigentliche Sprachmuster-/Referenzvergleich kann dann auf diese
ausgewählten Referenzen beschränkt werden. Selbst wenn im ungünstigsten Fall alle
diese Maßnahmen einmal nicht zum Erfolg führen, das heißt, für ein zu untersuchendes
Sprechmuster keine oder keine vollständige Folge von abgespeicherten Referenzen
aufzufinden ist, ergibt sich im Mittel für die Sprachmuster-/Referenzvergleiche
eine erhebliche zeitliche Verkürzung gegenüber bisher bekannten Systemen.
-
Selbstverständlich ist es, daß für die abgespeicherten Referenzen
die Selektionsschlüssel in derselben Art und Weise gebildet werden müssen, wie dies
bei zu untersuchenden Sprachmustern geschieht. Von ganz wesentlicher Bedeutung ist
jedoch die Abspeicherung der
Referenzen. Bei Datenbanken vielfach
übliche 11lnverted-File-" Techniken hätten eine erhebliche Anzahl von Suchschritten
zur Folge. Mit erheblichem Suchaufwand sind ebenfalls ungeordnete Referenzindexlisten
verbunden. Mit wachsender Komplexität eines Suchschlüssels steigt die Anzahl von
Referenzindexlisten,die zusätzlichen Speicherplatz erfordern. Bei geordneten Listen
verringert sich zwar die Zahl der Suchschritte, dafür ist der Sortieraufwand im
Zusammenhang mit der Einfügung oder Entfernung von Referenzen nicht zu unterschätzen.
Es ist deshalb für Ausführungsformen der Erfindung zweckmäßig, an sich bekannte
Speichertechniken anzuwenden, mit denen derartige Probleme vermieden werden. In
dieser Beziehung besonders vorteilhaft ist das sogenannte Hash-Coding, wobei die
Referenzen ihren Selektionsschlüsseln entsprechend abgelegt werden. Dabei wird nach
einem bestimmten Algorithmus aus dem eine Referenz kennzeichnenden Schlüssel eine
Zufalls-Adresse berechnet, unter der diese Referenz in der Gesamtreferenzliste abzulegen
ist.
-
Diese Adresse kennzeichnet den Speicherplatz dieser, jedoch auch einer
beliebigen anderen Referenz, für die die Adressberechnung zum selben Ergebnis führt.
-
Obwohl die Schlüssel-Wortadressen-Abbildung also nicht eindeutig ist,
ergeben sich hierdurch weit wichtigere Vorteile bezüglich des Suchaufwandes sowie
der Flexibilität bei Erweiterungen oder Aktualisierungen des gespeicherten Datenbestandes.
Andere Methoden, z. B. eine Ablage der Referenzen zusammen mit ihren Selektionsschlüsseln,
sind ebenfalls besonders für ein kleines Vokabular möglich und sinnvoll und liegen
im Belieben des Fachmannes, der von Fall zu Fall entscheiden wird, ob z. B. eine
beliebige oder eine geordnete
Ablage, d. h. ein geringer oder
ein größerer Aufwand beim Abspeichern und dafür ein größerer bzw.
-
geringerer Aufwand beim Suchprozeß akzeptiert werden kann.
-
Ohne die mit der Erfindung und ihren bevorzugten Ausführungsformen
erzielbaren Ergebnisse schmälern zu wollen, soll schließlich an dieser Stelle darauf
hingewiesen werden, daß die vorgesehenen Maßnahmen zur Unterstützung anderer Selektionssysteme
durchgeführt werden können. Dadurch läßt sich deren Effektivität beträchtlich steigern.
-
Im Zusammenhang mit den Zeichnungen werden einige Deteils der Erfindung
noch näher erläutert. Dabei zeigen: Fig. 1: ein Blockschaltbild für ein Spracherkennungssystem;
Fig. 2: ein Blockschaltbild für ein Worterkennungssystem, das auf der Grundlage
von Wortteil-Erkennungen arbeitet; Fig. 3: ein Schaubild für ein Beispiel eines
Wortteil-Erkennungsprozesses; Fig. 4: ein Schaubild für die Bildung eines Selektionsschlüssels;
und Fig. 5: ein Schaubild für die Struktur des Referenzen-Kataloges und Auswahl
von Referenzen.
-
Das Spracherkennungssvstem gemäß Fig. 1 weist folgende wesentliche
Bestandteile bzw. Stufen auf: im Hauptpfad befinden sich eine Signal-Transformationsstufe
ST, ein Vergleicher VER und ein Referenz-Lexi-
kon RL. Von der
Signal-Transformationsstufe ST zweigt der für die Erfindung wesentliche Teil ab.
Dieser wird von einer Deskriptor-Extraktionsstufe DE und dem Selektionsschlüsselbildner
SK gebildet, an den sich das Referenzen~Lexikon RL anschließt. Der Selektionsschlüsselbildner
SK soll bzw. kann auf einen Speicher mit externem Wissen KS und einen Wortgrenzenschätzer
WBE zugreifen. Die ausgewählten Referenzen werden aus dem Referenzen-Lexikon RL
dem Vergleicher VER für den eigentlichen Sprachmuster-/Referenzenvergleich zugeführt.
-
Das über das Mikrofon dem System zugeführte akustische Sprachsignal
wird im Signal-Transformator ST in eine für die Spracherkennung geeignete Signaldarstellung
umgesetzt. Dabei findet eine Datenreduktion statt.
-
Die Referenzen sind im Lexikon RL in derselben Signaldarstellung abgelegt.
Werden Einzelwörter oder Sequenzen von Einzelwörtern eingegeben, ist der Wortgrenzenschätzer
WBE nicht erforderlich. Dieser tritt also nur bei gebunden gesprochener Sprache
in Funktion.
-
Das in die geeignete Darstellungsweise, z. B. als Folge von Frequenzspektren
in Abständen von 30 ms, umgewandelte Sprachsignal wird der Deskriptor-Extraktionsstufe
DE zugeführt. Dort wird festgestellt, welche Deskriptoren in welcher Reihenfolge,
gegebenenfalls in welchem gegenseitigen Abstand usw., im betreffenden Sprachmuster
erscheinen. Zusammen mit vorgegebenen oder geschätzten Wortgrenzen werden aus entsprechenden
Zusammenstellungen extrahierter Deskriptoren in der Stufe SK die Selektionsschlüssel
gebildet, die mittelbar oder unmittelbar den Zugang zu einer betref-
fenden
Auswahl von Referenzen im Referenzen-Lexikon RL eröffnen. Diese Auswahl von Referenzen
wird dem Vergleicher VER zugeführt, der die Entscheidung trifft, welche der zugeführten
Referenzen mit dem zu untersuchendenSprachmuster übereinstimmen. Konnte keine positive
Entscheidung getroffen werden, wird in einem nachfolgenden Durchgang mit geänderten
Randbedingungen, z. B. anderen Wortgrenzen, modifizierten Deskriptoren, möglicherweise
unter Zuhilfenahme externen Wissens EK über Syntax, Semantik oder dergleichen, ein
Durchlauf wiederholt.
-
Soweit erforderlich kann mit der Signal-Transformation ST auch eine
Normierung durchgeführt werden. Unerwünschte Lautstärkeschwankungen oder -unterschiede
können mit einer regelbaren Verstärkung ausgeglichen werden. Unterschiedliche Sprechgeschwindigkeiten
lassen sich durch lineare oder nichtlineare Zeitraffung bzw. -dehnung normieren.
-
Bei gebunden gesprochener Sprache kann zunächst eine mehr oder weniger
willkürliche Gruppierung von Deskriptoren, z. B. Phonemen, in Teilfolgen vorgenommen
werden. Sodann wird geprüft, ob entsprechende Wortteilreferenzen existieren. Sind
derartige Referenzen verfügbar, kann mit einer signifikanten Wortteilreferenz, z.
B. einem Wortstamm oder einem kurzen Wort, begonnen werden. Anderenfalls sind neue
Gruppierungen zu bilden. Auf diese Weise kann die Erkennung schrittweise, in beiden
Richtungen fortschreitend, erfolgen, ohne eine Segmentierung durchführen zu müssen.
Außerdem lassen sich auf diese Weise zunächst phonetisch gleiche oder sehr ähnliche
Anteile von Wörtern identifizieren und abspalten und sodann die Erkennungs-
Prozesse
für die zugehörigen Anlaute, Vorsilben, Endungen und dergleichen durchführen. Dabei
ist allerdings zu berücksichtigen, daß bei gebunden gesprochener Sprache an den
Wortgrenzen phonetische Änderungen auftreten können, die durch ein "Verschleifen"
der Wortübergänge entstehen. Für Gruppierungen, die mit hoher Wahrscheinlichkeit
auftreten, können entsprechende Listen geführt werden. Dabei lassen sich gleichzeitig
Phonem-Abstandsgruppierungen, z. B. Stamm, Präfix, Suffix vermerken. Auf der Basis
erkannter Wortteile sind dann Hypothesen zu den noch nicht vollständig erkannten
Wortteilen möglich und weitere Wortteile oder Wörter auswählbar, die sich an die
bereits erkannte Gruppierung mit großer Wahrscheinlichkeit anschließen. Geeignete
Kriterien für solche Hypothesen sind z. B. die Folgen bestimmter Phoneme in einem
Gesamtwort oder die aus Verkettungslistenoder Ubergangsnetzwerken ermittelten wahrscheinlichsten
Folgen von Wortteilen (Subwörtern). In Fig. 2 ist schematisch der Ablauf eines solchen
Erkennungsprozesses dargestellt, das mit Wortteil- oder Subworterkennung arbeitet.
Dabei ist zu erkennen, daß in mehreren Stufen, z. B. den zwei dargestellten Stufen
I und II, jeweils Hypothesen HY I / HY II gebildet und diese Vorhersagen liner Prüfung
VER I / VER II unterzogen werden. Dabei können über Korrekturpfade C0R jeweils mehrere
Durchläufe in einer Stufe sowie Rücksprünge zu vorhergehenden Stufen stattfinden,
wenn eine Prüfung VER 1 / VER II zu keinem Ergebnis führte.
-
Anhand eines Schaubildes (Fig. 3) soll für ein längeres, gebunden
gesprochenes Wort oder eine Wortgruppe ein solcher Wortteil-Erkennungsprozeß näher
erläutert
werden. In der Zeile 1 ist das betreffende Sprachmuster,
das untersucht werden soll, angegeben. Es besteht aus vier Wortteilen (Subwörtern),
nämlich einem Wortstamm STM 1 eines ersten Wortteiles sowie dem Präfix P2, dem Wortstamm
STM 2 und dem Suffix S2 eines zweiten Wortteiles. Innerhalb dieser Wortteile treten
jeweils mehrere akustische Ereignisse El, E2, E3, E4 sowie EX, EY, EZ, EU, EV, EW
auf. Die akustischen Ereignisse El, ..., E4 sollen solche sein, die sich mit einfachen
technischen Mitteln extrahieren lassen und sprachcharakteristisch sind. Dafür sind
entmrechende Deskriptoren D1, ..., D4 -vorhanden. Diese sollen sämtlichst erkannt
worden sein. Sie sind in der zweiten Zeile an den betreffenden Positionen angegeben.
Allein aufgrund der Deskriptoren D1, ..., D4, insbesondere auch ihrer jeweiligen
Position innerhalb eines Wortteiles, ihrer jeweiligen Zusammenstellungen des Auftretens
usw. werden Selektionsschlüssel gebildet, die den Zugang zu einer Auswahl von Referenzen
eröffnen. Die zutreffende Referenz für den Wortstamm STM 1 besteht aus den zugehörigen
Anteilen, hier RX, Rv, R1, RZ (s.Zeile 3.1). Beim Referenz-/Sprachmustervergleich
kann die Referenz zum Sprachmuster positioniert und in einem vorgegebenen Toleranzbereich
verschoben werden (s. Zeilen3.1.abzw. 3.1.b). Nach erfolgreicher Erkennung des Wortteiles
STM 1 werden die entsprechenden Maßnahmen für die Wortteile P2, STM 2 und S2 durchgeführt.
Hieraus ist zu erkennen, daß die einzelnen Subwortreferenzen nicht mit jedem Segment
des Sprachmusters verglichen werden müssen.
-
Aufgrund einer bereits bekannten zeitlichen Lage der akustischen Ereignisse,
El, ..., E4, z. B. bestimmter Phoneme, in dem Sprachmuster sowie in der zugehörigen
Referenz können diese für den Referenz-/Sprachmuster-
vergleich
bereits so positioniert werden, daß diese Phonemlagen im wesentlichen übereinstimmen.
-
In Fig. 4 ist ein Beispiel für die Bildung eines Selektionsschlüssels
dargestellt. Das zu untersuchende Sprachmuster weist die Phonemfolge " e - i - m"
auf.
-
Außerdem wurde ermittelt, daß das erste Phonem vom Wortanfang den
Abstand 0, das zweite Phonem vom ersten den Abstand 3,1 und das dritte Phonem vom
zweiten den Abstand 1,8 besitzt. Allen diesen akustischen Ereignissen werden entsprechende
Deskriptoren zugewiesen, deren Kodierungen hier 2, 3, 10 und 0, 3, 2 (dabei 3,1
auf 3 abgerundet, 1,8 auf 2 aufgerundet) lauten. Der zugehörige Selektionsschlüssel
kann direkt aus der Folge dieser Kodierungen bestehen und lautet dann: 2310032.
Für eine Hash-Codierung kann sodann noch eine Umwandlung des Selektionsschlüssels
in eine Adresse erfolgen.
-
Fig. 5 zeigt die Struktur einer Indexliste IM für das Referenzen-Lexikon
RL und den Zugriff zu einer Auswahl von Referenzen. Für die einzelnen Referenzen
wird aus dem gebildeten Selektionsschlüssel eine Zufalisadresse berechnet. Dies
geschieht beispielsweise als eine Modulo-Division des Selektionsschlüssels durch
eine Primzahl in einer Einrichtung SK - ADD -CONV zur Umwandlung von Selektionsschlüsseln
in eine Adresse. Da sich bei einem solchen Algorithmus für mehrere Referenzen dieselben
Adressen ergeben können, sind entsprechend unter jeder Adresse durchaus mehrere
Referenzindizes abgelegt und aufzufinden. Dabei kann es vorkommen, daß der Speicherplatz
bei einer bestimmten Adresse nicht ausreicht. Sofern dies der Fall ist, kann in
einer Überlaufspalte eine weitere
Adresse abgelegt sein, unter
der ihrerseits die übrigen Referenzindizes zu finden sind. Im dargestellten Beispiel
(Fig. 5) sind unter der Adresse 20 insgesamt sechs Referenzindizes abgelegt und
zu finden, und zwar unmittelbar die Indizes 7, 9, 128 und 411 sowie mittelbar über
die Adresse 501 in der Überlaufspalte die Referenzindizes 614 und 921. Alle sechs
Indizes erlauben den Zugriff auf die entsprechenden, im eigentlichen Lexikon-Speicher
abgelegten Referenzen. Im eigentlichen Referenz-/Sprachmustervergleich wird sodann
entschieden, welche dieser sechs Referenzen mit dem Sprachmuster übereinstimmt.