DE3216871A1

DE3216871A1 - Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem

Info

Publication number: DE3216871A1
Application number: DE19823216871
Authority: DE
Inventors: Elmar Dipl.-Ing. 1000 Berlin Schulze
Original assignee: Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Current assignee: Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Priority date: 1982-05-03
Filing date: 1982-05-03
Publication date: 1983-11-03

Abstract

Von einem Bewegtbildsignal (Videosignal) werden zur Einsparung von Übertragungskapazität nur diejenigen Teile eines Einzelbildes in digitaler Form übertragen, die sich gegenüber dem vorausgegangenen Einzelbild, soweit dieses dem Empfänger bekannt ist, geändert haben. Der Übertragungs-Kodiervorgang kann mit einer kontinuierlichen, durch die Datenrate des Übertragungsweges bestimmten Arbeitsgeschwindigkeit ablaufen, da für die Datenbearbeitung auf der Senderseite sowohl Änderungsentscheidungen als auch die zugeführten, unkodierten Bilddatenworte zwischengespeichert und nach einer variablen Verzögerung dem Kodiervorgang zugeführt werden. Eine kanalseitige Zwischenspeicherung kann sowohl beim Sender als auch beim Empfänger entfallen. Die empfangenen Bilddaten werden direkt dekodiert, und mit Hilfe der zugehörigen Adreßdaten erfolgt eine Aktualisierung der im Bildspeicher befindlichen Bildinformationen, die erst nach einer Verzögerungszeit - zwischen Null und einer Vollbilddauer - wiedergegeben werden.

Description

Verfahren zur Referenzselektion für ein automatisches
Sprachverarbeitungs system Die Erfindung betrifft ein Verfahren zur Referenzselektion für ein automatisches Sprachverarbeitungssystem, insbesondere Spracherkennungssystem, bei dem die Sprachmuster mit Hilfe von Deskriptoren vorklassifiziert werden.
Maschinelle Sprachverarbeitung umfaßt ganz allgemein das Erkennen, Verstehen, Interpretieren von akustischen Sprachsignalen. Am Problem, den Inhalt gesprochener Wörter und Wortfolgen mit maschinellen Mitteln zu erfassen, wird seit Mitte dieses Jahrhunderts in aller Welt gearbeitet. Der Schwierigkeitsgrad ist von zahlreichen Randbedingungen abhängig. Von wesentlicher Bedeutung ist in erster Linie, ob bei der Kommunikation mit einem Automaten der Mensch isoliert gesprochene Wörter oder kontinuierlich, mehr oder weniger gebunden gesprochene Sprache sprechen darf. Eine weitere Randbedingung ist beispielsweise die phonetische Komplexität des Vokabulars. Entscheidend für den Aufwand, der bei der automatischen Spracherkennung zu treiben ist, ist die Unterscheidung- zwischen sprecherangepaßten und sprecherunabhängigen Systemen.
Selbstverständlich spielt der Umfang des Wortschatzes, der einer Maschine erfolgversprechend angeboten werden darf, eine ganz erhebliche Rolle. Schließlich ist es sehr wichtig, ob die akustischen Sprachsignale ungestört oder beeinträchtigt, durch Umweltgeräusche, Störungen technischer Übertragungswege oder ähnliches, dem System angeboten werden.
Einen umfassenden Überblick zur gesamten Problematik sowie zu Lösungsmöglichkeiten für das Gebiet der maschinellen bzw. automatischen Sprachverarbeitung bietet D. J. Reddy in Proc. IEEE Band 64, Seiten 501 bis 531, April 1976. Dabei werden auch die Grenzen aufgezeigt, die auch bei immer größer werdender Leistungsfähigkeit elektronischer Rechenanlagen, höherer Integrationsdichte und sinkenden Preisen für elektronische Schaltungen nicht so bald oder wohl überhaupt nicht erreicht werden können. Dies geht insbesondere aus dem Abschnitt I. A, Wissensquellen (Sources of Knowledge), hervor, in dem das Grundwissen erwähnt wird, auf das ein Mensch beim Erkennen, Verstehen und Interpretieren von akustischen Sprachsignalen zurückgreift. Es sind dies: der Sprachklang (Phonetik), die Aussprache (Phonologie), die Betonung und Intonation (Prosodie), der bekannte Wortschatz in Form von Sprachmustern (Lexikon), die Grammatik (Syntax), die Bedeutung von Wörtern und Sätzen (Semantik) sowie der jeweilige Zusammenhang (Pragmatik).
Mit technischen Mitteln sind die dazu äquivalenten Funktionen teilweise schon recht gut realisicrbar. Die fortschreitende Entwicklung auf dem Gebiet elektronischer Speicher fordert dazu heraus, den beherrschbaren Wortschatz zu vergrößern. Da jedoch der Aufwand für die Erkennung mit wachsendem Wortschatz überproportional ansteigt, können die bisher bekannten Klassifizierungs- und Hypothesenbildungsverfahren sehr schnell zu Engpässen führen.
Der Erfindung liegt als Aufgabenstellung deshalb die Forderung zugrunde, den zeitlichen Aufwand, der im Zusammenhang mit einem durchzuführenden Sprachmuster-Re- ferenzvergleich erforderlich ist, gering zu halten.
Dies ist, wie erwähnt, für einen umfangreichen Vokabular-Katalog unverzichtbar, kann sich aber auch für Systeme mit geringem Wortschatz in sehr vorteilhafter Weise auswirken. Da ohnehin eine exakte Vorhersage des Inhalts einer Sprachprobe nicht in allen Fällen möglich sein wird, soll für die Erfindung allgemein gelten, nur so genau wie nötig zu werden und dabei so ungenau wie möglich zu bleiben.
Die Lösung dieser Aufgabe, für noch nicht identifizierte akustische Sprachsignale entsprechende abgespeicherte Referenzen herauszusuchen, wird gemäß der Erfindung dadurch gelöst, daß als Deskriptoren für die Sprachmuster im wesentlichen akustische Ereignisse verwendet werden, die sich mit einfachen technischen Mitteln aus akustischen Sprachsignalen extrahieren lassen, und daß aus den Kombinationen extrahierter Deskriptoren entsprechende Selektionsschlüssel gebildet werden, die den Zugang zu einer betreffenden Auswahl von Referenzen eröffnen.
Zur häheren Erläuterung dieses Verfahrens ist zunächst darauf hinzuweisen, daß die Anzahl derartiger Deskriptoren möglichst gering sein soll. Sie müssen dementsprechend verhältnismäßig große Bereiche charakteristischer Sprachmerkmale abdecken und brauchen keine hohen Anforderungen bezüglich der qualitativen Genauigkeit im zugeordneten Bereich zu erfüllen. In diesem Sinne ist anzustreben, daß die einzelnen Deskriptoren sich voneinander gut unterscheiden lassen, möglichst sogar unähnliche akustische Ereignisse charakterisieren. Die gewünschte Genauigkeit ergibt sich durch die jeweilige Zusammenstellung von Deskriptoren.
Akustische Ereignisse, die sich mit einfachen Mitteln aus einem akustischen Sprachsignal extrahieren lassen, sind: Phoneme, mit besonderer Signifikanz solche wie Vokale und stimmhafte Konsonanten; Energie-Inhalte; Frequenz-Spektren; Autokorrelationsfunktionen; Prädiktionskoeffizienten (LPC). Bei normaler Sprechgeschwindigkeit mit 100 bis 120 Wörtern pro Minute, im Schnitt zweisilbigen Wörtern sowie drei Lauten pro Silbe ergibt sich eine Geschwindigkeit von 10 bis 12 Lauten pro Sekunde bzw. eine durchschnittliChe Lautdauer von etwa 100 ms. Bei Schnellsprechern, die bis zu 180 Wörtern pro Minute gebrauchen, ergeben sich bis zu 18 Laute pro Sekunde, womit das menschliche Aufnahmevermögen bereits überfordert wird. Selbst wenn für jeden Laut ein Deskriptor extrahiert werden sollte, fallen also nicht mehr als etwa 33 Deskriptoren pro Sekunde an. Da es ausreicht, ein Wort zu identifizieren, werden also selbst bei hohen Genauigkeitsanforderungen nur etwa 16 Deskriptoren bei Ausführungsformen der Erfindung benötigt.
Als Sprachmuster sollen sowohl isoliert gesprochene Wörter als auch gebunden gesprochene Sätze verarbeitet werden können. Extrahierte Deskriptoren sind deshalb in verhältnismäßig geringer Anzahl zu kombinieren, um den Zugang zu den abgespeicherten Referenzen, die Wörter oder Wortteile umfassen, zu eröffnen. Bei 16 einwertigen Deskriptoren ergeben sich jedoch schon allein für Deskriptor-Paare 162 = 256 mögliche Zusammenstellungen. Da auch das Fehlen eines Deskriptors und auch von beiden eines Paares eine Aussage darstellt, lassen sich insgesamt 273 verschiedene Selektionsschlüssel mit maximal zwei Deskriptoren bilden.
Für maximal 3 Deskriptoren ergeben sich entsprechend 163 + 162 + 161 + 160 = 4369 unterschiedliche Zusammenstellungen für die Selektionsschlüsselbildung. Berücksichtigt man weiterhin, daß unter einem Selektionsschlüssel mehrere Referenzen zugänglich sein können, ist ohne weiteres zu erkennen, wie in wenigen Schritten, d. h. in kurzer Zeit, der Vorklassifizierungsprozeß mit durchaus feiner Auflösung durchgeführt werden kann.
Nachfolgend werden besonders vorteilhafte Ausführungsformen der Erfindung erläutert.
Zunächst können in weiterer Ausgestaltung des erfindungsgemäßen Verfahrens signifikante Kombinationen von Deskriptoren aufgesucht und mit Vorrang zur Selektionsschlüsselbildung herangezogen werden. Die Signifikanz kann beispielsweise häufig vorkommende Wörter betreffen, wobei sowohl im allgemeinen Sprachgebrauch als auch insbesondere in berufsspezifischen Fachsprachen eine erhebliche Anzahl betreffender Ausdrücke vorkommt.
Ist in einem solchen Fall der zugehörige Referenz-Sprachmustervergleich erfolgreich abgeschlossen worden, können Rückschlüsse auf den verbliebenen Rest des zu klassifizierenden Sprachmusters gezogen werden. Insbesondere könen Positionierungen der Referenzen zum Sprachmuster oder auch von Deskriptoren bei der Selektionsschlüsselbildung vorgenommen werden, die es erlauben, den eigentlichen Muster-Vergleich gezielt durchzuführen, d. h. sogleich solche Bereiche aufzusuchen, in denen bei der Extraktion der Deskriptoren die jeweilige signifikante Deskriptorkombination auftauchte.
Bei nicht voll befriedigendem Ergebnis einer ersten Referenzselektion kann aus den extrahierten Deskripto- ren ein modifizierter Selektionsschlüssel gebildet und mit diesem der Zugang zu einer weiteren Auswahl von Referenzen eröffnet werden. Dies ist von besonderer Bedeutung für Systeme, die nicht auf spezifische Sprecher adaptiert sind. Infolge unterschiedlicher Phonetik, Phonologie und Prosodie bei der Aussprache eines Wortes sowie aufgrund der Tatsache, daß von vornherein verhältnismäßig grobe Deskriptoren extrahiert werden, können bei der Referenzselektion durchaus auch Deskriptoren infrage kommen, die im ähnliche keitsbereich der extrahierten Deskriptoren liegen. Die Anzahl von weiteren Durchläufen mit modifizierten Selektionsschlüsseln hängt zum einen davon ab, ob es sich bei den aufzusuchenden Referenzen um Wortteile, Wörter oder noch größere Segmente handelt, zum anderen davon, welche Ahnlichkeitsbereiche für die betreffenden Deskriptoren zugelassen sind. Nach etwa 3 Durchläufen für ein Wortteil bzw. 5 bis 10 Durchläufen für ein Wort empfiehlt es sich, gegebenenfalls mit dem gesamten Wort- bzw. Wortteilschatz den Referenz-Sprachmustervergleich durchzuführen. Sofern allerdings bereits für einen Teil des zu untersuchenden Sprachmusters der Prozeß erfolgreich abgeschlossen werden konnte, braucht eine Referenzselektion nur für ein nicht voll befriedigendes Teilergebnis eines vorangegangenen Selektionsprozesses wiederholt zu werden.
Ebenfalls für sprecherunabhängige Systeme ist es sehr zweckmäßig, als Deskriptoren sprachcharakteristische Phoneme zu verwenden. Dazu gehören insbesondere Plosivlaute, Vokale und stimmhafte Konsonanten, die weitgehend unabhängig vom jeweiligen Sprecher identifizierbar sind. Der Auswahl derartiger geeigneter Pho- neme kommt eine besondere Bedeutung schon allein deshalb zu, weil viele Laute nicht nur von Sprecher zu Sprecher, sondern besonders auch in den einzelnen Dialekten unterschiedlich ausgesprochen werden. Diese Randbedingungen verkehren sich praktisch in ihr Gegenteil, wenn es sich - ähnlich dem Problem der Sprecher-Erkennung - um Systeme handelt, die auf bestimmte Sprecher angepaßt sind. In einem solchen Fall können sprecherspezifische Deskriptoren durchaus schneller zum Ziel führen.
Von wesentlicher Bedeutung für Ausführungsformen der Erfindung ist die Möglichkeit, als Deskriptoren relative zeitliche Positionen von Phonemen zu verwenden.
Hierunter ist einerseits zu verstehen, daß bei mehreren unterschiedlichen Wörtern gleiche Phoneme in gleicher Reihenfolge sowie mit etwa gleichem gegenseitigen Abstand auftreten, wodurch sich diese Wörter von allen anderen unterscheiden. Für die Unterscheidung dieser insoweit ähnlichen Wörter untereinander ist dann in den meisten Fällen ein weiterer Deskriptor ausreichend. Anderersuits können aufschlußreiche Vorklassifizierungen auch dann erfolgen, wenn beispielsweise eine häufig vorkommende Endung (...tion) erkannt wurde und der zeitliche Abstand eines Phonems in einer vorhergehenden Silbe bestimmt wird.
Hierbei lassen sich Gruppen bilden und unterscheiden, bei denen solche Phoneme etwa gleiche und mehrere unterschiedliche zeitliche Abstände von einer solchen Endung aufweisen. Entsprechendes gilt für Abstände zwischen Vorsilben und bestimmten Phonemen, wobei als zusätzlicher Vorteil eine gezielte zeitliche Positionierung für den Referenz-Sprachmustervergleich vorge- nommen werden kann, wenn bereits ein Wortanfang oder ein Wortende festgestellt werden konnte.
Eine weitere wirkungsvolle Möglichkeit für die Vorklassifizierung besteht darin, zwischen an sich häufig und an sich selten auftretenden Phonemen zu unterscheiden und das Fehlen an sich häufig auftretender Phoneme in einer Sprachprobe als zusätzliches Kriterium für die Selektionsschlüsselbildung heranzuziehen.
Die Effektivität dieser Maßnahme ist beispielsweise daran erkennbar, daß bei einem Sprachmuster, in dem kein Deskriptor für das Phonem "e" aufgefunden wurde, eine sehr große Anzahl abgespeicherter Referenzen für den Referenz-Sprachmustervergleich eindeutig ausfällt.
Eine weitere Ausführungsform ergibt sich, wenn Selektionsschlüssel für Segmente akustischer Sprachsignale gebildet werden. Derartige Segmente können bei gebunden gesprochenen Wörtern auf kleinere Einheiten, also Einzelwörter oder Wortteile abgestimmt werden. Diese Maßnahme ist jedoch auch für isoliert gesprochene Wörter vorteilhaft, wenn beispielsweise auf eine Trennung Präfix - Stamm - Suffix oder dergleichen abgezielt. wird. Selbstverständlich sollten erkannte, natürliche Wortgrenzen zur Segmentbildung herangezogen werden. Da jedoch eine derartige Erkennung natürlicher Wortgrenzen in einem Sprachmuster, bei dem zwar einige akustische Ereignisse analysiert werden, nicht mit Sicherheit durchgeführt werden kann, ist es sinnvoll, wenn die Segmentbildung - auch oder und - in Abhängigkeit von der Anzahl der aus einer Sprachprobe extrahierten Deskriptoren erfolgt. Hierbei kommen leicht zu ermittelnde Erfahrungswerte in Betracht, indem beispielsweise Segmente mit etwa drei Deskrip- toren gebildet werden. Eine Modifizierung zum Zwecke einer Wiederholung bei nicht voll befriedigendem Ergebnis kann dann jeweils durch eine Verschiebung in der einen oder der anderen Richtung erfolgen. Für eine Wiederholung eines Selektionsprozesses kann die Segmentierung jedoch auch bevorzugt mit veränderter Anzahl extrahierter Deskriptoren je Segment erfolgen.
Ein signifikantes Kriterium, Segmentgrenzen zu ändern, besteht darin, daß zu Selektionsschlüsseln von Segmenten keine Referenzen abgelegt sind. Außerdem können für häufig auftretende Wortübergänge die betreffenden Übergangslaute - z. B. in Form von Deskriptoren - abgespeichert sein und zur Segmentbildung herangezogen werden. Bei allen solchen Maßnahmen gilt der Grundsatz, zunächst verhältnismäßig große Segmente zu bilden und zu untersuchen und erst bei nicht befriedigendem Ergebnis bei den entsprechenden Sprachmuster-Referenz-Vergleichen auf kleinere Segmente überzugehen.
Eine weitere bevorzugte Ausführungsform der Erfindung ist dadurch gekennzeichnet, daß als Deskriptor die Energie-Verteilung in einem akustischen Signal verwendet wird. Ein derartiger Deskriptor ist naturgemäß mehrwertig, wie bereits durch den Begriff "Verteilung" zum Ausdruck kommt. Hieraus ergibt sich, daß die mit einem Integrator kurzer Zeitkonstante bestimmbare Energie-Verteilung, zweckmäßigerweise in groben Stufen quantisiert, zu einfach voneinander unterscheidbaren Deskriptoren führt, die außerordentlich aussagekräftig sind. So lassen sich hiermit beispielsweise schon ziemlich genaue Rückschlüsse auf die Länge des zu untersuchenden Sprachmusters ziehen.
Mit verhältnismäßig geringem zusätzlichen technischen Aufwand läßt sich dieses Grundprinzip für Zwecke der Erfindung erheblich verbessern. So können bei einem akustischen Sprachsignal die Energie-Inhalte in vorgegebenen Zeitintervallen bestimmt und als Deskriptoren verwendet werden. Wenn das Verhältnis derartiger Energie -Inhalte in den einzelnen Zeitintervallen zur Charakterisierung eines Sprachmusters ausreicht, ist zudem keine Pegel-Normierung erforderlich. Die Bestimmung der Zeitintervalle sollte derart erfolgen, daß der Bereich zwischen Wortgrenzen oder zwei Energieminima in gleiche Teile zerlegt wird, um von Sprechgeschwindigkeiten unabhängig zu sein.
Vergleichbar aussagekräftige Ergebnisse lassen sich gemäß einer weiteren Ausführungsform der Erfindung dadurch erzielen, daß bei einem akustischen Sprachsignal die Energie-Inhalte in vorgegebenen Frequenzbändern bestimmt und als Deskriptoren verwendet werden. Hieraus kann zumindest auf ähnliche Phoneme geschlossen werden, bei denen sich die Lagen des jeweils ersten, zweiten und dritten Formanten von ähnlich klingenden Phonemen wenig, von unähnlichen dagegen mehr unterscheiden. Als weiteres Beispiel sei auf Zisch- und Plosivlaute hingewiesen, deren Energieanteile im höheren Frequenzbereich liegen und damit Rückschlüsse auf das vorliegende Wort erlauben. Werden die beiden zuletzt erwähnten Möglichkeiten der Bestimmung von Energie-Inhalten sowohl in vorgegebenen Zeitintervallen als auch in vorgegebenen Frequenzbändern zusammen durchgeführt, ergeben sich entsprechend der Anzahl möglicher Zusammenstellungen derartiger Deskriptoren unterschiedliche Selektions- schlüssel und eine erhöhte Auflösung bei der Referenzauswahl.
Die Selektionsschlüsselbildung als solche findet automatisch, einem vorgegebenen Programm entsprechend statt. Hierbei ist von besonderer Bedeutung für die Erfindung, daß die extrahierten Deskriptoren einer Sprachprobe unterschiedlich nach Art, Anzahl, Reihenfolge und gegenseitigem zeitlichen Abstand des Auftretens gewichtet zur Selektionsschlüsselbildung herangezogen werden können. Eine derartige unterschiedliche Gewichtung kann mehr oder weniger stark sein und zudem für mehrere Durchläufe einer bestimmt ten Referenzauswahl variiert werden. Entscheidend für alle solchen Maßnahmen ist der Gesichtspunkt, in möglichst kurzer Zeit für ein Sprachsignal eine möglichst kleine Anzahl von gespeicherten Referenzen durch einen Vorklassifizierungsprozeß auszuwählen. Der eigentliche Sprachmuster-/Referenzvergleich kann dann auf diese ausgewählten Referenzen beschränkt werden. Selbst wenn im ungünstigsten Fall alle diese Maßnahmen einmal nicht zum Erfolg führen, das heißt, für ein zu untersuchendes Sprechmuster keine oder keine vollständige Folge von abgespeicherten Referenzen aufzufinden ist, ergibt sich im Mittel für die Sprachmuster-/Referenzvergleiche eine erhebliche zeitliche Verkürzung gegenüber bisher bekannten Systemen.
Selbstverständlich ist es, daß für die abgespeicherten Referenzen die Selektionsschlüssel in derselben Art und Weise gebildet werden müssen, wie dies bei zu untersuchenden Sprachmustern geschieht. Von ganz wesentlicher Bedeutung ist jedoch die Abspeicherung der Referenzen. Bei Datenbanken vielfach übliche 11lnverted-File-" Techniken hätten eine erhebliche Anzahl von Suchschritten zur Folge. Mit erheblichem Suchaufwand sind ebenfalls ungeordnete Referenzindexlisten verbunden. Mit wachsender Komplexität eines Suchschlüssels steigt die Anzahl von Referenzindexlisten,die zusätzlichen Speicherplatz erfordern. Bei geordneten Listen verringert sich zwar die Zahl der Suchschritte, dafür ist der Sortieraufwand im Zusammenhang mit der Einfügung oder Entfernung von Referenzen nicht zu unterschätzen. Es ist deshalb für Ausführungsformen der Erfindung zweckmäßig, an sich bekannte Speichertechniken anzuwenden, mit denen derartige Probleme vermieden werden. In dieser Beziehung besonders vorteilhaft ist das sogenannte Hash-Coding, wobei die Referenzen ihren Selektionsschlüsseln entsprechend abgelegt werden. Dabei wird nach einem bestimmten Algorithmus aus dem eine Referenz kennzeichnenden Schlüssel eine Zufalls-Adresse berechnet, unter der diese Referenz in der Gesamtreferenzliste abzulegen ist.
Diese Adresse kennzeichnet den Speicherplatz dieser, jedoch auch einer beliebigen anderen Referenz, für die die Adressberechnung zum selben Ergebnis führt.
Obwohl die Schlüssel-Wortadressen-Abbildung also nicht eindeutig ist, ergeben sich hierdurch weit wichtigere Vorteile bezüglich des Suchaufwandes sowie der Flexibilität bei Erweiterungen oder Aktualisierungen des gespeicherten Datenbestandes. Andere Methoden, z. B. eine Ablage der Referenzen zusammen mit ihren Selektionsschlüsseln, sind ebenfalls besonders für ein kleines Vokabular möglich und sinnvoll und liegen im Belieben des Fachmannes, der von Fall zu Fall entscheiden wird, ob z. B. eine beliebige oder eine geordnete Ablage, d. h. ein geringer oder ein größerer Aufwand beim Abspeichern und dafür ein größerer bzw.
geringerer Aufwand beim Suchprozeß akzeptiert werden kann.
Ohne die mit der Erfindung und ihren bevorzugten Ausführungsformen erzielbaren Ergebnisse schmälern zu wollen, soll schließlich an dieser Stelle darauf hingewiesen werden, daß die vorgesehenen Maßnahmen zur Unterstützung anderer Selektionssysteme durchgeführt werden können. Dadurch läßt sich deren Effektivität beträchtlich steigern.
Im Zusammenhang mit den Zeichnungen werden einige Deteils der Erfindung noch näher erläutert. Dabei zeigen: Fig. 1: ein Blockschaltbild für ein Spracherkennungssystem; Fig. 2: ein Blockschaltbild für ein Worterkennungssystem, das auf der Grundlage von Wortteil-Erkennungen arbeitet; Fig. 3: ein Schaubild für ein Beispiel eines Wortteil-Erkennungsprozesses; Fig. 4: ein Schaubild für die Bildung eines Selektionsschlüssels; und Fig. 5: ein Schaubild für die Struktur des Referenzen-Kataloges und Auswahl von Referenzen.
Das Spracherkennungssvstem gemäß Fig. 1 weist folgende wesentliche Bestandteile bzw. Stufen auf: im Hauptpfad befinden sich eine Signal-Transformationsstufe ST, ein Vergleicher VER und ein Referenz-Lexi- kon RL. Von der Signal-Transformationsstufe ST zweigt der für die Erfindung wesentliche Teil ab. Dieser wird von einer Deskriptor-Extraktionsstufe DE und dem Selektionsschlüsselbildner SK gebildet, an den sich das Referenzen~Lexikon RL anschließt. Der Selektionsschlüsselbildner SK soll bzw. kann auf einen Speicher mit externem Wissen KS und einen Wortgrenzenschätzer WBE zugreifen. Die ausgewählten Referenzen werden aus dem Referenzen-Lexikon RL dem Vergleicher VER für den eigentlichen Sprachmuster-/Referenzenvergleich zugeführt.
Das über das Mikrofon dem System zugeführte akustische Sprachsignal wird im Signal-Transformator ST in eine für die Spracherkennung geeignete Signaldarstellung umgesetzt. Dabei findet eine Datenreduktion statt.
Die Referenzen sind im Lexikon RL in derselben Signaldarstellung abgelegt. Werden Einzelwörter oder Sequenzen von Einzelwörtern eingegeben, ist der Wortgrenzenschätzer WBE nicht erforderlich. Dieser tritt also nur bei gebunden gesprochener Sprache in Funktion.
Das in die geeignete Darstellungsweise, z. B. als Folge von Frequenzspektren in Abständen von 30 ms, umgewandelte Sprachsignal wird der Deskriptor-Extraktionsstufe DE zugeführt. Dort wird festgestellt, welche Deskriptoren in welcher Reihenfolge, gegebenenfalls in welchem gegenseitigen Abstand usw., im betreffenden Sprachmuster erscheinen. Zusammen mit vorgegebenen oder geschätzten Wortgrenzen werden aus entsprechenden Zusammenstellungen extrahierter Deskriptoren in der Stufe SK die Selektionsschlüssel gebildet, die mittelbar oder unmittelbar den Zugang zu einer betref- fenden Auswahl von Referenzen im Referenzen-Lexikon RL eröffnen. Diese Auswahl von Referenzen wird dem Vergleicher VER zugeführt, der die Entscheidung trifft, welche der zugeführten Referenzen mit dem zu untersuchendenSprachmuster übereinstimmen. Konnte keine positive Entscheidung getroffen werden, wird in einem nachfolgenden Durchgang mit geänderten Randbedingungen, z. B. anderen Wortgrenzen, modifizierten Deskriptoren, möglicherweise unter Zuhilfenahme externen Wissens EK über Syntax, Semantik oder dergleichen, ein Durchlauf wiederholt.
Soweit erforderlich kann mit der Signal-Transformation ST auch eine Normierung durchgeführt werden. Unerwünschte Lautstärkeschwankungen oder -unterschiede können mit einer regelbaren Verstärkung ausgeglichen werden. Unterschiedliche Sprechgeschwindigkeiten lassen sich durch lineare oder nichtlineare Zeitraffung bzw. -dehnung normieren.
Bei gebunden gesprochener Sprache kann zunächst eine mehr oder weniger willkürliche Gruppierung von Deskriptoren, z. B. Phonemen, in Teilfolgen vorgenommen werden. Sodann wird geprüft, ob entsprechende Wortteilreferenzen existieren. Sind derartige Referenzen verfügbar, kann mit einer signifikanten Wortteilreferenz, z. B. einem Wortstamm oder einem kurzen Wort, begonnen werden. Anderenfalls sind neue Gruppierungen zu bilden. Auf diese Weise kann die Erkennung schrittweise, in beiden Richtungen fortschreitend, erfolgen, ohne eine Segmentierung durchführen zu müssen. Außerdem lassen sich auf diese Weise zunächst phonetisch gleiche oder sehr ähnliche Anteile von Wörtern identifizieren und abspalten und sodann die Erkennungs- Prozesse für die zugehörigen Anlaute, Vorsilben, Endungen und dergleichen durchführen. Dabei ist allerdings zu berücksichtigen, daß bei gebunden gesprochener Sprache an den Wortgrenzen phonetische Änderungen auftreten können, die durch ein "Verschleifen" der Wortübergänge entstehen. Für Gruppierungen, die mit hoher Wahrscheinlichkeit auftreten, können entsprechende Listen geführt werden. Dabei lassen sich gleichzeitig Phonem-Abstandsgruppierungen, z. B. Stamm, Präfix, Suffix vermerken. Auf der Basis erkannter Wortteile sind dann Hypothesen zu den noch nicht vollständig erkannten Wortteilen möglich und weitere Wortteile oder Wörter auswählbar, die sich an die bereits erkannte Gruppierung mit großer Wahrscheinlichkeit anschließen. Geeignete Kriterien für solche Hypothesen sind z. B. die Folgen bestimmter Phoneme in einem Gesamtwort oder die aus Verkettungslistenoder Ubergangsnetzwerken ermittelten wahrscheinlichsten Folgen von Wortteilen (Subwörtern). In Fig. 2 ist schematisch der Ablauf eines solchen Erkennungsprozesses dargestellt, das mit Wortteil- oder Subworterkennung arbeitet. Dabei ist zu erkennen, daß in mehreren Stufen, z. B. den zwei dargestellten Stufen I und II, jeweils Hypothesen HY I / HY II gebildet und diese Vorhersagen liner Prüfung VER I / VER II unterzogen werden. Dabei können über Korrekturpfade C0R jeweils mehrere Durchläufe in einer Stufe sowie Rücksprünge zu vorhergehenden Stufen stattfinden, wenn eine Prüfung VER 1 / VER II zu keinem Ergebnis führte.
Anhand eines Schaubildes (Fig. 3) soll für ein längeres, gebunden gesprochenes Wort oder eine Wortgruppe ein solcher Wortteil-Erkennungsprozeß näher erläutert werden. In der Zeile 1 ist das betreffende Sprachmuster, das untersucht werden soll, angegeben. Es besteht aus vier Wortteilen (Subwörtern), nämlich einem Wortstamm STM 1 eines ersten Wortteiles sowie dem Präfix P2, dem Wortstamm STM 2 und dem Suffix S2 eines zweiten Wortteiles. Innerhalb dieser Wortteile treten jeweils mehrere akustische Ereignisse El, E2, E3, E4 sowie EX, EY, EZ, EU, EV, EW auf. Die akustischen Ereignisse El, ..., E4 sollen solche sein, die sich mit einfachen technischen Mitteln extrahieren lassen und sprachcharakteristisch sind. Dafür sind entmrechende Deskriptoren D1, ..., D4 -vorhanden. Diese sollen sämtlichst erkannt worden sein. Sie sind in der zweiten Zeile an den betreffenden Positionen angegeben. Allein aufgrund der Deskriptoren D1, ..., D4, insbesondere auch ihrer jeweiligen Position innerhalb eines Wortteiles, ihrer jeweiligen Zusammenstellungen des Auftretens usw. werden Selektionsschlüssel gebildet, die den Zugang zu einer Auswahl von Referenzen eröffnen. Die zutreffende Referenz für den Wortstamm STM 1 besteht aus den zugehörigen Anteilen, hier RX, Rv, R1, RZ (s.Zeile 3.1). Beim Referenz-/Sprachmustervergleich kann die Referenz zum Sprachmuster positioniert und in einem vorgegebenen Toleranzbereich verschoben werden (s. Zeilen3.1.abzw. 3.1.b). Nach erfolgreicher Erkennung des Wortteiles STM 1 werden die entsprechenden Maßnahmen für die Wortteile P2, STM 2 und S2 durchgeführt. Hieraus ist zu erkennen, daß die einzelnen Subwortreferenzen nicht mit jedem Segment des Sprachmusters verglichen werden müssen.
Aufgrund einer bereits bekannten zeitlichen Lage der akustischen Ereignisse, El, ..., E4, z. B. bestimmter Phoneme, in dem Sprachmuster sowie in der zugehörigen Referenz können diese für den Referenz-/Sprachmuster- vergleich bereits so positioniert werden, daß diese Phonemlagen im wesentlichen übereinstimmen.
In Fig. 4 ist ein Beispiel für die Bildung eines Selektionsschlüssels dargestellt. Das zu untersuchende Sprachmuster weist die Phonemfolge " e - i - m" auf.
Außerdem wurde ermittelt, daß das erste Phonem vom Wortanfang den Abstand 0, das zweite Phonem vom ersten den Abstand 3,1 und das dritte Phonem vom zweiten den Abstand 1,8 besitzt. Allen diesen akustischen Ereignissen werden entsprechende Deskriptoren zugewiesen, deren Kodierungen hier 2, 3, 10 und 0, 3, 2 (dabei 3,1 auf 3 abgerundet, 1,8 auf 2 aufgerundet) lauten. Der zugehörige Selektionsschlüssel kann direkt aus der Folge dieser Kodierungen bestehen und lautet dann: 2310032. Für eine Hash-Codierung kann sodann noch eine Umwandlung des Selektionsschlüssels in eine Adresse erfolgen.
Fig. 5 zeigt die Struktur einer Indexliste IM für das Referenzen-Lexikon RL und den Zugriff zu einer Auswahl von Referenzen. Für die einzelnen Referenzen wird aus dem gebildeten Selektionsschlüssel eine Zufalisadresse berechnet. Dies geschieht beispielsweise als eine Modulo-Division des Selektionsschlüssels durch eine Primzahl in einer Einrichtung SK - ADD -CONV zur Umwandlung von Selektionsschlüsseln in eine Adresse. Da sich bei einem solchen Algorithmus für mehrere Referenzen dieselben Adressen ergeben können, sind entsprechend unter jeder Adresse durchaus mehrere Referenzindizes abgelegt und aufzufinden. Dabei kann es vorkommen, daß der Speicherplatz bei einer bestimmten Adresse nicht ausreicht. Sofern dies der Fall ist, kann in einer Überlaufspalte eine weitere Adresse abgelegt sein, unter der ihrerseits die übrigen Referenzindizes zu finden sind. Im dargestellten Beispiel (Fig. 5) sind unter der Adresse 20 insgesamt sechs Referenzindizes abgelegt und zu finden, und zwar unmittelbar die Indizes 7, 9, 128 und 411 sowie mittelbar über die Adresse 501 in der Überlaufspalte die Referenzindizes 614 und 921. Alle sechs Indizes erlauben den Zugriff auf die entsprechenden, im eigentlichen Lexikon-Speicher abgelegten Referenzen. Im eigentlichen Referenz-/Sprachmustervergleich wird sodann entschieden, welche dieser sechs Referenzen mit dem Sprachmuster übereinstimmt.

Claims

Patentansprüche Verfahren zur Referenzselekton für ein automatisches Sprachverarbeitungssystem, insbesondere Spracherkennungssystem, bei dem die Sprachmuster mit Hilfe von Deskriptoren vorklassifiziert werden, d a d u r c h g e k e n n z e i c h n e t, daß als Deskriptoren für die Sprachmuster im wesentlichen akustische Ereignisse verwendet werden, die sich mit einfachen technischen Mitteln aus akustischen Sprachsignalen extrahieren lassen, u n d daß aus den Kombinationen extrahierter Deskriptoren entsprechende Selektionsschlüssel gebildet werden, die den Zugang zu einer betreffenden Auswahl von Referenzen eröffnen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß signifikante Kombinationen von Deskriptoren aufgesucht und mit Vorrang zur Selektionsschlüsselbildung herangezogen werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß bei nicht voll befriedigendem Ergebnis einer ersten Referenz selektion aus den extrahierten Deskriptoren ein modifizierter Selektionsschlüssel gebildet und mit diesem der Zugang zu einer weiteren Auswahl von Referenzen eröffnet wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß eine Referenzselektion nur für ein nicht voll befriedigendes Teilergebnis eines vorangegangenen Selektionsprozesses wiederholt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß als Deskriptoren sprachcharakteristische Phoneme verwendet werden.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß als Deskriptoren relative zeitliche Positionen von Phonemen verwendet werden.
7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß zwischen an sich häufig und an sich selten auftretenden Phonemen unterschieden und das Fehlen an sich häufig auftretender Phoneme in einer Sprachprobe als zusätzliches Kriterium für die Selektionsschlüsselbildung herangezogen wird.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß Selektionsschlüssel für Segmente akustischer Sprachsignale gebildet werden.
s 9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß erkannte, natürliche Wortgrenzen zur Segmentbildung herangezogen werden.
10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die Segmentbildung in Abhängigkeit von der Anzahl der aus einer Sprachprobe extrahierten Deskriptoren erfolgt.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß für eine Wiederholung eines Selektionsprozesses die Segmentierung mit veränderter Anzahl extrahierter Deskriptoren je Segment erfolgt.
12. Verfahren nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß Segmentgrenzen geändert werden, wenn zu Selektionsschlüsseln von Segmenten keine Referenzen abgelegt sind.
13. Verfahren nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, daß für häufig auftretende Wortübergänge die betreffenden Übergangs laute abgespeichert sind und zur Segmentbildung herangezogen werden.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß als Deskriptor die Energie-Verteilung in einem akustischen Sprachsignal verwendet wird.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß bei einem akustischen Sprachsignal die Energie-Inhalte in vorgegebenen Zeitintervallen bestimmt und als>Deskriptoren verwendet werden.
16. Verfahren nach Anspruch 14 oder 15, dadurch gekennzeichnet, daß bei einem akustischen Sprachsignal die Energie-Inhalte in vorgegebenen Frequenzbändern bestimmt und als Deskriptoren verwendet werden.
17. Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, daß die extrahierten Deskriptoren einer Sprachprobe unterschiedlich nach Art, Anzahl, Reihenfolge und gegenseitigem zeitlichen Abstand des Auftretens gewichtet zur Selektionsschlüsselbildung herangezogen werden.
18. Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, daß die Referenzen ihren Selektionsschlüsseln entsprechend abgelegt sind (Hash-Coding).
19. Verfahren nach einem der Ansprüche 1 bis 18, dadurch gekennzeichnet, daß die vorgesehenen Maßnahmen zur Unterstützung anderer Selektionssysteme durchgeführt werden.