DE69937176T2

DE69937176T2 - Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern

Info

Publication number: DE69937176T2
Application number: DE69937176T
Authority: DE
Inventors: Ossama Dr. Emam; Siegfried Dr. Kunzmann
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-08-28
Filing date: 1999-08-05
Publication date: 2008-07-10
Anticipated expiration: 2019-08-06
Also published as: DE69937176D1; RU99118670A; US20020099543A1; ATE374421T1; US6738741B2; PL335150A1; US20030078778A1

Description

1 HINTERGRUND DER ERFINDUNG
1.1 GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Spracherkennungssystem und ein Verfahren, das von einem Spracherkennungssystem ausgeführt wird.
Insbesondere betrifft die Erfindung das Vokabular eines Spracherkennungssystems und dessen Nutzung während des Spracherkennungsprozesses.
1.2 BESCHREIBUNG UND NACHTEILE DES STANDS DER TECHNIK
Die Erfindung basiert auf dem vom Anmelder entwickelten Spracherkennungssystem IBM ViaVoice 98. IBM ViaVoice 98 ist ein Echtzeit-Spracherkennungssystem für große Vokabularien, das bei geringen Kosten für den Benutzer auf einen Sprecher trainiert werden kann.
Ausgangspunkt bei diesen bekannten Systemen ist die Aufgliederung des Spracherkennungsprozesses in einen auf akustischen Daten basierenden Teil (Decodieren) und in einen sprachstatistischen Teil, der sich auf Sprach- oder Textkörper für einen bestimmten Anwendungsbereich rückbezieht (Sprachmodell). Die Entscheidung für Kandidatenwörter wird somit sowohl von einem Decodierer als auch von einer Wahrscheinlichkeit in der Modellsprache abgeleitet. Für den Benutzer ist es von besonderer Bedeutung, dass das von diesem Erkennungssystem verarbeitete Vokabular zu dem spezifischen Gebiet oder sogar zu individuellen Anforderungen passt.
Bei diesem Spracherkennungssystem liefert die akustische Decodierung zuerst hypothetische Wörter. Die weitere Bewertung konkurrierender hypothetischer Wörter erfolgt dann auf der Grundlage des Sprachmodells. Daraus ergeben sich Schätzwerte für die Häufigkeiten von Wortfolgen, die auf der Grundlage einer Sammlung von Textmustern aus einem gewünschten Anwendungsgebiet aus anwendungsspezifischen Textkörpern abgerufen werden. Aus diesen Textmustern werden die häufigsten Wortformen sowie Statistiken zu Wortfolgen generiert.
Bei dem hier verwendeten Verfahren zum Schätzen der Häufigkeit von Wortfolgen wird geschätzt, wie häufig die so genannten Wortform-Trigramme in einem bestimmten Text vorkommen. In bekannten Spracherkennungssystemen wird häufig das so genannte Hidden-Markov-Modell zum Schätzen der Wahrscheinlichkeiten verwendet. Hier werden mehrere im Text festgestellte Häufigkeiten zugrunde gelegt. Für ein Trigramm "uvw" sind dies ein Nullgramm-Term f₀, ein Unigramm-Term f(w), ein Bigramm-Term f(wv) und ein Trigramm-Term f(wuv). Diese Termini entsprechen den im Text festgestellten relativen Häufigkeiten, wobei der Nullgramm-Term nur korrektive Bedeutung hat.
Werden diese Termini als Wahrscheinlichkeiten des Wortes w unter verschiedenen Bedingungen interpretiert, kann eine so genannte latente Variable hinzugefügt werden, aus der durch Substitution eine der vier Bedingungen gefunden wird, die das Wort w erzeugen. Werden die Übertragungswahrscheinlichkeiten für den entsprechenden Term mit λ₀ λ₁ λ₂ λ₃ bezeichnet, ergibt sich der folgende Ausdruck für die gesuchte Trigramm-Wahrscheinlichkeit: Pr(wuv) = λ0f0 + λ1f(w) + λ2f(wv) + λ3f(wuv).
Die bekannten Spracherkennungssysteme haben den Nachteil, dass jedes Wort im Vokabular des Systems als eine Wortform erscheint. Aus diesem Grund werden relativ hohe Anforderungen an die Speicherkapazität des Systems gestellt. Die im Allgemeinen sehr umfangreichen Vokabularien wirken sich unvorteilhaft auf die Geschwindigkeit des Erkennungsprozesses aus.
Typische Spracherkennungssysteme arbeiten in Echtzeit auf modernen PCs. Sie verfügen über ein aktives Vokabular von bis zu und mehr als 60.000 Wörtern, können kontinuierliche und/oder natürlich gesprochene Eingaben erkennen, ohne dass das System an spezifische Merkmale eine Sprechers angepasst werden muss. Von S. Kunzmann; „VoiceType: A Multi-Lingual, Large Vocabulary Speech Recognition System for a PC", Proceedings of the 2nd SQEL Workshop, Pilsen, 27.–29. April 1997, ISBN 80-7082-314-3) werden diese Aspekte dargelegt. In Anbetracht des tatsächlichen Vokabulars, das in menschlicher Kommunikation verwendet wird, muss die Größenordnung des von computerbasierten Spracherkennungssystemen erkannten Vokabulars im Grunde mehrere Hunderttausend bis mehrere Millionen Wörter umfassen. Zwar wären solch große Vokabularumfänge heute verfügbar, aber neben algorithmischen Einschränkungen beim Erkennen dieser extrem großen Vokabularumfänge spielen Aspekte wie die Erkennungsgenauigkeit, die Decodierungsgeschwindigkeit und die Systemressourcen (CPU, Speicher, Datenträger) eine wesentliche Rolle beim Klassifizieren von Echtzeit-Spracherkennungssystemen.
In der Vergangenheit wurden mehrere Ansätze zum Erweitern des aktiven Vokabulars dieser Erkennungssysteme vorgeschlagen. Diese dem Stand der Technik entsprechenden Ansätze beziehen sich insbesondere auf die Handhabung von Komposita.
Beispielsweise wird in dem deutschen Patent DE 19510083 C2 davon ausgegangen, dass deutsche Komposita, wie z. B. "Fahrbahnschalter" oder "vorgehen" in Konstituenten wie "Fahrbahn-schalter" oder "vor-gehen" zerlegt werden. Es wird angenommen, dass Komposita in Konstituenten aufgeteilt werden, die sowohl in der deutschen Sprache als auch in dem Erkennungsvokabular eine Abfolge zulässiger Wörter sind ("Fahrbahn" und "Schalter" sowie "vor" und "gehen"). Für jedes dieser Wörter werden Statistiken berechnet, die die wahrscheinlichste Häufigkeit jedes Worts (Fahrbahnschalter, vorgehen) im Kontext seines Vorkommens, z. B. "Der Fahrbahnschalter ist geschlossen", beschreiben. Zusätzlich werden separate Häufigkeitsstatistiken berechnet, die die Abfolge dieser Konstituenten in Komposita beschreiben. Beide statistischen Modelle dienen der Entscheidung, ob die einzelnen Konstituenten dem Benutzer als einzelne Wörter oder als Kompositum angezeigt werden. Fälle wie "Verfügbarkeit" (Konstituenten "verfügbar" + "keit") oder "Birnen" (Konstituenten "Birne" + "n") werden nicht erfasst, da "keit" und "n" in der deutschen Sprache weder zulässige (eigenständige) Wörter noch Silben sind und somit nicht im Erkennungsvokabular enthalten sind. Gemäß dieser Darlegung ist ein zusätzliches, separates Häufigkeitsmodell erforderlich, das die Lösung von Problemen mit unzulässigen Wortfolgen bei der Neukombination dieser beliebigen Konstituenten zu Wörtern (z. B. "vor""Verfügbar") ermöglicht.
Das kürzlich veröffentlichte US-Patent US 5,754,972 legt die Einführung eines speziellen Diktiermodus dar, bei dem der Benutzer entweder einen „Verbunddiktiermodus" ankündigt oder das System in einen speziellen Erkennungsmodus geschaltet wird.
Dieser wird dem Benutzer durch eine spezielle Benutzeroberfläche zugänglich gemacht. In Sprachen wie Deutsch kommen Komposita äußerst häufig vor, sodass es äußerst lästig ist, in spezifische Diktiermodi umschalten zu müssen. Darüber hinaus basiert die Darlegung von US 5,754,972 auf der gleichen fundamentalen Voraussetzung wie das deutsche Patent DE 19510083 C2 : Komposita können nur aus Konstituenten gebildet werden, die für sich zulässige Wörter des Vokabulars darstellen. Um die Generierung neuer Komposita zu unterstützen, wird in diesem speziellen Diktiermodus die Schreibweise der Zeichen des Kompositums eingeführt.
Ein anderer Ansatz wird von G. Ruske beschrieben: "Halbsilben als Verarbeitungseinheiten bei der automatischen Spracherkennung", Journal "Sprache und Datenverarbeitung", Jahrgang 8, 1984, Heft 1/2, S. 5–16. Ein Wort des Erkennungsvokabulars wird für gewöhnlich durch seine Orthographie (Schreibweise) und die zugehörigen (mehreren) Aussprachevarianten werden durch kleinste Erkennungseinheiten beschrieben. Die Erkennungseinheiten sind die kleinsten erkennbaren Einheiten für den Decodierer. G. Ruske definiert diese Erkennungseinheiten auf der Grundlage einer Gruppe von Silben (zirka 5.000 im Deutschen). Für jede Schreibweise des Vokabulars beschreibt eine Folge von Silben die Aussprachevariante(n) jedes einzelnen Worts. Der Darlegung von Ruske zufolge bestehen Wörter somit aus den Erkennungseinheiten des Decodierers, die gemäß der Aussprache des Worts in der betreffenden Sprache mit den Silben identisch ist. Daher beschränkt sich die Rekombination von Konstituenten zur Bildung von Wörtern der Sprache auf die Erkennungseinheiten des Decodierers.
Die deutsche Patentanmeldung DE 19721198 A1 legt den Aufbau eines Sprachmodells durch das Zergliedern von Wörtern in Stämme und Endungen dar, da für Sprachen, einschließlich slawischer Sprachen und Japanisch, die Verwendung der Flexion kennzeichnend ist und der Umfang der Vokabularien in diesen Sprachen sehr groß ist. In DE 19721198 A1 besteht das Vokabular aus Stämmen und Endungen, die auf einen überschaubaren Umfang komprimiert werden. Ein in DE 19721198 A1 vorgeschlagenes Verfahren zum Zergliedern eines Worts der Form „WORT = PRÄFIX WURZEL SUFFIX ENDE" in einen Stamm und eine Endung besteht im Erstellen der Gleichungen „STAMM = PRÄFIX + WURZEL" und „ENDUNG = SUFFIX + ENDE". Ein anderes in DE 19721198 A1 vorgeschlagenes Verfahren zum Zergliedern eines Worts in einen Stamm und eine Erfindung basiert auf einem bestimmten Vokabular und einer Liste mit Endungen. Jedes Wort wird gegen Endungen abgeglichen, und die längste mögliche Erfindung aus der Liste wird vom Wort abgeschnitten, wodurch sich der Stamm des Worts ergibt: Folglich legt DE 19721198 A1 die Entwicklung von Sprachmodellen dar, die die morphologischen Merkmale vollständig einschließen.
In „Using morphology towards better large-vocabulary speech recognition systems", Proceedings of the International Conference an Acoustics, Speech, and Signal Processing (ICASSP), US, New York, IEEE, 9. Mai 1995, S. 445–448 diskutiert P. Geutner Zerlegungsverfahren, die ursprünglich auf einer morphologischen Zerlegung der deutschen Sprache basieren.
1.3 Aufgabe der Erfindung
Der Erfindung liegt die Aufgabe zugrunde, eine Technologie zur Erweiterung des Umfangs eines aktiven Vokabulars bereitzustellen, das von Spracherkennungssystemen erkannt wird. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, gleichzeitig die beispielsweise hinsichtlich Erkennungsgenauigkeit, Decodierungsgeschwindigkeit und Systemressourcen (CPU, Speicher, Datenträger) bestehenden algorithmischen Einschränkungen beim Erkennen dieser äußerst großen Vokabularumfänge zu reduzieren und somit eine wesentliche Rolle beim Klassifizieren von Echtzeit-Spracherkennungssystemen zu spielen.
2 Überblick über die Erfindung und ihre Vorteile
Die Aufgabe der Erfindung wird von dem Hauptanspruch 1 gelöst.
Die Erfindung legt ein Spracherkennungssystem zur Erkennung gesprochener Sprache dar, das ein segmentiertes Vokabular umfasst. Das Vokabular umfasst eine Vielzahl von Einträgen, und ein Eintrag ist dabei entweder identisch mit einem zulässigen Wort der Sprache oder eine Konstituente eines zulässigen Worts der Sprache. Eine Konstituente kann gemäß der Orthographie eine beliebige Teilkomponente des zulässigen Worts sein. Die Konstituente ist weder auf eine Silbe des zulässigen Worts noch auf eine Erkennungseinheit des Spracherkennungssystems begrenzt.
Das von der vorliegenden Erfindung vorgeschlagene Verfahren ermöglicht eine erhebliche Komprimierung eines Vokabulars. Die Erfindung ermöglicht das Definieren und Speichern von N Wörtern, aber das Generieren und Erkennen von bis zu MxN Wörtern (wobei M sprachabhängig ist) als Kombinationen der Vokabulareinträge.
Kleinere Vokabularien ermöglichen zusätzlich eine bessere Schätzung der Wort- (bzw. Wortteil-)Wahrscheinlichkeiten (Uni-, Bi-, Trigramme in ihrer Kontextumgebung) je mehr Vorkommen in den entsprechenden Korpora festgestellt werden.
Durch das Zuordnen der N Wörter zu einem Satz von Gruppen mit demselben Konstituentenmuster wird ein effizientes Speichern erreicht. Ein solcher Ansatz stellt die logische Vollständigkeit und die Erfassung des gewählten Vokabulars sicher. Der Benutzer, der ein im Vokabular definiertes Wort diktiert, erwartet normalerweise, dass alle abgeleiteten Formen ebenfalls verfügbar sind. Beispielsweise wird nicht erwartet, dass das Wort „use" im Vokabular enthalten ist, während „user" nicht enthalten ist.
Umfassende Flexibilität (hinsichtlich der vorliegenden Darlegung) beim Definieren der Konstituentensätze für jede Sprache ermöglicht es, die beste Komprimierung zu erzielen. Bei den Konstituenten handelt es sich nicht notwendigerweise um eine linguistisch oder phonetisch bekannte Einheit der Sprache.
Zusätzliche Vorteile werden dadurch realisiert, dass das Vokabular zulässige Wörter der Sprache definiert, die für das Spracherkennungssystem entweder durch einen eigenen Eintrag oder durch Rekombination von bis zu S Einträgen erkennbar sind, die in Kombination ein zulässiges Wort der Sprache darstellen. Gemäß der Erfindung entspricht S der Anzahl 2 oder 3.
Da eine beliebige Anzahl von Konstituenten zur Rekombination zulässiger Wörter verwendet werden kann, kann die Komprimierungsrate eines solchen segmentierten Vokabulars sehr hoch sein. Andererseits stellen die Komprimierungsrate und die algorithmische Komplexität für die Rekombination antagonistische Eigenschaften des vorgeschlagenen Spracherkennungssystem dar. Es ist ein effektiver Kompromiss, die Anzahl der Segmente, die zur Rekombination von Konstituenten zu zulässigen Wörtern verwendet werden, auf S = 2 oder S = 3 zu begrenzen.
Wenn S gleich 2 ist, umfasst ein auf einem segmentierten Vokabular basierendes Spracherkennungssystem gemäß der vorgeschlagenen Erfindung Konstituenten, die eine Rekombination zulässiger Wörter aus einer Präfixkonstituente und einer Wortkernkonstituente oder aus einer Wortkernkonstituente und einer Suffixkonstituente oder aus einer Präfixkonstituente und einer Suffixkonstituente ermöglichen. Wenn S gleich 3 ist, umfasst das Vokabular zudem Konstituenten, die eine Rekombination zulässiger Wörter aus einer Präfixkonstituente, einer Wortkernkonstituente und einer Suffixkonstituente ermöglichen.
Durch Unterscheidung verschiedener Konstituententypen können Eigenschaften der einzelnen Sprachen reflektiert werden, da normalerweise nicht jeder Konstituententyp mit jedem anderen Konstituententyp rekombiniert werden kann. Dieser Ansatz vereinfacht den Erkennungsprozess und erleichtert die Bestimmung von Erkennungsfehlern.
Gemäß der vorgeschlagenen Erfindung wird eine Tabelle zur Konstituentenkombination dargelegt. Sie zeigt an, welche Verkettungen der Konstituenten zulässige Verkettungen in der Sprache sind.
Diese Tabellen zur Konstituentenkombination sind leistungs- und speichereffiziente Mittel, mit denen sich definieren lässt, welche Konstituente mit anderen Konstituenten zu einer zulässigen Konstituente oder einem zulässigen Wort der Sprache rekombiniert werden kann.
Gemäß der vorgeschlagenen Erfindung umfasst die Tabelle zur Konstituentenkombination für den Fall S = 2 oder S = 3 eine Wortkern-Präfix-Matrix, die anzeigt, ob eine Kombination aus einer Präfixkonstituente und einer Wortkernkonstituente eine zulässige Kombination in der Sprache ist oder nicht; und/oder eine Präfix-Suffix-Matrix, die anzeigt, ob eine Kombination aus einer Präfixkonstituente und einer Suffixkonstituente eine zulässige Kombination in der Sprache ist oder nicht; und/oder eine Präfix-Präfix-Matrix, die anzeigt, ob eine Kombination aus einer ersten Präfixkonstituente und einer zweiten Präfixkonstituente eine zulässige Kombination in der Sprache ist, die eine dritte Präfixkonstituente ergibt oder nicht; und/oder eine Wortkern-Suffix-Matrix, die anzeigt, ob eine Kombination aus einer Wortkernkonstituente und einer Suffixkonstituente eine zulässige Kombination in der Sprache ist oder nicht.
Der Ansatz, die Problematik zulässiger Rekombinationen auf eine Abfolge von Entscheidungen zu reduzieren, in die nur zwei Konstituenten involviert sind, verringert den Rechenaufwand. Die Einführung einer Sammlung von Tabellen zur Konstituentenkombination nach den Typen der neu zu kombinierenden Konstituenten erhöht darüber hinaus die Effizienz des Rekombinationsprozesses. Je nach Typ der Konstituenten ist in bestimmten Fällen keine zulässige Kombination möglich und somit ist kein Tabellenzugriff auszuführen. Auch hinsichtlich der Zugriffs- und Speicheranforderungen ist es effizienter, statt einiger größerer Tabellen nur eine größere Anzahl kleinerer Tabellen zu nutzen.
Gemäß einer weiteren Ausführungsart der vorgeschlagenen Erfindung weist die Wortkern-Präfix-Matrix und/oder die Wortkern-Suffix-Matrix und/oder die Präfix-Suffix-Matrix und/oder die Präfix-Präfix-Matrix eine Struktur auf, in der die Wortkernkonstituenten, die Präfixkonstituenten und die Suffixkonstituenten durch eindeutige Zahlen dargestellt werden, die die Indizes der Matrizen bilden.
Durch das Codieren der verschiedenen Konstituenten als eindeutige Zahlen und durch das Erstellen der verschiedenen Tabellen zur Konstituentenkombination anhand dieser Zahlen wird der gesamte Rekombinations- und Erkennungsprozess beschleunigt, da keine Übersetzungen zwischen Konstituenten und ihren Codierungen mehr erforderlich sind.
Gemäß der vorgeschlagenen Erfindung wird ein separater Nachprozessor vorgeschlagen, der auf eine Eingabe reagiert, die erkannte Konstituenten des Vokabulars umfasst. Der Nachprozessor rekombiniert die Konstituenten zu zulässigen Wörtern der Sprache und nutzt dabei die Tabelle zur Konstituentenkombination.
Die Implementierung der Rekombination von Konstituenten in einem separaten Nachprozessor hat den Vorteil, dass die Darlegung der vorliegenden Erfindung ohne weitere Modifikationen oder Erweiterungen auf jedes existierende Spracherkennungssystem angewendet werden kann. Wird die Rekombination mit einem Nachprozessor durchgeführt, werden die statistischen Korrelationsinformationen des Sprachmodells bereits ausgewertet, bevor der Nachprozessor aktiv wird. Folglich ist die Zuverlässigkeit der erkannten Konstituenten bei deren Eingabe in den Nachprozessor bereits hoch und wird durch die Nachverarbeitung weiter erhöht.
Die vorgeschlagene Erfindung betrifft Details der Rekombination. Es kann zwischen mehreren Fällen unterschieden werden. Der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine erste Präfixkonstituente und eine zweite Präfixkonstituente darstellen, und rekombiniert die erste Präfixkonstituente und die zweite Präfixkonstituente zu einer dritten Präfixkonstituente, wenn die Präfix-Präfix-Matrix anzeigt, dass die Kombination aus der ersten Präfixkonstituente und der zweiten Präfixkonstituente in der Sprache zulässig ist. Wenn die Präfix-Präfix-Matrix anzeigt, dass die Kombination aus der ersten Präfixkonstituente und der zweiten Präfixkonstituente in der Sprache unzulässig ist, wird die erste Präfixkonstituente ignoriert.
Der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Wortkernkonstituente darstellen, und rekombiniert die Präfixkonstituente und die Wortkernkonstituente zu einer zweiten Wortkernkonstituente, wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Wortkernkonstituente in der Sprache zulässig ist. Wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Wortkernkonstituente in der Sprache unzulässig ist, ersetzt sie die Präfixkonstituente durch eine alternative Präfixkonstituente und rekombiniert die alternative Präfixkonstituente und die Wortkernkonstituente, wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der alternativen Präfixkonstituente und der Wortkernkonstituente in der Sprache zulässig ist.
Der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Suffixkonstituente darstellen, und rekombiniert die Präfixkonstituente und die Suffixkonstituente zu einer zweiten Präfixkonstituente, wenn die Präfix-Suffix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Suffixkonstituente in der Sprache zulässig ist.
Der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine Wortkernkonstituente und eine Suffixkonstituente darstellen, und rekombiniert die Wortkernkonstituente und die Suffixkonstituente zu einer zweiten Wortkernkonstituente, wenn die Wortkern-Suffix-Matrix anzeigt, dass die Kombination aus der Wortkernkonstituente und der Suffixkonstituente in der Sprache zulässig ist.
Neben der Rekombination von Konstituenten bieten diese Merkmale die Vorteile, dass Erkennungsfehler erkannt und in einem gewissen Umfang auch korrigiert werden.
Gemäß einer weiteren Ausführungsart der vorgeschlagenen Erfindung werden die Präfixkonstituente und die Suffixkonstituente nicht rekombiniert, und die Präfixkonstituente wird als separater Eintrag behandelt, wenn die Präfix-Suffix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Suffixkonstituente in der Sprache unzulässig ist. Außerdem werden die Wortkernkonstituente und die Suffixkonstituente nicht rekombiniert, und die Wortkernkonstituente wird als separater Eintrag behandelt, wenn die Wortkern-Suffix-Matrix anzeigt, dass die Kombination aus der Wortkernkonstituente und der Suffixkonstituente in der Sprache unzulässig ist.
Dieses Erfindungsmerkmal ermöglicht die Bestimmung von Wortgrenzen.
Gemäß der vorgeschlagenen Erfindung wird die alternative Präfixkonstituente aus einer Alternativenliste abgerufen, die alternative Präfixkonstituenten für die Präfixkonstituenten in der Reihenfolge abnehmender Zuordnungswahrscheinlichkeit umfasst.
Dieser Ansatz bewirkt eine weitere Erhöhung der Erkennungsgenauigkeit.
Die Aufgabe der Erfindung wird auch durch das im Hauptanspruch 7 beschriebene Verfahren gelöst. Weitere Ausführungsarten der vorgeschlagenen Erfindung werden in den Unteransprüchen von Anspruch 7 vorgeschlagen.
Details der Merkmale können den Ansprüchen entnommen werden. Die Merkmale stehen in engem Zusammenhang zu den Vorrichtungsansprüchen. Die obigen Aussagen bezüglich der beanspruchten Vorrichtung gelten auch im Hinblick auf die Vorteile.
3 Kurzbeschreibung der Zeichnungen
1 ist ein Diagramm, dass die Struktur der Aufteilungstabellen gemäß der vorliegenden Erfindung widerspiegelt, und modelliert, wie zulässige Wörter einer Sprache in Konstituenten zerlegt werden, die dann Teil des segmentierten Vokabulars werden.
2 visualisiert die Schritte gemäß der dem Stand der Technik entsprechenden Darlegung zur Berechnung eines Sprachmodells (SM) für den Spracherkenner.
3 visualisiert die erfindungsgemäßen Schritte zur Berechnung eines Sprachmodells (SM) für den Spracherkenner auf der Grundlage des segmentierten Vokabulars.
4 visualisiert anhand eines Beispiels, wie es ein kleines segmentiertes Vokabular ermöglicht, durch Rekombination von Konstituenten die Erkennung eines umfangreichen Satzes zulässiger Wörter einer Sprache zu unterstützen.
5 ist ein Blockdiagramm, dass die Struktur des dem Stand der Technik entsprechenden Decodierers eines Spracherkenners widerspiegelt.
6 ist ein Blockdiagramm, das die Struktur eines Decodierers eines Spracherkenners gemäß der vorliegenden Darlegung widerspiegelt, die den neuen Nachprozessor visualisiert.
7 visualisiert zwei Beispiele für Tabellen zur Konstituentenkombination, eine Wortkern-Präfix-Matrix und eine Präfix-Präfix-Matrix.
8 stellt in Form eines Flussdiagramms die während der Ausführung des Nachprozessors erfolgende Nutzung der Wortkern-Präfix-Matrix und der Präfix-Präfix-Matrix dar.
4 Beschreibung der bevorzugten Ausführungsart
Wenn sich die vorliegende Spezifikation zur Skizzierung bestimmter erfindungsgemäßer Merkmale auf eine bestimmte natürliche Sprache bezieht, ist dies nur als ein Beispiel zu verstehen. Die erfindungsgemäße Technologie selbst ist auf jeden Typ einer natürlichen Sprache anwendbar.
Die vorliegende Spezifikation basiert auf dem Spracherkennungssystem IBM ViaVoice 98. Die Erfindung ist nicht auf dieses spezifische Spracherkennungssystem beschränkt, sondern lässt sich auch auf andere Spracherkennungssysteme anwenden.
4.1 Einführung
Ein Sprecherkenner ist eine Vorrichtung, die automatisch Sprache in Text transkribiert. Er ist als eine mit der Stimme aktivierte „Schreibmaschine" vorstellbar, bei der die Transkription durch ein Computerprogramm ausgeführt wird und der transkribierte Text auf einem Workstation-Bildschirm erscheint.
Im Rahmen dieser Erfindung bezeichnet der Begriff Wort eine durch ihre Schreibweise definierte Wortform. Zwei unterschiedlich geschriebene Flexionen oder Ableitungen desselben Stammes werden als unterschiedliche Wörter aufgefasst (Beispiel: work, works, workers, ...). Homographe stellen gleich geschriebene Wörter dar, die unterschiedlichen Wortarten angehören oder eine unterschiedliche Bedeutung haben.
Die Liste der für eine Diktieraufgabe ausgewählten Wörter wird als Vokabular bezeichnet. Sie ist begrenzt, vordefiniert und enthält die Wörter, die von dem Spracherkenner „ausgedruckt" werden können.
Zu jedem Wort in dem Vokabular gibt es (je nach Schreibweise) eine phonetische Beschreibung der Art bzw. Arten, wie das Wort ausgesprochen werden kann, was als Aussprachevariante des Worts bezeichnet wird. Für ein Wort kann es (je nach seiner Schreibweise) mehr als eine Aussprachevariante geben.
Ein Sprachmodell (SM) ist eine konzeptionelle Vorrichtung, die anhand einer vorangegangenen Wortfolge eine Schätzung der Wahrscheinlichkeit liefert, mit der ein bestimmtes Wort aus einem zulässigen Vokabular auf die Wortfolge folgt, d. h. P(W_k/W_k-1 ... W₁) . Bei der Spracherkennung dient ein SM zur Steuerung der Hypothesensuche für den gesprochenen Satz.
Aufgrund der Schätzung und des geschätzten Speichers werden vorangegangene Wortfolgen, auf denen die Vorhersage basiert, in eine überschaubare Anzahl von n Wörtern partitioniert. In einem Trigramm-Sprachmodell hängt die Vorhersage eines Worts von den zwei vorangegangenen Wörtern ab. Die Wahrscheinlichkeit wird aus den Anzahlen der Uni-, Bi- und Trigramme nach der folgenden mathematischen Formel abgeleitet:
wobei C, für die Anzahl des Wortes x, C_xy für die Häufigkeit des Wortes x gefolgt von dem Wort y und C_xyz für die Häufigkeit der Wortfolge x y z steht, und wobei h Gewichtungsfaktoren zum Kombinieren der Wahrscheinlichkeiten von Kontextinformationen darstellen.
Der Trainingskorpus umfasst die aus verschiedenen Quellen stammenden Textdaten, die beim Auswerten der Statistik zur Erstellung des SM verwendet werden sollen.
4.2 Die Lösung
Die folgende Erfindung betrifft die Erkennung gesprochener Sprache und löst Probleme im Zusammenhang mit dem für Spracherkennungssysteme definierten/bekannten begrenzten Vokabularumfang.
Die vorliegende Erfindung basiert auf der Grundidee, die Anzahl der im Vokabular gespeicherten erkennbaren Wörter nicht auf dem direkten Weg durch einfaches Speichern weiterer vollständiger zulässiger Wörter der Sprache zu erhöhen und dadurch den Vokabularumfang zu erweitern. Stattdessen schlägt die Erfindung die Schaffung eines Vokabulars vor, das aus einer Mischung aus vollständigen zulässigen Wörtern der Sprache und Konstituenten von zulässigen Wörtern der Sprache besteht. Durch die Bereitstellung von Tabellen zur Konstituentenkombination, die anzeigen, welche Rekombinationen der Konstituenten zulässige Wörter der Sprache bilden, kann der Erkennungsprozess des Spracherkenners eine größere Anzahl erkennbarer Wörter der Sprache identifizieren, die das aktive Vokabular bilden. Im Folgenden werden Spezifikationsverfahren beschrieben, die die Verwendung beliebiger Konstituenten im aktiven Erkennungsvokabular ermöglichen. Die vorliegende Darlegung ermöglicht die Bildung von Konstituenten aus einer beliebigen Anzahl von Zeichen; auch Konstituenten mit nur einem Zeichen sind möglich. Die Konstituenten sind zudem nicht auf bestimmte Beziehungen zu den Erkennungseinheiten des Decodierers beschränkt. Konstituenten gemäß der vorliegenden Erfindung werden als Präfix oder Suffix (z. B. Suffix „n" zur Bezeichnung der Pluralisierung von Substantiven) oder als Wortkerne bezeichnet. Darüber hinaus erfordert die vorliegende Erfindung nicht die Berechnung eines zusätzlichen, separaten Häufigkeitsmodells, das die Lösung von Problemen mit unzulässigen Wortfolgen bei der Rekombination dieser beliebigen Konstituenten zu Wörtern (z. B. „vor"-„verfügbar") ermöglicht, sodass eine Menge Plattenspeicherplatz und Decodierungsaufwand (Minimierung der Bewertung alternativer Pfade) eingespart wird. Die vorliegende Darlegung kann auf die Segmentierung und Rekombination einer beliebigen Anzahl S von Konstituenten angewendet werden. Die Verwendung einer kleineren Anzahl von Konstituenten, zum Beispiel S = 2 oder S = 3, hat sich als vorteilhaft für die Effizienz erwiesen.
Die folgende Spezifikation bezieht sich auf die zweiteilige Präfix-Wortkern-Segmentierung und auf die dreiteilige Präfix- Wortkern-Suffix-Segmentierung. 1 visualisiert die Struktur der Aufteilungstabellen, die zeigen, wie zulässige Wörter einer Sprache mithilfe von Konstituenten aufgeteilt oder rekombiniert werden. Die Aufteilungstabellen enthalten die Wortaufteilungsinformationen (entweder in zwei, drei oder noch mehr Teile). Die Erstellung dieser Tabelle wird weiter unten erläutert.
Es wird angenommen, dass für eine bestimmte Sprache eine Aufteilungstabelle erstellt wird, in der die Anzahl der ursprünglichen (nicht aufgeteilten) Wörter erheblich größer ist als die Anzahl der Wortkerne plus dem Satz der Präfixe und Suffixe (Teile). Die Hauptidee besteht dann darin, diesen Zustand zu nutzen, um ein Vokabular aus Teilen für den Erkenner zu definieren, die Teile während der Laufzeit zu erkennen und das ursprüngliche Wort nach der Verkettung der Teile, die dieses Wort bilden, am Bildschirm anzuzeigen.
Darüber hinaus legt die vorliegende Erfindung dem Benutzer nicht ständig die spezielle Handhabung von Komposita und/oder vorangestellten oder nachgestellten Wörtern dar, sondern es müssen ein Satz Präfixe/Suffixe und bestimmte Diktiermodi für die Handhabung von Komposita eingeführt werden.
Die vorliegende Erfindung schlägt vor, Phoneme als kleinste erkennbare Einheiten für den Decodierungsprozess zu verwenden. Folglich besteht jeder Eintrag des erweiterten Vokabulars aus einer Schreibweise (bei der es sich um eine beliebige Konstituente handeln kann) und zugeordneten Phonemen zur Identifizierung zulässiger Aussprachevarianten. Wenn vor diesem Hintergrund in der vorliegenden Offenlegung der Begriff „Silben" verwendet wird, ist dieser als potenzielles Präfix oder Suffix von Wörtern zu verstehen (Deutsch: „vor", „keit", Arabisch: „uuna"), um auf orthographischer Ebene einen Satz Zeichen einzuschließen, mit denen eine phonembasierte Aussprache verknüpft ist. Daher ist eine Silbe (im Sinne der Orthographie) gemäß der vorliegenden Erfindung nicht auf eine Silbe im Sinne der Aussprache begrenzt. Das arabische Suffix „uuna" (Maskulinum, Plural) besteht eindeutig aus zwei Silben (nach Ruskes Definition der kleinsten Erkennungseinheit), wird aber in dem erfindungsgemäßen System durch vier Phoneme dargestellt. Die Rekombination von Konstituenten zur Bildung von Wörtern der Sprache basiert folglich auf Zeichen und nicht auf Mitteln der Erkennungseinheiten.
Da deshalb das vorgeschlagene Verfahren im Wesentlichen die Vorverarbeitung großer Korpora (zum Aufbau des neuen, segmentierten Vokabulartyps) und die Nachverarbeitung, d. h. die Rekombination von Konstituenten, berücksichtigt, lassen sich diese Techniken ohne weitere Modifikationen oder Erweiterungen auf jeden vorhandenen Decodierer anwenden.
Es gilt zu betonen, dass in klarer Abgrenzung zu anderen Darlegungen nach dem Stand der Technik der Segmentierungs- und Rekombinationsansatz der vorliegenden Erfindung nicht zur Erkennung von Komposita (aus anderen zulässigen Wörtern) dient; stattdessen ermöglicht die Darlegung eine speichereffiziente Schaffung von Vokabularien. Andererseits kann der reduzierte Umfang segmentierter Vokabularien dann genutzt werden, um das Vokabular zur verbesserten Erkennung und Erfassung der Sprache erneut zu erweitern.
4.2.1 Einschränkungen von Spracherkennungssystemen nach dem Stand der Technik
Das vorliegende Spracherkennungssystem kann nur bis zu 64.000 (die neueste Version von IBM ViaVoice 98 bis zu 128.000) Aussprachevarianten verarbeiten. Diese Einschränkung ist auf die Anzahl der Bits zurückzuführen, die von einer bestimmten Prozessorarchitektur zum Adressieren der Speicherinhalte bereitgestellt wird. Dies bedeutet, dass bei durchschnittlich zwei Aussprachevarianten pro Wort einer bestimmten Sprache die Anzahl der Wörter häufig auf maximal 32.000 (64.000 bei IBM ViaVoice 98) begrenzt ist.
Für viele Sprachen ist die Verwendung der Flexion kennzeichnend; eine Basiswortform kann mehrere hundert Wortformen generieren. Beispielsweise kann ein relativ kleines Vokabular aus 35.000 englischen Wörtern mehr als 99% der gesprochenen englischen Alltagssprache repräsentieren. Anders stellt sich die Situation für flektierende Sprachen mit sehr großen Vokabularien dar. Beispielsweise sind im Russischen mindestens 400.000 Wörter erforderlich, um mehr als 99% der gesprochenen russischen Alltagssprache zu repräsentieren, und im Arabischen sind mindestens 200.000 Wörter erforderlich, um 99% der gesprochenen arabischen Alltagssprache zu repräsentieren. Folglich ist der Vokabularumfang in diesen Sprachen sehr groß. Ein solch großes Vokabular kann aufgrund der oben genannten Einschränkungen in aktuellen Echtzeit-Spracherkennungssystemen nicht verwendet werden.
Neben einer sehr reichen Morphologie sind stark flektierende Sprachen im Allgemeinen auch insofern äußerst kombinatorisch, als mehrere hundert Wörter aus einem Wortkern, dem ein oder mehr Präfixe/Suffixe voran- bzw. nachgestellt sind, generiert werden können. Folglich wäre zu erwarten, dass sich durch die Behandlung dieser Wörter der Sprache als eine Kombination dieser Teile eine weit reichende Erfassung der Sprache erzielen lässt.
4.2.2 Erstellung des Sprachmodells
Die traditionellen Prozesse zur Erstellung eines Sprachmodells (SM) sind in 2 dargestellt und umfassen die folgenden Schritte:

1. Zusammenstellen von Korpora, welche die Domäne repräsentieren, in welcher der Spracherkenner eingesetzt werden soll.
2. Bereinigen (z. B. Entfernen der Tabellen und Formatierungsinformationen aus dem Text) und Tokenisieren (z. B. Umwandeln eines Satzes wie „see you at 14:00." in „see you at 2 o'clock PM.").
3. Auswählen des Vokabulars durch Zählen der Häufigkeit, mit der jedes Wort vorkommt, und Auswählen der ersten N (wobei N <= 32.000) der am häufigsten vorkommenden Wörter.
4. Erstellen des SM durch Berechnen der Trigramm-Anzahlen für diese N Wörter.

Zum Bearbeiten der Konstituenten gemäß der Aufteilungstabelle (die eine Mischung aus zulässigen Wörtern und tatsächlichen Konstituenten enthält) schlägt die vorliegende Erfindung vor, vor der in 3 dargestellten Auswahl des Vokabulars einen weiteren Schritt (301) einzuführen. In diesem neuen Schritt (301) werden die Informationen zum Aufteilen der Wörter in Teile auf die Korpora angewendet. Die neuen Korpora werden dann zum Auswählen des Teile-Vokabulars verwendet. In diesem Fall enthält das Vokabular die ersten N Teile. Da das Vokabular aus zulässigen Wörtern und Konstituenten besteht, wird das SM daher eigentlich anhand der Abfolgestatistiken für Wörter und Mischungen aus Wörtern und Konstituenten (je nach Art der Konstituenten gemäß der Definition in der Aufteilungstabelle) berechnet.
4.2.3 Die Aufteilungstabelle für eine bestimmte Sprache
Der Prozess zum Erstellen der Aufteilungstabelle hängt sehr vom Wesen jeder Sprache und davon ab, wie deren Ableitungen gebildet werden. Wird als Beispiel Englisch gewählt (obwohl es keine stark flektierende Sprache ist), könnte {s, ed, ing, er, ers, ly, ...} ein logischer Suffixsatz und {ab, un, re, pre, ...) ein Präfixsatz sein (wobei dies nur als Beispiel zu verstehen ist). Die vorliegende Erfindung geht jedoch darüber hinaus. Die Präfixe/Suffixe sind nicht notwendigerweise eine linguistisch oder phonetisch bekannte Einheit der Sprache, sondern sollten gewählt werden, um eine maximale Komprimierungsrate des ausgewählten Vokabulars (der ausgewählten Teile) im Vergleich zur Anzahl realer, gültiger Wörter zu erreichen, die während der Erkennung generiert werden können, d. h. die vorliegende Darlegung ermöglicht eine Verwendung dieser Konstituenten, die zu einer maximalen Komprimierung des Vokabulars führt. Der Präfix- und Suffixsatz kann wahlweise aber auch einen (jeden) Teil von Komposita oder sogar Silben enthalten. Im folgenden Beispiel wird die Aufteilungstabelle manuell erstellt. Im Allgemeinen ließen sich zur Erstellung der Tabelle jedoch Clusteringverfahren verwenden, wobei als Ausgangspunkte z. B. linguistisch motivierte Teile dienen.
Werden beispielsweise der Präfixsatz {c, m, h} und der Suffixsatz {s, ed, ing, er, ers} für Wortkerne wie (at, all, work, use) verwendet, können die in 4 dargestellten Wörter generiert werden.
In dem Beispiel oben können aus drei Präfixen, vier Wortkernen und fünf Suffixen, die zusammen zwölf Vokabulareinträge in einem Erkennungssystem belegen, 23 gültige englische Wörter generiert werden. Dies beweist, dass die Komprimierung eines Vokabulars mit der vorliegenden Erfindung erreichbar ist. Andererseits sorgt dieser Vorteil für die Freiheit, zusätzliche Wörter und Konstituenten in das Vokabular einzufügen, die bisher nicht erfasst wurden, und verbreitert somit das Spektrum der Wörter, die für das Spracherkennungssystem erkennbar sind.
Mit der vorliegenden Darlegung lassen sich die folgenden Vorteile erzielen:

1. Komprimierung des Vokabulars Die Erfindung ermöglicht das Definieren und Speichern von N Wörtern, aber das Generieren und Erkennen von bis zu MxN Wörtern (wobei M sprachabhängig ist).
2. Kleinere Vokabularien ermöglichen zusätzlich eine bessere Schätzung der Wort- (bzw. Teil-)Wahrscheinlichkeiten (Uni-, Bi-, Trigramme in ihrer Kontextumgebung) je mehr Vorkommen in den entsprechenden Korpora festgestellt werden.
3. Durch das Zuordnen der N Wörter zu einem Satz von Gruppen mit demselben Präfix/Suffix-Muster wird ein effizientes Speichern erreicht. Ein solcher Ansatz stellt die logische Vollständigkeit und Erfassung des gewählten Vokabulars sicher. Der Benutzer, der ein im Vokabular definiertes Wort diktiert, erwartet normalerweise, dass alle abgeleiteten Formen ebenfalls verfügbar sind. Beispielsweise wird nicht erwartet, dass das Wort „use" im Vokabular enthalten ist, während „user" nicht enthalten ist.
4. Durch Flexibilität beim Definieren der Präfix- und Suffixsätze für jede Sprache wird die beste Komprimierung erreicht. Beim Präfix/Suffix handelt es sich nicht notwendigerweise um eine linguistisch oder phonetisch bekannte Einheit der Sprache. In dem obigen Englisch-Beispiel hat der Präfixsatz {c, m, h} zwar keine linguistische oder phonetische Definition, aber es wurde festgestellt, dass er in Bezug auf diesen Wörtersatz für eine gute Komprimierungsrate (Maximierung von M) sorgt.

Es ist wichtig, zu betonen, dass der Suffixsatz (oder der Präfixsatz) NULL sein kann, und dass deshalb ein Präfix- und ein Wortkernsatz die Wörter generieren können. Auch der Präfixsatz kann NULL sein, und in diesem Fall können ein Suffix- und ein Wortkernsatz die Wörter generieren. Im Grunde lässt sich jeder Konstituententyp, der Teil des segmentierten Vokabulars ist, zur Rekonstruktion zulässiger Wörter der Sprache mit einem anderen kombinieren.
Für die arabische Sprache lässt sich dies an einem Beispiel veranschaulichen, bei dem das arabisch Wort „wasayaktubuunahaa" („und sie werden es schreiben") in „wasaya + ktub + uunahaa" (wasaya: „und werden", ktub: „schreiben", uunahaa: „sie es"). Der Wortkern ist „ktub", dem die Präfixe „wa" („und"), „sa" (Futur), „ya” (3. Person) sowie die Suffixe „uuna" (Maskulinum, Plural) und „haa" („es") angefügt werden. Das arabische Wort „wasayaktubuunahaa" wird einem vollständigen deutschen Satz zugeordnet: „und sie” ((Maskulinum) Plural) „werden es schreiben". Arabisch wird normalerweise ohne Kurzvokale und andere diakritische Zeichen geschrieben, die Konsonantengemination, Nullvokal und verschiedene flektierende Fallendungen markieren. Das Wort in dem obigen Beispiel wird normalerweise „wsyktbuunhaa" geschrieben.
Ähnliche Segmentierungen in Präfix-Wortkern-Suffix-Teile können auf Sprachen wie Deutsch, Tschechisch oder Russisch oder natürlich auf jede andere (stark flektierende) Sprache angewendet werden.
4.2.4 Der Text-Nachprozessor
5 zeigt ein Blockdiagramm für einen traditionellen Spracherkenner. Das Sprachsignal wird zuerst von dem Akustikprozessor (501) verarbeitet, wodurch Merkmale der digitalen Signalverarbeitung (wie Energie, Cepstrum usw.) abgeleitet werden. Ein Verfahren zur Schnellzuordnung (502) wird implementiert, um schnell eine kurze Liste von Kandidatenwörtern. zu ermitteln, bevor eine aufwendige detaillierte Zuordnung (503) durchgeführt wird. Anschließend wird das SM (504) aufgefordert, die entsprechende Wortfolge zu bestimmen (505). Das Verfahren der detaillierten Zuordnung wird somit nur auf viel versprechende Kandidatenwörter angewendet.
Falls das Vokabular aus zulässigen Wörtern und/oder Konstituenten (oder „Teilen", d. h. Präfixen, Wortkernen, Suffixen) zulässiger Wörter oder aus Mischungen daraus besteht, ist ein Nachverarbeitungsschritt (606) erforderlich, wie er in 6 dargestellt ist, um diese Teile zu verketten und dem Endbenutzer als gültige Wörter anzuzeigen. In dieser Erfindung wird aus der Aufteilungstabelle automatisch eine Wortkernkennungstabelle generiert. Zuerst wird die Aufteilungstabelle nach Wortkernen sortiert, und dann werden die Wortkerne gemäß dem Präfix/Suffix-Satz gruppiert, der angefügt werden kann. Eine Präfix- oder Suffixkennung ist lediglich eine Nummer, die an jedes Präfix (Suffix) vergeben wird. Außerdem wird eine Wortkern-Präfix-Matrix gebildet, in der das Element (Wortkern_Nr, Präfix_Nr) bezeichnet, ob es sich um eine gültige Verkettung (1) oder nicht (0) handelt. Auch eine Präfix-Präfix-Matrix wird gebildet, um die Verkettung zweier Präfixe zu prüfen.
Eine bestimmte Implementierung der vorliegenden Erfindung betrifft ein Spracherkennungssystem für das Arabische, das auf der IBM ViaVoice Gold-Engine basiert (die noch der Begrenzung auf 64.000 Aussprachevarianten unterlag). Diese Implementierung wurde mithilfe des oben beschriebenen Verfahrens der Segmentierung in zwei Teile entwickelt.
Ein 32.000 Wörter umfassendes Vokabular (genauer gesagt umfassen die Einträge in dem Vokabular gemäß der vorliegenden Erfindung eine Mischung/Sammlung aus Präfixen und Wortkernen und vollständigen zulässigen Wörtern der Sprache) dient zur Erstellung des SM, und die Anzahl der Trigramme wird in den zweiteilig segmentierten Korpora gesammelt.
Die möglichen Aussprachevarianten jedes Worts werden zur Bildung des Basisformenpools (der benötigt wird, um dem Erkenner die Aussprache der Wörter mitzuteilen) gesammelt. Der Basisformenpool enthält 60.000 Basisformen mit durchschnittlich zwei Aussprachevarianten pro Wort.
Aus der Aufteilungstabelle wird automatisch eine Wortkernkennungstabelle erstellt, in der die 32.000 Wörter nach 380 Gruppen klassifiziert werden. Bei einer Wortkernkennungstabelle handelt es sich um eine Tabelle, die die gemäß der Aufteilungstabelle definierten Wortkerne mit einem bestimmten Bereich natürlicher Zahlen verknüpft, die als eindeutige Indizes dienen, damit ein bestimmter Wortkern schnell über seinen Index identifiziert werden kann. Sie weist beispielsweise folgende Struktur auf: Wort = Kennung_000, ... Wort = Kennung_380. Anhand derselben Zeilen wird eine Präfixkennungstabelle generiert, die den Präfixen einen anderen Bereich natürlicher Zahlen zuordnet, die als eindeutige Indizes für die Präfixe dienen. Sie weist beispielsweise folgende Struktur auf: Präfix = Kennung_400, ... Präfix = Kennung_500.
Als ein Vertreter für die Tabellen zur Konstituentenkombination wurde eine Wortkern-Präfix-Matrix mit 380×100 Einträgen aus Einsen (gültige Präfixe) und Nullen (ungültig) gebildet, die während der Erkennung zu verwenden ist, um die Anzeige ungültiger Kombinationen am Bildschirm zu verhindern. 7 zeigt ein Beispiel für eine Wortkern-Präfix-Matrix, in der die Zeilenindizes (000–380) als Darstellungen der Wortkerne und die Spaltenindizes (001–100) als Darstellungen der Präfixe visualisiert werden, während die Zellen durch 0 und 1 die Gültigkeit bzw. Ungültigkeit der spezifischen Präfix/Wortkern-Rekombination anzeigen. Ein weiterer Vertreter der Tabellen zur Konstituentenkombination ist die Präfix-Präfix-Matrix mit 100×100 Einträgen, die ebenfalls in 7 visualisiert ist. Durch Einsen (gültige Präfixe) und Nullen (ungültig), die während der Erkennung dazu dienen, die Anzeige ungültiger Kombinationen am Bildschirm zu verhindern, zeigt diese die Rekombination zweier Präfixe zu einem gültigen dritten Präfix an. Aus 7 ist auch ersichtlich, dass in der Präfix-Präfix-Matrix die Zeilenindizes (000–100) und die Spaltenindizes (001–100) die Darstellungen der zwei Präfixe sind, während die Zellen durch 0 und 1 die Gültigkeit bzw. Ungültigkeit der spezifischen Präfix/Präfix-Rekombination zu einem dritten Präfix anzeigen.
Für diese spezifische Implementierung der Erfindung wird die während der Ausführung des Nachprozessors (606) erfolgende Nutzung der Wortkern-Präfix-Matrix und der Präfix-Präfix-Matrix erörtert.
Nachdem eine Konstituente von dem Spracherkenner erkannt wurde, wird sie gemäß der nachfolgend beschriebenen Logik verarbeitet, die auch durch das Flussdiagramm in 8 visualisiert wird:

1. Wenn das Teil/die Konstituente eine Kennung im Bereich von 400–500 aufweist, (die es/sie als Präfix kennzeichnet), zum Erzielen des Präfix_Nr1 den Wert 400 subtrahieren (801, 802)
2. Nächstes Teil aus dem Erkenner abrufen und prüfen:
2.1 Wenn es ein Wortkern ist, die Kennung ermitteln, die die GRUPPEN_Nr ergibt (808). Element (GRUPPEN_Nr, PRÄFIX_Nr1) der Wortkern-Präfix-Matrix prüfen (809):
2.1.1 Wenn 1, das Präfix und den Wortkern verketten und anzeigen (810)
2.1.2 Wenn 0, das Präfix durch ein gültiges Präfix ersetzen, dieses mit dem Wortkern verketten und dann anzeigen. Eine Möglichkeit besteht darin, das gültige Präfix anhand einer Alternativenliste für das Präfix zu bestimmen. Für jedes erkannte Wort (hier ein Präfix) kann der Decodierer die beste Hypothese sowie die nächstbesten passenden Wörter senden. Diese Liste kann als Alternativenliste dazu dienen, die Rekombination von Teilen zu Wörtern zu verbessern.
2.2 Wenn es ein zweites Präfix ist, die PRÄFIX_Nr2 ermitteln (804) und das Element der Präfix-Präfix-Matrix (PRÄFIX_Nr1, PRÄFIX_Nr2) prüfen (805).
2.2.1 Wenn 1, PRÄFIX_Nr1 in eine neue PRÄFIX_Nr ändern, die der Verkettung der zwei Präfixe entspricht, und PRÄFIX_Nr2 löschen. Nächstes Teil abrufen und Schritt 1 wiederholen (806)
2.2.2 Wenn 0, PRÄFIX_Nr2 zu PRÄFIX_Nr1 kopieren und PRÄFIX_Nr2 löschen. Nächstes Teil abrufen und Schritt 1 wiederholen (807)

Auf der Grundlage dieser Ausführungsarten sendet die Engine in 95% der Fälle die korrekte Präfix-Teilwort-Kombination.
Die oben skizzierte Darlegung in Bezug auf die Rekombination von Präfix mit Präfix sowie Präfix mit Wortkern lässt sich verallgemeinernd auf die Rekombination zweier beliebiger Konstituenten übertragen. Natürlich ist der Rekombinationsprozess auch auf die Erstellung rekombinierter Konstituenten übertragbar, d. h. beispielsweise, dass zwei aufeinander folgende Konstituenten, die eine erste Präfixkonstituente und eine zweite Präfixkonstituente darstellen, auf der Grundlage einer Präfix-Präfix-Matrix, die eine in der Sprache zulässige Kombination anzeigt, zu einer dritten Präfixkonstituente rekombiniert werden können, oder dass zwei aufeinanderfolgende Konstituenten, die eine Präfixkonstituente und eine Wortkernkonstituente darstellen, auf der Grundlage einer Wortkern-Präfix-Matrix, die eine in der Sprache zulässige Kombination anzeigt, zu einer zweiten Wortkernkonstituente rekombiniert werden können, oder dass zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Suffixkonstituente darstellen, auf der Grundlage einer Präfix-Suffix-Matrix, die eine in der Sprache zulässige Kombination anzeigt, zu einer zweiten Präfixkonstituente rekombiniert werden können, oder dass zwei aufeinander folgende Konstituenten, die eine Wortkernkonstituente und eine Suffixkonstituente darstellen, auf der Grundlage einer Wortkern-Suffix-Matrix, die eine in der Sprache zulässige Kombination anzeigt, zu einer zweiten Wortkernkonstituente rekombiniert werden können.
Gemäß dem Standardverhalten für die Handhabung zweier beliebiger Konstituenten, deren Kombination die entsprechende Tabelle zur Konstituentenkombination als unzulässig anzeigt, werden die zwei Konstituenten nicht rekombiniert und als separate Einträge in der Sprache behandelt.
Darüber hinaus wird in dem obigen Beispiel die Matrixtechnologie zur Implementierung der verschiedenen Tabellen zur Konstituentenkombination genutzt. Weitere Verbesserungen können erreicht werden, indem die Sparse-Matrix-Technologie zur Implementierung der Matrizen verwendet wird.
4.2.5 Die Erfassung zulässiger Wörter einer Sprache durch den Ansatz segmentierter Vokabularien
Im Folgenden wird die Effizienz der vorliegenden Darlegung segmentierter Vokabularien für die erweiterte Erfassung einer bestimmten Sprache und für die gleichzeitige Verkleinerung des Vokabularumfangs demonstriert. Dies erfolgt auf der Grundlage der arabischen Sprache. Der Vokabularumfang und die Spracherfassung gemäß dem Stand der Technik werden mit dem Segmentierungsansatz für Vokabularien gemäß der vorliegenden Darlegung verglichen.
Die Situation nach dem Stand der Technik wird mit einem Segmentierungsansatz verglichen, das zwei Konstituenten – Präfix und Wortkern – zusammen mit einer entsprechenden Aufteilungstabelle und einer Wortkern-Präfix-Matrix verwendet.
Darüber hinaus wird diese Situation mit einem Segmentierungsansatz verglichen, bei dem bis zu drei Konstituenten – Präfix, Wortkern und Suffix – zur Anwendung kommen. Die arabischen Wörter werden als Wörter aufgefasst, die zwei oder drei Elemente aufweisen: Präfix-Wortkern oder Präfix-Wortkern-Suffix.
Das Drei-Konstituenten-Vokabular wurde aus 100 Präfixen, 200 Suffixen und 29.000 Wortkernen zusammengestellt. Durch die Verkettung des Wortkerns mit dem Folgesuffix des DreiKonstituenten-Vokabulars zur Bildung eines neuen Wortkerns wurde das Zwei-Konstituenten-Vokabular gebildet, das 100 Präfixe und 604.000 Wortkerne enthält. Das Drei-Konstituenten-Vokabular mit seiner ursprünglichen Präfix-Wortkern-Suffix-Struktur wurde somit in ein Zwei-Konstituenten-Vokabular umgewandelt.
Ein Korpus aus 100 Millionen Wörtern (aus Journalismus, Geschäftskorrespondenz und Enzyklopädien) diente zum Testen der Spracherfassung und zur Erstellung des SM.
Um die Effizienz der Grundidee von segmentierten Vokabularien zu zeigen, wurden folgende Schritte ausgeführt:

1. Die eindeutigen Wörter, die die Korpora bilden, wurden gesammelt.
2. Der Segmentierungsvorgang wurde auf Korpora mit dem Ziel übertragen, einen neuen, segmentierten Korpus zu bilden.
3. Das Verhältnis von erfasster Sprache zur Anzahl der Wörter im segmentierten Vokabular wurde berechnet.

Als Ergebnis der Segmentierung der ursprünglichen Wörter in zwei oder drei Teile wurde die Spracherfassung im Vergleich zu einem unsegmentierten Vokabular gleichen Umfangs erheblich erweitert.

Die folgende Tabelle zeigt, dass 30.000 Konstituenten (hervorgegangen aus einer Segmentierung in drei Teile) eine Spracherfassung von 99% erreichen, und dass 32.000 Konstituenten (hervorgegangen aus einer Segmentierung in zwei Teile) 97% erreichen, wohingegen 200.000 bzw. 115.000 (nicht segmentierte) Wörter erforderlich sind, um die gleiche Spracherfassung zu erreichen.

Erfassung	Anzahl	der	Wörter
	Vor der Segmentierung - Ursprüngliche Wörter	Nach der Segmentierung - 2 Konstituenten	Nach der Segmentierung - 3 Konstituenten
99%	200.000	46.000	30.000
97%	115.000	32.000	kein Bedarf
93%	46.000	kein Bedarf	kein Bedarf

5 Akronyme
SM Sprachmodell

Claims

Spracherkennungssystem zur Erkennung einer gesprochenen Sprache, das Folgendes umfasst: ein elektronisches Vokabular mit Einträgen, die zulässige Wörter der Sprache darstellen, und Einträgen, die Präfix-Konstituenten, Wortkernkonstituenten und Suffixkonstituenten dieser zulässigen Wörter darstellen; einen Echtzeit-Spracherkenner, der aus einem kontinuierlichen Sprachsignal Eingangssignale für das Vokabular generiert; wobei das Vokabular ausgewählte beliebige Teilkomponenten der zulässigen Wörter gemäß der Orthographie als Konstituenten umfasst; und wobei eine Tabelle zur Konstituentenkombination anzeigt, welche Verkettungen einer Anzahl S der Konstituenten zulässige Wörter in der Sprache darstellen; wobei das Spracherkennungssystem dadurch gekennzeichnet ist, dass: die Anzahl S dem Wert 2 oder 3 entspricht; das Vokabular Folgendes umfasst: wenn S gleich 2 ist, Konstituenten, die die Rekombination zulässiger Wörter aus einer Präfixkonstituente und einer Wortkernkonstituente oder aus einer Wortkernkonstituente und einer Suffixkonstituente oder aus einer Präfixkonstituente und einer Suffixkonstituente ermöglichen, und wenn S gleich 3 ist, darüber hinaus Konstituenten, die eine Rekombination zulässiger Wörter aus einer Präfixkonstituente, einer Wortkernkonstituente und einer Suffixkonstituente ermöglichen; wobei die Tabelle zur Konstituentenkombination mindestens, eine der folgenden Matrizen umfasst: eine Wortkern-Präfix-Matrix, die anzeigt, ob eine Kombination aus einer Präfixkonstituente und einer Wortkernkonstituente in der Sprache zulässig ist oder nicht; eine Präfix-Suffix-Matrix, die anzeigt, ob eine Kombination aus einer Präfixkonstituente und einer Suffixkonstituente in der Sprache zulässig ist oder nicht; eine Präfix-Präfix-Matrix, die anzeigt, ob eine Kombination aus einer ersten Präfixkonstituente und einer zweiten Präfixkonstituente eine zulässige Kombination in der Sprache ist, die eine dritte Präfixkonstituente ergibt oder nicht; eine Wortkern-Suffix-Matrix, die anzeigt, ob eine Kombination aus einer Wortkernkonstituente und einer Suffixkonstituente in der Sprache zulässig ist oder nicht; einen Nachprozessor, der auf eine Eingabe reagiert, die erkannte Konstituenten des Vokabulars umfasst, um die Konstituenten unter Nutzung der Tabelle zur Konstituentenkombination zu zulässigen Wörtern der Sprache zu rekombinieren, wobei der Nachprozessor auf zwei aufeinander folgende Konstituenten in mindestens einer der folgenden Weisen reagiert: der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine erste Präfixkonstituente und eine zweite Präfixkonstituente darstellen, durch Rekombinieren der ersten Präfixkonstituente und der zweiten Präfixkonstituente zu einer dritten Präfixkonstituente, wenn die Präfix-Präfix-Matrix anzeigt, dass die Kombination aus der ersten Präfixkonstituente und der zweiten Präfixkonstituente in der Sprache zulässig ist; durch Ignorieren der ersten Präfixkonstituente, wenn die Präfix-Präfix-Matrix anzeigt, dass die Kombination aus der ersten Präfixkonstituente und der zweiten Präfixkonstituente in der Sprache unzulässig ist; der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Wortkernkonstituente darstellen, durch Rekombinieren der Präfixkonstituente und der Wortkernkonstituente zu einer zweiten Wortkernkonstituente, wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Wortkernkonstituente in der Sprache zulässig ist, oder wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Wortkernkonstituente in der Sprache unzulässig ist, durch Ersetzen der Präfixkonstituente durch eine alternative Präfixkonstituente und durch Rekombinieren der alternativen Präfixkonstituente und der Wortkernkonstituente, wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der alternativen Präfixkonstituente und der Wortkernkonstituente in der Sprache zulässig ist; der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Suffixkonstituente darstellen, durch Rekombinieren der Präfixkonstituente und der Suffixkonstituente zu einer zweiten Präfixkonstituente, wenn die Präfix-Suffix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Suffixkonstituente in der Sprache zulässig ist; oder der Nachprozessor reagiert auf zwei aufeinander folgende Konstituenten, die eine Wortkernkonstituente und eine Suffixkonstituente darstellen, durch Rekombinieren der Wortkernkonstituente und der Suffixkonstituente zu einer zweiten Wortkernkonstituente, wenn die Wortkern-Suffix-Matrix anzeigt, dass die Kombination aus der Wortkernkonstituente und der Suffixkonstituente in der Sprache zulässig ist.
Spracherkennungssystem nach Anspruch 1, ferner gekennzeichnet durch kein Rekombinieren zweier aufeinander folgender Konstituenten in mindestens einem der folgenden Fälle: kein Rekombinieren der Präfixkonstituente und der Suffixkonstituente und Behandeln der Präfixkonstituente als separaten Eintrag, wenn die Präfix-Suffix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Suffixkonstituente in der Sprache unzulässig ist; kein Rekombinieren der Wortkernkonstituente und der Suffixkonstituente und Behandeln der Wortkernkonstituente als separaten Eintrag, wenn die Wortkern-Suffix-Matrix anzeigt, dass die Kombination aus der Wortkernkonstituente und der Suffixkonstituente in der Sprache unzulässig ist.
Spracherkennungssystem nach Anspruch 1, ferner dadurch gekennzeichnet, dass die alternative Präfixkonstituente aus einer Alternativenliste abgerufen wird, wobei die Alternativenliste alternative Präfixkonstituenten für die Präfixkonstituenten in der Reihenfolge abnehmender Zuordnungswahrscheinlichkeit umfasst.
Spracherkennungssystem nach einem der vorhergehenden Ansprüche, ferner dadurch gekennzeichnet, dass die Wortkernkonstituenten, die Präfixkonstituenten und die Suffixkonstituenten durch eindeutige Zahlen dargestellt werden, die die Indizes der Matrizen bilden.
Spracherkennungssystem nach einem der vorhergehenden Ansprüche, ferner dadurch gekennzeichnet, dass es ein Sprachmodell der Sprache umfasst, das anhand der N-Gramm-Häufigkeiten einer Abfolge von N Einträgen des Vokabulars berechnet wird.
Spracherkennungssystem nach einem der vorhergehenden Ansprüche, ferner dadurch gekennzeichnet, dass es Phoneme als kleinste Erkennungseinheiten verwendet.
Verfahren zur Erkennung einer gesprochenen Sprache, das von einem Spracherkennungssystem ausgeführt wird, wobei das Verfahren ein elektronisches Vokabular mit Einträgen, die zulässige Wörter der Sprache darstellen, und Einträgen, die Präfix-Konstituenten, Wortkernkonstituenten und Suffixkonstituenten dieser zulässigen Wörter darstellen, verwendet, und wobei das Verfahren folgende Schritte umfasst: einen ersten Schritt der Vokabularerstellung; einen Transkriptionsschritt, in dem mithilfe eines Echtzeit-Spracherkenners auf der Grundlage des Vokabulars ein kontinuierliches Sprachsignal in eine Abfolge von Einträgen aus dem Vokabular transkribiert wird; und einen auf die Abfolge von Einträgen aus dem Vokabular reagierenden Nachverarbeitungsschritt zur Rekombination der Konstituenten zu zulässigen Wörtern; wobei der erste Schritt der Vokabularerstellung ermöglicht, dass das Vokabular ausgewählte beliebige Teilkomponenten der zulässigen Wörter gemäß der Orthographie als Konstituenten umfasst; und wobei der Nachverarbeitungsprozess bis zu S Konstituenten rekombiniert, wenn eine Tabelle zur Konstituentenkombination anzeigt, dass die erkannten Konstituenten eine zulässige Verkettung in der Sprache darstellen; wobei das Verfahren dadurch gekennzeichnet ist, dass die Anzahl S dem Wert 2 oder 3 entspricht; dass der Nachverarbeitungsprozess, wenn S gleich 2 ist, zulässige Wörter aus einer Präfixkonstituente und einer Wortkernkonstituente oder aus einer Wortkernkonstituente und einer Suffixkonstituente oder aus einer Präfixkonstituente und einer Suffixkonstituente rekombiniert; und dass der Nachverarbeitungsprozess, wenn S gleich 3 ist, außerdem zulässige Wörter aus einer Präfixkonstituente, einer Wortkernkonstituente und einer Suffixkonstituente rekombiniert; wobei der Nachverarbeitungsschritt zwei aufeinander folgende Konstituenten in mindestens einer der folgenden Weisen rekombiniert: der Nachverarbeitungsschritt rekombiniert zwei aufeinander folgende Konstituenten, die eine erste Präfixkonstituente und eine zweite Präfixkonstituente darstellen, durch Rekombinieren der ersten Präfixkonstituente und der zweiten Präfixkonstituente zu einer dritten Präfixkonstituente, wenn eine Präfix-Präfix-Matrix anzeigt, dass die Kombination aus der ersten Präfixkonstituente und der zweiten Präfixkonstituente in der Sprache zulässig ist, oder durch Ignorieren der ersten Präfixkonstituente, wenn die Präfix-Präfix-Matrix anzeigt, dass die Kombination aus der ersten Präfixkonstituente und der zweiten Präfixkonstituente in der Sprache unzulässig ist; der Nachverarbeitungsschritt rekombiniert zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Wortkernkonstituente darstellen, durch Rekombinieren der Präfixkonstituente und der Wortkernkonstituente zu einer zweiten Wortkernkonstituente, wenn eine Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Wortkernkonstituente in der Sprache zulässig ist, oder wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Wortkernkonstituente in der Sprache unzulässig ist, durch Ersetzen der Präfixkonstituente durch eine alternative Präfixkonstituente und durch Rekombinieren der alternativen Präfixkonstituente und der Wortkernkonstituente, wenn die Wortkern-Präfix-Matrix anzeigt, dass die Kombination aus der alternativen Präfixkonstituente und der Wortkernkonstituente in der Sprache zulässig ist; der Nachverarbeitungsschritt rekombiniert zwei aufeinander folgende Konstituenten, die eine Präfixkonstituente und eine Suffixkonstituente darstellen, durch Rekombinieren der Präfixkonstituente und der Suffixkonstituente zu einer zweiten Präfixkonstituente, wenn eine Präfix-Suffix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Suffixkonstituente in der Sprache zulässig ist; der Nachverarbeitungsschritt rekombiniert zwei aufeinander folgende Konstituenten, die eine Wortkernkonstituente und eine Suffixkonstituente darstellen, durch Rekombinieren der Wortkernkonstituente und der Suffixkonstituente zu einer zweiten Wortkernkonstituente, wenn eine Wortkern-Suffix-Matrix anzeigt, dass die Kombination aus der Wortkernkonstituente und der Suffixkonstituente in der Sprache zulässig ist.
Verfahren nach Anspruch 7, das ferner gekennzeichnet ist durch kein Rekombinieren zweier aufeinander folgender Konstituenten in mindestens einem der folgenden Fälle: kein Rekombinieren der Präfixkonstituente und der Suffixkonstituente und Behandeln der Präfixkonstituente als separaten Eintrag, wenn die Präfix-Suffix-Matrix anzeigt, dass die Kombination aus der Präfixkonstituente und der Suffixkonstituente in der Sprache unzulässig ist; kein Rekombinieren der Wortkernkonstituente und der Suffixkonstituente und Behandeln der Wortkernkonstituente als separaten Eintrag, wenn die Wortkern-Suffix-Matrix anzeigt, dass die Kombination aus der Wortkernkonstituente und der Suffixkonstituente in der Sprache unzulässig ist.
Verfahren nach Anspruch 7, das ferner dadurch gekennzeichnet ist, dass die alternative Präfixkonstituente aus einer Alternativenliste abgerufen wird, wobei die Alternativenliste alternative Präfixkonstituenten für die Präfixkonstituenten in der Reihenfolge abnehmender Zuordnungswahrscheinlichkeit umfasst.
Verfahren nach einem der Ansprüche 7 bis 9, das ferner dadurch gekennzeichnet ist, dass der Nachverarbeitungsschritt die Wortkernkonstituenten, die Präfixkonstituenten und die Suffixkonstituenten durch eindeutige Zahlen darstellt, die als Indizes der Matrizen dienen.
Verfahren nach einem der Ansprüche 7 bis 10, das ferner dadurch gekennzeichnet ist, dass ein Sprachmodell der Sprache verwendet wird, das anhand der N-Gramm-Häufigkeiten einer Abfolge von N Eintragen des Vokabulars berechnet wird.