DE4106346C2

DE4106346C2 - Anordnung zur Erkennung von Wörtern in einem Sprachsignal

Info

Publication number: DE4106346C2
Application number: DE19914106346
Authority: DE
Inventors: Andreas Noll
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1991-02-28
Filing date: 1991-02-28
Publication date: 1997-04-10
Anticipated expiration: 2011-03-01
Also published as: DE4106346A1

Description

Die Erfindung betrifft eine Anordnung zur Erkennung von Wörtern in einem Sprachsignal, mit einer Vorverarbeitungs anordnung, die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert die Werte von Parametern in einen Zeitabschnitt des Sprachsignals angibt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit mindestens einem Teil der Referenzwerte der Wörter eines vorgegebenen Vokabulars vergleicht und die Vergleichs ergebnisse weiterverarbeitet und dabei Zwischenwerte bildet und zwischenspeichert und aus den Zwischenwerten am Ende des Sprachsignals die erkannten Wörter ableitet und ausgibt.

Eine derartige Anordnung, die die grundliegenden Elemente für eine allgemeine Anordnung zur Spracherkennung enthält, ist bekannt beispielsweise aus der DE 32 15 868 A1 oder EP 285 211 A2. Die aus der letztgenannten Druckschrift bekannte Anordnung unterscheidet sich von der erst genannten Druckschrift ins besondere durch die Berück sichtigung eines Sprachmodells und eines Schwellwerts, so daß zusammenhängend gesprochene Sprache zuverlässiger erkannt werden kann. Dafür ist die aus der letztgenannten Druckschrift bekannte Anordnung jedoch auch umfangreicher aufgebaut. Allgemein liegt abhängig von der jeweiligen Anwendung und von der Komplexität der Erkennungsaufgabe der Aufwand im Bereich von relativ einfacher Signal verarbeitungs-Anordnungen für z. B. Einzelworterkenner mit kleinem Wortschatz bis hin zu umfangreichen Anordnungen für komplizierte Suchprozeduren für die Erkennung von kontinuierlicher Sprache mit großen Wortschätzen. Einfache Anwendungsfälle, die nur wenige Verarbeitungsoperationen je Sprachsignalwert erfordern, können dabei auch mit einer allgemeinen, entsprechend programmgesteuerten Rechen anordnung realisiert werden. Bei höheren Anforderungen an die Erkennung ist eine rein programmgesteuerte Signal verarbeitung mit üblichen Rechenanlagen begrenztem Umfangs jedoch zu langsam, so daß zumindest Teile der Anordnung mit speziellen elektronischen Schaltungen realisiert werden müssen. Eine kostengünstige Herstellung elektronischer Schaltungen ist die Integration auf einem oder nur wenigen Halbleiterplättchen, jedoch erfordert dies entsprechend große Stückzahlen. Diese sind jedoch wegen der unterschiedlichen Anwendungen und Anforderungen dabei kaum zu erzielen.

Aufgabe der Erfindung ist es, eine Anordnung der eingangs genannten Art anzugeben, die auch für verschiedene Anwendungsfälle weitgehend kostengünstig hergestellt werden kann.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß die Verarbeitungsanordnung wenigstens eine programm gesteuerte Rechenanordnung sowie abhängig von der Größe des Vokabulars und der bei Wortübergängen berück sichtigten Sprachregeln wenigstens einen der folgenden von der Rechenanordnung gesteuerten Moduln umfaßt:

a) ein erstes Modul mit einer ersten Speichereinheit zum Aufnehmen von Zwischenwerten und mit einer Wort verarbeitungsanordnung zur Bildung von neuen Zwischen werten aus gespeicherten Zwischenwerten und Vergleichs ergebnissen für je einen Referenzwert aus je einem Sprachsignalwert,
b) ein zusätzliches Modul mit einer zweiten Speicher einheit zur Speicherung der Referenzwerte der Wörter des Vokabulars und mit einer Vergleichsanordnung, die jeden Sprachsignalwert von der Vorverarbeitungsanord nung mit mindestens einem Teil der gespeicherten Referenzwerte vergleicht und den Abstandswert zwischen dem Sprachsignalwert und jedem verglichenen Referenz wert getrennt bestimmt und Abstandswerte aufakkumuliert und wenigstens die akkumulierten Abstandswerte als Vergleichsergebnisse in einer dritten Speichereinheit in diesem Modul zwischenspeichert,
c) ein weiteres zusätzliches Modul mit einer vierten Speichereinheit zur Speicherung von Sprachregeln und mit einer Sprachmodell-Verarbeitungsanordnung, die bei jedem Sprachsignalwert, bei dem in dem zusätzlichen Modul die Vergleichsanordnung einen Vergleich mit dem letzten Referenzwert eines Wortes durchführt, mit den dazu im ersten Modul gebildeten Zwischenwerten und den gespeicherten Sprachregeln die bei den nächsten Sprachsignalwerten zu vergleichenden Wörter bzw. die zugehörigen Referenzwerte bestimmt.

Der Erfindung liegt der allgemeine Gedanke zugrunde, die gesamten Verarbeitungsvorgänge bei der Spracherkennung in im wesentlichen selbständige Funktionsblöcke zu zerlegen. Jeder dieser Funktionsblöcke kann dann in Abhängigkeit von den anwendungsbedingten Anforderungen als Programm in der Rechenanordnung oder als spezielle Schaltung zur Signal verarbeitung ausgeführt sein. Jedes Modul stellt dabei einen Funktionsblock dar. Eine konkrete elektronische Schaltung zur Realisierung eines Moduls kann mittels mehrerer integrierter Schaltungen auf einer Leiterplatte oder als eine oder wenige spezielle integrierte Schaltungen realisiert sein. Abhängig von der Komplexität der Verarbeitungsvorgänge bei der Erkennung des Sprach signals ist außer der Vorverarbeitungsanordnung und der programmgesteuerten Rechenanordnung das erste Modul, das erste und das zusätzliche Modul oder das erste, das zusätzliche und das weitere zusätzliche Modul als Schaltung ausgeführt, so daß das erste Modul bei nahezu allen Systemen, die über die Einzelworterkennung von beispielsweise nur den zehn Ziffern hinausgehen, bereits vorhanden ist, während bei einem noch größeren Vokabular nicht nur das erste, sondern auch das zusätzliche Modul als konkrete Schaltung ausgeführt ist. Damit können für diese Module große Stückzahlen erzielt werden.

Das Aufteilen von größeren Anordnungen in einzelne Module und gegebenenfalls deren Realisierung als integrierte Schaltung ist grundsätzlich bekannt, beispielsweise aus dem "Lexikon der Datenverarbeitung", Verlag Moderne Industrie, 4. Auflage, 1996, Seite 376. Daraus geht jedoch nicht hervor, wie in einem Einzelfall, besonders bei einer Anordnung zur Erkennung von Wörtern gemäß der vorliegenden Erfindung, eine Aufteilung in Module erfolgen soll und welche einzelnen Elemente in jeweils einem Modul günstig zusammengefaßt werden können.

In der EP 0 344 017 A2 wird ein Spracherkennungssystem beschrieben, das aus einer Mehrzahl von Sektionen besteht. Diese einzelnen Sektionen, die von einer gemeinsamen Steueranordnung gesteuert werden, beziehen sich jedoch auf einzelne Verarbeitungsschritte beim Spracherkennungsvorgang und beziehen sich nicht auf einen modularen Aufbau. Die Unterteilung in die einzelnen Sektionen berücksichtigt auch nicht den Aufbau von Spracherkennungssystemen stark unterschiedlichen Umfangs durch Zufügen oder Weglassen einzelner Sektionen, denn der größte Teil der Sektionen ist grundsätzlich auch für einfache Spracherkennungssysteme erforderlich.

Es gewisser Anteil von Steuerfunktionen verbleibt auch bei Verwendung aller drei Moduln noch bei der programmgesteuerten Rechenanordnung. Für sehr komplexe Spracherkennungsprobleme oder hohe Geschwindigkeitsanforderungen kann dies jedoch nicht ganz ausreichend sein. Nach einer Ausgestaltung der Erfindung ist es daher zweckmäßig, daß das erste Modul und/oder das weitere zusätzliche Modul eine Steueranordnung enthalten, die den Datenaustausch zwischen der Speichereinheit und der Wortverarbeitungsanordnung bzw. der Sprachmodell-Verarbeitungsanordnung steuert. Auf diese Weise wird die programmgesteuerte Rechenanordnung noch weitergehend von speziellen Spracherkennungsproblemen entlastet.

Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1 das Blockschaltbild einer erfindungsgemäßen Anordnung mit weitestgehender Realisierung durch konkrete Schaltungen,

Fig. 2 eine erfindungsgemäße Anordnung mit nur einem Modul für ein geringes Vokabular,

Fig. 3 eine Anordnung mit zwei Moduln für ein größeres Vokabular und insbesondere für zusammenhängend gesprochene Sprache,

Fig. 4 eine erfindungsgemäße Anordnung für ein großes Vokabular und zusätzliche Berücksichtigung von Sprachregeln in einem gesonderten Modul.

In Fig. 1 ist eine Anordnung mit maximalem Ausbau im Blockschaltbild dargestellt, die praktisch alle Funktionen, die für die Spracherkennung, d. h. für die Erkennung der Wörter in einem Sprachsignal, bei einem großen Vokabular und bei der Berücksichtigung komplexer Sprachmodelle bzw. Sprachregeln erforderlich sind, in Form einzelner Funktionsblöcke zeigt. Diese Funktionsblöcke können für verschiedenartige Erkennungsverfahren oder Algorithmen jeweils weitestgehend gleich aufgebaut sein, insbesondere wenn die einzelnen Verarbeitungsanordnungen und Steueranordnungen programmgesteuert arbeiten, da dann die verschiedenen Algorithmen mehr in den entsprechenden Programmen als in der konkret aufgebauten Schaltung der einzelnen Blöcke liegen.

Bei der in Fig. 1 dargestellten Anordnung wird das von einem Mikrofon aufgenommene Sprachsignal über den Eingang 9 einer Vorverarbeitungsanordnung 10 zugeführt. Darin wird das Sprachsignal in einem Verstärker 12 verstärkt und ggf. gefiltert und in einem Analog-Digital-Wand ler 14 in eine Folge von digitalen Werten umgesetzt. Der Block 16 stellt schließlich eine Schaltung dar, die aus dem Sprachsignal charakteristische Parameterwerte bildet, beispielsweise die Amplituden in einer Anzahl getrennter Frequenzbereiche.

Diese Parameterwerte werden über den Ausgang 11 einem Modul 40 und darin einer Schaltung 42 zugeführt, die aus diesen Parameterwerten andere Werte ableitet, die für den weiteren Erkennungsvorgang besonders gut geeignet sind. Dies können beispielsweise Diphone oder Phoneme sein.

Diese abgeleiteten Signale werden über die Verbindung 43 einer Vergleichsanordnung 44 zugeführt, wo diese abge leiteten Signalwerte mit Referenzwerten verglichen werden, die aus einem Referenzwertspeicher 48 ausgelesen werden. Jeder Sprachsignalwert bzw. abgeleitete Sprachsignalwert auf der Verbindung 43 wird dabei nacheinander mit einer Anzahl Referenzwerte verglichen, die hier von einer programmgesteuerten Rechenanlage 20, beispielsweise einem Microcomputer, durch Adressierung über die Verbindung 23 bestimmt werden.

Das Ergebnis dieses Vergleichs, d. h. der Abstand zwischen dem Sprachsignalwert und dem jeweils verglichenen Referenzwert, wird in üblicher Weise zu einer gespeicherten Abstandssumme, die in einem Schreib-Lese-Spei cher 46 gespeichert ist und über die Verbindung 45 der Vergleichsanordnung 44 zugeführt wird, addiert und als akkumulierter Abstandswert im Speicher 46 wieder abge speichert. Dabei können noch weitere Steuerwerte mit abgespeichert werden, wie beispielsweise aus der bereits eingangs genannten DE 32 15 868 A1 bekannt ist.

Die in dem Modul 40 erzeugten Abstandswerte bzw. -akkumulierten Abstandswerte werden über die Verbindung 47 einem Modul 30 zugeführt, und zwar einer darin enthaltenen Wortverarbeitungsanordnung 32. Diese steht mit einer Steueranordnung 36 in Verbindung, die den Datenaustausch mit einem Speicher 34 steuert. Die Wortverarbeitungs anordnung 32 und der Speicher 34, der hier als aus drei Speicherebenen bestehend dargestellt ist, entsprechen den Elementen der aus der ebenfalls eingangs bereits genannten EP 285 211 A2 bekannten Anordnung. In diesem Modul wird ein wesentlicher Teil des Erkennungsvorgangs, nämlich der Aufbau bzw. die Weiterverfolgung der einzelnen Erkennungs hypothesen durchgeführt, wofür ein gewisser Speicher platzbedarf notwendig ist, vor allem jedoch sehr viele Speicherzugriffe für jeden neuen Sprachsignalwert erforderlich sind. Hier kann auch eine Reduktion der Anzahl verglichener Referenzwerte je Sprachsignalwert durch Verwendung von Schwellwerten erfolgen.

An den Wortgrenzen, d. h. wenn eine im Modul 30 verfolgte Hypothese wenigstens ein Wortende erreicht hat, werden die entsprechenden Werte über die Verbindung 37 einem Modul 50 zugeführt, das eine Sprachmodell-Verarbeitungsanordnung 52 und einen Speicher 54 zur Speicherung von das Sprachmodell repräsentierenden Sprachregeln enthält. Der Datenaustausch zwischen dem Sprachmodell-Speicher 54 und der Sprachmodell-Verarbeitungsanordnung 52 erfolgt über eine Steueranordnung 56. Der Sprachmodell-Speicher 54 und die Sprachmodell-Verarbeitungsanordnung 52 oder wenigstens eines dieser Elemente werden von der Rechenanordnung 20 über Steuerverbindungen 25 bzw. 26 gesteuert. Über die Verbindung 25 wird am Ende des zu erkennenden Sprach signals auch die Folge der erkannten Wörter der Rechen anordnung 20 zugeführt, die diese Folge über den Ausgang 21 einer nicht dargestellten Ausgabeanordnung zu führt.

Mit der in Fig. 1 dargestellten Anordnung lassen sich sehr komplexe Spracherkennungs-Algorithmen sehr schnell, bei entsprechendem Aufwand auch in Echtzeit, unter Berück sichtigung komplexer Sprachmodelle durchführen. Anderer seits stellen die einzelnen Moduln 30, 40 und 50 Funktionsblöcke dar, d. h. die dafür angegebenen Funktionen müssen bei einem entsprechend komplexen Spracherkennungs verfahren durchgeführt werden.

In manchen Fällen sind derartige komplexe Sprachverfahren jedoch nicht gewünscht bzw. deren Durchführung nicht wirtschaftlich. Im einfachsten Falle muß aber mindestens die Vorverarbeitungsanordnung 10 vorhanden sein, da diese analoge Signale verarbeitet, während für eine einfache Spracherkennungsaufgabe außerdem nur die programm gesteuerte Rechenanordnung 20 erforderlich ist. Dafür erhält letztere beispielsweise die am Ausgang 11 der Vorverarbeitungsanordnung 10 erzeugten Sprachsignalwerte und führt die Vergleiche mit Referenzwerten und die Bestimmung der optimal passenden Folge von Referenzwerten programmgesteuert durch. Dies ist möglich, wenn das Vokabular nur sehr klein ist und wenn insbesondere kein zusammenhängend gesprochener Satz unter Berücksichtigung komplexer Sprachregeln erkannt werden soll, sondern lediglich eine Einzelworterkennung, beispielsweise eine akustische Kommandoerkennung, oder eine Erkennung von isoliert gesprochenen Ziffern erforderlich ist. Die Funktionen der beschriebenen Moduln werden dann alle programmgesteuert in der Rechenanordnung 20 ausgeführt.

Eine Anordnung zur Spracherkennung mit einem etwas größeren Vokabular von etwa 100 Wörtern ist in Fig. 2 dargestellt. Dabei bedeuten gleiche Bezugszeichen die gleichen Elemente bzw. Funktionseinheiten wie in Fig. 1. Der Vergleich der am Ausgang 11 der Vorverarbeitungs anordnung 10 erzeugten Sprachsignalwerte mit Referenz werten, d. h. die Funktion des Moduls 40 in Fig. 1, erfolgt in der programmgesteuerten Rechenanordnung 20, und die Vergleichsergebnisse werden über eine Verbindung 28 dem hier als konkrete Schaltung vorhandenen Modul 30 zugeführt, und zwar der Wortverarbeitungsanordnung 32 darin. Diese letztere möge den Datenaustausch über die Verbindung 35 mit dem Speicher 34 direkt steuern, was bei einem kleinen Vokabular und einem sich dadurch ergebenden kleinen Suchraum für die Hypothesen leicht möglich ist. Dennoch benötigt der Speicher 34 schon bei einem kleinen Vokabular für die Suche der optimalen Hypothese eine relativ große Anzahl von Speicherzugriffen, von denen durch Realisierung des Moduls 30 als konkrete Schaltung die programmgesteuerte Rechenanordnung 20 dann entlastet wird. Die Berücksichtigung eines einfachen Sprachmodells, wofür über die Verbindung 28 dann Daten zwischen dem Modul 30 und der Rechenanordnung 20 ausgetauscht werden, ist in letzterer durch entsprechende Programmsteuerung noch mit tragbarem Zeitaufwand möglich. Die Durchführung der einzelnen Vergleiche bzw. die Bestimmung der Abstandswerte selbst erfordert dagegen nur einen geringen Rechenaufwand und nur eine begrenzte Anzahl Speicherzugriffe, so daß diese Aufgabe bei einem kleinen Vokabular von der Rechenanordnung 20 ausgeführt werden kann.

Bei einem größeren Vokabular steigt dagegen die Anzahl der Referenzwerte, die mit jedem Sprachsignalwert verglichen werden müssen, so daß diese Vergleiche in dem als konkrete Schaltung gesondert aufgebauten Modul 40 durchgeführt werden, wie dies in Fig. 3 dargestellt ist. Die einzelnen Vorgänge in diesem Modul sind bereits bei der Erläuterung der Fig. 1 beschrieben worden, so daß sie hier nicht nochmals aufgeführt werden. Die eventuelle Berücksichti gung eines einfachen Sprachmodells kann dagegen in der programmgesteuerten Rechenanordnung 20 erfolgen.

Erst wenn das Sprachmodell sehr komplex wird, wird ein als konkrete Schaltung ausgebildetes Modul 50 dafür vorgesehen, wie in Fig. 4 dargestellt ist. Dabei ist vorgesehen, daß die Sprachmodell-Verarbeitungsanordnung direkt den Datenaustausch mit dem Sprachmodell-Speicher 54 über die Verbindung 53 steuert. Die für die Berücksichti gung des Sprachmodells, d. h. für die Bestimmung neuer zu vergleichender Folgen von Referenzwerten notwendigen Werte werden der Sprachmodell-Verarbeitungsanordnung 52 über die Verbindung 33 von der Wortverarbeitungsanordnung 32 direkt zugeführt. Dadurch wird die Rechenanordnung 20 von besonders rechen- und speicherzugriffsintensiven Vorgängen entlastet.

Wenn bei einem sehr großen Vokabular der Suchalgorithmus sehr komplex wird und außerdem ein sehr komplexes Sprach modell berücksichtigt werden soll, ist in den Moduln 30 und 50 noch jeweils eine zusätzliche Steueranordnung 36 bzw. 56 vorgesehen, wie dies in Fig. 1 dargestellt ist. Eine solche zusätzliche Steueranordnung braucht die übrigen Elemente der Moduln jedoch kaum zu beeinflussen, so daß die Moduln 30 und 50, d. h. die konkreten Schaltungsanordnungen dafür, unabhängig von der jeweiligen Steueranordnung aufgebaut werden können und lediglich das wahlweise zusätzliche Einfügen der Steueranordnung vorbereitend berücksichtigt werden kann.

Claims

1. Anordnung zur Erkennung von Wörtern in einem Sprachsignal, mit einer Vorverarbeitungsanordnung (10), die aus dem kontinuierlichen Sprachsignal eine zeitliche Folge von Sprachsignalwerten ableitet, von denen jeder Sprachsignalwert die Werte von Parametern in einem Zeitabschnitt des Sprachsignals angibt, und mit einer Verarbeitungsanordnung, die jeden Sprachsignalwert mit mindestens einem Teil der Referenzwerte der Wörter eines vorgegebenen Vokabulars vergleicht und die Vergleichsergebnisse weiterverarbeitet und dabei Zwischenwerte bildet und zwischenspeichert und aus den Zwischenwerten am Ende des Sprachsignals die erkannten Wörter ableitet und ausgibt, dadurch gekennzeichnet, daß die Verarbeitungsanordnung wenigstens eine programmgesteuerte Rechenanordnung (20) sowie abhängig von der Größe des Vokabulars und der bei Wortübergängen berücksichtigten Sprachregeln wenigstens einen der folgenden von der Rechenanordnung gesteuerten Moduln umfaßt:

a) ein erstes Modul (30) mit einer ersten Speichereinheit (34) zum Aufnehmen von Zwischenwerten und mit einer Wortverarbeitungsanordnung (32) zur Bildung von neuen Zwischenwerten aus gespeicherten Zwischenwerten und Vergleichsergebnissen für je einen Referenzwert aus je einem Sprachsignalwert,
b) ein zusätzliches Modul (40) mit einer zweiten Speichereinheit (48) zur Speicherung der Referenzwerte der Wörter des Vokabulars und mit einer Vergleichsanordnung (44), die jeden Sprachsignalwert von der Vorverarbeitungsanordnung (10) mit mindestens einem Teil der gespeicherten Referenzwerte vergleicht und den Abstandswert zwischen dem Signalwert und jedem verglichenen Referenzwert getrennt bestimmt und Abstandswerte aufakkumuliert und wenigstens die akkumulierten Abstandswerte als Vergleichsergebnisse in einer dritten Speichereinheit (46) in diesem Modul zwischenspeichert,
c) ein weiteres zusätzliches Modul (50) mit einer vierten Speichereinheit (54) zur Speicherung von Sprachregeln und mit einer Sprachmodell-Verarbei tungsanordnung (52), die bei jedem Sprachsignalwert, bei dem in dem zusätzlichen Modul die Vergleichsanordnung (44) einen Vergleich mit dem letzten Referenzwert eines Wortes durchführt, mit den dazu im ersten Modul gebildeten Zwischenwerten und den gespeicherten Sprachregeln die bei den nächsten Sprachsignalwerten zu vergleichenden Wörter und die zugehörigen Referenzwerte bestimmt.

2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß das erste Modul (30) und/oder das weitere zusätzliche Modul (50) eine Steueranordnung (36; 56) enthalten, die den Datenaustausch zwischen der Speichereinheit (34; 54) und der Wortverarbeitungsanordnung (32) und/oder der Sprachmodell-Verarbeitungsanordnung (52) steuert.