-
Die
vorliegende Erfindung betrifft eine Spracherkennung, die insbesondere,
jedoch nicht ausschließlich
bei automatischen Sprachdialogdiensten zur Verwendung in einem Telefonnetzwerk
verwendet werden kann.
-
Ein
Abfragedienst, bei dem einem Benutzer eine Reihe von Fragen gestellt
werden, um Antworten zu erhalten, die nach Erkennung durch eine
Spracherkennung den Zugriff auf einen oder mehrere gewünschte Einträge in einer
Informationsbank zulassen, stellt eine typische Anwendung dar. Ein
Beispiel hierfür
bildet ein Adressenanfragesystem, bei dem ein Benutzer, der die
Telefonnummer eines Teilnehmers erfahren möchte, aufgefordert wird, Stadt
und Straße
der Adresse des Teilnehmers sowie dessen Nachnamen anzugeben.
-
Bei
einem zur Verwaltung einer großen
Anzahl von Kundeneinträgen
erforderlichen System – beispielsweise
gibt es im Vereinigten Königreich etwa
500.000 unterschiedliche Nachnamen – besteht das Problem darin,
dass die Erkennungsgenauigkeit beträchtlich sinkt, sobald das Nachnamenverzeichnis sehr
groß wird.
Außerdem
wird der zur Durchführung einer
solchen Aufgabe in Echtzeit erforderliche Aufwand an Speicherplatz
und Verarbeitungsleistung unermesslich hoch.
-
In
unserer anhängigen
Patentanmeldung
WO 96/13030 ist
ein Weg zur Überwindung
dieses Problems beschrieben, bei dem:
- (i) Der
Benutzer den Namen einer Stadt ausspricht;
- (ii) eine Spracherkennung unter Bezugnahme auf gespeicherte
Städtedaten
mehrere Städte
identifiziert, die dem ausgesprochenen Städtenamen am besten entsprechen
und die eine Bewertung oder Wahrscheinlichkeit erzeugt, die angibt,
wie gut die Entsprechung ist;
- (iii) eine Liste aller in den identifizierten Städten vorkommenden
Straßennamen
erstellt wird;
- (iv) der Benutzer den Straßennamen
ausspricht;
- (v) die Spracherkennung mehrere Straßennamen aus der Liste identifiziert,
die dem ausgesprochenen Straßennamen
am besten entsprechen und diese wieder bewertet;
- (vi) jede der Straßenbewertungen
entsprechend der für
die Stadt, in der sich die Straße
befindet, erhaltenen Bewertung gewichtet wird und als das wahrscheinlichste "Straßen"-Ergebnis das angesehen
wird, das die beste gewichtete Bewertung aufweist.
-
Der
Nachteil eines solchen Systems besteht darin, dass, falls die richtige
Stadt nicht als eine der besten Entsprechungen identifiziert wird,
die Anfrage zum Scheitern verurteilt ist.
-
Gemäß einem
ersten Gesichtspunkt der vorliegenden Erfindung wird ein wie in
Anspruch 1 dargelegtes Verfahren angegeben.
-
Gemäß einem
zweiten Gesichtspunkt der vorliegenden Erfindung wird eine wie in
Anspruch 6 dargelegte Vorrichtung angegeben.
-
Gemäß einem
dritten Gesichtspunkt der vorliegenden Erfindung wird eine Vorrichtung
angegeben, die den Verfahrensmerkmalen eines der Ansprüche 1 bis
5 entsprechende Vorrichtungsmerkmale aufweist.
-
Gemäß einem
vierten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren
angegeben, das den Vorrichtungsmerkmalen eines der Ansprüche 6 bis
9 entsprechende Verfahrensmerkmale aufweist.
-
Gemäß einem
fünften
Gesichtspunkt der vorliegenden Erfindung wird ein wie in Anspruch
10 dargelegtes Trägermedium
angegeben.
-
Im
Folgenden wird eine Ausführungsform der
vorliegenden Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen
erläutert,
worin:
-
1 eine
Architektur eines Adressenanfragesystems veranschaulicht;
-
2 ein
Flussdiagramm zur Veranschaulichung der Funktionsweise des Adressenanfragesystems
von 1 zeigt, das ein erfindungsgemäßes Verfahren verwendet;
-
3 ein
zweites Flussdiagramm zur Veranschaulichung der Betriebsweise des
Adressenanfragesystems von 1 zeigt,
bei dem eine zweite Ausführungsform
eines erfindungsgemäßen Verfahrens verwendet
wird;
-
4 ein
Flussdiagramm zur Veranschaulichung eines Verfahrens zeigt, das
eine Verknüpfung zwischen
Nachnamen, für
die in dem Speicher 8 von 1 keine
Audiodarstellung gespeichert ist, und Nachnamen, für die in
dem Speicher 8 eine Audiodarstellung gespeichert ist, erzeugt;
-
5 ein
Flussdiagramm zur Veranschaulichung eines zweiten Verfahrens zeigt,
das eine Verknüpfung
zwischen Nachnamen, für
die keine Audiodarstellung in dem Speicher 8 von 1 gespeichert ist,
und Nachnamen, für
die eine Audiodarstellung in dem Speicher 8 gespeichert
ist, erzeugt.
-
Ein
struktureller Aufbau eines Adressenanfragesystems wird unter Bezugnahme
auf die 1 erläutert. Es ist ein Sprachgenerator 1 vorgesehen, der über eine
Telefonleitungsschnittstelle 2 unter Bezugnahme auf in
einem Mitteilungsspeicher 3 gespeicherte festgelegte Mitteilungen
oder aus unterschiedlichen Informationen, die von einer Hauptsteuereinrichtung 4 an
ihn geleitet werden, Ansagen an einen Benutzer erstellt. Über die
Telefonleitungsschnittstelle 2 eingehende Sprachsignale
werden an die Spracherkennung 5 weitergeleitet, die gesprochene
Worte unter Bezugnahme auf in den Erkennungsdatenspeichern 6, 7, 8 jeweils
für Stadtnamen,
Straßennamen
oder Nachnamen gespeicherte Erkennungsdaten erkennen kann.
-
Eine
Adressenhauptdatenbank 9 enthält in dem von dem Adressenanfragedienst
abgedeckten Gebiet für
jeden Telefonkunden einen Eintrag, der den Namen, die Adresse und
die Telefonnummer dieses Kunden in Textform enthält. Der Datenspeicher 6 für das Erkennen
von Städtenamen
enthält
von allen in der Adressendatenbank 9 enthaltenen Städten die Namen
in Form von Text zusammen mit den gespeicherten Daten, die es der
Spracherkennung 5 ermöglichen,
aus den über
die Telefonleitungsschnittstelle 2 empfangenen Sprachsignalen
diese Städtenamen
zu erkennen. Im Prinzip kann jede Art von Spracherkennung verwendet
werden. In der vorliegenden Ausführungsform
der Erfindung basiert die Spracherkennung auf einer Erkennung unterschiedlicher
Phoneme in der Spracheingabe, die unter Bezugnahme auf die in dem
Speicher 6 gespeicherten Audiodarstellungen decodiert werden,
der eine im voraus erstellte Baumstruktur phonetischer Übersetzungen
der in dem Speicher 6 gespeicherten Städtenamen darstellt und wobei
das Decodieren mittels eines Viterbi-Algorithmus erfolgt. Die Speicher 7, 8 für die Straßennamenerkennungsdaten
und die Nachnamenerkennungsdaten sind in gleicher Weise organisiert.
-
Die
Audiodarstellungen können
ebenso gut in einem gesonderten Speicher, auf den über Daten in
den Speichern 6, 7 und 8 verwiesen wird,
gespeichert werden. In diesem Fall müssen die Audiodarstellungen
eines jeden Phonems, auf das in den Speichern 6, 7 und 8 verwiesen
wird, nur einmal in diesem gesonderten Speicher gespeichert werden.
-
Jeder
der Einträge
in dem Datenspeicher 6 für Städte enthält, wie oben erwähnt, Text,
der zu jedem der in der Datenbank 9 erscheinenden Städtenamen
korrespondiert, um als Kennzeichnung für die Verknüpfung der Einträge in dem
Speicher 6 mit den Einträgen in der Datenbank 9 zu
dienen (obgleich, falls dies vorgezogen wird, andere Arten von Kennzeichnungen
verwendet werden können).
Erwünschtenfalls
kann der Speicher 6 für
jeden Namen einer Stadt einen Eintrag enthalten, den ein Benutzer unabhängig davon,
ob alle diese Namen tatsächlich in
der Datenbank vorhanden sind, dazu verwenden kann, um auf geografische
Ortsangaben, die von der Datenbank abgedeckt werden, Bezug zu nehmen. Auf
Grund der Erkenntnis, dass einige Städtenamen nicht eindeutig sind
(im Vereinigten Königreich
existieren vier Städte
namens Southend) und dass einige Städtenamen dieselbe Bedeutung
aufweisen (z. B. bedeutet Hammersmith, das ein Bezirk von London ist,
soweit es die Einträge
in diesem Bezirk betrifft, dasselbe wie London), ist auch ein Speicher 39 für Wortentsprechungen
vorgesehen, der solche Entsprechungen enthält, die nach jeder Erkennung
eines Städtenamens
herangezogen werden können, um
dem Satz der als erkannt zu betrachtenden Städtenamen weitere Möglichkeiten
hinzuzufügen.
Wenn zum Beispiel "Hammersmith" erkannt wird, wird
dem Satz London hinzugefügt;
wenn "Southend" erkannt wird, dann
werden Southend-on-Sea, Southend (Campbeltown), Southend (Swansea)
und Southend (Reading) hinzugefügt.
-
Der
Datenspeicher 39 für
Wortentsprechungen könnte
gewünschtenfalls ähnliche
Informationen für
Straßen
und Nachnamen oder, falls diese verwendet werden, für Vornamen
enthalten; zum Beispiel werden Dave und David als denselben Namen
repräsentierend
angesehen.
-
Als
Alternative zu dieser Struktur kann der Speicher 39 für Wortentsprechungen
zur Übersetzung
zwischen den in den Namenspeichern 6, 7, 8 verwendeten
Kennzeichnungen und den in der Datenbank verwendeten Kennzeichnungen
(unabhängig
davon, ob die Kennzeichnungen Namen in Textform darstellen) dienen.
-
Die
Verwendung von Text zur Bestimmung des Grundwortschatzes der Spracherkennung
erfordert, dass die Spracherkennung eine oder mehrere Kennzeichnungen
in Textform zu einer bestimmten Aussprache in Beziehung setzen kann.
Das bedeutet, dass im Falle eines "Erkennungsbaums" jedes Blatt des Baums eine oder mehrere
daran angebrachte, in Textform gehaltene Kennzeichnungen aufweisen
kann.
-
Das
Anbringen von mehreren in Textform gehaltenen Kennzeichnungen an
ein bestimmtes Blatt des Baums stellt ein bekanntes Verfahren dar,
um wie oben beschrieben mit einander entsprechenden Arten einer
Bezugnahme auf dasselbe Datenelement in einer Datenbank zu verfahren.
Diese Technik kann auch im Umgang mit Homophonen (Wörtern, die
in derselben Weise ausgesprochen, aber unterschiedlich geschrieben
werden), zum Beispiel "Smith" und "Smyth", verwendet werden.
-
Daten
von Nachnamen der Bevölkerung
des Vereinigten Königreichs
wie möglicherweise
vieler anderer Gebiete sind insoweit ungleichgewichtig, als nicht
alle Nachnamen gleich wahrscheinlich sind. Tatsächlich werden von den ca. 500.000
Nachnamen, die im Vereinigten Königreich
verwendet werden, etwa 50.000 (d. h. 10%) von etwa 90% der Bevölkerung
verwendet. Wenn eine Nachnamenerkennung für das Erkennen von 500.000
Nachnamen verwendet wird, so wird die Erkennungsgenauigkeit zu Gunsten
der 10% der Bevölkerung,
die ungewöhnliche
Namen besitzen, beträchtlich
reduziert.
-
In
dieser Ausführungsform
der Erfindung enthält
der Erkennungsdatenspeicher 8 Audiodarstellungen von etwa
50.000 Nachnamen, die den Nachnamen von etwa 90% der Bevölkerung
des Vereinigten Königreichs
entsprechen. Viele Kennzeichnungen in Textform werden mit einer
bestimmten Audiodarstellung verknüpft, indem an ein bestimmtes Blatt
in einem Baum in Textform gehaltene Kennzeichnungen angebracht werden.
Diese in Textform gehaltenen Kennzeichnungen stellen Nachnamen dar,
die ähnlich
wie diese bestimmte Audiodarstellung klingen. Daher ist eine Liste
von Nachnamen vorgesehen, die ähnlich
klingen wie der Nachname, der von der bestimmten Audiodarstellung
repräsentiert
wird, die aber in dem Speicher 8 nicht selbst von Audiodaten
repräsentiert
werden. Hierdurch wird eine größere Anzahl
von Nachnamen von einer kleineren Datenstruktur repräsentiert,
wodurch sich der erforderliche Speicheraufwand verringert. Ferner
ist der erforderliche Aufwand an Verarbeitungsleistung viel geringer
und es wird möglich,
die Spracherkennung in Echtzeit mit einem weniger leistungsfähigen Prozessor
durchzuführen.
Ein anderer Vorteil besteht darin, dass die Erkennungsgenauigkeit
für diese
am häufigsten
vorkommenden 10% der Namen wesentlich höher ist, als wenn die verbleibenden
90% der Namen ebenfalls in dem Speicher 8 dargestellt werden
würden.
Im verbleibenden Teil dieser Beschreibung werden die am häufigsten
verwendeten 10% der Nachnamen als "gewöhnliche
Nachnamen" und die
verbleibenden 90% der Nachnamen als "ungewöhnliche Nachnamen" bezeichnet. Natürlich können auch
andere Prozentsätze
verwendet werden und die verwendeten Prozentsätze können von den Eigenschaften
der jeweils modellierten Daten abhängen.
-
Die
Funktionsweise des Adressenanfragesystems von 1 ist
in dem Flussdiagramm der 2 veranschaulicht. Das Verfahren
beginnt (10) mit dem Empfang eines ankommenden Telefonanrufs,
der der Steuereinheit 4 von der Telefonleitungsschnittstelle 2 angezeigt
wird; die Steuereinheit reagiert, indem sie den Sprachgenerator 1 anweist,
eine in dem Mitteilungsspeicher 3 gespeicherte Mitteilung wiederzugeben
(11), die den Anrufer auffordert, den benötigten Nachnamen
anzugeben. Die Antwort des Anrufers wird von der Erkennung empfangen
(12). Die Erkennung 3 führt dann unter Bezugnahme auf die
in dem Speicher 8 gespeicherten Audiodarstellungen ihren
Erkennungsprozess (13) aus. Bei gewöhnlichen Nachnamen, die einen
vorgegebenen Ähnlichkeitsgrad
mit der erhaltenen Antwort aufweisen, werden durch Bezugnahme auf
den Datenspeicher 6 zur Stadt erkennung alle damit verknüpften ungewöhnlichen
Nachnamen bestimmt (14). Alle gewöhnlichen Nachnamen, die dem
vorgegebenen Ähnlichkeitsgrad
mit der erhaltenen Antwort genügen,
werden dann zusammen mit allen ungewöhnlichen Nachnamen, die mit
der Audiodarstellung dieser gewöhnlichen
Nachnamen verknüpft
sind, an die Steuereinheit 4 übermittelt.
-
Die
Steuereinheit 4 weist dann den Sprachgenerator an, eine
weitere, nach dem erforderlichen Straßennamen fragende Mitteilung
des Mitteilungsspeichers 3 wiederzugeben (15).
Von dem Anrufer wird eine auf den Straßennamen bezogene weitere Antwort
erhalten (17), die von der Erkennung 3 unter Verwendung
des Datenspeichers 7 verarbeitet wird, und woraufhin die
Erkennung an die Steuereinheit 4 einen Satz mit allen Straßennamen übermittelt,
die einen vorgegebenen Ähnlichkeitsgrad
mit der erhaltenen Antwort aufweisen.
-
Die
Steuereinheit 4 ruft (20) von der Datenbank 9 eine
Liste aller Kunden ab, deren Nachnamen in dem von der Steuereinheit
in Schritt 14 erhalten Satz von Nachnamen enthalten ist,
und die in irgendeiner der Straßen
wohnen, deren Namen von der Steuereinheit in Schritt 18 erhalten
wurde.
-
Zum
Beispiel ist das in Schritt 12 erhaltene Sprachsignal eine
Artikulation des ungewöhnlichen Nachnamens 'Dobson'. Der Satz von Wörtern, die den
vorgeschriebenen Ähnlichkeitsgrad
mit der erhaltenen Antwort aufweisen, umfasst den alltäglichen Nachnamen 'Robson'. 'Robson' ist mit den ähnlich klingenden
Nachnamen 'Hobson', 'Dobson' und 'Fobson' verknüpft. Das
in Schritt 17 erhaltene Sprachsignal stellt eine Artikulation
des Straßennamens 'Dove Street' dar. Der Satz von
Wörtern,
die den vorgeschriebenen Ähnlichkeitsgrad
mit der er haltenen Antwort aufweisen, umfasst den Straßennamen 'Dove Street'. Es existiert jedoch
kein in der 'Dove
Street' wohnender
Kunde namens 'Robson'. Aber es existiert
ein Kunde namens 'Dobson', der in der 'Dove Street' wohnt, weshalb die
Datenbankabfrage von Schritt 22 die Einzelheiten für den Kunden 'Dobson' in der 'Dove Street' abruft, obwohl der
Datenspeicher 8 für
die Namenserkennung keine Audiodarstellung für den Namen 'Dobson' enthält.
-
An
dieser Stelle lohnt es sich anzumerken, dass ähnlich klingende Namen, wie
beispielsweise Roberts und Doberts beide in dem Satz alltäglicher Nachnamen
vorkommen können
und in der Tat jeder eine mit der des jeweils anderen identische
Liste ungewöhnlicher
Nachnamen aufweisen kann.
-
Bei
einer praktischen Anwendung für
ein großes
Gebiet (zum Beispiel für
das gesamte Vereinigte Königreich)
würde das
Adressenanfragesystem tatsächlich
wie in 3 veranschaulicht betrieben werden, worin von
dem Anrufer in Schritt 19 weitere die Städtenamen
betreffende Informationen angefordert werden. Von dem Anrufer wird
eine weitere, den Stadtnamen betreffende Antwort erhalten (20)
und von der Erkennung 3 unter Verwendung des Datenspeichers 6 verarbeitet
(21). Daraufhin übermittelt
die Erkennung an die Steuereinheit 4 einen Satz aller Städtenamen,
die einen vorgegebenen Ähnlichkeitsgrad
mit der erhaltenen Antwort aufweisen. Dieser Satz von Städtenamen
wird dann in Schritt 22 zusammen mit den Daten für die Straßennamen
und Nachnamen zum Abrufen der Datenbank verwendet. Wenn von der
Datenbank Daten abgerufen werden, die sich auf mehr als einen Kunden
beziehen, kann der Benutzer zur Angabe weiterer Informationen aufgefordert
werden (diese Schritte sind nicht gezeigt).
-
In
einer weiteren Ausführungsform
der Erfindung erstellt die Spracherkennung 5 eine Bewertung darüber, wie
gut eine jede sprachliche Artikulation einer jeden Audiodarstellung
entspricht. Diese Bewertung wird, wenn Daten von der Datenbank abgerufen werden,
die sich auf mehr als einen Kunden beziehen, dazu verwendet, zu
entscheiden, welche der Kundendaten die wahrscheinlicheren sind.
Im Falle der verknüpften,
ungewöhnlichen
Nachnamen kann die verwendete Bewertung nach Statistiken, die sich auf
den Nachnamen beziehen, so gewichtet werden, dass der von der Erkennung 5 auf
die Bewertung angewandte Gewichtungsfaktor umso kleiner wird, je ungewöhnlicher
ein Nachname ist.
-
4 zeigt
ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erzeugen
von Verknüpfungen
zwischen ungewöhnlichen
Nachnamen und gewöhnlichen
Nachnamen, das in dieser Erfindung verwendet werden kann. Eine Spracherkennung,
die von jeder Art von Spracherkennung einschließlich einer wie zuvor beschriebenen
auf Phonemen basierenden Spracherkennung gebildet werden kann, erhält in Schritt 30 eine
sprachliche Artikulation eines ungewöhnlichen Nachnamens. Die erhaltene
sprachliche Artikulation wird in Schritt 31 mit Audiodarstellungen
gewöhnlicher
Nachnamen verglichen und in Schritt 32 wird eine Verknüpfung zwischen
dem bekannten ungewöhnlichen
Nachnamen und dem gewöhnlichen
Nachnamen hergestellt, den die Spracherkennung als äußerst ähnlich mit
dem unbekannten Nachnamen bestimmt hat.
-
5 veranschaulicht
ein alternatives Verfahren zum Erzeugen von Verknüpfungen
zwischen ungewöhnlichen
und gewöhnlichen
Nachnamen, das in dieser Erfindung verwendet werden kann. In Schritt 40 wird
eine Textdarstellung eines ungewöhnlichen Nachnamens
erhalten. In Schritt 41 wird diese Textdarstellung in eine
Phonemsequenz umgewandelt. Eine solche Umwandlung kann unter Verwendung
einer großen
Datenbank vorgenommen werden, die Text mit Phonemsequenzen verknüpft. Die
Umwandlung kann auch unter Verwendung von Regeln für die Umwandlung
von Schrift in Ton (letter to sound rules) vorgenommen werden, wie
sie zum Beispiel in Klatt D. 'Review
of Text-to-Speach Conversion for English', J. accustic Soc Am 82, Nr. 3, Seiten
737–793,
Sept. 1987 beschrieben werden. Die den ungewöhnlichen Nachnamen repräsentierende
Phonemsequenz wird dann mit allen Phonemsequenzen gewöhnlicher Nachnamen
verglichen, indem zum Beispiel eine dynamische Programmiertechnik,
wie die in "Predictive Assessment
for Speaker Independent Isolated Word Recognisers", Alison Simons,
ESCA EUROSPEACH 95, Madrid 1995, Seiten 1465–1467, beschriebene, verwendet
wird. Anschließend
wird der ungewöhnliche
Nachname in Schritt 43 mit dem gewöhnlichen Nachnamen verknüpft, für dessen
phonetische Sequenzen die höchste Ähnlichkeit
festgestellt wurde.
-
Bei
jedem der beiden oben beschriebenen Verfahren (oder jedem anderen)
kann die Verbindung aufgezeichnet werden, indem, wenn in dem Adressenanfragesystem
eine auf einer Baumstruktur basierende Phonemerkennung verwendet
werden soll, eine Kennzeichnung, die den bekannten ungewöhnlichen
Nachnamen repräsentiert,
mit einem Blatt in dem Erkennungsbaum für alltägliche Nachnamen verknüpft wird,
oder indem ein zuvor erläuterter
Speicher für
Wortentsprechungen verwendet wird.
-
Ein
Vorteil des zweiten Verfahrens besteht darin, dass es nicht notwendig
ist, in der Datenbank Sprachdaten bezüglich aller möglichen ungewöhnlichen
Nachnamen zu sammeln, was ein sehr zeitraubendes Unterfangen wäre. Stattdessen
ist nur eine Textdarstellung dieser ungewöhnlichen Nachnamen erforderlich.
Um die besonderen Eigenschaften einer bestimmten Spracherkennung
zu berücksichtigen, kann
eine Phonemkonfusionsmatrix verwendet werden, die die Wahrscheinlichkeit
aufzeichnet, mit der eine bestimmte Erkennung jedes der Phoneme
mit jedem der anderen Phoneme verwechselt. Eine solche Matrix wird,
wie in der oben angegebenen Veröffentlichung
beschrieben, in dem Vergleichsschritt 42 verwendet.
-
Selbstverständlich stellt
die Verwendung von gewöhnlichen
und ungewöhnlichen
Nachnamen in einem Adressenanfragesystem nur ein Beispiel dafür dar, wie
diese Erfindung eingesetzt werden kann. Die Erfindung kann in jedem
sprachgesteuerten Zugriffssystem für Datenbanken verwendet werden,
bei dem die Häufigkeit
bestimmter Datenelemente viel größer als
die Häufigkeit
anderer Datenelemente ist.
-
Ferner
kann das Verfahren erweitert werden, um andere Mustererkennungsgebiete,
wie beispielsweise Bildabfragen, abzudecken, bei denen die Häufigkeit
von Anfragen nach bestimmten Datenelementen wahrscheinlich wiederum
viel größer ist
als die von Anfragen nach anderen Datenelementen.