DE60222413T2

DE60222413T2 - Spracherkennung

Info

Publication number: DE60222413T2
Application number: DE60222413T
Authority: DE
Inventors: Simon Nicholas Ipswich DOWNEY
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2001-04-19
Filing date: 2002-04-15
Publication date: 2008-06-12
Anticipated expiration: 2022-04-16
Also published as: DE60222413D1; CA2440463A1; US20040117182A1; WO2002086863A1; EP1397797A1; EP1397797B1; US7970610B2; CA2440463C

Description

Die vorliegende Erfindung betrifft eine Spracherkennung, die insbesondere, jedoch nicht ausschließlich bei automatischen Sprachdialogdiensten zur Verwendung in einem Telefonnetzwerk verwendet werden kann.
Ein Abfragedienst, bei dem einem Benutzer eine Reihe von Fragen gestellt werden, um Antworten zu erhalten, die nach Erkennung durch eine Spracherkennung den Zugriff auf einen oder mehrere gewünschte Einträge in einer Informationsbank zulassen, stellt eine typische Anwendung dar. Ein Beispiel hierfür bildet ein Adressenanfragesystem, bei dem ein Benutzer, der die Telefonnummer eines Teilnehmers erfahren möchte, aufgefordert wird, Stadt und Straße der Adresse des Teilnehmers sowie dessen Nachnamen anzugeben.
Bei einem zur Verwaltung einer großen Anzahl von Kundeneinträgen erforderlichen System – beispielsweise gibt es im Vereinigten Königreich etwa 500.000 unterschiedliche Nachnamen – besteht das Problem darin, dass die Erkennungsgenauigkeit beträchtlich sinkt, sobald das Nachnamenverzeichnis sehr groß wird. Außerdem wird der zur Durchführung einer solchen Aufgabe in Echtzeit erforderliche Aufwand an Speicherplatz und Verarbeitungsleistung unermesslich hoch.
In unserer anhängigen Patentanmeldung WO 96/13030 ist ein Weg zur Überwindung dieses Problems beschrieben, bei dem:

(i) Der Benutzer den Namen einer Stadt ausspricht;
(ii) eine Spracherkennung unter Bezugnahme auf gespeicherte Städtedaten mehrere Städte identifiziert, die dem ausgesprochenen Städtenamen am besten entsprechen und die eine Bewertung oder Wahrscheinlichkeit erzeugt, die angibt, wie gut die Entsprechung ist;
(iii) eine Liste aller in den identifizierten Städten vorkommenden Straßennamen erstellt wird;
(iv) der Benutzer den Straßennamen ausspricht;
(v) die Spracherkennung mehrere Straßennamen aus der Liste identifiziert, die dem ausgesprochenen Straßennamen am besten entsprechen und diese wieder bewertet;
(vi) jede der Straßenbewertungen entsprechend der für die Stadt, in der sich die Straße befindet, erhaltenen Bewertung gewichtet wird und als das wahrscheinlichste "Straßen"-Ergebnis das angesehen wird, das die beste gewichtete Bewertung aufweist.

Der Nachteil eines solchen Systems besteht darin, dass, falls die richtige Stadt nicht als eine der besten Entsprechungen identifiziert wird, die Anfrage zum Scheitern verurteilt ist.
Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein wie in Anspruch 1 dargelegtes Verfahren angegeben.
Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung wird eine wie in Anspruch 6 dargelegte Vorrichtung angegeben.
Gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung wird eine Vorrichtung angegeben, die den Verfahrensmerkmalen eines der Ansprüche 1 bis 5 entsprechende Vorrichtungsmerkmale aufweist.
Gemäß einem vierten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren angegeben, das den Vorrichtungsmerkmalen eines der Ansprüche 6 bis 9 entsprechende Verfahrensmerkmale aufweist.
Gemäß einem fünften Gesichtspunkt der vorliegenden Erfindung wird ein wie in Anspruch 10 dargelegtes Trägermedium angegeben.
Im Folgenden wird eine Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen erläutert, worin:
1 eine Architektur eines Adressenanfragesystems veranschaulicht;
2 ein Flussdiagramm zur Veranschaulichung der Funktionsweise des Adressenanfragesystems von 1 zeigt, das ein erfindungsgemäßes Verfahren verwendet;
3 ein zweites Flussdiagramm zur Veranschaulichung der Betriebsweise des Adressenanfragesystems von 1 zeigt, bei dem eine zweite Ausführungsform eines erfindungsgemäßen Verfahrens verwendet wird;
4 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zeigt, das eine Verknüpfung zwischen Nachnamen, für die in dem Speicher 8 von 1 keine Audiodarstellung gespeichert ist, und Nachnamen, für die in dem Speicher 8 eine Audiodarstellung gespeichert ist, erzeugt;
5 ein Flussdiagramm zur Veranschaulichung eines zweiten Verfahrens zeigt, das eine Verknüpfung zwischen Nachnamen, für die keine Audiodarstellung in dem Speicher 8 von 1 gespeichert ist, und Nachnamen, für die eine Audiodarstellung in dem Speicher 8 gespeichert ist, erzeugt.
Ein struktureller Aufbau eines Adressenanfragesystems wird unter Bezugnahme auf die 1 erläutert. Es ist ein Sprachgenerator 1 vorgesehen, der über eine Telefonleitungsschnittstelle 2 unter Bezugnahme auf in einem Mitteilungsspeicher 3 gespeicherte festgelegte Mitteilungen oder aus unterschiedlichen Informationen, die von einer Hauptsteuereinrichtung 4 an ihn geleitet werden, Ansagen an einen Benutzer erstellt. Über die Telefonleitungsschnittstelle 2 eingehende Sprachsignale werden an die Spracherkennung 5 weitergeleitet, die gesprochene Worte unter Bezugnahme auf in den Erkennungsdatenspeichern 6, 7, 8 jeweils für Stadtnamen, Straßennamen oder Nachnamen gespeicherte Erkennungsdaten erkennen kann.
Eine Adressenhauptdatenbank 9 enthält in dem von dem Adressenanfragedienst abgedeckten Gebiet für jeden Telefonkunden einen Eintrag, der den Namen, die Adresse und die Telefonnummer dieses Kunden in Textform enthält. Der Datenspeicher 6 für das Erkennen von Städtenamen enthält von allen in der Adressendatenbank 9 enthaltenen Städten die Namen in Form von Text zusammen mit den gespeicherten Daten, die es der Spracherkennung 5 ermöglichen, aus den über die Telefonleitungsschnittstelle 2 empfangenen Sprachsignalen diese Städtenamen zu erkennen. Im Prinzip kann jede Art von Spracherkennung verwendet werden. In der vorliegenden Ausführungsform der Erfindung basiert die Spracherkennung auf einer Erkennung unterschiedlicher Phoneme in der Spracheingabe, die unter Bezugnahme auf die in dem Speicher 6 gespeicherten Audiodarstellungen decodiert werden, der eine im voraus erstellte Baumstruktur phonetischer Übersetzungen der in dem Speicher 6 gespeicherten Städtenamen darstellt und wobei das Decodieren mittels eines Viterbi-Algorithmus erfolgt. Die Speicher 7, 8 für die Straßennamenerkennungsdaten und die Nachnamenerkennungsdaten sind in gleicher Weise organisiert.
Die Audiodarstellungen können ebenso gut in einem gesonderten Speicher, auf den über Daten in den Speichern 6, 7 und 8 verwiesen wird, gespeichert werden. In diesem Fall müssen die Audiodarstellungen eines jeden Phonems, auf das in den Speichern 6, 7 und 8 verwiesen wird, nur einmal in diesem gesonderten Speicher gespeichert werden.
Jeder der Einträge in dem Datenspeicher 6 für Städte enthält, wie oben erwähnt, Text, der zu jedem der in der Datenbank 9 erscheinenden Städtenamen korrespondiert, um als Kennzeichnung für die Verknüpfung der Einträge in dem Speicher 6 mit den Einträgen in der Datenbank 9 zu dienen (obgleich, falls dies vorgezogen wird, andere Arten von Kennzeichnungen verwendet werden können). Erwünschtenfalls kann der Speicher 6 für jeden Namen einer Stadt einen Eintrag enthalten, den ein Benutzer unabhängig davon, ob alle diese Namen tatsächlich in der Datenbank vorhanden sind, dazu verwenden kann, um auf geografische Ortsangaben, die von der Datenbank abgedeckt werden, Bezug zu nehmen. Auf Grund der Erkenntnis, dass einige Städtenamen nicht eindeutig sind (im Vereinigten Königreich existieren vier Städte namens Southend) und dass einige Städtenamen dieselbe Bedeutung aufweisen (z. B. bedeutet Hammersmith, das ein Bezirk von London ist, soweit es die Einträge in diesem Bezirk betrifft, dasselbe wie London), ist auch ein Speicher 39 für Wortentsprechungen vorgesehen, der solche Entsprechungen enthält, die nach jeder Erkennung eines Städtenamens herangezogen werden können, um dem Satz der als erkannt zu betrachtenden Städtenamen weitere Möglichkeiten hinzuzufügen. Wenn zum Beispiel "Hammersmith" erkannt wird, wird dem Satz London hinzugefügt; wenn "Southend" erkannt wird, dann werden Southend-on-Sea, Southend (Campbeltown), Southend (Swansea) und Southend (Reading) hinzugefügt.
Der Datenspeicher 39 für Wortentsprechungen könnte gewünschtenfalls ähnliche Informationen für Straßen und Nachnamen oder, falls diese verwendet werden, für Vornamen enthalten; zum Beispiel werden Dave und David als denselben Namen repräsentierend angesehen.
Als Alternative zu dieser Struktur kann der Speicher 39 für Wortentsprechungen zur Übersetzung zwischen den in den Namenspeichern 6, 7, 8 verwendeten Kennzeichnungen und den in der Datenbank verwendeten Kennzeichnungen (unabhängig davon, ob die Kennzeichnungen Namen in Textform darstellen) dienen.
Die Verwendung von Text zur Bestimmung des Grundwortschatzes der Spracherkennung erfordert, dass die Spracherkennung eine oder mehrere Kennzeichnungen in Textform zu einer bestimmten Aussprache in Beziehung setzen kann. Das bedeutet, dass im Falle eines "Erkennungsbaums" jedes Blatt des Baums eine oder mehrere daran angebrachte, in Textform gehaltene Kennzeichnungen aufweisen kann.
Das Anbringen von mehreren in Textform gehaltenen Kennzeichnungen an ein bestimmtes Blatt des Baums stellt ein bekanntes Verfahren dar, um wie oben beschrieben mit einander entsprechenden Arten einer Bezugnahme auf dasselbe Datenelement in einer Datenbank zu verfahren. Diese Technik kann auch im Umgang mit Homophonen (Wörtern, die in derselben Weise ausgesprochen, aber unterschiedlich geschrieben werden), zum Beispiel "Smith" und "Smyth", verwendet werden.
Daten von Nachnamen der Bevölkerung des Vereinigten Königreichs wie möglicherweise vieler anderer Gebiete sind insoweit ungleichgewichtig, als nicht alle Nachnamen gleich wahrscheinlich sind. Tatsächlich werden von den ca. 500.000 Nachnamen, die im Vereinigten Königreich verwendet werden, etwa 50.000 (d. h. 10%) von etwa 90% der Bevölkerung verwendet. Wenn eine Nachnamenerkennung für das Erkennen von 500.000 Nachnamen verwendet wird, so wird die Erkennungsgenauigkeit zu Gunsten der 10% der Bevölkerung, die ungewöhnliche Namen besitzen, beträchtlich reduziert.
In dieser Ausführungsform der Erfindung enthält der Erkennungsdatenspeicher 8 Audiodarstellungen von etwa 50.000 Nachnamen, die den Nachnamen von etwa 90% der Bevölkerung des Vereinigten Königreichs entsprechen. Viele Kennzeichnungen in Textform werden mit einer bestimmten Audiodarstellung verknüpft, indem an ein bestimmtes Blatt in einem Baum in Textform gehaltene Kennzeichnungen angebracht werden. Diese in Textform gehaltenen Kennzeichnungen stellen Nachnamen dar, die ähnlich wie diese bestimmte Audiodarstellung klingen. Daher ist eine Liste von Nachnamen vorgesehen, die ähnlich klingen wie der Nachname, der von der bestimmten Audiodarstellung repräsentiert wird, die aber in dem Speicher 8 nicht selbst von Audiodaten repräsentiert werden. Hierdurch wird eine größere Anzahl von Nachnamen von einer kleineren Datenstruktur repräsentiert, wodurch sich der erforderliche Speicheraufwand verringert. Ferner ist der erforderliche Aufwand an Verarbeitungsleistung viel geringer und es wird möglich, die Spracherkennung in Echtzeit mit einem weniger leistungsfähigen Prozessor durchzuführen. Ein anderer Vorteil besteht darin, dass die Erkennungsgenauigkeit für diese am häufigsten vorkommenden 10% der Namen wesentlich höher ist, als wenn die verbleibenden 90% der Namen ebenfalls in dem Speicher 8 dargestellt werden würden. Im verbleibenden Teil dieser Beschreibung werden die am häufigsten verwendeten 10% der Nachnamen als "gewöhnliche Nachnamen" und die verbleibenden 90% der Nachnamen als "ungewöhnliche Nachnamen" bezeichnet. Natürlich können auch andere Prozentsätze verwendet werden und die verwendeten Prozentsätze können von den Eigenschaften der jeweils modellierten Daten abhängen.
Die Funktionsweise des Adressenanfragesystems von 1 ist in dem Flussdiagramm der 2 veranschaulicht. Das Verfahren beginnt (10) mit dem Empfang eines ankommenden Telefonanrufs, der der Steuereinheit 4 von der Telefonleitungsschnittstelle 2 angezeigt wird; die Steuereinheit reagiert, indem sie den Sprachgenerator 1 anweist, eine in dem Mitteilungsspeicher 3 gespeicherte Mitteilung wiederzugeben (11), die den Anrufer auffordert, den benötigten Nachnamen anzugeben. Die Antwort des Anrufers wird von der Erkennung empfangen (12). Die Erkennung 3 führt dann unter Bezugnahme auf die in dem Speicher 8 gespeicherten Audiodarstellungen ihren Erkennungsprozess (13) aus. Bei gewöhnlichen Nachnamen, die einen vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen, werden durch Bezugnahme auf den Datenspeicher 6 zur Stadt erkennung alle damit verknüpften ungewöhnlichen Nachnamen bestimmt (14). Alle gewöhnlichen Nachnamen, die dem vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort genügen, werden dann zusammen mit allen ungewöhnlichen Nachnamen, die mit der Audiodarstellung dieser gewöhnlichen Nachnamen verknüpft sind, an die Steuereinheit 4 übermittelt.
Die Steuereinheit 4 weist dann den Sprachgenerator an, eine weitere, nach dem erforderlichen Straßennamen fragende Mitteilung des Mitteilungsspeichers 3 wiederzugeben (15). Von dem Anrufer wird eine auf den Straßennamen bezogene weitere Antwort erhalten (17), die von der Erkennung 3 unter Verwendung des Datenspeichers 7 verarbeitet wird, und woraufhin die Erkennung an die Steuereinheit 4 einen Satz mit allen Straßennamen übermittelt, die einen vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen.
Die Steuereinheit 4 ruft (20) von der Datenbank 9 eine Liste aller Kunden ab, deren Nachnamen in dem von der Steuereinheit in Schritt 14 erhalten Satz von Nachnamen enthalten ist, und die in irgendeiner der Straßen wohnen, deren Namen von der Steuereinheit in Schritt 18 erhalten wurde.
Zum Beispiel ist das in Schritt 12 erhaltene Sprachsignal eine Artikulation des ungewöhnlichen Nachnamens 'Dobson'. Der Satz von Wörtern, die den vorgeschriebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen, umfasst den alltäglichen Nachnamen 'Robson'. 'Robson' ist mit den ähnlich klingenden Nachnamen 'Hobson', 'Dobson' und 'Fobson' verknüpft. Das in Schritt 17 erhaltene Sprachsignal stellt eine Artikulation des Straßennamens 'Dove Street' dar. Der Satz von Wörtern, die den vorgeschriebenen Ähnlichkeitsgrad mit der er haltenen Antwort aufweisen, umfasst den Straßennamen 'Dove Street'. Es existiert jedoch kein in der 'Dove Street' wohnender Kunde namens 'Robson'. Aber es existiert ein Kunde namens 'Dobson', der in der 'Dove Street' wohnt, weshalb die Datenbankabfrage von Schritt 22 die Einzelheiten für den Kunden 'Dobson' in der 'Dove Street' abruft, obwohl der Datenspeicher 8 für die Namenserkennung keine Audiodarstellung für den Namen 'Dobson' enthält.
An dieser Stelle lohnt es sich anzumerken, dass ähnlich klingende Namen, wie beispielsweise Roberts und Doberts beide in dem Satz alltäglicher Nachnamen vorkommen können und in der Tat jeder eine mit der des jeweils anderen identische Liste ungewöhnlicher Nachnamen aufweisen kann.
Bei einer praktischen Anwendung für ein großes Gebiet (zum Beispiel für das gesamte Vereinigte Königreich) würde das Adressenanfragesystem tatsächlich wie in 3 veranschaulicht betrieben werden, worin von dem Anrufer in Schritt 19 weitere die Städtenamen betreffende Informationen angefordert werden. Von dem Anrufer wird eine weitere, den Stadtnamen betreffende Antwort erhalten (20) und von der Erkennung 3 unter Verwendung des Datenspeichers 6 verarbeitet (21). Daraufhin übermittelt die Erkennung an die Steuereinheit 4 einen Satz aller Städtenamen, die einen vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen. Dieser Satz von Städtenamen wird dann in Schritt 22 zusammen mit den Daten für die Straßennamen und Nachnamen zum Abrufen der Datenbank verwendet. Wenn von der Datenbank Daten abgerufen werden, die sich auf mehr als einen Kunden beziehen, kann der Benutzer zur Angabe weiterer Informationen aufgefordert werden (diese Schritte sind nicht gezeigt).
In einer weiteren Ausführungsform der Erfindung erstellt die Spracherkennung 5 eine Bewertung darüber, wie gut eine jede sprachliche Artikulation einer jeden Audiodarstellung entspricht. Diese Bewertung wird, wenn Daten von der Datenbank abgerufen werden, die sich auf mehr als einen Kunden beziehen, dazu verwendet, zu entscheiden, welche der Kundendaten die wahrscheinlicheren sind. Im Falle der verknüpften, ungewöhnlichen Nachnamen kann die verwendete Bewertung nach Statistiken, die sich auf den Nachnamen beziehen, so gewichtet werden, dass der von der Erkennung 5 auf die Bewertung angewandte Gewichtungsfaktor umso kleiner wird, je ungewöhnlicher ein Nachname ist.
4 zeigt ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erzeugen von Verknüpfungen zwischen ungewöhnlichen Nachnamen und gewöhnlichen Nachnamen, das in dieser Erfindung verwendet werden kann. Eine Spracherkennung, die von jeder Art von Spracherkennung einschließlich einer wie zuvor beschriebenen auf Phonemen basierenden Spracherkennung gebildet werden kann, erhält in Schritt 30 eine sprachliche Artikulation eines ungewöhnlichen Nachnamens. Die erhaltene sprachliche Artikulation wird in Schritt 31 mit Audiodarstellungen gewöhnlicher Nachnamen verglichen und in Schritt 32 wird eine Verknüpfung zwischen dem bekannten ungewöhnlichen Nachnamen und dem gewöhnlichen Nachnamen hergestellt, den die Spracherkennung als äußerst ähnlich mit dem unbekannten Nachnamen bestimmt hat.
5 veranschaulicht ein alternatives Verfahren zum Erzeugen von Verknüpfungen zwischen ungewöhnlichen und gewöhnlichen Nachnamen, das in dieser Erfindung verwendet werden kann. In Schritt 40 wird eine Textdarstellung eines ungewöhnlichen Nachnamens erhalten. In Schritt 41 wird diese Textdarstellung in eine Phonemsequenz umgewandelt. Eine solche Umwandlung kann unter Verwendung einer großen Datenbank vorgenommen werden, die Text mit Phonemsequenzen verknüpft. Die Umwandlung kann auch unter Verwendung von Regeln für die Umwandlung von Schrift in Ton (letter to sound rules) vorgenommen werden, wie sie zum Beispiel in Klatt D. 'Review of Text-to-Speach Conversion for English', J. accustic Soc Am 82, Nr. 3, Seiten 737–793, Sept. 1987 beschrieben werden. Die den ungewöhnlichen Nachnamen repräsentierende Phonemsequenz wird dann mit allen Phonemsequenzen gewöhnlicher Nachnamen verglichen, indem zum Beispiel eine dynamische Programmiertechnik, wie die in "Predictive Assessment for Speaker Independent Isolated Word Recognisers", Alison Simons, ESCA EUROSPEACH 95, Madrid 1995, Seiten 1465–1467, beschriebene, verwendet wird. Anschließend wird der ungewöhnliche Nachname in Schritt 43 mit dem gewöhnlichen Nachnamen verknüpft, für dessen phonetische Sequenzen die höchste Ähnlichkeit festgestellt wurde.
Bei jedem der beiden oben beschriebenen Verfahren (oder jedem anderen) kann die Verbindung aufgezeichnet werden, indem, wenn in dem Adressenanfragesystem eine auf einer Baumstruktur basierende Phonemerkennung verwendet werden soll, eine Kennzeichnung, die den bekannten ungewöhnlichen Nachnamen repräsentiert, mit einem Blatt in dem Erkennungsbaum für alltägliche Nachnamen verknüpft wird, oder indem ein zuvor erläuterter Speicher für Wortentsprechungen verwendet wird.
Ein Vorteil des zweiten Verfahrens besteht darin, dass es nicht notwendig ist, in der Datenbank Sprachdaten bezüglich aller möglichen ungewöhnlichen Nachnamen zu sammeln, was ein sehr zeitraubendes Unterfangen wäre. Stattdessen ist nur eine Textdarstellung dieser ungewöhnlichen Nachnamen erforderlich. Um die besonderen Eigenschaften einer bestimmten Spracherkennung zu berücksichtigen, kann eine Phonemkonfusionsmatrix verwendet werden, die die Wahrscheinlichkeit aufzeichnet, mit der eine bestimmte Erkennung jedes der Phoneme mit jedem der anderen Phoneme verwechselt. Eine solche Matrix wird, wie in der oben angegebenen Veröffentlichung beschrieben, in dem Vergleichsschritt 42 verwendet.
Selbstverständlich stellt die Verwendung von gewöhnlichen und ungewöhnlichen Nachnamen in einem Adressenanfragesystem nur ein Beispiel dafür dar, wie diese Erfindung eingesetzt werden kann. Die Erfindung kann in jedem sprachgesteuerten Zugriffssystem für Datenbanken verwendet werden, bei dem die Häufigkeit bestimmter Datenelemente viel größer als die Häufigkeit anderer Datenelemente ist.
Ferner kann das Verfahren erweitert werden, um andere Mustererkennungsgebiete, wie beispielsweise Bildabfragen, abzudecken, bei denen die Häufigkeit von Anfragen nach bestimmten Datenelementen wahrscheinlich wiederum viel größer ist als die von Anfragen nach anderen Datenelementen.

Claims

Verfahren zur Spracherkennung, das die folgenden Schritte umfasst: a) Vergleichen eines ersten Audiosignals, das eine erste unbekannte sprachliche Artikulation beinhaltet, mit einem ersten Satz von Audiodarstellungen, um für jede der Audiodarstellungen des Satzes eine erste Ähnlichkeitsbewertung zu erstellen, wobei jede Audiodarstellung einem zugehörigen ersten Datenelement zugeordnet ist, ein erstes Datenelement einem zugeordneten Datenelement zugeordnet ist und das zugeordnete Datenelement eine Audiodarstellung aufweist, die nicht zu dem Satz gehört; b) Vergleichen eines zweiten Audiosignals, das eine zweite unbekannte sprachliche Artikulation beinhaltet, mit einem zweiten Satz von Audiodarstellungen, um für jede der Audiodarstellungen des zweiten Satzes eine zweite Ähnlichkeitsbewertung zu erstellen, wobei jede Audiodarstellung des zweiten Satzes einem zugehörigen zweiten Datenelement zugeordnet ist; c) Auswählen von Datenelementen aus Daten, die Zuordnungen zwischen Datenelementen definieren, wobei die Datenelemente als einander zugeordnet definiert sind gemäß dem ersten Datenelement, für das die erste erstellte Bewertung die größte Ähnlichkeit anzeigt; einem dem ersten Datenelement zugeordneten Datenelement; und dem zweiten Datenelement, für das die zweite Bewertung die größte Ähnlichkeit anzeigt.
Verfahren nach Anspruch 1, nach dem das zugeordnete Datenelement gemäß den folgenden Schritten ermittelt wird: d) Vergleichen einer bekannten sprachlichen Artikulation mit dem ersten Satz von Audiodarstellungen, um für jede der Darstellungen eine dritte Ähnlichkeitsbewertung zu erstellen; und e) Zuordnen eines die bekannte sprachliche Äußerung charakterisierenden Datenelementes zu der Audiodarstellung, für die die dritte erstellte Bewertung die größte Ähnlichkeit angibt.
Verfahren nach Anspruch 1, bei dem das zugeordnete Datenelement gemäß den folgenden Schritten erstellt wird: f) Vergleichen einer Sequenz von Referenzmodellen, die ein Datenelement darstellen, mit einer Vielzahl von Sequenzen von Referenzmodellen, die Audiodarstellungen des ersten Satzes darstellen, um für jede der Vielzahl von Sequenzen eine Ähnlichkeitsbewertung zu erstellen; und g) Zuordnen des Datenelements zu der Audiodarstellung, die durch die Sequenz von Referenzmodellen dargestellt wird, für die die erstellte Bewertung die größte Ähnlichkeit angibt.
Verfahren nach Anspruch 3, bei dem in dem Vergleichsschritt f) eine Konfusionsmatrix verwendet wird, die Fehler bezeichnet, die in dem Vergleichsschritt a) für die Audiodarstellungen auftreten.
Vorrichtung zum Abrufen eines Datensatzes aus einer Datenbank, in der eine Vielzahl von Datensätzen gespeichert ist, wobei jeder dieser Datensätze ein Datenelement einer erster Kategorie und ein Datenelement einer zweiten Kategorie oder einer nachfolgenden Kategorie umfasst, wobei die Datenelemente der ers ten Kategorie in Abhängigkeit von der Häufigkeit, mit der sie in den in der Datenbank gespeicherten Datensätzen auftauchen, entweder als gewöhnlich oder als ungewöhnlich bezeichnet werden, wobei die Vorrichtung umfasst: eine Audiodarstellungs-Speichereinrichtung zum Speichern einer Audiodarstellung mit Bezug auf die gewöhnlichen Datenelemente der ersten Kategorie; eine Zuordnungs-Speichereinrichtung, um Zuordnungen zwischen jedem gewöhnlichen Datenelement und einer Vielzahl von ungewöhnlichen Datenelementen zu speichern, deren Audiodarstellungen zu der Audiodarstellung des jeweils zugeordneten gewöhnlichen Datenelements ähnlich, aber doch verschieden sind; eine Vergleichseinrichtung, um ein Signal, das von einer unbekannten sprachlichen Artikulation stammt, mit jeder der in der Audiodarstellungs-Speichereinrichtung gespeicherten Audiodarstellungen von gewöhnlichen Datenelementen zu vergleichen, um eine Ähnlichkeitsbewertung zumindest im Hinblick auf eine oder mehrere Audiodarstellungen zu erstellen, die zu dem verglichenen Signal ausreichend ähnlich sind, damit eine Ähnlichkeitsbewertung oberhalb eines vorgegebenen Schwellenwerts erzeugt wird, und um sowohl die gewöhnlichen Datenelemente, deren Audiodarstellungen zu einer Ähnlichkeitsbewertung oberhalb des Schwellenwerts geführt haben, und die ungewöhnlichen Datenelemente, die gemäß der Zuordnungs-Speichereinheit den festgelegten gewöhnlichen Datenelementen zugeordnet sind, als Kandidaten für Datenelemente der ersten Kategorie zu bezeichnen; eine Auswahleinrichtung, um ein oder mehrere Datenelemente einer zweiten oder nachfolgenden Kategorie auszuwählen; und eine Abrufeinrichtung, um einen oder mehrere Datensätze abzurufen, die ein durch die Vergleichseinrichtung bestimmtes, dem Kandidaten eines Datenelements erster Kategorie entsprechendes Datenelement erster Kategorie und ein Datenelement zweiter oder nachfolgender Kategorie, das durch die Auswahleinrichtung ausgewählt wurde, umfassen.
Vorrichtung nach Anspruch 5, wobei die Vergleichseinrichtung eine Spracherkennungsvorrichtung umfasst, die mit einem öffentlichen Fernsprechnetz verbunden ist, um von einem Teilnehmer das Signal über das öffentliche Fernsprechnetz unter Verwendung eines mit dem Netzwerk verbundenen Endgeräts zu empfangen, wobei dieser Teilnehmer die unbekannte sprachliche Artikulation äußert.
Vorrichtung nach Anspruch 5, wobei die Auswahleinrichtung ferner eine Spracherkennungsvorrichtung umfasst, die mit einem öffentlichen Fernsprechnetz verbunden ist, um von einem Teilnehmer, der ein mit dem Netzwerk verbundenes Endgerät benutzt, das Signal über das öffentliche Fernsprechnetz zu empfangen, wobei der Teilnehmer die unbekannte sprachliche Artikulation äußert.
Vorrichtung nach einem der Ansprüche 5 bis 7, wobei die Datenbank eine Vielzahl von Aufzeichnungen speichert, von denen eine jede den Namen eines Kunden als ein Datenelement der ersten Kategorie umfasst.
Speichermedium mit Anweisungen, die von einem Prozessor ausführbar sind und einen Prozessor dazu veranlassen, während der Ausführung der Anweisungen die Schritte nach einem der Ansprüche 1 bis 4 auszuführen.