DE60222413T2 - Spracherkennung - Google Patents

Spracherkennung Download PDF

Info

Publication number
DE60222413T2
DE60222413T2 DE60222413T DE60222413T DE60222413T2 DE 60222413 T2 DE60222413 T2 DE 60222413T2 DE 60222413 T DE60222413 T DE 60222413T DE 60222413 T DE60222413 T DE 60222413T DE 60222413 T2 DE60222413 T2 DE 60222413T2
Authority
DE
Germany
Prior art keywords
data
audio
data element
category
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60222413T
Other languages
English (en)
Other versions
DE60222413D1 (de
Inventor
Simon Nicholas Ipswich DOWNEY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE60222413D1 publication Critical patent/DE60222413D1/de
Publication of DE60222413T2 publication Critical patent/DE60222413T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Spracherkennung, die insbesondere, jedoch nicht ausschließlich bei automatischen Sprachdialogdiensten zur Verwendung in einem Telefonnetzwerk verwendet werden kann.
  • Ein Abfragedienst, bei dem einem Benutzer eine Reihe von Fragen gestellt werden, um Antworten zu erhalten, die nach Erkennung durch eine Spracherkennung den Zugriff auf einen oder mehrere gewünschte Einträge in einer Informationsbank zulassen, stellt eine typische Anwendung dar. Ein Beispiel hierfür bildet ein Adressenanfragesystem, bei dem ein Benutzer, der die Telefonnummer eines Teilnehmers erfahren möchte, aufgefordert wird, Stadt und Straße der Adresse des Teilnehmers sowie dessen Nachnamen anzugeben.
  • Bei einem zur Verwaltung einer großen Anzahl von Kundeneinträgen erforderlichen System – beispielsweise gibt es im Vereinigten Königreich etwa 500.000 unterschiedliche Nachnamen – besteht das Problem darin, dass die Erkennungsgenauigkeit beträchtlich sinkt, sobald das Nachnamenverzeichnis sehr groß wird. Außerdem wird der zur Durchführung einer solchen Aufgabe in Echtzeit erforderliche Aufwand an Speicherplatz und Verarbeitungsleistung unermesslich hoch.
  • In unserer anhängigen Patentanmeldung WO 96/13030 ist ein Weg zur Überwindung dieses Problems beschrieben, bei dem:
    • (i) Der Benutzer den Namen einer Stadt ausspricht;
    • (ii) eine Spracherkennung unter Bezugnahme auf gespeicherte Städtedaten mehrere Städte identifiziert, die dem ausgesprochenen Städtenamen am besten entsprechen und die eine Bewertung oder Wahrscheinlichkeit erzeugt, die angibt, wie gut die Entsprechung ist;
    • (iii) eine Liste aller in den identifizierten Städten vorkommenden Straßennamen erstellt wird;
    • (iv) der Benutzer den Straßennamen ausspricht;
    • (v) die Spracherkennung mehrere Straßennamen aus der Liste identifiziert, die dem ausgesprochenen Straßennamen am besten entsprechen und diese wieder bewertet;
    • (vi) jede der Straßenbewertungen entsprechend der für die Stadt, in der sich die Straße befindet, erhaltenen Bewertung gewichtet wird und als das wahrscheinlichste "Straßen"-Ergebnis das angesehen wird, das die beste gewichtete Bewertung aufweist.
  • Der Nachteil eines solchen Systems besteht darin, dass, falls die richtige Stadt nicht als eine der besten Entsprechungen identifiziert wird, die Anfrage zum Scheitern verurteilt ist.
  • Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein wie in Anspruch 1 dargelegtes Verfahren angegeben.
  • Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung wird eine wie in Anspruch 6 dargelegte Vorrichtung angegeben.
  • Gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung wird eine Vorrichtung angegeben, die den Verfahrensmerkmalen eines der Ansprüche 1 bis 5 entsprechende Vorrichtungsmerkmale aufweist.
  • Gemäß einem vierten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren angegeben, das den Vorrichtungsmerkmalen eines der Ansprüche 6 bis 9 entsprechende Verfahrensmerkmale aufweist.
  • Gemäß einem fünften Gesichtspunkt der vorliegenden Erfindung wird ein wie in Anspruch 10 dargelegtes Trägermedium angegeben.
  • Im Folgenden wird eine Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen erläutert, worin:
  • 1 eine Architektur eines Adressenanfragesystems veranschaulicht;
  • 2 ein Flussdiagramm zur Veranschaulichung der Funktionsweise des Adressenanfragesystems von 1 zeigt, das ein erfindungsgemäßes Verfahren verwendet;
  • 3 ein zweites Flussdiagramm zur Veranschaulichung der Betriebsweise des Adressenanfragesystems von 1 zeigt, bei dem eine zweite Ausführungsform eines erfindungsgemäßen Verfahrens verwendet wird;
  • 4 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zeigt, das eine Verknüpfung zwischen Nachnamen, für die in dem Speicher 8 von 1 keine Audiodarstellung gespeichert ist, und Nachnamen, für die in dem Speicher 8 eine Audiodarstellung gespeichert ist, erzeugt;
  • 5 ein Flussdiagramm zur Veranschaulichung eines zweiten Verfahrens zeigt, das eine Verknüpfung zwischen Nachnamen, für die keine Audiodarstellung in dem Speicher 8 von 1 gespeichert ist, und Nachnamen, für die eine Audiodarstellung in dem Speicher 8 gespeichert ist, erzeugt.
  • Ein struktureller Aufbau eines Adressenanfragesystems wird unter Bezugnahme auf die 1 erläutert. Es ist ein Sprachgenerator 1 vorgesehen, der über eine Telefonleitungsschnittstelle 2 unter Bezugnahme auf in einem Mitteilungsspeicher 3 gespeicherte festgelegte Mitteilungen oder aus unterschiedlichen Informationen, die von einer Hauptsteuereinrichtung 4 an ihn geleitet werden, Ansagen an einen Benutzer erstellt. Über die Telefonleitungsschnittstelle 2 eingehende Sprachsignale werden an die Spracherkennung 5 weitergeleitet, die gesprochene Worte unter Bezugnahme auf in den Erkennungsdatenspeichern 6, 7, 8 jeweils für Stadtnamen, Straßennamen oder Nachnamen gespeicherte Erkennungsdaten erkennen kann.
  • Eine Adressenhauptdatenbank 9 enthält in dem von dem Adressenanfragedienst abgedeckten Gebiet für jeden Telefonkunden einen Eintrag, der den Namen, die Adresse und die Telefonnummer dieses Kunden in Textform enthält. Der Datenspeicher 6 für das Erkennen von Städtenamen enthält von allen in der Adressendatenbank 9 enthaltenen Städten die Namen in Form von Text zusammen mit den gespeicherten Daten, die es der Spracherkennung 5 ermöglichen, aus den über die Telefonleitungsschnittstelle 2 empfangenen Sprachsignalen diese Städtenamen zu erkennen. Im Prinzip kann jede Art von Spracherkennung verwendet werden. In der vorliegenden Ausführungsform der Erfindung basiert die Spracherkennung auf einer Erkennung unterschiedlicher Phoneme in der Spracheingabe, die unter Bezugnahme auf die in dem Speicher 6 gespeicherten Audiodarstellungen decodiert werden, der eine im voraus erstellte Baumstruktur phonetischer Übersetzungen der in dem Speicher 6 gespeicherten Städtenamen darstellt und wobei das Decodieren mittels eines Viterbi-Algorithmus erfolgt. Die Speicher 7, 8 für die Straßennamenerkennungsdaten und die Nachnamenerkennungsdaten sind in gleicher Weise organisiert.
  • Die Audiodarstellungen können ebenso gut in einem gesonderten Speicher, auf den über Daten in den Speichern 6, 7 und 8 verwiesen wird, gespeichert werden. In diesem Fall müssen die Audiodarstellungen eines jeden Phonems, auf das in den Speichern 6, 7 und 8 verwiesen wird, nur einmal in diesem gesonderten Speicher gespeichert werden.
  • Jeder der Einträge in dem Datenspeicher 6 für Städte enthält, wie oben erwähnt, Text, der zu jedem der in der Datenbank 9 erscheinenden Städtenamen korrespondiert, um als Kennzeichnung für die Verknüpfung der Einträge in dem Speicher 6 mit den Einträgen in der Datenbank 9 zu dienen (obgleich, falls dies vorgezogen wird, andere Arten von Kennzeichnungen verwendet werden können). Erwünschtenfalls kann der Speicher 6 für jeden Namen einer Stadt einen Eintrag enthalten, den ein Benutzer unabhängig davon, ob alle diese Namen tatsächlich in der Datenbank vorhanden sind, dazu verwenden kann, um auf geografische Ortsangaben, die von der Datenbank abgedeckt werden, Bezug zu nehmen. Auf Grund der Erkenntnis, dass einige Städtenamen nicht eindeutig sind (im Vereinigten Königreich existieren vier Städte namens Southend) und dass einige Städtenamen dieselbe Bedeutung aufweisen (z. B. bedeutet Hammersmith, das ein Bezirk von London ist, soweit es die Einträge in diesem Bezirk betrifft, dasselbe wie London), ist auch ein Speicher 39 für Wortentsprechungen vorgesehen, der solche Entsprechungen enthält, die nach jeder Erkennung eines Städtenamens herangezogen werden können, um dem Satz der als erkannt zu betrachtenden Städtenamen weitere Möglichkeiten hinzuzufügen. Wenn zum Beispiel "Hammersmith" erkannt wird, wird dem Satz London hinzugefügt; wenn "Southend" erkannt wird, dann werden Southend-on-Sea, Southend (Campbeltown), Southend (Swansea) und Southend (Reading) hinzugefügt.
  • Der Datenspeicher 39 für Wortentsprechungen könnte gewünschtenfalls ähnliche Informationen für Straßen und Nachnamen oder, falls diese verwendet werden, für Vornamen enthalten; zum Beispiel werden Dave und David als denselben Namen repräsentierend angesehen.
  • Als Alternative zu dieser Struktur kann der Speicher 39 für Wortentsprechungen zur Übersetzung zwischen den in den Namenspeichern 6, 7, 8 verwendeten Kennzeichnungen und den in der Datenbank verwendeten Kennzeichnungen (unabhängig davon, ob die Kennzeichnungen Namen in Textform darstellen) dienen.
  • Die Verwendung von Text zur Bestimmung des Grundwortschatzes der Spracherkennung erfordert, dass die Spracherkennung eine oder mehrere Kennzeichnungen in Textform zu einer bestimmten Aussprache in Beziehung setzen kann. Das bedeutet, dass im Falle eines "Erkennungsbaums" jedes Blatt des Baums eine oder mehrere daran angebrachte, in Textform gehaltene Kennzeichnungen aufweisen kann.
  • Das Anbringen von mehreren in Textform gehaltenen Kennzeichnungen an ein bestimmtes Blatt des Baums stellt ein bekanntes Verfahren dar, um wie oben beschrieben mit einander entsprechenden Arten einer Bezugnahme auf dasselbe Datenelement in einer Datenbank zu verfahren. Diese Technik kann auch im Umgang mit Homophonen (Wörtern, die in derselben Weise ausgesprochen, aber unterschiedlich geschrieben werden), zum Beispiel "Smith" und "Smyth", verwendet werden.
  • Daten von Nachnamen der Bevölkerung des Vereinigten Königreichs wie möglicherweise vieler anderer Gebiete sind insoweit ungleichgewichtig, als nicht alle Nachnamen gleich wahrscheinlich sind. Tatsächlich werden von den ca. 500.000 Nachnamen, die im Vereinigten Königreich verwendet werden, etwa 50.000 (d. h. 10%) von etwa 90% der Bevölkerung verwendet. Wenn eine Nachnamenerkennung für das Erkennen von 500.000 Nachnamen verwendet wird, so wird die Erkennungsgenauigkeit zu Gunsten der 10% der Bevölkerung, die ungewöhnliche Namen besitzen, beträchtlich reduziert.
  • In dieser Ausführungsform der Erfindung enthält der Erkennungsdatenspeicher 8 Audiodarstellungen von etwa 50.000 Nachnamen, die den Nachnamen von etwa 90% der Bevölkerung des Vereinigten Königreichs entsprechen. Viele Kennzeichnungen in Textform werden mit einer bestimmten Audiodarstellung verknüpft, indem an ein bestimmtes Blatt in einem Baum in Textform gehaltene Kennzeichnungen angebracht werden. Diese in Textform gehaltenen Kennzeichnungen stellen Nachnamen dar, die ähnlich wie diese bestimmte Audiodarstellung klingen. Daher ist eine Liste von Nachnamen vorgesehen, die ähnlich klingen wie der Nachname, der von der bestimmten Audiodarstellung repräsentiert wird, die aber in dem Speicher 8 nicht selbst von Audiodaten repräsentiert werden. Hierdurch wird eine größere Anzahl von Nachnamen von einer kleineren Datenstruktur repräsentiert, wodurch sich der erforderliche Speicheraufwand verringert. Ferner ist der erforderliche Aufwand an Verarbeitungsleistung viel geringer und es wird möglich, die Spracherkennung in Echtzeit mit einem weniger leistungsfähigen Prozessor durchzuführen. Ein anderer Vorteil besteht darin, dass die Erkennungsgenauigkeit für diese am häufigsten vorkommenden 10% der Namen wesentlich höher ist, als wenn die verbleibenden 90% der Namen ebenfalls in dem Speicher 8 dargestellt werden würden. Im verbleibenden Teil dieser Beschreibung werden die am häufigsten verwendeten 10% der Nachnamen als "gewöhnliche Nachnamen" und die verbleibenden 90% der Nachnamen als "ungewöhnliche Nachnamen" bezeichnet. Natürlich können auch andere Prozentsätze verwendet werden und die verwendeten Prozentsätze können von den Eigenschaften der jeweils modellierten Daten abhängen.
  • Die Funktionsweise des Adressenanfragesystems von 1 ist in dem Flussdiagramm der 2 veranschaulicht. Das Verfahren beginnt (10) mit dem Empfang eines ankommenden Telefonanrufs, der der Steuereinheit 4 von der Telefonleitungsschnittstelle 2 angezeigt wird; die Steuereinheit reagiert, indem sie den Sprachgenerator 1 anweist, eine in dem Mitteilungsspeicher 3 gespeicherte Mitteilung wiederzugeben (11), die den Anrufer auffordert, den benötigten Nachnamen anzugeben. Die Antwort des Anrufers wird von der Erkennung empfangen (12). Die Erkennung 3 führt dann unter Bezugnahme auf die in dem Speicher 8 gespeicherten Audiodarstellungen ihren Erkennungsprozess (13) aus. Bei gewöhnlichen Nachnamen, die einen vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen, werden durch Bezugnahme auf den Datenspeicher 6 zur Stadt erkennung alle damit verknüpften ungewöhnlichen Nachnamen bestimmt (14). Alle gewöhnlichen Nachnamen, die dem vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort genügen, werden dann zusammen mit allen ungewöhnlichen Nachnamen, die mit der Audiodarstellung dieser gewöhnlichen Nachnamen verknüpft sind, an die Steuereinheit 4 übermittelt.
  • Die Steuereinheit 4 weist dann den Sprachgenerator an, eine weitere, nach dem erforderlichen Straßennamen fragende Mitteilung des Mitteilungsspeichers 3 wiederzugeben (15). Von dem Anrufer wird eine auf den Straßennamen bezogene weitere Antwort erhalten (17), die von der Erkennung 3 unter Verwendung des Datenspeichers 7 verarbeitet wird, und woraufhin die Erkennung an die Steuereinheit 4 einen Satz mit allen Straßennamen übermittelt, die einen vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen.
  • Die Steuereinheit 4 ruft (20) von der Datenbank 9 eine Liste aller Kunden ab, deren Nachnamen in dem von der Steuereinheit in Schritt 14 erhalten Satz von Nachnamen enthalten ist, und die in irgendeiner der Straßen wohnen, deren Namen von der Steuereinheit in Schritt 18 erhalten wurde.
  • Zum Beispiel ist das in Schritt 12 erhaltene Sprachsignal eine Artikulation des ungewöhnlichen Nachnamens 'Dobson'. Der Satz von Wörtern, die den vorgeschriebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen, umfasst den alltäglichen Nachnamen 'Robson'. 'Robson' ist mit den ähnlich klingenden Nachnamen 'Hobson', 'Dobson' und 'Fobson' verknüpft. Das in Schritt 17 erhaltene Sprachsignal stellt eine Artikulation des Straßennamens 'Dove Street' dar. Der Satz von Wörtern, die den vorgeschriebenen Ähnlichkeitsgrad mit der er haltenen Antwort aufweisen, umfasst den Straßennamen 'Dove Street'. Es existiert jedoch kein in der 'Dove Street' wohnender Kunde namens 'Robson'. Aber es existiert ein Kunde namens 'Dobson', der in der 'Dove Street' wohnt, weshalb die Datenbankabfrage von Schritt 22 die Einzelheiten für den Kunden 'Dobson' in der 'Dove Street' abruft, obwohl der Datenspeicher 8 für die Namenserkennung keine Audiodarstellung für den Namen 'Dobson' enthält.
  • An dieser Stelle lohnt es sich anzumerken, dass ähnlich klingende Namen, wie beispielsweise Roberts und Doberts beide in dem Satz alltäglicher Nachnamen vorkommen können und in der Tat jeder eine mit der des jeweils anderen identische Liste ungewöhnlicher Nachnamen aufweisen kann.
  • Bei einer praktischen Anwendung für ein großes Gebiet (zum Beispiel für das gesamte Vereinigte Königreich) würde das Adressenanfragesystem tatsächlich wie in 3 veranschaulicht betrieben werden, worin von dem Anrufer in Schritt 19 weitere die Städtenamen betreffende Informationen angefordert werden. Von dem Anrufer wird eine weitere, den Stadtnamen betreffende Antwort erhalten (20) und von der Erkennung 3 unter Verwendung des Datenspeichers 6 verarbeitet (21). Daraufhin übermittelt die Erkennung an die Steuereinheit 4 einen Satz aller Städtenamen, die einen vorgegebenen Ähnlichkeitsgrad mit der erhaltenen Antwort aufweisen. Dieser Satz von Städtenamen wird dann in Schritt 22 zusammen mit den Daten für die Straßennamen und Nachnamen zum Abrufen der Datenbank verwendet. Wenn von der Datenbank Daten abgerufen werden, die sich auf mehr als einen Kunden beziehen, kann der Benutzer zur Angabe weiterer Informationen aufgefordert werden (diese Schritte sind nicht gezeigt).
  • In einer weiteren Ausführungsform der Erfindung erstellt die Spracherkennung 5 eine Bewertung darüber, wie gut eine jede sprachliche Artikulation einer jeden Audiodarstellung entspricht. Diese Bewertung wird, wenn Daten von der Datenbank abgerufen werden, die sich auf mehr als einen Kunden beziehen, dazu verwendet, zu entscheiden, welche der Kundendaten die wahrscheinlicheren sind. Im Falle der verknüpften, ungewöhnlichen Nachnamen kann die verwendete Bewertung nach Statistiken, die sich auf den Nachnamen beziehen, so gewichtet werden, dass der von der Erkennung 5 auf die Bewertung angewandte Gewichtungsfaktor umso kleiner wird, je ungewöhnlicher ein Nachname ist.
  • 4 zeigt ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erzeugen von Verknüpfungen zwischen ungewöhnlichen Nachnamen und gewöhnlichen Nachnamen, das in dieser Erfindung verwendet werden kann. Eine Spracherkennung, die von jeder Art von Spracherkennung einschließlich einer wie zuvor beschriebenen auf Phonemen basierenden Spracherkennung gebildet werden kann, erhält in Schritt 30 eine sprachliche Artikulation eines ungewöhnlichen Nachnamens. Die erhaltene sprachliche Artikulation wird in Schritt 31 mit Audiodarstellungen gewöhnlicher Nachnamen verglichen und in Schritt 32 wird eine Verknüpfung zwischen dem bekannten ungewöhnlichen Nachnamen und dem gewöhnlichen Nachnamen hergestellt, den die Spracherkennung als äußerst ähnlich mit dem unbekannten Nachnamen bestimmt hat.
  • 5 veranschaulicht ein alternatives Verfahren zum Erzeugen von Verknüpfungen zwischen ungewöhnlichen und gewöhnlichen Nachnamen, das in dieser Erfindung verwendet werden kann. In Schritt 40 wird eine Textdarstellung eines ungewöhnlichen Nachnamens erhalten. In Schritt 41 wird diese Textdarstellung in eine Phonemsequenz umgewandelt. Eine solche Umwandlung kann unter Verwendung einer großen Datenbank vorgenommen werden, die Text mit Phonemsequenzen verknüpft. Die Umwandlung kann auch unter Verwendung von Regeln für die Umwandlung von Schrift in Ton (letter to sound rules) vorgenommen werden, wie sie zum Beispiel in Klatt D. 'Review of Text-to-Speach Conversion for English', J. accustic Soc Am 82, Nr. 3, Seiten 737–793, Sept. 1987 beschrieben werden. Die den ungewöhnlichen Nachnamen repräsentierende Phonemsequenz wird dann mit allen Phonemsequenzen gewöhnlicher Nachnamen verglichen, indem zum Beispiel eine dynamische Programmiertechnik, wie die in "Predictive Assessment for Speaker Independent Isolated Word Recognisers", Alison Simons, ESCA EUROSPEACH 95, Madrid 1995, Seiten 1465–1467, beschriebene, verwendet wird. Anschließend wird der ungewöhnliche Nachname in Schritt 43 mit dem gewöhnlichen Nachnamen verknüpft, für dessen phonetische Sequenzen die höchste Ähnlichkeit festgestellt wurde.
  • Bei jedem der beiden oben beschriebenen Verfahren (oder jedem anderen) kann die Verbindung aufgezeichnet werden, indem, wenn in dem Adressenanfragesystem eine auf einer Baumstruktur basierende Phonemerkennung verwendet werden soll, eine Kennzeichnung, die den bekannten ungewöhnlichen Nachnamen repräsentiert, mit einem Blatt in dem Erkennungsbaum für alltägliche Nachnamen verknüpft wird, oder indem ein zuvor erläuterter Speicher für Wortentsprechungen verwendet wird.
  • Ein Vorteil des zweiten Verfahrens besteht darin, dass es nicht notwendig ist, in der Datenbank Sprachdaten bezüglich aller möglichen ungewöhnlichen Nachnamen zu sammeln, was ein sehr zeitraubendes Unterfangen wäre. Stattdessen ist nur eine Textdarstellung dieser ungewöhnlichen Nachnamen erforderlich. Um die besonderen Eigenschaften einer bestimmten Spracherkennung zu berücksichtigen, kann eine Phonemkonfusionsmatrix verwendet werden, die die Wahrscheinlichkeit aufzeichnet, mit der eine bestimmte Erkennung jedes der Phoneme mit jedem der anderen Phoneme verwechselt. Eine solche Matrix wird, wie in der oben angegebenen Veröffentlichung beschrieben, in dem Vergleichsschritt 42 verwendet.
  • Selbstverständlich stellt die Verwendung von gewöhnlichen und ungewöhnlichen Nachnamen in einem Adressenanfragesystem nur ein Beispiel dafür dar, wie diese Erfindung eingesetzt werden kann. Die Erfindung kann in jedem sprachgesteuerten Zugriffssystem für Datenbanken verwendet werden, bei dem die Häufigkeit bestimmter Datenelemente viel größer als die Häufigkeit anderer Datenelemente ist.
  • Ferner kann das Verfahren erweitert werden, um andere Mustererkennungsgebiete, wie beispielsweise Bildabfragen, abzudecken, bei denen die Häufigkeit von Anfragen nach bestimmten Datenelementen wahrscheinlich wiederum viel größer ist als die von Anfragen nach anderen Datenelementen.

Claims (9)

  1. Verfahren zur Spracherkennung, das die folgenden Schritte umfasst: a) Vergleichen eines ersten Audiosignals, das eine erste unbekannte sprachliche Artikulation beinhaltet, mit einem ersten Satz von Audiodarstellungen, um für jede der Audiodarstellungen des Satzes eine erste Ähnlichkeitsbewertung zu erstellen, wobei jede Audiodarstellung einem zugehörigen ersten Datenelement zugeordnet ist, ein erstes Datenelement einem zugeordneten Datenelement zugeordnet ist und das zugeordnete Datenelement eine Audiodarstellung aufweist, die nicht zu dem Satz gehört; b) Vergleichen eines zweiten Audiosignals, das eine zweite unbekannte sprachliche Artikulation beinhaltet, mit einem zweiten Satz von Audiodarstellungen, um für jede der Audiodarstellungen des zweiten Satzes eine zweite Ähnlichkeitsbewertung zu erstellen, wobei jede Audiodarstellung des zweiten Satzes einem zugehörigen zweiten Datenelement zugeordnet ist; c) Auswählen von Datenelementen aus Daten, die Zuordnungen zwischen Datenelementen definieren, wobei die Datenelemente als einander zugeordnet definiert sind gemäß dem ersten Datenelement, für das die erste erstellte Bewertung die größte Ähnlichkeit anzeigt; einem dem ersten Datenelement zugeordneten Datenelement; und dem zweiten Datenelement, für das die zweite Bewertung die größte Ähnlichkeit anzeigt.
  2. Verfahren nach Anspruch 1, nach dem das zugeordnete Datenelement gemäß den folgenden Schritten ermittelt wird: d) Vergleichen einer bekannten sprachlichen Artikulation mit dem ersten Satz von Audiodarstellungen, um für jede der Darstellungen eine dritte Ähnlichkeitsbewertung zu erstellen; und e) Zuordnen eines die bekannte sprachliche Äußerung charakterisierenden Datenelementes zu der Audiodarstellung, für die die dritte erstellte Bewertung die größte Ähnlichkeit angibt.
  3. Verfahren nach Anspruch 1, bei dem das zugeordnete Datenelement gemäß den folgenden Schritten erstellt wird: f) Vergleichen einer Sequenz von Referenzmodellen, die ein Datenelement darstellen, mit einer Vielzahl von Sequenzen von Referenzmodellen, die Audiodarstellungen des ersten Satzes darstellen, um für jede der Vielzahl von Sequenzen eine Ähnlichkeitsbewertung zu erstellen; und g) Zuordnen des Datenelements zu der Audiodarstellung, die durch die Sequenz von Referenzmodellen dargestellt wird, für die die erstellte Bewertung die größte Ähnlichkeit angibt.
  4. Verfahren nach Anspruch 3, bei dem in dem Vergleichsschritt f) eine Konfusionsmatrix verwendet wird, die Fehler bezeichnet, die in dem Vergleichsschritt a) für die Audiodarstellungen auftreten.
  5. Vorrichtung zum Abrufen eines Datensatzes aus einer Datenbank, in der eine Vielzahl von Datensätzen gespeichert ist, wobei jeder dieser Datensätze ein Datenelement einer erster Kategorie und ein Datenelement einer zweiten Kategorie oder einer nachfolgenden Kategorie umfasst, wobei die Datenelemente der ers ten Kategorie in Abhängigkeit von der Häufigkeit, mit der sie in den in der Datenbank gespeicherten Datensätzen auftauchen, entweder als gewöhnlich oder als ungewöhnlich bezeichnet werden, wobei die Vorrichtung umfasst: eine Audiodarstellungs-Speichereinrichtung zum Speichern einer Audiodarstellung mit Bezug auf die gewöhnlichen Datenelemente der ersten Kategorie; eine Zuordnungs-Speichereinrichtung, um Zuordnungen zwischen jedem gewöhnlichen Datenelement und einer Vielzahl von ungewöhnlichen Datenelementen zu speichern, deren Audiodarstellungen zu der Audiodarstellung des jeweils zugeordneten gewöhnlichen Datenelements ähnlich, aber doch verschieden sind; eine Vergleichseinrichtung, um ein Signal, das von einer unbekannten sprachlichen Artikulation stammt, mit jeder der in der Audiodarstellungs-Speichereinrichtung gespeicherten Audiodarstellungen von gewöhnlichen Datenelementen zu vergleichen, um eine Ähnlichkeitsbewertung zumindest im Hinblick auf eine oder mehrere Audiodarstellungen zu erstellen, die zu dem verglichenen Signal ausreichend ähnlich sind, damit eine Ähnlichkeitsbewertung oberhalb eines vorgegebenen Schwellenwerts erzeugt wird, und um sowohl die gewöhnlichen Datenelemente, deren Audiodarstellungen zu einer Ähnlichkeitsbewertung oberhalb des Schwellenwerts geführt haben, und die ungewöhnlichen Datenelemente, die gemäß der Zuordnungs-Speichereinheit den festgelegten gewöhnlichen Datenelementen zugeordnet sind, als Kandidaten für Datenelemente der ersten Kategorie zu bezeichnen; eine Auswahleinrichtung, um ein oder mehrere Datenelemente einer zweiten oder nachfolgenden Kategorie auszuwählen; und eine Abrufeinrichtung, um einen oder mehrere Datensätze abzurufen, die ein durch die Vergleichseinrichtung bestimmtes, dem Kandidaten eines Datenelements erster Kategorie entsprechendes Datenelement erster Kategorie und ein Datenelement zweiter oder nachfolgender Kategorie, das durch die Auswahleinrichtung ausgewählt wurde, umfassen.
  6. Vorrichtung nach Anspruch 5, wobei die Vergleichseinrichtung eine Spracherkennungsvorrichtung umfasst, die mit einem öffentlichen Fernsprechnetz verbunden ist, um von einem Teilnehmer das Signal über das öffentliche Fernsprechnetz unter Verwendung eines mit dem Netzwerk verbundenen Endgeräts zu empfangen, wobei dieser Teilnehmer die unbekannte sprachliche Artikulation äußert.
  7. Vorrichtung nach Anspruch 5, wobei die Auswahleinrichtung ferner eine Spracherkennungsvorrichtung umfasst, die mit einem öffentlichen Fernsprechnetz verbunden ist, um von einem Teilnehmer, der ein mit dem Netzwerk verbundenes Endgerät benutzt, das Signal über das öffentliche Fernsprechnetz zu empfangen, wobei der Teilnehmer die unbekannte sprachliche Artikulation äußert.
  8. Vorrichtung nach einem der Ansprüche 5 bis 7, wobei die Datenbank eine Vielzahl von Aufzeichnungen speichert, von denen eine jede den Namen eines Kunden als ein Datenelement der ersten Kategorie umfasst.
  9. Speichermedium mit Anweisungen, die von einem Prozessor ausführbar sind und einen Prozessor dazu veranlassen, während der Ausführung der Anweisungen die Schritte nach einem der Ansprüche 1 bis 4 auszuführen.
DE60222413T 2001-04-19 2002-04-15 Spracherkennung Expired - Lifetime DE60222413T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01303598 2001-04-19
EP01303598 2001-04-19
PCT/GB2002/001748 WO2002086863A1 (en) 2001-04-19 2002-04-15 Speech recognition

Publications (2)

Publication Number Publication Date
DE60222413D1 DE60222413D1 (de) 2007-10-25
DE60222413T2 true DE60222413T2 (de) 2008-06-12

Family

ID=8181903

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60222413T Expired - Lifetime DE60222413T2 (de) 2001-04-19 2002-04-15 Spracherkennung

Country Status (5)

Country Link
US (1) US7970610B2 (de)
EP (1) EP1397797B1 (de)
CA (1) CA2440463C (de)
DE (1) DE60222413T2 (de)
WO (1) WO2002086863A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1397797B1 (de) 2001-04-19 2007-09-12 BRITISH TELECOMMUNICATIONS public limited company Spracherkennung
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
EP2158540A4 (de) * 2007-06-18 2010-10-20 Geographic Services Inc Suchsystem für namen geographischer objekte
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US9484025B2 (en) 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
CN1249667C (zh) * 1994-10-25 2006-04-05 英国电讯公司 声控服务
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
CA2211636C (en) * 1995-03-07 2002-01-22 British Telecommunications Public Limited Company Speech recognition
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen
US6208965B1 (en) * 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6483896B1 (en) * 1998-02-05 2002-11-19 At&T Corp. Speech recognition using telephone call parameters
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
JP3567864B2 (ja) * 2000-07-21 2004-09-22 株式会社デンソー 音声認識装置及び記録媒体
US6405172B1 (en) * 2000-09-09 2002-06-11 Mailcode Inc. Voice-enabled directory look-up based on recognized spoken initial characters
US20020107689A1 (en) * 2001-02-08 2002-08-08 Meng-Hsien Liu Method for voice and speech recognition
EP1397797B1 (de) 2001-04-19 2007-09-12 BRITISH TELECOMMUNICATIONS public limited company Spracherkennung
US6983244B2 (en) * 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information

Also Published As

Publication number Publication date
DE60222413D1 (de) 2007-10-25
CA2440463A1 (en) 2002-10-31
US20040117182A1 (en) 2004-06-17
WO2002086863A1 (en) 2002-10-31
EP1397797A1 (de) 2004-03-17
EP1397797B1 (de) 2007-09-12
US7970610B2 (en) 2011-06-28
CA2440463C (en) 2010-02-02

Similar Documents

Publication Publication Date Title
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
EP1176395B1 (de) Verfahren zur Auswahl einer Ortsbezeichnung in einem Navigationssystem durch Spracheingabe
EP1071075B1 (de) Verfahren und Vorrichtung zur Eingabe von Daten
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
EP1264302B1 (de) Verfahren zur spracheingabe eines zielortes mit hilfe eines definierten eingabedialogs in ein zielführungssystem
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE102007033472A1 (de) Verfahren zur Spracherkennung
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE10100725C1 (de) Automatisches Dialogsystem mit Datenbanksprachmodell
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE69920714T2 (de) Spracherkennung
DE60222413T2 (de) Spracherkennung
DE69837428T2 (de) Speichermedium mit elektronischer Schaltung und mit diesem Speichermedium augestatteter Sprachsynthesizer
EP1340169B1 (de) Verfahren und vorrichtung zur automatischen auskunfterleitung mittels einer suchmaschine
EP1395979B1 (de) Verfahren zur spracherkennung und spracherkennungssystem
DE60201907T2 (de) Darstellung einer komprimierten liste für sprachgesteuerte benutzerschnittstellen
EP0902420B1 (de) Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
EP1005694B1 (de) Verfahren zur bestimmung eines repräsentanten für einen sprachbaustein einer sprache aus einem lautabschnitte umfassenden sprachsignal
EP1240775B1 (de) Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon

Legal Events

Date Code Title Description
8364 No opposition during term of opposition