DE602005005597T2

DE602005005597T2 - Verfahren und Vorrichtung für erhöhte Spracherkennungspräzision unter Verwendung geografischer Daten zur Filterung einer Wortgruppe

Info

Publication number: DE602005005597T2
Application number: DE602005005597T
Authority: DE
Inventors: Keith Waters; Benoit Benjamin Simon
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2004-09-29
Filing date: 2005-09-23
Publication date: 2009-04-30
Anticipated expiration: 2025-09-24
Also published as: EP1646037A2; PL1646037T3; ES2304673T3; EP1646037A3; US20060074660A1; ATE390682T1; DE602005005597D1; EP1646037B1

Description

TECHNISCHES GEBIET
Die Erfindung betrifft allgemein Spracherkennungssysteme und -verfahren und insbesondere Systeme und Verfahren zum Verbessern der Spracherkennungsgenauigkeit durch Verwendung geographischer Daten zum Reduzieren der Größe einer Menge von Wörtern, die geprüft werden muß, um Spracherkennung zu bewirken.
STAND DER TECHNIK
Beim Besuch in einer unvertrauten Stadt wird ein Benutzer eines mobilen Handapparats möglicherweise wünschen, ein Unternehmen, eine Sehenswürdigkeit, eine Straße oder einen anderen interessierenden Ort zu finden. Es wäre relativ vorteilhaft, wenn der Benutzer eine Sprechverbindung zu einem abgesetzten Server mit einer designierten Telefonnummer einleiten und seine Informationsanforderung in den Handapparat sprechen könnte. Der Handapparat würde eine Spracherkennungsprozedur ausführen, wodurch die gesprochene Anforderung in eine Serveranfrage transformiert wird, und die angeforderten Informationen von dem abgesetzten Server in Form eines elektronischen Signals zum Produzieren hörbarer Sprache empfangen. Zum Beispiel könnte ein Benutzer in Manhatten wünschen, das nächste Neiman-Marcus-Kaufhaus zu finden. Er wählt eine designierte Telefonnummer und spricht eine Anforderung, wie zum Beispiel "Wo ist der nächste Neiman Marcus?". Der Handapparat verwendet Spracherkennung, um die Anforderung in eine elektronische Anforderung zum Empfang durch den abgesetzten Server umzusetzen. Auf der Basis des derzeitigen Orts des Handapparats greift der abgesetzte Server auf eine Datenbank zu, um Adresse und Telefonnummer des nächsten Neiman Marcus abzurufen. Die Adresse und Telefonnummer werden von dem Server in Form eines elektronischen Signals zu dem Handapparat des Benutzers gesendet, woraufhin der Handapparat das elektronische Signal in hörbare Sprache umsetzt.
Leider sind signifikante Hindernisse zu überwinden, wenn man wünscht, existierende Spracherkennungsalgorithmen zum Ausführen der obigen Prozeduren zu verwenden. Genauer gesagt ist es problematisch, Spracherkennungsalgorithmen zu entwickeln, die in bestimmten Betriebsumgebungen, wie zum Beispiel denen von mobilen Telefongeräten, einen gewünschten Genauigkeitsgrad liefern. Im allgemeinen sind die Verarbeitungsleistung und Speicherfähigkeiten mobiler Telefongeräte durch Größen- und Kosteneinschränkungen begrenzt, wodurch dem Ausmaß, zu dem die Komplexität existierende Algorithmen vergrößert werden kann, begrenzt wird. Außerdem verschlechtern Umgebungsgeräusche die Leistungsfähigkeit vieler Spracherkennungsalgorithmen stark. Im Hinblick auf diese Unzulänglichkeiten wurden vorbekannte Techniken entwickelt, um die Leistungsfähigkeit von Spracherkennungsalgorithmen in Anwendungen, bei denen Verarbeitungsleistung begrenzt sein kann, zu verbessern. Diese vorbekannten Techniken betreffen die Verbesserung eines Erkennungsmodells durch Verwendung verbesserter akustischer Modelle. Die folgenden Definitionen werden hier des Verständnisses und der Klarheit halber angegeben:

Lexikalisches Modell: ein lexikalisches Modell zerlegt einzelne Wörter eines (im folgenden definierten) syntaktischem Modells in eine Sequenz von Phonemen (auch im folgenden definiert).
Akustisches Modell: ein akustisches Modell zerlegt die durch das lexikalische Modell bestimmte Sequenz von Phonemen in ein Markov-Modell von Cepstrum-Koeffizienten, das auch als Vektorsequenzen bezeichnet wird. Cepstrum-Koeffizienten werden durch Nehmen der Fouriertransformation des Leistungsspektrums eines Sprachsignals erzeugt.
Erkennungsmodell: ein Erkennungsmodell ist eine Menge von Regeln und Operationen, die von einer Erkennungs-Engine verwendet werden, um einzelne Wörter zu erkennen. Das Erkennungsmodell enthält ein voll eingesetztes Spracherkennungssystem, das das akustische Modell, das lexikalische Modell und das syntaktische Modell folgendermaßen umschließt: Erkennungsmodell = (akustisches Modell) × (lexikalisches Modell) × (syntaktisches Modell).

Aus der US-Patentanmeldung, Publikation Nr. US 2003236099, ist eine Technik zum Verbessern der Genauigkeit eines Spracherkennungsalgorithmus durch Auswahl eines entsprechenden akustischen Modells gemäß dem Ort eines Mobiltelefongeräts (der Einfachheit halber "mobiler Handapparat" oder einfach "Handapparat") bekannt. Wie bereits erwähnt, enthält ein akustisches Modell eine Menge von Cepstrum-Koeffizientenstatistiken für jedes Phonem in einer Sprache. Es können mehrere verschiedene akustische Modelle vorkompiliert werden, die jeweils eine einzigartige akustische Umgebung repräsentieren, dergestalt, daß ein Spracherkennungssystem ein für eine gegebene Menge von Umgebungsbedingungen geeignetes akustisches Modell auswählen kann. Zum Beispiel wird jedes akustische Modell erstellt durch individuelles Aufzeichnen von mehreren hundert Sprechern in einer kontrollierten modellspezifischen Laborumgebung, die bekannte akustische Eigenschaften aufweist, die beispielsweise über Geräusche, Echo, Hall und Frequenzgang spezifiziert wird. Jede modellspezifische Laborumgebung soll eine Echtweltumgebung repräsentieren, wie etwa ein Kaufhaus, ein Büro, ein Einkaufszentrum, einen Flughafen oder den Innenraum eines Automobils. Daher enthalten akustische Modelle Eigenschaften spezifischer Umgebungen sowie Eigenschaften der menschlichen Stimme. Die Laborumgebung kann künstlich erzeugte Geräusche enthalten, um zum Beispiel Verkehr, Gespräche, das Klicken von Computertastaturen und Gabelstapler zu simulieren.
Gemäß dieser vorbekannten Technik werden wie nachfolgend definiert aus einem auf Ort basierenden Dienst (LBS) auf der Basis des aktuellen Orts des mobilen Handapparats Positionsinformationen abgerufen. Die abgerufenen Positionsinformationen werden dann zur Auswahl der akustischen Eigenschaften der den Handapparat umgebenden Umgebung verwendet. Es wird ein akustisches Modell, das die akustischen Eigenschaften der Art von Umgebung für den aktuellen Ort des Handapparats approximiert, aus einer Menge zuvor erstellter akustischer Modelle ausgewählt. Das ausgewählte akustische Modell wird dann zur Verbesserung der Genauigkeit des Spracherkennungsalgorithmus verwendet.
Die aus der US-Patentanmeldung, Publikation Nr. US2003236099 bekannte Technik hat viele praktische Unzulänglichkeiten. Existierende auf Ort basierende Dienste, die GPS (Global Positioning System) verwenden, bestimmen die Position eines Benutzers nicht mit der erforderlichen Genauigkeit von zum Beispiel ein bis zwei Metern, und diese Dienste bestimmen auch nicht die Höhe eines Benutzers mit ausreichender Genauigkeit für viele Spracherkennungsanwendungen. Die Auswirkung einer unzureichenden Positionsgenauigkeit besteht darin, daß es nicht möglich ist, wenn sich ein Benutzer in der Nähe des Eingangs eines Gebäudes befindet, genau zu bestimmen, ob sich der Benutzer tatsächlich in dem Gebäude befindet. Die Auswirkung einer unzureichenden Höhengenauigkeit besteht darin, daß es nicht möglich ist, mit Sicherheit zu bestimmen, ob sich ein Benutzer in dem Gebäude befindet oder auf dem Dach steht. Ein akustisches Modell, das für eine innere Vorhalle eines Gebäudes geeignet ist, ist nur unwahrscheinlich für die Verwendung im Freien geeignet. Zumindest wird die Auswahl eines ungeeigneten akustischen Modells auf der Basis einer ungenauen Bestimmung der tatsächlichen Position eines Benutzers die Genauigkeit vieler Spracherkennungsalgorithmen verschlechtern.
Eine weitere Unzulänglichkeit der aus der US-Patentanmeldung, Publikation Nr. US2003236099, bekannten Technik ist die Notwendigkeit, ein akustisches Modell zu erzeugen. Zuallererst ist es nicht durchführbar, für jede Art von Ort ein einzigartiges akustisches Modell zu erzeugen. Auch wenn für eine bestimmte Art von Ort ein akustisches Modell entwickelt wird, kann zweitens ein tatsächlicher Ort möglicherweise die in dem Modell realisierten akustischen Eigenschaften nicht besitzen. Zum Beispiel kann ein akustisches Modell, das aufgrund von verschiedenen Konstruktionsmaterialien, Möbeln und Zimmerkonfigurationen versucht, einen typischen Konferenzraum zu repräsentieren, möglicherweise einen spezifischen Konferenzraum in einem spezifischen Bürogebäude nicht angemessen repräsentieren. Es wird folglich eine verbesserte Technik zum Verbessern der Genauigkeit von Spracherkennungsalgorithmen benötigt.
EP 1233407 beschreibt ein Navigationssystem mit Spracherkennungsfähigkeiten für ein sich bewegendes Fahrzeug. Immer dann, wenn die Distanz zwischen dem Fahrzeug und bekannten aktiven Orten größer als eine gegebene Schwelle wird, beschafft das Navigationssystem zur nachfolgenden Verwendung mit der Spracherkennungs-Engine eine vorexistierende Wortliste entsprechend dem aktiven Ort.
US 6,230,132 beschreibt ein weiteres Navigationssystem mit Spracherkennungsfunktionen. In periodischen Intervallen wird ein Lexikon mit einer begrenzten Anzahl von Wörtern erzeugt, um die Spracherkennungsfunktionen zu ermöglichen. Wenn ein Benutzer das Navigationssystem benutzen muß, muß er darüber hinaus mit seiner Stimme den Namen eines Orts anfordern, so daß ein Lexikon erzeugt werden kann.
EP 0661688 beschreibt eine Eingeräte-Navigationsvorrichtung an Bord eines Autos mit Spracherkennungsfunktionen. Es werden vorexistierende Bibliotheken verwendet und in regelmäßigen Intervallen aktualisiert, um die Spracherkennungs-Engine zu ermöglichen.
KURZFASSUNG DER ERFINDUNG
Die vorliegende Erfindung wird durch die angefügten unabhängigen Ansprüche definiert.
Weitere Aspekte und Merkmale der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich. Es versteht sich jedoch, daß die Zeichnungen lediglich zur Veranschaulichung angegeben werden, und nicht als Definition der Grenzen der Erfindung, für die auf die angefügten Ansprüche verwiesen wird. Ferner versteht sich, daß, sofern es nicht anders angegeben wird, die Zeichnungen lediglich die hier beschriebenen Strukturen und Prozeduren konzeptuell darstellen sollen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Es zeigen:
1 eine Diagrammdarstellung eines interessierenden geographischen Gebiets.
2 ein Datenstrukturdiagramm, das einen Teil einer beispielhaften Elementdatenbank darlegt.
3 ein Datenstrukturdiagramm, das eine beispielhafte Teilmenge von aus der Elementdatenbank von 2 ausgewählten Wörtern darlegt.
4 ein verallgemeinertes Informationsflußdiagramm einer Menge von fundamentalen Operationen für die vorliegende Erfindung.
5 ein ausführliches Blockdiagramm, das den Informationsfluß für ein gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung aufgebautes Spracherkennungssystem darlegt.
AUSFÜHRLICHE BESCHREIBUNG DER ZEICHNUNGEN
Die hier verwendeten folgenden Begriffe werden folgendermaßen definiert:

Interessierendes geographisches Gebiet: Als Beispiel definiert über eine Postleitzahl, eine Gruppe von Postleitzahlen, Informationen der Zellenidentifikation (Cell-ID), Informationen der Anrufer-ID (Call-ID), die Grenzen eines Staates, eines Landes, einer Großstadt, einer Stadt, eines Ortes oder eine andere behördliche oder Gemeindeunterteilung, Gitter des Standards-USGS (United States Geological Survey), Orte mit einem festen Bereich von Höhen- und Breitengrad oder Orte in einer spezifizierten geometrischen Grenze. Das interessierende geographische Gebiet kann, muß aber nicht automatisch auf der Basis des derzeitigen Orts des Handapparats gesetzt werden. Das interessierende geographische Gebiet kann, muß aber nicht von einem Benutzer auf der Basis einer manuellen, verbalen oder benutzerspezifizierten Eingabe designiert werden. Das interessierende geographische Gebiet kann ein grobes interessierendes geographisches Gebiet oder ein verfeinertes interessierendes geographisches Gebiet sein, wobei letzteres ein Teil des ersteren ist.
E911: Wie von der FCC (Federal Communications Commission) angeordnet, eine Norm für ein System, durch das drahtlose Betreiber den Ort eines mobilen Geräts in einem Notfall genau lokalisieren können.
Element: Name einer Straße, eines Unternehmens, eines Händlers, Name einer Einzelperson, ein Ort, ein interessierender Punkt, eine Transporteinrichtung, ein individueller Haushalt, eine Aktivität und/oder eine Sehenswürdigkeit.
GPS: Global Positioning System – Ermöglicht eine geographische Positionsbestimmung in einem landgestützten tragbaren Gerät, das dafür ausgestattet ist, Signale von drei oder mehr GPS-Satelliten im Orbit zu empfangen.
LBS: Auf Ort basierender Dienst – Jeder Dienst, der Informationen bezüglich des aktuellen geographischen Orts eines Mobilgerätebenutzers erhält. Anschauungsbeispiele für auf Ort basierende Dienste wären in einem Automobil angezeigte Karten, die die Position eines Kraftfahrers unter Verwendung von GPS verfolgen, oder automatische Lokalisierungsdienste, die durch Wählen von 911 auf einem E911-kompatiblen Mobiltelefonnetz bereitgestellt werden.
Mobiles Gerät: Jedes tragbare Gerät, das für drahtlose Kommunikation befähigt ist, wie zum Beispiel ein drahtloses Telefon, ein persönlicher digitaler Assistent oder ein mit einem drahtlosen Modem ausgestatteter Laptop-Computer.
Phonem: Ein Phonem repräsentiert ein einzigartiges menschlisches geäußertes Geräusch. Einzelne Wörter, die zum Beispiel von einem menschlichen Sprecher ausgesprochen werden, bestehen aus einer Sequenz von Phonemen.
Syntaktisches Modell: Eine Menge von Regeln und Operationen, die zulässige Wortsequenzen (Phrasen) aus einem oder mehreren Wörtern zur nachfolgenden Verwendung in einer Spracherkennungsprozedur spezifizieren. Zulässige Wortsequenzen werden in einer Liste statischer zulässiger Phrasen dargelegt. Zusätzlich können die Phrasen gegebenenfalls durch Wahrscheinlichkeiten des Auftretens gewichtet werden. Andernfalls können Wortsequenzen in Form von stochastischen oder probabilistischen Listen vorliegen, wie zum Beispiel in Form eines Markov-Modells von Wortsequenzen. Syntaktische Modelle sind gewöhnlich für eine bestimmte Sprach-Engine spezifisch ausgelegt.
Wort: Eine Einheit der Sprache, die Muttersprachler identifizieren können und die eine Bedeutung übermittelt. Wörter sind die Bausteine, aus denen Phrasen und Sequenzen konstruiert werden. Zum Beispiel sind vier Elemente "Das Empire State Building" der Name eines Elements, der vier Wörter enthält. Eine Straße mit dem Namen "125. Straße" enthält die zwei Wörter "einhundertfünfundzwanzigste Straße". Der Straßenname "K-Straße" enthält die Wörte "K" (wobei es sich für die Zwecke der vorliegenden Erfindung um ein Wort handelt) und "Straße".

Die Erfindung setzt voraus, daß eine sehr große Elementdatenbank für ein bestimmtes relativ großes designiertes geographisches Gebiet, wie etwa eine Stadt, einen Staat, eine Grafschaft oder ein Land, zur Verfügung steht. Ein Beispiel für eine bekannte Elementdatenbank ist TIGER (Topologically Integrated Geographic Encoding and Referencing System), erhältlich von dem United States Census Bureau. TIGER compoundiert lokalisierte Straßennamen, Flüsse und Eisenbahnstrecken zu einer Reihe großer regionaler Datenbanken.
Die Elementdatenbank enthält eine Menge von Wörtern für Elemente an Orten, die sich in dem designierten geographischen Gebiet befinden. Gemäß einem Aspekt der Erfindung wird durch Verwendung geographischer Daten zur automatischen Auswahl einer Teilmenge der Wörter in der Elementdatenbank zur Verwendung mit einer Spracherkennungsprozedur verbesserte Spracherkennungsgenauigkeit bereitgestellt. Die Teilmenge von Wörtern wird gewählt, indem nur die Wörter in der Elementdatenbank ausgewählt werden, die sich in einem interessierenden geographischen Gebiet befinden. Das interessierende geographische Gebiet, das entweder grob oder verfeinert ist (abhängig von den Umständen, wie nachfolgend erläutert) wird beispielsweise über eine Postleitzahl, eine Gruppe von Postleitzahlen, Informationen der Zellenidentifikation (Cell-ID), Informationen der Anrufer-ID (Call-ID), die Grenzen eines Staats, einer Grafschaft, einer Großstadt, einer Stadt, eines Orts oder einer anderen behördlichen oder Gemeindeunterteilung, Gitter des Standard-USGS (United States Geological Survey), Orte in einem festen Bereich von Höhen- und Breitengrad oder Orte in einer spezifizierten geometrischen Grenze definiert.
Durch Auswahl einer Teilmenge von Wörtern wird die Gesamtzahl der in der Spracherkennungsprozedur verwendeten Wörter wesentlich reduziert. Zum Beispiel kann eine große Elementdatenbank, die über alle fünf Bezirke von New York City hinweg verwendete Straßen- und Unternehmensnamen enthält, auf eine wesentlich kürzere Liste von Straßen- und Unternehmensnamen reduziert werden, die nur den Bereich der Grand Central Station abdeckt, indem die Postleitzahl 10017 spezifiziert wird. Eine solche Reduktion der Gesamtzahl zu erkennender potentieller Straßennamen verbessert die Spracherkennungsgenauigkeit signifikant.
Gemäß einem weiteren Aspekt der Erfindung werden Positionsinformationen von einem LBS auf der Basis des aktuellen Orts eines mobilen Handapparats beispielsweise unter Verwendung einer beliebigen Kombination von GPS-Koordinaten, Postleitzahlen oder Triangulation zellularer Basisstationen erhalten. Die erhaltenen Positionsinformationen können benutzt werden, um automatisch ein grobes interessierendes geographisches Gebiet zu definieren. Man nehme als Beispiel an, daß für diesen Zweck Postleitzahlen verwendet werden. Sobald der aktuelle Ort des Handapparats bestimmt ist, wird somit die Postleitzahl, die diesen Ort enthält, automatisch zu dem interessierenden groben geographischen Gebiet. In der Regel kann das System auf der Basis einer Kenntnis einer Verbindungskonfiguration bestimmen, welches Lokalisierungsverfahren zu verwenden ist. Wenn zum Beispiel eine Verbindung eingeleitet wird, kann man die Cell-ID verwenden, um den ungefähren Ort des Geräts zu bestimmen. Als Alternative kann die Anwendung selbst auswählen, welche Verfahren einzusetzen sind, oder die Anwendung kann den Benutzer dazu auffordern, auszuwählen, welches Verfahren verwendet werden soll. Eine bespielhafte Ausführungsform wäre etwa "Möchten Sie die Cell-ID oder GPS zur Bestimmung Ihres Orts verwenden?".
Gemäß einem weiteren Aspekt der Erfindung ermöglicht eine Schnittstelle einem Benutzer, das grobe interessierende geographische Gebiet zu verfeinern. Zum Beispiel kann der Benutzer zentriert um den aktuellen Ort des Handapparats eine spezifizierte geometrische Form in dem groben geographischen Gebiet auswählen. Dies kann durch Verwendung von auf Schlüsseln basierenden Einträgen erzielt werden. Außerdem kann eine graphische Benutzeroberfläche verwendet werden, um eine geometrische Form in dem groben geographischen Gebiet zu zeichnen. Zusätzlich oder als Alternative kann eine Cell-ID innerhalb der Postleitzahl des geographischen Gebiets spezifiziert werden, wodurch ein verfeinertes interessierendes geographisches Gebiet definiert wird, für das die Teilmenge von Wörtern auszuwählen ist. Das Kombinieren einer automatischen Definition eines groben interessierenden geographischen Gebiets mit zusätzlicher benutzerdefinierbarer geometrischer Verfeinerung ist vorteilhaft, weil sie die Gesamtzahl der Wörter, die in der Spracherkennungsprozedur verwendet werden müssen, weiter reduziert. Zum Beispiel kann eine benutzerwählbare rechteckige Region von 300 × 300 Fuß nur einige wenige Dutzend Elemente enthalten, die erkannt werden müssen.
1 ist eine Diagrammdarstellung einer interessierenden geographischen Region, die in einem großen Gebiet 100, wie zum Beispiel einer Großstadt, enthalten ist. Der aktuelle geographische Ort eines mobilen Geräts wird als der Punkt 401 bestimmt. Bei diesem Anschauungsbeispiel wird das grobe interessierende geographische Gebiet durch die Postleitzahl definiert. Das grobe interessierende geographische Gebiet wird somit durch die Postleitzahl-Region 470 definiert, in der sich der Punkt 401 befindet. Ein Mobilgerätebenutzer hat um den Punkt 401 herum einen spezifischen Radius 407 gewählt, um das verfeinerte interessierende geographische Gebiet zu definieren. Elemente, die (ganz oder teilweise) in diesem groben geographischen Gebiet enthalten sind, sind zum Beispiel die Straße A 420, die Straße B 422 und ein erstes Gebäude 406. Elemente, die in diesem groben interessierenden geographischen Gebiet, aber nicht diesem verfeinerten geographischen Gebiet enthalten sind, wären etwa die Straße C 424, das zweite Gebäude 404 und das dritte Gebäude 402.
Eine Elementdatenbank (2, 500) enthält eine Liste von Elementnamen für Straßen, Unternehmen, Händler, Orte, interessierende Punkte, Transporteinrichtungen, individuelle Haushalte, Aktivitäten und/oder Sehenswürdigkeiten in dem großen Gebiet 100 (1). Diese Datenbank kann Teil der LBS-Datenbank sein. Jeder Elementname ist mit einem oder mehreren entsprechenden Parametern zum Identifizieren oder Assoziieren des Elements mit einem verfeinerten interessierenden geographischen Gebiet und einem Parameter zum Identifizieren oder Assoziieren des Elements mit einem groben interessierenden geographischen Gebiet assoziiert. Der Erkennungsmodell-Compiler 213 kann unter Verwendung des ausgegebenen Elementnamens (501) in Verbindung mit einem Phonetisierer eine Menge von dem Elementnamen entsprechenden Phonemen berechnen. Ein Phonetisierer ist ein Mechanismus, der für jeden von mehreren Elementnamen phonemische Transkriptionen bereitstellt. Phonemische Transkriptionen umfassen ein Phonem oder eine Sequenz von zwei oder mehr Phonemen, die angeben, wie ein Elementname gesprochen werden kann. Zum Beispiel hat der Elementname "Madison" eine entsprechende phonemische Transkription "mäd ê sun".
Elementnamen werden in einem Elementnamenfeld 501 gespeichert. Jeder Name in dem Elementnamenfeld 501 ist mit einem entsprechenden Parameterfeld (x, y) für das verfeinerte interessierende geographische Gebiet 503 und einem entsprechenden Parameterfeld für das grobe interessierende geographische Gebiet 505 assoziiert. Diese Elementnamen können Elemente enthalten, die sich in jeglichem verfeinerten interessierenden geographischen Gebiet befinden, das vom Benutzer während des Betriebs der Erfindung ausgewählt wird (in diesem Beispiel definiert durch den Radius 407 um den Punkt 401 von 1) oder nicht.
Verfeinerte geographische Parameter werden in dem Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 (2) gespeichert. Ein verfeinerter geographischer Parameter legt eine Eigenschaft eines Elements darüber dar, wie das verfeinerte interessierende geographische Gebiet definiert ist. Wenn das verfeinerte geographische Gebiet zum Beispiel vom Benutzer als Form (z. B. ein Kreis) um den aktuellen Ort des Handapparats herum definiert wird, umfassen die verfeinerten geographischen Parameter (x, y)-Koordinaten. In dem Anschauungsbeispiel von 2 sind die verfeinerten geographischen Parameter (x, y)-Koordinaten, die mit Bezug auf einen beliebig zugewiesenen Referenzpunkt bestimmt werden. Wenn eine erste Menge und eine zweite Menge von (x, y)-Koordinaten in dem Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 vorliegen, repräsentiert dies ein Liniensegment zwischen der erste Menge von (x, y)-Koordinaten und der zweiten Menge von (x, y)-Koordinaten. Ein solches Segment wird zum Beispiel dazu verwendet, eine Straße zu definieren, die sich von der ersten Menge von (x, y)-Koordinaten zu der zweiten Menge von (x, y)-Koordinaten erstreckt.
In dem Parameterfeld für das grobe interessierende geographische Gebiet 505 werden grobe geographische Parameter gespeichert. Ein grober geographischer Parameter legt eine Eigenschaft eines Elements darüber dar, wie das grobe interessierende geographische Gebiet definiert ist. Wenn das grobe interessierende geographische Gebiet zum Beispiel über eine oder mehrere Postleitzahlen definiert ist, umfassen die groben geographischen Parameter in dem Parameterfeld für das grobe interessierende geographische Gebiet 505 eine oder mehrere Postleitzahlen. Wenn zum Beispiel die Straße A 420 (1) in zwei verschiedene Postleitzahlenregionen einschneidet, enthält das Parameterfeld für das grobe interessierende geographische Gebiet 505 zwei Postleitzahlen, wie etwa 10017 und 10036. Es könnten jedoch andere Arten von groben geographischen Parametern verwendet werden, um das Element mit einem Postleitzahlensystem, wie zum Beispiel Gittern des Standard-USGS (United States Geological System), Regionen mit einem festen Bereich von Höhen- und Breitegrad, Staatengrenzen, Grafschaftengrenzen, Großstädtegrenzen und/oder anderen Grenzen von städtischen Gebieten, in Beziehung zu setzen. Zum Beispiel könnte eine Nachschlagetabelle verwendet werden, um die obige Beziehung zu bestimmen.
Nunmehr mit Bezug auf 1 und gemäß einem Merkmal der Erfindung werden nur Wörter, die Elementen in dem interessierenden geographischen Gebiet entsprechen, aus der Elementdatenbank 500 (2) extrahiert, um die Wortteilmengenliste 600 (3) zu bilden. Wenn der Benutzer das verfeinerte interessierende geographische Gebiet wie in 1 gezeigt definiert, enthält die begrenzte Menge von Wörtern nicht die Straße C 424, das zweite Gebäude 404 und das dritte Gebäude 402. Die Verwendung dieser begrenzten Menge von Wörtern verbessert die Genauigkeit einer nachfolgend ausgeführten Spracherkennungsprozedur, weil Wörter, die jedes einzelne Element des großen Gebiets 100 von 1 betreffen, nicht betrachtet werden müssen.
3 ist ein Datenstrukturdiagramm, das einen Teil einer beispielhaften Wortteilmengenliste 600 darlegt. Die Namen eines oder mehrerer Elemente in dem interessierenden geographischen Gebiet werden in einem Elementnamenfeld 601 gespeichert. Gegebenenfalls kann die Wortteilmengenliste 600 zusätzliche Informationen enthalten, wie etwa die Wahrscheinlichkeit, daß ein bestimmtes Element auf der Basis der Distanz dieses Elements von der aktuellen Position des mobilen Geräts in eine Anfrage eines Benutzers integriert wird, um so eine verbesserte Leistungsfähigkeit bereitzustellen.
4 ist ein verallgemeinertes Informationsflußdiagramm, das eine Menge von fundamentalen Operationen für die vorliegende Erfindung beschreibt. Der Beschaffungsmechanismus 101 für geographische Daten (dessen Einzelheiten in 5 gezeigt sind), ist dafür ausgestattet, geographische Daten zu sammeln, die einer aktuellen geographischen Position eines mobilen Geräts entsprechen, um auf deren Basis ein interessierendes geographisches Gebiet zu bestimmen und auszugeben. Geographische Daten umfassen unter anderem beliebige der folgenden: Koordinaten des GPS (Global Positioning System) in Höhen- und Breitengrad und auch gegebenenfalls Höhe, [x, y, z]-Koordinaten, Städtenamen, Ortsnamen, Postleitzahlenbereich, geographisches Gebiet, Art des Gebiets (städtisch, vorstädtisch oder Land), ein oder mehrere Parameter der Zellenidentifikation (Cell-ID) aus einem zellularen Netz oder einen Parameter der Anruferidentifkation (Call-ID) aus einem terrestrischen Fernsprechnetz.
Der Wortfiltermechanismus 102 ist dafür ausgestattet, ein interessierendes geographisches Gebiet von dem Beschaffungsmechanimus 101 für geographische Daten zu empfangen und auf dessen Basis eine Teilmenge von Wörtern aus der Elementdatenbank 500 (2 und 4) auszuwählen. Wenn ein grobes interessierendes geographisches Gebiet verwendet wird, wird die Teilmenge von Wörtern durch Vergleichen der groben geographischen Parameter in dem Parameterfeld für das grobe interessierende geographische Gebiet 505 entsprechend den Elementen in dem Elementnamenfeld 501 mit zum Charakterisieren des interessierenden geographischen Gebiets verwendeten groben geographischen Parametern ausgewählt. Wenn genauer gesagt das grobe geographische Gebiet die Postleitzahl 10017 ist, werden alle Elementnamen in dem Elementnamenfeld 501 ausgewählt, die in dem Parameterfeld für das grobe interessierende geographische Gebiet 505 mit der Postleitzahl 10017 assoziiert sind. Eine ähnliche Operation wird ausgeführt, wenn ein verfeinertes interessierendes geographisches Gebiet verwendet wird. Das Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 wird natürlich anstelle des Parameterfelds für das grobe interessierende geographische Gebiet 505 verwendet. Die verfeinerten geographischen Parameter werden mit den groben geographischen Parametern kombiniert, um den Wortfiltermechanismus 102 zu verbessern, indem ein zweischrittiger Filterprozeß verwendet wird. Ein erster Schritt verwendet das Parameterfeld für das grobe interessierende geographische Gebiet 505 und ein zweiter Schritt verwendet das Parameterfeld für das verfeinerte interessierende geographische Gebiet 503.
Der Wortfiltermechanismus 102 legt die gewählte Teilmenge von Wörtern in einer Wortteilmengenliste 600 (3 und 4) ab. Der Spracherkennungsmechanismus 103 (4) ist dafür ausgestattet, die Wortteilmengenliste 600 (3 und 4) von dem Wortfiltermechanismus 102 (4) zu empfangen und auf ihrer Basis eine Spracherkennungsprozedur auszuführen. Beispielsweise kann der Spracherkennungsmechanismus 103 dafür ausgestattet sein, eine Spracherkennungsprozedur durch Verwendung eines Paradigmas (syntaktisches Modell) × (lexikalisches Modell) × (akustisches Modell) in Verbindung mit Markov-Modellen zu implementieren. Als Alternative oder zusätzlich kann der Spracherkennungsmechanismus 103 ein neuronales Netzwerk benutzen. Allgemeiner ist die Erfindung auf jeden Spracherkennungsmechanismus anwendbar, der Wörter oder Gruppen von Wörtern, die als "Grammatik" bezeichnet werden, akzeptiert und verarbeitet. Folglich enthält der Wortfiltermechanismus 102 einen Grammatikformatierungsmechanismus, der die Wortteilmengenliste 600 empfängt und die Liste zu einem von dem Erkennungsmodellcompiler 213 benutzbaren Grammatikformat formatiert.
Der Erkennungsmodellcompiler 213 kann abhängig von den spezifischen Entwurfseigenschaften des Spracherkennungsmechanismus 103 erforderlich sein oder nicht. Der Erkennungsmodellcompiler 213 parst (oder analysiert) alle Einträge in einer formatierten Grammatik nacheinander und konstruiert dann in einer oder mehreren sukzessiven Phasen oder "Durchgängen" einen von dem Spracherkennungsmechanismus 103 lesbaren Ausgangscode. Da die Spracherkennungsprozedur auf einer geographisch verfeinerten Teilmenge von Wörtern basiert, ist die Gesamtgenauigkeit dieser Prozedur im Vergleich zu vorbekannten Entwürfen verbessert. Der Spracherkennungsmechanismus 103 kann durch einen Server oder durch einen mobilen Handapparat implementiert werden.
Eine Sprachanfrage von einem Mobilgerätebenutzer wird von einem akustischen Eingangsmechanismus 104 in dem mobilen Gerät empfangen. Der akustische Eingangsmechanismus 104 kann unter Verwendung eines Mikrofons oder eines anderen Wandlers implementiert werden, der dafür ausgestattet ist, akustische Vibrationen in elektronische Signale zu transformieren. Der akustische Eingangsmechanismus 104 führt dem Spracherkennungsmechanismus 103 eine elektronische Repräsentation von Benutzersprache zu. Der Spracherkennungsmechanismus 103 versucht, ein oder mehrere Wörter in der elektronischen Repräsentation von Benutzersprache zu erkennen, die in der aus der Elementdatenbank 500 abgerufenen Wortteilmengenliste 600 enthalten sind. Wenn ein oder mehrere Wörter erkannt werden, sendet der Spracherkennungsmechanismus 103 eine elektronische Nachricht zu einem Ausgangsmechanismus 105 in dem mobilen Gerät. Die elektronische Nachricht umfaßt etwaige erkannte Wörter in der von dem Mobilgerätebenutzer empfangenen Sprachanfrage, die auch in der Wortteilmengenliste 600 enthalten waren. Der Ausgangsmechanismus 105 setzt die elektronische Nachricht in hörbare und/oder visuelle Form zur Wahrnehmung durch den Mobilgerätebenutzer um. Beispielsweise kann der Ausgangsmechanismus 105 unter Verwendung eines Lautsprechers implementiert werden, der mit Audioverstärkerschaltkreisen und Sprachsynthesizerschaltkreisen zum Produzieren einer Audionachricht, die ein oder mehrere erkannte Wörter enthält, gekoppelt sein. Als Alternative oder zusätzlich kann der Ausgangsmechanismus 105 unter Verwendung einer visuellen Anzeigeeinrichtung zum Anzeigen alphanumerischer Zeichen, einschließlich eines oder mehrerer erkannter Wörter, implementiert werden.
5 ist ein ausführliches Blockdiagramm, das den Informationsfluß für ein gemäß einer Ausführungsform der vorliegenden Erfindung konstruiertes Spracherkennungssystem darlegt. 5 zeigt Einzelheiten des Beschaffungsmechanismus 101 für geographische Daten. Die abgebildeten Operationen werden entweder durch einen abgesetzten Server 240 oder durch das mobile Gerät 250 ausgeführt. Der Informationsfluß beginnt beim Empfang eines "Start-"Signals an dem Eingangsmechanismus 201 des mobilen Geräts 250. In der Praxis kann dieses "Start-"Signal eine von einer multimodalen Webseite, einer HTML-Seite oder lediglich einem Telefonanruf ausgegebene Anforderung sein. Als Alternative kann der Benutzer eine Verbindung auf einem mobilen Handapparat zu einer designierten Telefonnummer einleiten, um auf ein auf dem mobilen Handapparat angezeigtes Postleitzahlformular zuzugreifen. Der Benutzer füllt das Postleitzahlformular unter Verwendung von DTMF-Tastenbetätigungen auf dem Handapparat aus und validiert die eingegebene Postleitzahl durch Betätigen der DTMF-Ziffer "1" als ein "Start-"Signal. Im Prinzip löst das "Start-"Signal eine Informationsanforderung aus.
Als nächstes wird in dem Mechanismus 202 entschieden, ob das interessierende geographische Gebiet lokal (d. h. in dem mobilen Gerät 250) oder an einem abgesetzten Ort (d. h. in dem abgesetzten Server 240) bestimmt wird. Abhängig von den Einzelheiten einer gegebenen Systemanwendung kann diese Entscheidung erfolgen, indem eine Anfrage an das mobile Gerät 250 ausgegeben wird, um die Konfiguration und Fähigkeiten des mobilen Geräts 250 zu bestimmen.
Falls das interessierende geographische Gebiet lokal bestimmt wird, kann man einen von zwei Ansätzen verwenden. Gemäß dem ersten Ansatz kann das mobile Gerät 250 einen optionalen GPS-Empfänger 207 enthalten, woraufhin beschaffte GPS-Daten zu einem Mechanismus 204 zum Definieren eines interessierenden geographischen Gebiets (Serverseite, siehe 5) weitergeleitet werden. Der Mechanismus 204 verwendet die dem aktuellen Ort des mobilen Geräts 250 entsprechenden GPS-Daten, um grobe geographische Parameter zur Charakterisierung des groben interessierenden geographischen Gebiets zu erhalten. Gemäß einem zweiten Ansatz kann der Benutzer an dem Eingangsmechanismus 201 zum Beispiel Postleitzahldaten eingeben und diese können zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets weitergeleitet werden. Beispielsweise werden Postleitzahldaten durch sequentielles Betätigen von Tasten auf einem DTMF-(Mehrfrequenz-)Tastenfeld in den Eingangsmechanismus 201 eingegeben. Der Mechanismus 204 verwendet die eingegebenen Postleitzahldaten als groben geographischen Parameter zur Charakterisierung des interessierenden geographischen Gebiets.
Falls das interessierende geographische Gebiet abgesetzt bestimmt wird, leitet der Mechanismus 202 die aus dem Eingangsmechanismus 201 empfangene Anforderung zu einem auf Ort basierenden Dienst 203 in dem Server 240 weiter. Als Alternative oder zusätzlich werden GPS-Daten aus dem GPS-Empfänger 207 zu dem auf Ort basierenden Dienst 203 übermittelt, wenn sie benötigt werden. Als Reaktion auf die empfangene Anforderung ruft der auf Ort basierende Dienst 203 zum Beispiel Postleitzahlinformationen oder Daten der Zellenidentifikation (Cell ID) für das mobile Gerät 250 ab. Cell-IDs-Daten können in einem Mobilkommunikationsnetz unter Verwendung der aus dem mobilen Gerät 250 abgerufenen ANI (Automatic Nummer Identification) abgerufen werden. ANI ist ein Dienst, der dem Empfänger eines Telefonanrufs die Nummer des anrufenden Telefons zur Verfügung stellt. Das Verfahren zum Bereitstellen dieser Informationen wird vom Dienstanbieter bestimmt. Cell-ID-Daten spezifizieren den geographischen Ort der gerade mit dem mobilen Gerät 250 kommunizierenden drahtlosen Basisstation durch Identifizieren der Telefonnummer und/oder der IP-Adresse (Internet Protocol), die dem mobilen Gerät 250 zugewiesen ist. Zum Beispiel kann das mobile Gerät 250 dem auf Ort basierenden Dienst 203 Cell-ID-Daten in Form eines ANI-Parameters (Automated Number Identification) senden. Gegebenenfalls oder als Alternative bestimmt der auf Ort basierende Dienst 203 den geographischen Ort des mobilen Geräts 250 durch Ausführen einer Triangulationsprozedur zwischen mehreren drahtlosen Basisstationen. Die von dem auf Ort basierenden Dienst 203 (letztendlich durch den Telekommunikationsanbieter) abgerufenen Cell-ID-Daten, Caller-ID-Daten und/oder Triangulationsdaten werden zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets weitergeleitet.
Falls das interessierende geographische Gebiet abgesetzt bestimmt wird, verwendet der LBS-Dienst 203 gegebenenfalls Caller-ID-Daten und/oder Cell-ID-Daten zum Zugreifen auf eine Postleitzahldatenbank 243. Auf der Basis der Caller-ID-Daten und/oder Cell-ID-Daten wird eine Postleitzahl aus der Postleitzahldatenbank 243 abgerufen und dann zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets gesendet. Obwohl die beispielhafte Ausführungsform von 5 die Postleitzahldatenbank 243 und den auf Ort basierenden Dienst 203 als separate Elemente zeigt, ist für Fachleute auf dem relevanten Gebiet leicht erkennbar, daß die Postleitzahldatenbank 243 in den auf Ort basierenden Dienst 203 integriert sein kann, obwohl dies nicht der Fall sein muß. Ähnlich ist für Fachleute auf dem relevanten Gebiet leicht erkennbar, daß, obwohl die Elementdatenbank 500 und der auf Ort basierende Dienst 203 als separate Elemente gezeigt sind, die Elementdatenbank 500 in den auf Ort basierenden Dienst 203 integriert sein könnte, obwohl dies nicht der Fall sein muß.
Der Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets verarbeitet ankommende geographische Daten, die bespielsweise ankommende GPS-Daten, Postleitzahldaten, Caller-ID-Daten und/oder Cell-ID-Daten umfassen, um einen oder mehrere geographische Parameter zu erzeugen, die das interessierende geographische Gebiet für das mobile Gerät 250 definieren. Wenn zum Beispiel wie oben besprochen die ankommenden Daten auf Postleitzahlendaten basieren, ist die Ausgabe des Mechanismus 204 eine Postleitzahl. Dieser Parameter, z. B. eine Postleitzahl, wird zum Spezifizieren eines interessierenden geographischen Gebiets verwendet. Das definierte interessierende geographische Gebiet kann ein grobes interessierendes geographisches Gebiet mit einem verfeinerten interessierenden geographischen Gebiet kombinieren, wie in dem folgenden Beispiel dargestellt wird. Eine oder mehrere Postleitzahl(en) können aus GPS-Koordinaten abgeleitet werden, wodurch ein grobes interessierendes geographisches Gebiet definiert wird. Die GPS-Koordinaten selbst, die mit einem Unbestimmtheitsbereich assoziiert sind, definieren ein verfeinertes interessierendes geographisches Gebiet. Ein solches definiertes interessierendes geographisches Gebiet kann zum Implementieren des oben beschriebenen zweischrittigen Filterprozesses verwendet werden.
Gegebenenfalls kann wie durch die gestrichelten Linien in 5 angegeben ein Benutzer an dem mobilen Gerät 250 wünschen, das interessierende geographische Gebiet, das durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets definiert wird, weiter zu verfeinern. Wenn dies der Fall ist, wird das durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets definierte interessierende geographische Gebiet als ein grobes interessierendes geographisches Gebiet bezeichnet und das vom Benutzer verfeinerte interessierende Gebiet wird als das verfeinerte interessierende geographische Gebiet bezeichnet. Das verfeinerte interessierende geographische Gebiet umfaßt eine Teilmenge des groben interessierenden geographischen Gebiets. Der Eingangsmechanismus 201 nimmt Benutzereingaben an, die eine geometrische Spezifikation eines verfeinerten interessierenden geographischen Gebiets darlegen. Benutzereingaben werden beispielsweise über die Verbindungsleitung 275 in Form von Tastenfeldeingaben, graphischen Objekten, Skizzen, Textbeschreibungen oder Vokaleingabe empfangen. Beispiele für geometrische Spezifikationen sind deren Quadrate, Rechtecke, Achtecke, Dreiecke, Kreise und Freihand-Skizzen. Der Mechanismus 205 zur Verfeinerung der geometrischen Spezifikation nimmt Benutzereingaben von dem Eingangsmechanismus 201 an und verfeinert die Menge der durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets erzeugten geographischen Parametern.
Der eine bzw. die mehreren durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets erzeugten geographischen Parameter, die gegebenenfalls durch den Mechanismus 205 zum Verfeinern der Geometriespezifikation verfeinert werden, werden von dem Wortfiltermechanismus 102 empfangen. Der Wortfiltermechanismus 102 ist befähigt, seine Funktionen auszuführen, wenn zwei Bedingungen erfüllt sind. Als erstes sollte das mobile Gerät 250 eine sprachbefähigte Anwendung ausführen, wenn der Benutzer eine Informationsanforderung ausgegeben hat. Diese Anforderung ist bei der Erzeugung einer Anforderung aus dem Eingangsmechanismus 201 erfüllt. Zweitens sollte das interessierende geographische Gebiet definiert werden. Diese Anforderung ist erfüllt, sobald der Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets die oben beschriebenen geographischen Parameter erzeugt.
Wenn er freigegeben ist, verwendet der Wortfilter mechanismus 102 den einen oder die mehreren aus dem Mechanismus 204 oder 205 empfangenen geographischen Parameter, um zu bestimmen, ob sich jedes der mehreren Elemente in der Elementdatenbank 500 in dem interessierenden geographischen Gebiet befindet oder nicht. Die in dem Elementnamenfeld 501 (2) gespeicherten Elementnamen können Namen umfassen, die sich in dem interessierenden geographischen Gebiet befinden, und auch Elemente, die nicht in dem interessierenden geographischen Gebiet liegen. Folglich vergleicht der Wortfiltermechanismus 102 (5) den einen oder die mehreren empfangenen Parameter, die das interessierende geographische Gebiet definieren, mit einem oder mehreren Parametern, die in dem mindestens einen Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 oder in einem Parameterfeld für das grobe interessierende geographische Gebiet 505 (2) gespeichert sind, um zu bestimmen, ob jedes von mehreren Elementen in der Elementdatenbank 500 (2 und 5) sich in dem interessierenden geographischen Gebiet befindet. Zum Beispiel ist die Straße A in dem Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 durch eine erste und eine zweite Menge von (x, y)-Koordinaten charakterisiert. Folglich wird Straße A als ein gerades Liniensegment enthaltend konzeptualisiert, das die erste und die zweite Menge von (x, y)-Koordinaten verbindet. Wenn irgendein Teil dieses geraden Liniensegments das interessierende geographische Gebiet schneidet, wird Straße A in die Wortteilmengenliste 600 (3 und 5) aufgenommen.
Der Wortfiltermechanismus 102 hängt nur die Elementnamen in dem interessierenden geographischen Gebiet an die Wortteilmengenliste 600 an. Wenn der Benutzer etwaige Verfeinerungen an dem groben interessierenden geographischen Gebiet vorgenommen hat, werden gegebenenfalls nur Elemente, die in dem verfeinerten interessierenden geographischen Gebiet liegen, an die Wortteilmengenliste 600 angehängt.
Die Wortteilmengenliste 600 von 3 und 5 repräsentiert ein beispielhaftes Ausgabeformat für den Wortfiltermechanismus 102. Als Alternative oder zusätzlich kann die Ausgabe des Wortfiltermechanismus 102 als computerlesbarer Strom von Wörtern, der ein oder mehrere Elemente in dem interessierenden geographischen Gebiet repräsentiert, konzeptualisiert werden. Dieser beispielsweise im Textformat vorliegende Strom ist mit einer Spracherkennungs-Engine und/oder einem Sprach-Browser-Einbettungs-Spracherkennungsmechanismus 103 (5) kompatibel. Gegebenenfalls kann der Wortfiltermechanismus 102 die Wortteilmengenliste 600 und/oder den computerlesbaren Strom von Wörtern in ein Format wie etwa ein XML-Dokument umformatieren, um eine mit dem Spracherkennungsmechanismus 103 kompatible Teilmenge von Wörtern bereitzustellen.
Der Spracherkennungsmechanismus 103 kann in dem Server 240 oder in dem mobilen Gerät 250 implementiert werden. Falls Spracherkennung in dem mobilen Gerät 250 durchgeführt wird, wird die Ausgabe des Wortfiltermechanismus 102 (beispielsweise in Form eines Stroms von Wörtern, der der Grammatikteilmengenliste 600, 3, entspricht) von dem Server 240 zu dem mobilen Gerät 250 gesendet. Die Wortteilmengenliste 600 wird dann durch den Erkennungsmodellcompiler 213 in dem mobilen Gerät 250 kompiliert, um ein Spracherkennungsmodell zur Verwendung durch den Spracherkennungsmechanismus 103 als Reaktion auf den akustischen Eingangsmechanismus 104 bereitzustellen. Der Spracherkennungsmechanismus 103 leitet erkannte Sprache dann zu dem Ausgangsmechanismus 105 weiter, um ein die erkannte Sprache repräsentierendes elektronisches Ausgangssignal zu erzeugen. Eine solche Anordnung ist vorteilhaft, weil sie die Belastung drahtloser Kommunikationsbetriebsmittel reduziert. Übertragungen zwischen dem Server und dem mobilen Gerät werden reduziert, weil nur die Wortteilmengenliste 600 zu dem mobilen Gerät übermittelt werden muß. Die Spracherkennungsschritte können in dem mobilen Gerät mit Bezug auf die Wortteilmengenliste 600 durchgeführt werden, wodurch sich die Geschwindigkeit und Effizienz des Spracherkennungsprozesses verbessern.
Wenn Spracherkennung in dem Server 240 ausgeführt wird, werden der Erkennungsmodellcompiler 213 und der Spracherkennungsmechanismus 103 in dem Server 240 statt in dem mobilen Gerät 250 implementiert, wobei die Ausgabe des Spracherkennungsmechanismus 103 von dem Server 240 zu dem Ausgangsmechanismus 104 in dem mobilen Gerät 250 gesendet wird.
Die Funktionsprinzipien der in 4 und 5 gezeigten Konfigurationen werden am besten mit Bezug auf mehrere beispielhafte Szenarien dargestellt. Diese Szenarien verdeutlichen den Ortsauflösungsprozeß, der den durch den Wortfiltermechanismus 102 ausgeführten Filterprozeß gemäß aufzulösenden Ortsdaten regelt. Die Szenarien betrachten die Verwendung beliebiger von mehreren verschiedenen Arten von Eingaben, durch die ein Ortskontext bestimmt wird.
Szenario eins: Interessierendes geographisches Gebiet ist durch eingegebene Postleitzahl und/oder Stadt zu bestimmen. Postleitzahl und/oder Stadt werden vom Benutzer in das mobile Gerät 250 eingegeben. Mögliche Clients, die von dem mobilen Gerät 250 zum Annehmen der eingegebenen Postleitzahl und/oder Stadt verwendet werden, wären zum Beispiel ein Sprach-Browser und/oder ein multimodaler Client. Im Fall eines Telefonanrufs ist der Client nicht das Telefon selbst, sondern der Sprach-Browser (vom Standpunkt des Servers aus gesehen). Ortsdaten werden im Form einer Stadt und/oder einer Postleitzahl angegeben. Das diesen Ortsdaten entsprechende interessierende geographische Gebiet wird in Form einer Stadt oder Postleitzahl bestimmt. In diesem Fall wird die Ortsauflösung lokal ausgeführt. Die Postleitzahl und/oder Stadt werden unter Verwendung von DTMF-Tastenbetätigungen und/oder Sprache in das mobile Gerät 250 eingegeben. Als Reaktion auf die eingegebenen Informationen wird, nachdem die Informationen in dem Eingangsmechanismus 201 empfangen werden, eine HTTP-Anforderung ausgegeben. In diesem Fall wird die Wortteilmengenliste 600 durch Auswahl einer Menge von Wörtern und/oder Grammatik in bezug auf die angegebene Stadt und/oder Postleitzahl erzeugt. Es werden die folgenden Schritte ausgeführt:

1. Der Benutzer verbindet sich unter Verwendung des mobilen Geräts 250 mit dem Beschaffungsmechanismus 101 für geographische Daten. Wenn das mobile Gerät 250 einen multimodalen Client repräsentiert, erfolgt eine HTTP-Anforderung durch den Client an einen Dokumentserver des Wortfiltermechanismus 102 (4 und 5). Wenn das mobile Gerät 250 ein drahtloses Telefon repräsentiert, erfolgt eine HTTP-Anforderung durch den Sprach-Browser ("sprechen" mit dem Telefon) an den Dokumentserver des Wortfiltermechanismus 102.
2. Es wird eine erste Seite in das mobile Gerät 250 oder auf den Sprach-Browser geladen. Die Seite fordert den Benutzer zur Eingabe einer Postleitzahl auf. Die Postleitzahl entweder durch DTMF (Mehrtontasten) oder durch Sprache einzugeben. Die zum Erkennen der Postleitzahl verwendete Grammatik ist statisch.
3. Der Benutzer gibt die Postleitzahl in den Eingabemechanismus 201 ein. Es erfolgt eine zweite HTTP-Anforderung durch den Client mit dem Postleitzahlwert als Parameter. Da der auf Ort basierende Dienst 203 in diesem Szenario nicht zum Auflösen des Orts verwendet wird, ist die Ortsauflösung "lokal". Das interessierende geographische Gebiet wird in dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets evaluiert und es erfolgt keine weitere Verfeinerung des interessierenden geographischen Gebiets.
4. Es wird eine zweite Seite in das mobile Gerät 250 (die "reduzierte" Seite) geladen. Der Dokumentserver des Wortfiltermechanismus 102 berechnet mit der Seite assoziierte reduzierte Grammatiken in Form der Wortteilmengenliste 600.
5. Der Benutzer kann sprachlich über das mobile Gerät 250 mit der Seite in Dialog treten, da die Seite für ihren Ort optimiert ist.

Anmerkung: Der Mechanismus 205 zur Verfeinerung der Geometriespezifikation wird in diesem Szenario nicht benutzt. Sollte dieser Mechanismus verwendet werden, muß eine "abgesetzte" Ortsauflösung ausgeführt werden, um so das Zurücksenden (zum Beispiel) einer Karte zu dem multimodalen Client des mobilen Geräts 250 zu ermöglichen.
Szenario zwei: Das interessierende geographische Gebiet ist automatisch unter Verwendung von Caller ID oder Cell ID zu bestimmen.
Mögliche von dem mobilen Gerät 250 für Caller ID oder Cell ID zu verwendende Clients wären ein Sprach-Browser und/oder ein multimodale Client. Ortsdaten werden in Form eines Parameters Caller ID oder Cell ID bereitgestellt. Das interessierende geographische Gebiet wird als eine Postleitzahl oder als Gebiets-ID, die ein geographisches Gebiet identifiziert, bestimmt. Ortsauflösung wird nicht lokal, sondern abgesetzt ausgeführt. Der Eingangsmechanismus 201 wird nicht für den Zweck der Ortsauflösung verwendet. Das mobile Gerät 250 ist dafür programmiert, eine HTTP-Anforderung auszugeben, während eine erste Seite von einem Dokumentserver des Wortfiltermechanismus 102 abgerufen wird. In diesem Szenario werden Wörter und/oder Grammatik aus der Elementdatenbank 500 gefiltert, um die Wortteilmengenliste 600 auf der Basis von ANI- oder Cell-ID-Informationen zu erstellen. Der Eingangsmechanismus 201 ist insofern vollständig transparent, als die Anforderung, die den Wortfilterprozeß trimmt, in der ersten Phase der Interaktion erscheint und keine Datensammelphase wie bei dem vorherigen Szenario notwendig ist. Die HTTP-Anforderung kann von einem Sprach-Browser (der ANI-Info liefert) oder einem multimodalen Client in dem mobilen Gerät 250 ausgegeben werden.
Es wird die folgende Betriebssequenz ausgeführt:

1. Der Benutzer verbindet sich mit der Verwendung des mobilen Geräts 250 mit dem Beschaffensmechanismus 101 für geographische Daten. Wenn der Benutzer einen multimodalen Client in dem Mobilgerät 250 verwendet, erfolgt eine HTTP-Anforderung durch den Client an den Dokumentserver des Wortfiltermechanismus 102. Wenn das mobile Gerät 250 ein drahtloses Telefon ist, erfolgt eine HTTP-Anforderung durch den Sprach-Browser ("sprechen" mit dem Telefon) an den Dokumentserver des Wortfiltermechanismus 102. Die ANI und/oder Cell ID werden als Teil der HTTP-Anforderung zu dem Dokumentserver geleitet. Der auf Ort basierende Dienst 203 bestimmt das interessierende geographische Gebiet in diesem Fall im Anschluß an den in 5 angegebenen abgesetzten Pfad, der in dem Mechanismus 202 beginnt. Der auf Ort basierende Dienst bestimmt außerdem die geographische Position des Benutzers, einen Unbestimmtheitsbereich mit Bezug auf die Position des Benutzers und eine oder mehrere assoziierte Postleitzahlen.
2. Eine Seite wird in das mobile Gerät 250 heruntergeladen oder auf den Sprach-Browser geladen. Der geographische Kontext wird von dem Wortfiltermechanismus 102 verwendet, um eine Wortteilmengenliste 600 zu berechnen, die gemäß dem zuvor bestimmten interessierenden geographischen Gebiet mit der Seite assoziiert ist.
3. Der Benutzer kann sprachlich unter Verwendung des mobilen Geräts 250 mit der Seite in Dialog treten. Die Seite ist für das interessierende geographische Gebiet des Benutzers optimiert.

Szenario drei: Das interessierende geographische Gebiet ist automatisch unter Verwendung von GPS-Daten zu bestimmen. Mögliche von dem mobilen Gerät 250 für GPS verwendete Clients wären ein multimodaler Client. Ortsdaten werden in Form von GPS-Koordinaten bereitgestellt. Das interessierende geographische Gebiet wird als eine Postleitzahl, als (x, y)- oder (x, y, z)-Koordinaten bestimmt, wobei gegebenenfalls ein Unbestimmtheitsbereich aufgenommen wird. Die Ortsauflösung wird nicht abgesetzt, sondern lokal ausgeführt. Der Eingangsmechanimus 201 wird nicht zum Bestimmen des interessierenden geographischen Gebiets verwendet. Das mobile Gerät 250 gibt während des Abrufens der ersten Seite eine HTTP-Anforderung aus. In diesem Fall erstellt der Wortfiltermechanismus 102 eine Wortteilmengenliste 600 durch Filtern der Elementdatenbank 500 unter Verwendung von GPS-Daten. Der Eingangsmechanismus 201 ist insofern transparent, als die HTTP-Anforderung, die zu Wortfilterung führt, als die erste Phase der Interaktion erscheint. Im Gegensatz zu dem ersten Szenario ist keine Datensammelphase notwendig. Es werden die folgenden Schritte ausgeführt:

1. Der Benutzer verbindet sich unter Verwendung des mobilen Geräts 250 mit dem Beschaffungsmechanismus 101 für geographische Daten. Wenn das mobile Gerät 250 einen multimodalen Client verwendet, erfolgt eine HTTP-Anforderung durch den Client an einen Dokumentserver des Wortfiltermechanismus 102. Die GPS-Informationen werden als Teil der HTTP-Anforderung gesendet. Der auf Ort basierende Dienst 203 bestimmt das interessierende geographische Gebiet durch Hinzufügen grober Lokalisierung zu den GPS-Informationen, und die grobe Lokalisierung wird zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets gesendet.
2. Es wird eine Seite in das mobile Gerät 250 heruntergeladen: Das interessierende geographische Gebiet in Form der in dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets empfangenen groben und/oder verfeinerten Lokalisierung wird von dem Wortfiltermechanismus 102 verwendet, um eine Wortteilmengenliste 600 zu berechnen und um die Wortteilmengenliste in einer zu dem mobilen Gerät 250 zu sendenden Seite abzulegen, wobei der oben beschriebene zweischrittige Filterprozeß verwendet wird.
3. Der Benutzer kann sprachlich mit der Seite, die für das interessierende geographische Gebiet optimiert ist, in Dialog treten.

Anmerkung:

1. Falls der Mechanismus 205 zum Verfeinern der Geometriespezifikation verwendet wird, wird eine Zwischenseite in das mobile Gerät 250 heruntergeladen, die den Benutzer auffordert, sein Interessengebiet (vor Schritt 2) zu präzisieren:
1.a – Es wird eine dazwischentretende (d. h. "Lokalisierungs-") Seite in das mobile Gerät 250 heruntergeladen.
1.b – Der Benutzer gibt ein interessierendes Gebiet in das mobile Gerät 250 ein.
1.c – Ein verfeinertes interessierendes geographisches Gebiet wird durch das mobile Gerät 250 gesendet und durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets in das interessierende geographische Gebiet integriert.

Im Gegensatz zu vorbekannten Techniken verwendet die vorliegende Erfindung keine akustischen Modelle zur Verbesserung der Spracherkennungsgenauigkeit. Stattdessen reduziert die Erfindung die Gesamtzahl der Wörter, die von einem Spracherkennungsalgorithmus betrachtet werden müssen. Die Anzahl der Wörter wird reduziert, indem Wörter ausgeschlossen werden, die ein interessierendes geographisches Gebiet nicht betreffen. Auf diese Weise ermöglich die reduzierte Verarbeitungslast eine Handhabung der Spracherkennung in dem Handapparat. Darüber hinaus wird die Genauigkeit des Spracherkennungsalgorithmus verbessert.
Zusammengefaßt umfassen die Vorteile der Erfindung eine genauere Spracherkennung aufgrund der Nutzung einer Datenbank, deren Größe reduziert wurde (d. h. der Wortteilmengenliste 600). Die Belastung von Kommunikationsbetriebsmitteln wird verringert, indem die reduzierte Datenbank zu dem Handapparat gesendet wird, woraufhin der Handapparat Spracherkennung nur unter Verwendung der Datenbank reduzierter Größe anstelle einer viel größeren Datenbank durchführt. Die verminderte Belastung der Kommunikationsbetriebsmittel führt zu einer schnelleren und effizienteren Spracherkennung.
Obwohl neuartige Merkmale der Erfindung, so wie sie auf ihre Ausführungsformen angewandt werden, gezeigt und beschrieben wurden, versteht sich somit, daß Fachleute verschiedene Weglassungen und Substitutionen und Änderungen der Form und Einzelheiten der dargestellten Einrichtungen und ihrer Funktionsweise vornehmen können, ohne von dem Schutzumfang der Erfindung abzuweichen, der alleine durch die angefügten Ansprüche definiert wird. Obwohl eine Ausführungsform der Erfindung im Hinblick auf einen Benutzer beschrieben wurde, der ein automatisch bestimmtes interessierendes geographisches Gebiet verfeinert, ist es zum Beispiel auch möglich, daß ein Benutzer ein automatisch bestimmtes grobes interessierendes geographisches Gebiet ergänzt.
Im Hinblick auf das Obige ist ausdrücklich beabsichtigt, daß alle Kombinationen der Elemente und/oder Verfahrensschritte, die im wesentlichen dieselbe Funktion auf im wesentlichen dieselbe Weise ausführen, um dieselben Ergebnisse zu erzielen, in einer beliebigen anderen offenbarten oder beschriebenen oder vorgeschlagenen Form oder Ausführungsform als allgemeine Frage der Entwurfsauswahl integriert werden können, soweit sie in den Schutzumfang der angefügten Ansprüche fallen.

Claims

Verfahren zur Verwendung mit einem mobilen Handapparat, der dafür ausgestattet ist, über ein drahtloses Kommunikationsnetz mit einem abgesetzten Server zu kommunizieren, wobei der abgesetzte Server dafür ausgestattet ist, auf eine Elementdatenbank (500) zuzugreifen, die Wörter enthält, die Elemente an jedem von mehreren geographisch definierten Orten beschreiben, wobei das Verfahren die folgenden Schritte umfaßt: Bestimmen (202) geographischer Daten für den mobilen Handapparat nach einer Anforderung und Verwenden (102) der bestimmten geographischen Daten zum automatischen Auswählen einer Teilmenge (600) von Wörtern zur Verwendung mit einer Spracherkennungsprozedur durch den abgesetzten Server; wobei die Teilmenge von Wörtern aus der Elementdatenbank ausgewählt wird, wodurch die Anzahl der in der Spracherkennungsprozedur verwendeten Wörter reduziert wird.
Verfahren nach Anspruch 1, wobei die bestimmten geographischen Daten Positionsdaten des globalen Navigationssystems (GPS) und/oder Daten der Zellenidentität (Cell-ID) und/oder Daten der Anruferidentifikation (Caller ID) und/oder Städtenamendaten und/oder Postleitzahldaten umfassen.
Verfahren nach Anspruch 1, wobei die geographischen Daten aus einem aus dem mobilen Handapparat empfangenen Signal abgeleitet werden, wobei das Signal eine aktuelle Position des mobilen Handapparats oder eine in den mobilen Handapparat eingegebene manuelle Eingabe betrifft.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Elemente Straßennamen und/oder Unternehmen und/oder Händler und/oder interessierende Punkte und/oder Transporteinrichtungen und/oder individuelle Haushalte und/oder Aktivitäten und/oder Sehenswürdigkeiten umfassen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der mobile Handapparat die Teilmenge von Wörtern von dem abgesetzten Server empfängt und auf der Basis der empfangenen Teilmenge von Wörtern die Spracherkennungsprozedur ausführt und dadurch die Benutzung des Kommunikationsnetzes und des abgesetzten Servers reduziert.
Spracherkennungssystem, umfassend: einen mobilen Handapparat, der dafür ausgestattet ist, über ein drahtloses Netz mit einem abgesetzten Server zu kommunizieren, einen Datenbeschaffungsmechanismus (101) zum Bestimmen von geographischen Daten für den mobilen Handapparat nach einer Anforderungseingabe und einen Auswahlmechanismus (102) zum Verwenden der bestimmten geographischen Daten zum automatischen Auswählen einer Teilmenge von Wörtern (106) zur Verwendung mit einer Spracherkennungsprozedur; wobei die Teilmenge von Wörtern durch den abgesetzten Server aus einer Elementdatenbank (500) ausgewählt wird, zu der der abgesetzte Server Zugang hat, wobei die Elementdatenbank Wörter enthält, die Elemente an jedem von mehreren geographisch definierten Orten beschreiben, wodurch die Anzahl der bei der Spracherkennungsprozedur verwendeten Wörter reduziert wird.
Spracherkennungssystem nach Anspruch 6, wobei die geographischen Daten aus einem aus dem mobilen Handapparat empfangenen Signal abgeleitet werden, wobei das Signal eine aktuelle Position des mobilen Handapparats oder eine in den mobilen Handapparat eingegebene manuelle Eingabe betrifft.
Spracherkennungssystem nach Anspruch 6, wobei die bestimmten geographischen Daten Positionsdaten des globalen Navigationssystems (GPS) und/oder Daten der Zellenidentität, (Cell-ID) und/oder Daten der Anruferidentifikation (Caller ID) und/oder Städtenamendaten und/oder Postleitzahldaten umfassen.
Spracherkennungssystem nach einem der Ansprüche 6 bis 8, wobei die Elemente Straßennamen und/oder Unternehmen und/oder Händler und/oder interessierende Punkte und/oder Transporteinrichtungen und/oder individuelle Haushalte und/oder Aktivitäten und/oder Sehenswürdigkeiten umfassen.
Spracherkennungssystem zum Assoziieren von empfangener Sprache mit aus einer Elementdatenbank abgerufenen Wörtern, wobei das System folgendes umfaßt: Mittel zum Bestimmen eines interessierenden geographischen Gebiets nach einer Aufforderung, wobei Sprache zu empfangen ist, wobei die Mittel ferner folgendes umfassen: i) einen mit einem mobilen Handapparat assoziierten tragbaren Ortsbestimmungsmechanismus zum Erzeugen eines Anzeigesignals, das einen aktuellen geographischen Ort anzeigt und ii) einen mit dem tragbaren Ortsbestimmungsmechanismus kommunizierenden Server, der dafür programmiert ist, aus dem Anzeigesignal ein interessierendes geographisches Gebiet zu bestimmen; Mittel zum Auswählen einer Teilmenge von Wörtern aus der Elementdatenbank auf der Basis des interessierenden geographischen Gebiets; wobei die Mittel den Server umfassen, der dafür programmiert ist, aus der Elementdatenbank nur Wörter zu extrahieren, die mit dem interessierenden geographischen Gebiet assoziiert sind und Mittel zum Assoziieren der empfangenen Sprache mit aus der Teilmenge von Wörtern ausgewählten Wörtern, wobei die Mittel auf dem mobilen Handapparat implementiert sind.
Spracherkennungssystem nach Anspruch 10, ferner umfassend: Mittel zum Annehmen eines Signals von mindestens einer graphischen Benutzeroberfläche zum Auswählen eines Teils des bestimmten interessierenden geographischen Gebiets, um dadurch ein weiter eingeschränktes interessierendes geographisches Gebiet zu spezifizieren und Mittel zum weiteren Reduzieren der Teilmenge von Wörtern gemäß dem weiter eingeschränkten interessierenden geographischen Gebiet, um eine weitere Teilmenge von Wörtern zu erzeugen, dergestalt, daß die Mittel zum Assoziieren empfangener Sprache mit Wörtern nur Wörter aus der weiteren Teilmenge von Wörtern auswählen.
Spracherkennungssystem nach Anspruch 11, wobei die Mittel zum Annehmen eines Signals folgendes umfassen: ein elektronisches Display zum Anzeigen einer Karte des bestimmten interessierenden geographischen Gebiets und einen Verarbeitungsmechanismus zum Kombinieren des angenommenen Signals mit der Karte des bestimmten interessierenden geographischen Gebiets, um so eine Anzeige des weiter eingeschränkten interessierenden geographischen Gebiets auf dem elektronischen Display zu bewirken.
Mobiler Handapparat (150) mit Spracherkennungsmitteln zum Assoziieren empfangener Sprache mit aus einer abgesetzten Datenbank empfangenen Wörtern, wobei der mobile Handapparat folgendes umfaßt: Mittel zum Empfangen einer Anforderung; Mittel zum Bereitstellen eines Signals, das ein interessierendes geographisches Gebiet repräsentiert, nach der Anforderung; Mittel zum Senden des Signals zu einem abgesetzten Server und zum Empfangen einer Teilmenge von Wörtern aus der abgesetzten Datenbank von dem abgesetzten Server auf der Basis des interessierenden geographischen Gebiets und Mittel zum Assoziieren der empfangenen Sprache mit aus der Teilmenge von Wörtern ausgewählten Wörtern.
Mobiler Handapparat nach Anspruch 13, wobei die Mittel zum Bereitstellen eines Signals Mittel zum Bestimmen eines interessierenden geographischen Gebiets umfaßt, worin Sprache empfangen werden soll.
Mobiler Handapparat nach Anspruch 13 oder 14, ferner umfassen: Mittel (210) zum Annehmen mindestens einer Eingabe, mit der ein verfeinertes interessierendes geographisches Gebiet in dem interessierenden geographischen Gebiet bestimmt wird; Mittel (205) zum Reduzieren der Teilmenge von Wörtern gemäß dem verfeinerten interessierenden geographischen Gebiet und wobei die Mittel zum Assoziieren der empfangenen Sprache dafür ausgelegt sind, Sprache nur mit der reduzierten Teilmenge von Wörtern zu assoziieren.