-
TECHNISCHES GEBIET
-
Die
Erfindung betrifft allgemein Spracherkennungssysteme und -verfahren
und insbesondere Systeme und Verfahren zum Verbessern der Spracherkennungsgenauigkeit
durch Verwendung geographischer Daten zum Reduzieren der Größe einer Menge
von Wörtern,
die geprüft
werden muß,
um Spracherkennung zu bewirken.
-
STAND DER TECHNIK
-
Beim
Besuch in einer unvertrauten Stadt wird ein Benutzer eines mobilen
Handapparats möglicherweise
wünschen,
ein Unternehmen, eine Sehenswürdigkeit,
eine Straße
oder einen anderen interessierenden Ort zu finden. Es wäre relativ
vorteilhaft, wenn der Benutzer eine Sprechverbindung zu einem abgesetzten
Server mit einer designierten Telefonnummer einleiten und seine
Informationsanforderung in den Handapparat sprechen könnte. Der
Handapparat würde
eine Spracherkennungsprozedur ausführen, wodurch die gesprochene
Anforderung in eine Serveranfrage transformiert wird, und die angeforderten
Informationen von dem abgesetzten Server in Form eines elektronischen
Signals zum Produzieren hörbarer
Sprache empfangen. Zum Beispiel könnte ein Benutzer in Manhatten
wünschen,
das nächste
Neiman-Marcus-Kaufhaus
zu finden. Er wählt
eine designierte Telefonnummer und spricht eine Anforderung, wie
zum Beispiel "Wo
ist der nächste
Neiman Marcus?".
Der Handapparat verwendet Spracherkennung, um die Anforderung in eine
elektronische Anforderung zum Empfang durch den abgesetzten Server
umzusetzen. Auf der Basis des derzeitigen Orts des Handapparats
greift der abgesetzte Server auf eine Datenbank zu, um Adresse und
Telefonnummer des nächsten
Neiman Marcus abzurufen. Die Adresse und Telefonnummer werden von
dem Server in Form eines elektronischen Signals zu dem Handapparat
des Benutzers gesendet, woraufhin der Handapparat das elektronische
Signal in hörbare
Sprache umsetzt.
-
Leider
sind signifikante Hindernisse zu überwinden, wenn man wünscht, existierende
Spracherkennungsalgorithmen zum Ausführen der obigen Prozeduren
zu verwenden. Genauer gesagt ist es problematisch, Spracherkennungsalgorithmen
zu entwickeln, die in bestimmten Betriebsumgebungen, wie zum Beispiel
denen von mobilen Telefongeräten, einen
gewünschten
Genauigkeitsgrad liefern. Im allgemeinen sind die Verarbeitungsleistung
und Speicherfähigkeiten
mobiler Telefongeräte
durch Größen- und
Kosteneinschränkungen
begrenzt, wodurch dem Ausmaß,
zu dem die Komplexität
existierende Algorithmen vergrößert werden
kann, begrenzt wird. Außerdem
verschlechtern Umgebungsgeräusche
die Leistungsfähigkeit
vieler Spracherkennungsalgorithmen stark. Im Hinblick auf diese
Unzulänglichkeiten wurden
vorbekannte Techniken entwickelt, um die Leistungsfähigkeit
von Spracherkennungsalgorithmen in Anwendungen, bei denen Verarbeitungsleistung
begrenzt sein kann, zu verbessern. Diese vorbekannten Techniken
betreffen die Verbesserung eines Erkennungsmodells durch Verwendung
verbesserter akustischer Modelle. Die folgenden Definitionen werden
hier des Verständnisses
und der Klarheit halber angegeben:
- Lexikalisches Modell:
ein lexikalisches Modell zerlegt einzelne Wörter eines (im folgenden definierten)
syntaktischem Modells in eine Sequenz von Phonemen (auch im folgenden
definiert).
- Akustisches Modell: ein akustisches Modell zerlegt die durch
das lexikalische Modell bestimmte Sequenz von Phonemen in ein Markov-Modell
von Cepstrum-Koeffizienten,
das auch als Vektorsequenzen bezeichnet wird. Cepstrum-Koeffizienten
werden durch Nehmen der Fouriertransformation des Leistungsspektrums
eines Sprachsignals erzeugt.
- Erkennungsmodell: ein Erkennungsmodell ist eine Menge von Regeln
und Operationen, die von einer Erkennungs-Engine verwendet werden, um einzelne Wörter zu
erkennen. Das Erkennungsmodell enthält ein voll eingesetztes Spracherkennungssystem,
das das akustische Modell, das lexikalische Modell und das syntaktische
Modell folgendermaßen
umschließt:
Erkennungsmodell = (akustisches Modell) × (lexikalisches Modell) × (syntaktisches
Modell).
-
Aus
der US-Patentanmeldung, Publikation Nr. US 2003236099, ist eine
Technik zum Verbessern der Genauigkeit eines Spracherkennungsalgorithmus
durch Auswahl eines entsprechenden akustischen Modells gemäß dem Ort
eines Mobiltelefongeräts
(der Einfachheit halber "mobiler
Handapparat" oder
einfach "Handapparat") bekannt. Wie bereits
erwähnt,
enthält
ein akustisches Modell eine Menge von Cepstrum-Koeffizientenstatistiken für jedes
Phonem in einer Sprache. Es können
mehrere verschiedene akustische Modelle vorkompiliert werden, die jeweils
eine einzigartige akustische Umgebung repräsentieren, dergestalt, daß ein Spracherkennungssystem
ein für
eine gegebene Menge von Umgebungsbedingungen geeignetes akustisches
Modell auswählen
kann. Zum Beispiel wird jedes akustische Modell erstellt durch individuelles
Aufzeichnen von mehreren hundert Sprechern in einer kontrollierten modellspezifischen
Laborumgebung, die bekannte akustische Eigenschaften aufweist, die
beispielsweise über
Geräusche,
Echo, Hall und Frequenzgang spezifiziert wird. Jede modellspezifische
Laborumgebung soll eine Echtweltumgebung repräsentieren, wie etwa ein Kaufhaus,
ein Büro,
ein Einkaufszentrum, einen Flughafen oder den Innenraum eines Automobils.
Daher enthalten akustische Modelle Eigenschaften spezifischer Umgebungen
sowie Eigenschaften der menschlichen Stimme. Die Laborumgebung kann
künstlich
erzeugte Geräusche enthalten, um
zum Beispiel Verkehr, Gespräche,
das Klicken von Computertastaturen und Gabelstapler zu simulieren.
-
Gemäß dieser
vorbekannten Technik werden wie nachfolgend definiert aus einem
auf Ort basierenden Dienst (LBS) auf der Basis des aktuellen Orts des
mobilen Handapparats Positionsinformationen abgerufen. Die abgerufenen
Positionsinformationen werden dann zur Auswahl der akustischen Eigenschaften
der den Handapparat umgebenden Umgebung verwendet. Es wird ein akustisches
Modell, das die akustischen Eigenschaften der Art von Umgebung für den aktuellen
Ort des Handapparats approximiert, aus einer Menge zuvor erstellter
akustischer Modelle ausgewählt.
Das ausgewählte
akustische Modell wird dann zur Verbesserung der Genauigkeit des
Spracherkennungsalgorithmus verwendet.
-
Die
aus der US-Patentanmeldung, Publikation Nr. US2003236099 bekannte
Technik hat viele praktische Unzulänglichkeiten. Existierende
auf Ort basierende Dienste, die GPS (Global Positioning System)
verwenden, bestimmen die Position eines Benutzers nicht mit der
erforderlichen Genauigkeit von zum Beispiel ein bis zwei Metern,
und diese Dienste bestimmen auch nicht die Höhe eines Benutzers mit ausreichender
Genauigkeit für
viele Spracherkennungsanwendungen. Die Auswirkung einer unzureichenden
Positionsgenauigkeit besteht darin, daß es nicht möglich ist,
wenn sich ein Benutzer in der Nähe
des Eingangs eines Gebäudes
befindet, genau zu bestimmen, ob sich der Benutzer tatsächlich in
dem Gebäude
befindet. Die Auswirkung einer unzureichenden Höhengenauigkeit besteht darin, daß es nicht
möglich
ist, mit Sicherheit zu bestimmen, ob sich ein Benutzer in dem Gebäude befindet oder
auf dem Dach steht. Ein akustisches Modell, das für eine innere
Vorhalle eines Gebäudes
geeignet ist, ist nur unwahrscheinlich für die Verwendung im Freien
geeignet. Zumindest wird die Auswahl eines ungeeigneten akustischen
Modells auf der Basis einer ungenauen Bestimmung der tatsächlichen
Position eines Benutzers die Genauigkeit vieler Spracherkennungsalgorithmen
verschlechtern.
-
Eine
weitere Unzulänglichkeit
der aus der US-Patentanmeldung,
Publikation Nr. US2003236099, bekannten Technik ist die Notwendigkeit,
ein akustisches Modell zu erzeugen. Zuallererst ist es nicht durchführbar, für jede Art
von Ort ein einzigartiges akustisches Modell zu erzeugen. Auch wenn
für eine
bestimmte Art von Ort ein akustisches Modell entwickelt wird, kann
zweitens ein tatsächlicher
Ort möglicherweise
die in dem Modell realisierten akustischen Eigenschaften nicht besitzen.
Zum Beispiel kann ein akustisches Modell, das aufgrund von verschiedenen
Konstruktionsmaterialien, Möbeln und
Zimmerkonfigurationen versucht, einen typischen Konferenzraum zu
repräsentieren,
möglicherweise
einen spezifischen Konferenzraum in einem spezifischen Bürogebäude nicht
angemessen repräsentieren.
Es wird folglich eine verbesserte Technik zum Verbessern der Genauigkeit
von Spracherkennungsalgorithmen benötigt.
-
EP 1233407 beschreibt ein
Navigationssystem mit Spracherkennungsfähigkeiten für ein sich bewegendes Fahrzeug.
Immer dann, wenn die Distanz zwischen dem Fahrzeug und bekannten
aktiven Orten größer als
eine gegebene Schwelle wird, beschafft das Navigationssystem zur
nachfolgenden Verwendung mit der Spracherkennungs-Engine eine vorexistierende
Wortliste entsprechend dem aktiven Ort.
-
US 6,230,132 beschreibt
ein weiteres Navigationssystem mit Spracherkennungsfunktionen. In periodischen
Intervallen wird ein Lexikon mit einer begrenzten Anzahl von Wörtern erzeugt,
um die Spracherkennungsfunktionen zu ermöglichen. Wenn ein Benutzer
das Navigationssystem benutzen muß, muß er darüber hinaus mit seiner Stimme
den Namen eines Orts anfordern, so daß ein Lexikon erzeugt werden
kann.
-
EP 0661688 beschreibt eine
Eingeräte-Navigationsvorrichtung
an Bord eines Autos mit Spracherkennungsfunktionen. Es werden vorexistierende Bibliotheken
verwendet und in regelmäßigen Intervallen
aktualisiert, um die Spracherkennungs-Engine zu ermöglichen.
-
KURZFASSUNG DER ERFINDUNG
-
Die
vorliegende Erfindung wird durch die angefügten unabhängigen Ansprüche definiert.
-
Weitere
Aspekte und Merkmale der vorliegenden Erfindung werden aus der folgenden
ausführlichen
Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich.
Es versteht sich jedoch, daß die
Zeichnungen lediglich zur Veranschaulichung angegeben werden, und
nicht als Definition der Grenzen der Erfindung, für die auf
die angefügten
Ansprüche
verwiesen wird. Ferner versteht sich, daß, sofern es nicht anders angegeben
wird, die Zeichnungen lediglich die hier beschriebenen Strukturen
und Prozeduren konzeptuell darstellen sollen.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Es
zeigen:
-
1 eine
Diagrammdarstellung eines interessierenden geographischen Gebiets.
-
2 ein
Datenstrukturdiagramm, das einen Teil einer beispielhaften Elementdatenbank
darlegt.
-
3 ein
Datenstrukturdiagramm, das eine beispielhafte Teilmenge von aus
der Elementdatenbank von 2 ausgewählten Wörtern darlegt.
-
4 ein
verallgemeinertes Informationsflußdiagramm einer Menge von fundamentalen
Operationen für
die vorliegende Erfindung.
-
5 ein
ausführliches
Blockdiagramm, das den Informationsfluß für ein gemäß einer bevorzugten Ausführungsform
der vorliegenden Erfindung aufgebautes Spracherkennungssystem darlegt.
-
AUSFÜHRLICHE BESCHREIBUNG DER ZEICHNUNGEN
-
Die
hier verwendeten folgenden Begriffe werden folgendermaßen definiert:
- Interessierendes geographisches Gebiet: Als Beispiel definiert über eine
Postleitzahl, eine Gruppe von Postleitzahlen, Informationen der
Zellenidentifikation (Cell-ID), Informationen der Anrufer-ID (Call-ID),
die Grenzen eines Staates, eines Landes, einer Großstadt,
einer Stadt, eines Ortes oder eine andere behördliche oder Gemeindeunterteilung,
Gitter des Standards-USGS (United States Geological Survey), Orte
mit einem festen Bereich von Höhen-
und Breitengrad oder Orte in einer spezifizierten geometrischen
Grenze. Das interessierende geographische Gebiet kann, muß aber nicht
automatisch auf der Basis des derzeitigen Orts des Handapparats
gesetzt werden. Das interessierende geographische Gebiet kann, muß aber nicht
von einem Benutzer auf der Basis einer manuellen, verbalen oder
benutzerspezifizierten Eingabe designiert werden. Das interessierende
geographische Gebiet kann ein grobes interessierendes geographisches
Gebiet oder ein verfeinertes interessierendes geographisches Gebiet
sein, wobei letzteres ein Teil des ersteren ist.
- E911: Wie von der FCC (Federal Communications Commission) angeordnet,
eine Norm für
ein System, durch das drahtlose Betreiber den Ort eines mobilen Geräts in einem
Notfall genau lokalisieren können.
- Element: Name einer Straße,
eines Unternehmens, eines Händlers,
Name einer Einzelperson, ein Ort, ein interessierender Punkt, eine
Transporteinrichtung, ein individueller Haushalt, eine Aktivität und/oder
eine Sehenswürdigkeit.
- GPS: Global Positioning System – Ermöglicht eine geographische Positionsbestimmung
in einem landgestützten
tragbaren Gerät,
das dafür
ausgestattet ist, Signale von drei oder mehr GPS-Satelliten im Orbit
zu empfangen.
- LBS: Auf Ort basierender Dienst – Jeder Dienst, der Informationen
bezüglich
des aktuellen geographischen Orts eines Mobilgerätebenutzers erhält. Anschauungsbeispiele
für auf
Ort basierende Dienste wären
in einem Automobil angezeigte Karten, die die Position eines Kraftfahrers
unter Verwendung von GPS verfolgen, oder automatische Lokalisierungsdienste,
die durch Wählen
von 911 auf einem E911-kompatiblen Mobiltelefonnetz bereitgestellt werden.
- Mobiles Gerät:
Jedes tragbare Gerät,
das für
drahtlose Kommunikation befähigt
ist, wie zum Beispiel ein drahtloses Telefon, ein persönlicher
digitaler Assistent oder ein mit einem drahtlosen Modem ausgestatteter
Laptop-Computer.
- Phonem: Ein Phonem repräsentiert
ein einzigartiges menschlisches geäußertes Geräusch. Einzelne Wörter, die
zum Beispiel von einem menschlichen Sprecher ausgesprochen werden,
bestehen aus einer Sequenz von Phonemen.
- Syntaktisches Modell: Eine Menge von Regeln und Operationen,
die zulässige
Wortsequenzen (Phrasen) aus einem oder mehreren Wörtern zur
nachfolgenden Verwendung in einer Spracherkennungsprozedur spezifizieren.
Zulässige
Wortsequenzen werden in einer Liste statischer zulässiger Phrasen
dargelegt. Zusätzlich
können
die Phrasen gegebenenfalls durch Wahrscheinlichkeiten des Auftretens
gewichtet werden. Andernfalls können
Wortsequenzen in Form von stochastischen oder probabilistischen Listen
vorliegen, wie zum Beispiel in Form eines Markov-Modells von Wortsequenzen.
Syntaktische Modelle sind gewöhnlich
für eine
bestimmte Sprach-Engine spezifisch ausgelegt.
- Wort: Eine Einheit der Sprache, die Muttersprachler identifizieren
können
und die eine Bedeutung übermittelt.
Wörter
sind die Bausteine, aus denen Phrasen und Sequenzen konstruiert
werden. Zum Beispiel sind vier Elemente "Das Empire State Building" der Name eines Elements,
der vier Wörter
enthält. Eine
Straße
mit dem Namen "125.
Straße" enthält die zwei
Wörter "einhundertfünfundzwanzigste
Straße". Der Straßenname "K-Straße" enthält die Wörte "K" (wobei es sich für die Zwecke der vorliegenden
Erfindung um ein Wort handelt) und "Straße".
-
Die
Erfindung setzt voraus, daß eine
sehr große
Elementdatenbank für
ein bestimmtes relativ großes
designiertes geographisches Gebiet, wie etwa eine Stadt, einen Staat,
eine Grafschaft oder ein Land, zur Verfügung steht. Ein Beispiel für eine bekannte
Elementdatenbank ist TIGER (Topologically Integrated Geographic
Encoding and Referencing System), erhältlich von dem United States
Census Bureau. TIGER compoundiert lokalisierte Straßennamen,
Flüsse
und Eisenbahnstrecken zu einer Reihe großer regionaler Datenbanken.
-
Die
Elementdatenbank enthält
eine Menge von Wörtern
für Elemente
an Orten, die sich in dem designierten geographischen Gebiet befinden.
Gemäß einem
Aspekt der Erfindung wird durch Verwendung geographischer Daten
zur automatischen Auswahl einer Teilmenge der Wörter in der Elementdatenbank
zur Verwendung mit einer Spracherkennungsprozedur verbesserte Spracherkennungsgenauigkeit
bereitgestellt. Die Teilmenge von Wörtern wird gewählt, indem
nur die Wörter
in der Elementdatenbank ausgewählt
werden, die sich in einem interessierenden geographischen Gebiet
befinden. Das interessierende geographische Gebiet, das entweder
grob oder verfeinert ist (abhängig
von den Umständen,
wie nachfolgend erläutert)
wird beispielsweise über
eine Postleitzahl, eine Gruppe von Postleitzahlen, Informationen
der Zellenidentifikation (Cell-ID), Informationen der Anrufer-ID
(Call-ID), die Grenzen eines Staats, einer Grafschaft, einer Großstadt,
einer Stadt, eines Orts oder einer anderen behördlichen oder Gemeindeunterteilung,
Gitter des Standard-USGS (United States Geological Survey), Orte
in einem festen Bereich von Höhen-
und Breitengrad oder Orte in einer spezifizierten geometrischen
Grenze definiert.
-
Durch
Auswahl einer Teilmenge von Wörtern wird
die Gesamtzahl der in der Spracherkennungsprozedur verwendeten Wörter wesentlich
reduziert. Zum Beispiel kann eine große Elementdatenbank, die über alle
fünf Bezirke
von New York City hinweg verwendete Straßen- und Unternehmensnamen enthält, auf
eine wesentlich kürzere
Liste von Straßen- und
Unternehmensnamen reduziert werden, die nur den Bereich der Grand
Central Station abdeckt, indem die Postleitzahl 10017 spezifiziert
wird. Eine solche Reduktion der Gesamtzahl zu erkennender potentieller
Straßennamen
verbessert die Spracherkennungsgenauigkeit signifikant.
-
Gemäß einem
weiteren Aspekt der Erfindung werden Positionsinformationen von
einem LBS auf der Basis des aktuellen Orts eines mobilen Handapparats
beispielsweise unter Verwendung einer beliebigen Kombination von
GPS-Koordinaten, Postleitzahlen oder Triangulation zellularer Basisstationen erhalten.
Die erhaltenen Positionsinformationen können benutzt werden, um automatisch
ein grobes interessierendes geographisches Gebiet zu definieren. Man
nehme als Beispiel an, daß für diesen
Zweck Postleitzahlen verwendet werden. Sobald der aktuelle Ort des
Handapparats bestimmt ist, wird somit die Postleitzahl, die diesen
Ort enthält,
automatisch zu dem interessierenden groben geographischen Gebiet.
In der Regel kann das System auf der Basis einer Kenntnis einer
Verbindungskonfiguration bestimmen, welches Lokalisierungsverfahren
zu verwenden ist. Wenn zum Beispiel eine Verbindung eingeleitet wird,
kann man die Cell-ID verwenden, um den ungefähren Ort des Geräts zu bestimmen.
Als Alternative kann die Anwendung selbst auswählen, welche Verfahren einzusetzen
sind, oder die Anwendung kann den Benutzer dazu auffordern, auszuwählen, welches
Verfahren verwendet werden soll. Eine bespielhafte Ausführungsform
wäre etwa "Möchten Sie die Cell-ID oder
GPS zur Bestimmung Ihres Orts verwenden?".
-
Gemäß einem
weiteren Aspekt der Erfindung ermöglicht eine Schnittstelle einem
Benutzer, das grobe interessierende geographische Gebiet zu verfeinern.
Zum Beispiel kann der Benutzer zentriert um den aktuellen Ort des
Handapparats eine spezifizierte geometrische Form in dem groben
geographischen Gebiet auswählen.
Dies kann durch Verwendung von auf Schlüsseln basierenden Einträgen erzielt
werden. Außerdem
kann eine graphische Benutzeroberfläche verwendet werden, um eine
geometrische Form in dem groben geographischen Gebiet zu zeichnen.
Zusätzlich
oder als Alternative kann eine Cell-ID innerhalb der Postleitzahl
des geographischen Gebiets spezifiziert werden, wodurch ein verfeinertes
interessierendes geographisches Gebiet definiert wird, für das die
Teilmenge von Wörtern
auszuwählen
ist. Das Kombinieren einer automatischen Definition eines groben
interessierenden geographischen Gebiets mit zusätzlicher benutzerdefinierbarer geometrischer
Verfeinerung ist vorteilhaft, weil sie die Gesamtzahl der Wörter, die
in der Spracherkennungsprozedur verwendet werden müssen, weiter reduziert.
Zum Beispiel kann eine benutzerwählbare rechteckige
Region von 300 × 300
Fuß nur
einige wenige Dutzend Elemente enthalten, die erkannt werden müssen.
-
1 ist
eine Diagrammdarstellung einer interessierenden geographischen Region,
die in einem großen
Gebiet 100, wie zum Beispiel einer Großstadt, enthalten ist. Der
aktuelle geographische Ort eines mobilen Geräts wird als der Punkt 401 bestimmt.
Bei diesem Anschauungsbeispiel wird das grobe interessierende geographische
Gebiet durch die Postleitzahl definiert. Das grobe interessierende geographische
Gebiet wird somit durch die Postleitzahl-Region 470 definiert, in der
sich der Punkt 401 befindet. Ein Mobilgerätebenutzer
hat um den Punkt 401 herum einen spezifischen Radius 407 gewählt, um
das verfeinerte interessierende geographische Gebiet zu definieren.
Elemente, die (ganz oder teilweise) in diesem groben geographischen
Gebiet enthalten sind, sind zum Beispiel die Straße A 420,
die Straße
B 422 und ein erstes Gebäude 406. Elemente,
die in diesem groben interessierenden geographischen Gebiet, aber
nicht diesem verfeinerten geographischen Gebiet enthalten sind,
wären etwa
die Straße
C 424, das zweite Gebäude 404 und
das dritte Gebäude 402.
-
Eine
Elementdatenbank (2, 500) enthält eine
Liste von Elementnamen für
Straßen,
Unternehmen, Händler,
Orte, interessierende Punkte, Transporteinrichtungen, individuelle
Haushalte, Aktivitäten und/oder
Sehenswürdigkeiten
in dem großen
Gebiet 100 (1). Diese Datenbank kann Teil
der LBS-Datenbank sein. Jeder Elementname ist mit einem oder mehreren
entsprechenden Parametern zum Identifizieren oder Assoziieren des
Elements mit einem verfeinerten interessierenden geographischen
Gebiet und einem Parameter zum Identifizieren oder Assoziieren des
Elements mit einem groben interessierenden geographischen Gebiet
assoziiert. Der Erkennungsmodell-Compiler 213 kann unter
Verwendung des ausgegebenen Elementnamens (501) in Verbindung
mit einem Phonetisierer eine Menge von dem Elementnamen entsprechenden
Phonemen berechnen. Ein Phonetisierer ist ein Mechanismus, der für jeden
von mehreren Elementnamen phonemische Transkriptionen bereitstellt.
Phonemische Transkriptionen umfassen ein Phonem oder eine Sequenz
von zwei oder mehr Phonemen, die angeben, wie ein Elementname gesprochen
werden kann. Zum Beispiel hat der Elementname "Madison" eine entsprechende phonemische Transkription "mäd ê sun".
-
Elementnamen
werden in einem Elementnamenfeld 501 gespeichert. Jeder
Name in dem Elementnamenfeld 501 ist mit einem entsprechenden Parameterfeld
(x, y) für
das verfeinerte interessierende geographische Gebiet 503 und
einem entsprechenden Parameterfeld für das grobe interessierende
geographische Gebiet 505 assoziiert. Diese Elementnamen
können
Elemente enthalten, die sich in jeglichem verfeinerten interessierenden
geographischen Gebiet befinden, das vom Benutzer während des
Betriebs der Erfindung ausgewählt
wird (in diesem Beispiel definiert durch den Radius 407 um
den Punkt 401 von 1) oder
nicht.
-
Verfeinerte
geographische Parameter werden in dem Parameterfeld für das verfeinerte
interessierende geographische Gebiet 503 (2)
gespeichert. Ein verfeinerter geographischer Parameter legt eine
Eigenschaft eines Elements darüber
dar, wie das verfeinerte interessierende geographische Gebiet definiert
ist. Wenn das verfeinerte geographische Gebiet zum Beispiel vom
Benutzer als Form (z. B. ein Kreis) um den aktuellen Ort des Handapparats
herum definiert wird, umfassen die verfeinerten geographischen Parameter
(x, y)-Koordinaten. In dem Anschauungsbeispiel von 2 sind
die verfeinerten geographischen Parameter (x, y)-Koordinaten, die mit Bezug
auf einen beliebig zugewiesenen Referenzpunkt bestimmt werden. Wenn
eine erste Menge und eine zweite Menge von (x, y)-Koordinaten in
dem Parameterfeld für
das verfeinerte interessierende geographische Gebiet 503 vorliegen,
repräsentiert
dies ein Liniensegment zwischen der erste Menge von (x, y)-Koordinaten
und der zweiten Menge von (x, y)-Koordinaten. Ein solches Segment
wird zum Beispiel dazu verwendet, eine Straße zu definieren, die sich von
der ersten Menge von (x, y)-Koordinaten
zu der zweiten Menge von (x, y)-Koordinaten erstreckt.
-
In
dem Parameterfeld für
das grobe interessierende geographische Gebiet 505 werden
grobe geographische Parameter gespeichert. Ein grober geographischer
Parameter legt eine Eigenschaft eines Elements darüber dar,
wie das grobe interessierende geographische Gebiet definiert ist.
Wenn das grobe interessierende geographische Gebiet zum Beispiel über eine
oder mehrere Postleitzahlen definiert ist, umfassen die groben geographischen
Parameter in dem Parameterfeld für
das grobe interessierende geographische Gebiet 505 eine
oder mehrere Postleitzahlen. Wenn zum Beispiel die Straße A 420 (1)
in zwei verschiedene Postleitzahlenregionen einschneidet, enthält das Parameterfeld
für das
grobe interessierende geographische Gebiet 505 zwei Postleitzahlen,
wie etwa 10017 und 10036. Es könnten
jedoch andere Arten von groben geographischen Parametern verwendet
werden, um das Element mit einem Postleitzahlensystem, wie zum Beispiel
Gittern des Standard-USGS (United States Geological System), Regionen
mit einem festen Bereich von Höhen-
und Breitegrad, Staatengrenzen, Grafschaftengrenzen, Großstädtegrenzen
und/oder anderen Grenzen von städtischen
Gebieten, in Beziehung zu setzen. Zum Beispiel könnte eine Nachschlagetabelle
verwendet werden, um die obige Beziehung zu bestimmen.
-
Nunmehr
mit Bezug auf 1 und gemäß einem Merkmal der Erfindung
werden nur Wörter,
die Elementen in dem interessierenden geographischen Gebiet entsprechen,
aus der Elementdatenbank 500 (2) extrahiert,
um die Wortteilmengenliste 600 (3) zu bilden.
Wenn der Benutzer das verfeinerte interessierende geographische
Gebiet wie in 1 gezeigt definiert, enthält die begrenzte
Menge von Wörtern
nicht die Straße
C 424, das zweite Gebäude 404 und
das dritte Gebäude 402.
Die Verwendung dieser begrenzten Menge von Wörtern verbessert die Genauigkeit
einer nachfolgend ausgeführten
Spracherkennungsprozedur, weil Wörter,
die jedes einzelne Element des großen Gebiets 100 von 1 betreffen,
nicht betrachtet werden müssen.
-
3 ist
ein Datenstrukturdiagramm, das einen Teil einer beispielhaften Wortteilmengenliste 600 darlegt.
Die Namen eines oder mehrerer Elemente in dem interessierenden geographischen
Gebiet werden in einem Elementnamenfeld 601 gespeichert. Gegebenenfalls
kann die Wortteilmengenliste 600 zusätzliche Informationen enthalten,
wie etwa die Wahrscheinlichkeit, daß ein bestimmtes Element auf der
Basis der Distanz dieses Elements von der aktuellen Position des
mobilen Geräts
in eine Anfrage eines Benutzers integriert wird, um so eine verbesserte Leistungsfähigkeit
bereitzustellen.
-
4 ist
ein verallgemeinertes Informationsflußdiagramm, das eine Menge von
fundamentalen Operationen für
die vorliegende Erfindung beschreibt. Der Beschaffungsmechanismus 101 für geographische
Daten (dessen Einzelheiten in 5 gezeigt
sind), ist dafür
ausgestattet, geographische Daten zu sammeln, die einer aktuellen
geographischen Position eines mobilen Geräts entsprechen, um auf deren
Basis ein interessierendes geographisches Gebiet zu bestimmen und
auszugeben. Geographische Daten umfassen unter anderem beliebige
der folgenden: Koordinaten des GPS (Global Positioning System) in
Höhen-
und Breitengrad und auch gegebenenfalls Höhe, [x, y, z]-Koordinaten,
Städtenamen, Ortsnamen,
Postleitzahlenbereich, geographisches Gebiet, Art des Gebiets (städtisch,
vorstädtisch
oder Land), ein oder mehrere Parameter der Zellenidentifikation
(Cell-ID) aus einem zellularen Netz oder einen Parameter der Anruferidentifkation
(Call-ID) aus einem terrestrischen Fernsprechnetz.
-
Der
Wortfiltermechanismus 102 ist dafür ausgestattet, ein interessierendes
geographisches Gebiet von dem Beschaffungsmechanimus 101 für geographische
Daten zu empfangen und auf dessen Basis eine Teilmenge von Wörtern aus
der Elementdatenbank 500 (2 und 4)
auszuwählen. Wenn
ein grobes interessierendes geographisches Gebiet verwendet wird,
wird die Teilmenge von Wörtern
durch Vergleichen der groben geographischen Parameter in dem Parameterfeld
für das
grobe interessierende geographische Gebiet 505 entsprechend den
Elementen in dem Elementnamenfeld 501 mit zum Charakterisieren
des interessierenden geographischen Gebiets verwendeten groben geographischen
Parametern ausgewählt.
Wenn genauer gesagt das grobe geographische Gebiet die Postleitzahl
10017 ist, werden alle Elementnamen in dem Elementnamenfeld 501 ausgewählt, die
in dem Parameterfeld für
das grobe interessierende geographische Gebiet 505 mit
der Postleitzahl 10017 assoziiert sind. Eine ähnliche Operation wird ausgeführt, wenn ein
verfeinertes interessierendes geographisches Gebiet verwendet wird.
Das Parameterfeld für
das verfeinerte interessierende geographische Gebiet 503 wird
natürlich
anstelle des Parameterfelds für das
grobe interessierende geographische Gebiet 505 verwendet.
Die verfeinerten geographischen Parameter werden mit den groben
geographischen Parametern kombiniert, um den Wortfiltermechanismus 102 zu
verbessern, indem ein zweischrittiger Filterprozeß verwendet
wird. Ein erster Schritt verwendet das Parameterfeld für das grobe
interessierende geographische Gebiet 505 und ein zweiter
Schritt verwendet das Parameterfeld für das verfeinerte interessierende
geographische Gebiet 503.
-
Der
Wortfiltermechanismus 102 legt die gewählte Teilmenge von Wörtern in
einer Wortteilmengenliste 600 (3 und 4)
ab. Der Spracherkennungsmechanismus 103 (4)
ist dafür
ausgestattet, die Wortteilmengenliste 600 (3 und 4) von
dem Wortfiltermechanismus 102 (4) zu empfangen
und auf ihrer Basis eine Spracherkennungsprozedur auszuführen. Beispielsweise
kann der Spracherkennungsmechanismus 103 dafür ausgestattet
sein, eine Spracherkennungsprozedur durch Verwendung eines Paradigmas
(syntaktisches Modell) × (lexikalisches
Modell) × (akustisches
Modell) in Verbindung mit Markov-Modellen zu implementieren. Als
Alternative oder zusätzlich
kann der Spracherkennungsmechanismus 103 ein neuronales Netzwerk
benutzen. Allgemeiner ist die Erfindung auf jeden Spracherkennungsmechanismus
anwendbar, der Wörter
oder Gruppen von Wörtern,
die als "Grammatik" bezeichnet werden,
akzeptiert und verarbeitet. Folglich enthält der Wortfiltermechanismus 102 einen Grammatikformatierungsmechanismus,
der die Wortteilmengenliste 600 empfängt und die Liste zu einem
von dem Erkennungsmodellcompiler 213 benutzbaren Grammatikformat
formatiert.
-
Der
Erkennungsmodellcompiler 213 kann abhängig von den spezifischen Entwurfseigenschaften
des Spracherkennungsmechanismus 103 erforderlich sein oder
nicht. Der Erkennungsmodellcompiler 213 parst (oder analysiert)
alle Einträge
in einer formatierten Grammatik nacheinander und konstruiert dann
in einer oder mehreren sukzessiven Phasen oder "Durchgängen" einen von dem Spracherkennungsmechanismus 103 lesbaren
Ausgangscode. Da die Spracherkennungsprozedur auf einer geographisch
verfeinerten Teilmenge von Wörtern
basiert, ist die Gesamtgenauigkeit dieser Prozedur im Vergleich
zu vorbekannten Entwürfen
verbessert. Der Spracherkennungsmechanismus 103 kann durch
einen Server oder durch einen mobilen Handapparat implementiert
werden.
-
Eine
Sprachanfrage von einem Mobilgerätebenutzer
wird von einem akustischen Eingangsmechanismus 104 in dem
mobilen Gerät
empfangen. Der akustische Eingangsmechanismus 104 kann
unter Verwendung eines Mikrofons oder eines anderen Wandlers implementiert
werden, der dafür
ausgestattet ist, akustische Vibrationen in elektronische Signale
zu transformieren. Der akustische Eingangsmechanismus 104 führt dem
Spracherkennungsmechanismus 103 eine elektronische Repräsentation
von Benutzersprache zu. Der Spracherkennungsmechanismus 103 versucht,
ein oder mehrere Wörter
in der elektronischen Repräsentation
von Benutzersprache zu erkennen, die in der aus der Elementdatenbank 500 abgerufenen
Wortteilmengenliste 600 enthalten sind. Wenn ein oder mehrere
Wörter
erkannt werden, sendet der Spracherkennungsmechanismus 103 eine
elektronische Nachricht zu einem Ausgangsmechanismus 105 in
dem mobilen Gerät.
Die elektronische Nachricht umfaßt etwaige erkannte Wörter in der
von dem Mobilgerätebenutzer
empfangenen Sprachanfrage, die auch in der Wortteilmengenliste 600 enthalten
waren. Der Ausgangsmechanismus 105 setzt die elektronische
Nachricht in hörbare und/oder
visuelle Form zur Wahrnehmung durch den Mobilgerätebenutzer um. Beispielsweise
kann der Ausgangsmechanismus 105 unter Verwendung eines
Lautsprechers implementiert werden, der mit Audioverstärkerschaltkreisen
und Sprachsynthesizerschaltkreisen zum Produzieren einer Audionachricht, die
ein oder mehrere erkannte Wörter
enthält,
gekoppelt sein. Als Alternative oder zusätzlich kann der Ausgangsmechanismus 105 unter
Verwendung einer visuellen Anzeigeeinrichtung zum Anzeigen alphanumerischer
Zeichen, einschließlich
eines oder mehrerer erkannter Wörter,
implementiert werden.
-
5 ist
ein ausführliches
Blockdiagramm, das den Informationsfluß für ein gemäß einer Ausführungsform
der vorliegenden Erfindung konstruiertes Spracherkennungssystem
darlegt. 5 zeigt Einzelheiten des Beschaffungsmechanismus 101 für geographische
Daten. Die abgebildeten Operationen werden entweder durch einen
abgesetzten Server 240 oder durch das mobile Gerät 250 ausgeführt. Der Informationsfluß beginnt
beim Empfang eines "Start-"Signals an dem Eingangsmechanismus 201 des
mobilen Geräts 250.
In der Praxis kann dieses "Start-"Signal eine von einer
multimodalen Webseite, einer HTML-Seite oder lediglich einem Telefonanruf ausgegebene
Anforderung sein. Als Alternative kann der Benutzer eine Verbindung
auf einem mobilen Handapparat zu einer designierten Telefonnummer einleiten,
um auf ein auf dem mobilen Handapparat angezeigtes Postleitzahlformular
zuzugreifen. Der Benutzer füllt
das Postleitzahlformular unter Verwendung von DTMF-Tastenbetätigungen
auf dem Handapparat aus und validiert die eingegebene Postleitzahl
durch Betätigen
der DTMF-Ziffer "1" als ein "Start-"Signal. Im Prinzip
löst das "Start-"Signal eine Informationsanforderung
aus.
-
Als
nächstes
wird in dem Mechanismus 202 entschieden, ob das interessierende
geographische Gebiet lokal (d. h. in dem mobilen Gerät 250)
oder an einem abgesetzten Ort (d. h. in dem abgesetzten Server 240)
bestimmt wird. Abhängig
von den Einzelheiten einer gegebenen Systemanwendung kann diese
Entscheidung erfolgen, indem eine Anfrage an das mobile Gerät 250 ausgegeben
wird, um die Konfiguration und Fähigkeiten
des mobilen Geräts 250 zu bestimmen.
-
Falls
das interessierende geographische Gebiet lokal bestimmt wird, kann
man einen von zwei Ansätzen
verwenden. Gemäß dem ersten
Ansatz kann das mobile Gerät 250 einen
optionalen GPS-Empfänger 207 enthalten,
woraufhin beschaffte GPS-Daten zu einem Mechanismus 204 zum
Definieren eines interessierenden geographischen Gebiets (Serverseite,
siehe 5) weitergeleitet werden. Der Mechanismus 204 verwendet
die dem aktuellen Ort des mobilen Geräts 250 entsprechenden GPS-Daten,
um grobe geographische Parameter zur Charakterisierung des groben
interessierenden geographischen Gebiets zu erhalten. Gemäß einem zweiten
Ansatz kann der Benutzer an dem Eingangsmechanismus 201 zum
Beispiel Postleitzahldaten eingeben und diese können zu dem Mechanismus 204 zum
Definieren des interessierenden geographischen Gebiets weitergeleitet
werden. Beispielsweise werden Postleitzahldaten durch sequentielles
Betätigen
von Tasten auf einem DTMF-(Mehrfrequenz-)Tastenfeld
in den Eingangsmechanismus 201 eingegeben. Der Mechanismus 204 verwendet
die eingegebenen Postleitzahldaten als groben geographischen Parameter
zur Charakterisierung des interessierenden geographischen Gebiets.
-
Falls
das interessierende geographische Gebiet abgesetzt bestimmt wird,
leitet der Mechanismus 202 die aus dem Eingangsmechanismus 201 empfangene
Anforderung zu einem auf Ort basierenden Dienst 203 in
dem Server 240 weiter. Als Alternative oder zusätzlich werden
GPS-Daten aus dem GPS-Empfänger 207 zu
dem auf Ort basierenden Dienst 203 übermittelt, wenn sie benötigt werden.
Als Reaktion auf die empfangene Anforderung ruft der auf Ort basierende
Dienst 203 zum Beispiel Postleitzahlinformationen oder
Daten der Zellenidentifikation (Cell ID) für das mobile Gerät 250 ab.
Cell-IDs-Daten können in
einem Mobilkommunikationsnetz unter Verwendung der aus dem mobilen
Gerät 250 abgerufenen
ANI (Automatic Nummer Identification) abgerufen werden. ANI ist
ein Dienst, der dem Empfänger eines
Telefonanrufs die Nummer des anrufenden Telefons zur Verfügung stellt.
Das Verfahren zum Bereitstellen dieser Informationen wird vom Dienstanbieter
bestimmt. Cell-ID-Daten spezifizieren den geographischen Ort der
gerade mit dem mobilen Gerät 250 kommunizierenden
drahtlosen Basisstation durch Identifizieren der Telefonnummer und/oder
der IP-Adresse (Internet Protocol), die dem mobilen Gerät 250 zugewiesen
ist. Zum Beispiel kann das mobile Gerät 250 dem auf Ort
basierenden Dienst 203 Cell-ID-Daten in Form eines ANI-Parameters (Automated
Number Identification) senden. Gegebenenfalls oder als Alternative
bestimmt der auf Ort basierende Dienst 203 den geographischen
Ort des mobilen Geräts 250 durch
Ausführen
einer Triangulationsprozedur zwischen mehreren drahtlosen Basisstationen.
Die von dem auf Ort basierenden Dienst 203 (letztendlich
durch den Telekommunikationsanbieter) abgerufenen Cell-ID-Daten,
Caller-ID-Daten und/oder Triangulationsdaten werden zu dem Mechanismus 204 zum
Definieren des interessierenden geographischen Gebiets weitergeleitet.
-
Falls
das interessierende geographische Gebiet abgesetzt bestimmt wird,
verwendet der LBS-Dienst 203 gegebenenfalls Caller-ID-Daten und/oder
Cell-ID-Daten zum Zugreifen auf eine Postleitzahldatenbank 243.
Auf der Basis der Caller-ID-Daten und/oder Cell-ID-Daten wird eine
Postleitzahl aus der Postleitzahldatenbank 243 abgerufen und
dann zu dem Mechanismus 204 zum Definieren des interessierenden
geographischen Gebiets gesendet. Obwohl die beispielhafte Ausführungsform von 5 die
Postleitzahldatenbank 243 und den auf Ort basierenden Dienst 203 als
separate Elemente zeigt, ist für
Fachleute auf dem relevanten Gebiet leicht erkennbar, daß die Postleitzahldatenbank 243 in
den auf Ort basierenden Dienst 203 integriert sein kann,
obwohl dies nicht der Fall sein muß. Ähnlich ist für Fachleute
auf dem relevanten Gebiet leicht erkennbar, daß, obwohl die Elementdatenbank 500 und
der auf Ort basierende Dienst 203 als separate Elemente
gezeigt sind, die Elementdatenbank 500 in den auf Ort basierenden
Dienst 203 integriert sein könnte, obwohl dies nicht der
Fall sein muß.
-
Der
Mechanismus 204 zum Definieren des interessierenden geographischen
Gebiets verarbeitet ankommende geographische Daten, die bespielsweise
ankommende GPS-Daten,
Postleitzahldaten, Caller-ID-Daten und/oder Cell-ID-Daten umfassen, um
einen oder mehrere geographische Parameter zu erzeugen, die das
interessierende geographische Gebiet für das mobile Gerät 250 definieren.
Wenn zum Beispiel wie oben besprochen die ankommenden Daten auf
Postleitzahlendaten basieren, ist die Ausgabe des Mechanismus 204 eine
Postleitzahl. Dieser Parameter, z. B. eine Postleitzahl, wird zum Spezifizieren
eines interessierenden geographischen Gebiets verwendet. Das definierte
interessierende geographische Gebiet kann ein grobes interessierendes
geographisches Gebiet mit einem verfeinerten interessierenden geographischen
Gebiet kombinieren, wie in dem folgenden Beispiel dargestellt wird. Eine
oder mehrere Postleitzahl(en) können
aus GPS-Koordinaten abgeleitet werden, wodurch ein grobes interessierendes
geographisches Gebiet definiert wird. Die GPS-Koordinaten selbst,
die mit einem Unbestimmtheitsbereich assoziiert sind, definieren ein
verfeinertes interessierendes geographisches Gebiet. Ein solches
definiertes interessierendes geographisches Gebiet kann zum Implementieren
des oben beschriebenen zweischrittigen Filterprozesses verwendet
werden.
-
Gegebenenfalls
kann wie durch die gestrichelten Linien in 5 angegeben
ein Benutzer an dem mobilen Gerät 250 wünschen,
das interessierende geographische Gebiet, das durch den Mechanismus 204 zum
Definieren des interessierenden geographischen Gebiets definiert
wird, weiter zu verfeinern. Wenn dies der Fall ist, wird das durch
den Mechanismus 204 zum Definieren des interessierenden geographischen
Gebiets definierte interessierende geographische Gebiet als ein
grobes interessierendes geographisches Gebiet bezeichnet und das
vom Benutzer verfeinerte interessierende Gebiet wird als das verfeinerte
interessierende geographische Gebiet bezeichnet. Das verfeinerte
interessierende geographische Gebiet umfaßt eine Teilmenge des groben
interessierenden geographischen Gebiets. Der Eingangsmechanismus 201 nimmt
Benutzereingaben an, die eine geometrische Spezifikation eines verfeinerten
interessierenden geographischen Gebiets darlegen. Benutzereingaben
werden beispielsweise über
die Verbindungsleitung 275 in Form von Tastenfeldeingaben,
graphischen Objekten, Skizzen, Textbeschreibungen oder Vokaleingabe
empfangen. Beispiele für
geometrische Spezifikationen sind deren Quadrate, Rechtecke, Achtecke,
Dreiecke, Kreise und Freihand-Skizzen. Der Mechanismus 205 zur Verfeinerung
der geometrischen Spezifikation nimmt Benutzereingaben von dem Eingangsmechanismus 201 an
und verfeinert die Menge der durch den Mechanismus 204 zum
Definieren des interessierenden geographischen Gebiets erzeugten
geographischen Parametern.
-
Der
eine bzw. die mehreren durch den Mechanismus 204 zum Definieren
des interessierenden geographischen Gebiets erzeugten geographischen Parameter,
die gegebenenfalls durch den Mechanismus 205 zum Verfeinern
der Geometriespezifikation verfeinert werden, werden von dem Wortfiltermechanismus 102 empfangen.
Der Wortfiltermechanismus 102 ist befähigt, seine Funktionen auszuführen, wenn
zwei Bedingungen erfüllt
sind. Als erstes sollte das mobile Gerät 250 eine sprachbefähigte Anwendung
ausführen,
wenn der Benutzer eine Informationsanforderung ausgegeben hat. Diese
Anforderung ist bei der Erzeugung einer Anforderung aus dem Eingangsmechanismus 201 erfüllt. Zweitens
sollte das interessierende geographische Gebiet definiert werden.
Diese Anforderung ist erfüllt,
sobald der Mechanismus 204 zum Definieren des interessierenden geographischen
Gebiets die oben beschriebenen geographischen Parameter erzeugt.
-
Wenn
er freigegeben ist, verwendet der Wortfilter mechanismus 102 den
einen oder die mehreren aus dem Mechanismus 204 oder 205 empfangenen
geographischen Parameter, um zu bestimmen, ob sich jedes der mehreren
Elemente in der Elementdatenbank 500 in dem interessierenden
geographischen Gebiet befindet oder nicht. Die in dem Elementnamenfeld 501 (2)
gespeicherten Elementnamen können
Namen umfassen, die sich in dem interessierenden geographischen
Gebiet befinden, und auch Elemente, die nicht in dem interessierenden
geographischen Gebiet liegen. Folglich vergleicht der Wortfiltermechanismus 102 (5)
den einen oder die mehreren empfangenen Parameter, die das interessierende
geographische Gebiet definieren, mit einem oder mehreren Parametern,
die in dem mindestens einen Parameterfeld für das verfeinerte interessierende
geographische Gebiet 503 oder in einem Parameterfeld für das grobe
interessierende geographische Gebiet 505 (2)
gespeichert sind, um zu bestimmen, ob jedes von mehreren Elementen
in der Elementdatenbank 500 (2 und 5)
sich in dem interessierenden geographischen Gebiet befindet. Zum
Beispiel ist die Straße
A in dem Parameterfeld für
das verfeinerte interessierende geographische Gebiet 503 durch
eine erste und eine zweite Menge von (x, y)-Koordinaten charakterisiert. Folglich
wird Straße
A als ein gerades Liniensegment enthaltend konzeptualisiert, das
die erste und die zweite Menge von (x, y)-Koordinaten verbindet. Wenn
irgendein Teil dieses geraden Liniensegments das interessierende
geographische Gebiet schneidet, wird Straße A in die Wortteilmengenliste 600 (3 und 5)
aufgenommen.
-
Der
Wortfiltermechanismus 102 hängt nur die Elementnamen in
dem interessierenden geographischen Gebiet an die Wortteilmengenliste 600 an. Wenn
der Benutzer etwaige Verfeinerungen an dem groben interessierenden
geographischen Gebiet vorgenommen hat, werden gegebenenfalls nur
Elemente, die in dem verfeinerten interessierenden geographischen
Gebiet liegen, an die Wortteilmengenliste 600 angehängt.
-
Die
Wortteilmengenliste 600 von 3 und 5 repräsentiert
ein beispielhaftes Ausgabeformat für den Wortfiltermechanismus 102.
Als Alternative oder zusätzlich
kann die Ausgabe des Wortfiltermechanismus 102 als computerlesbarer
Strom von Wörtern,
der ein oder mehrere Elemente in dem interessierenden geographischen
Gebiet repräsentiert, konzeptualisiert
werden. Dieser beispielsweise im Textformat vorliegende Strom ist
mit einer Spracherkennungs-Engine und/oder einem Sprach-Browser-Einbettungs-Spracherkennungsmechanismus 103 (5)
kompatibel. Gegebenenfalls kann der Wortfiltermechanismus 102 die
Wortteilmengenliste 600 und/oder den computerlesbaren Strom
von Wörtern
in ein Format wie etwa ein XML-Dokument umformatieren, um eine mit
dem Spracherkennungsmechanismus 103 kompatible Teilmenge
von Wörtern bereitzustellen.
-
Der
Spracherkennungsmechanismus 103 kann in dem Server 240 oder
in dem mobilen Gerät 250 implementiert
werden. Falls Spracherkennung in dem mobilen Gerät 250 durchgeführt wird,
wird die Ausgabe des Wortfiltermechanismus 102 (beispielsweise
in Form eines Stroms von Wörtern,
der der Grammatikteilmengenliste 600, 3,
entspricht) von dem Server 240 zu dem mobilen Gerät 250 gesendet.
Die Wortteilmengenliste 600 wird dann durch den Erkennungsmodellcompiler 213 in
dem mobilen Gerät 250 kompiliert,
um ein Spracherkennungsmodell zur Verwendung durch den Spracherkennungsmechanismus 103 als
Reaktion auf den akustischen Eingangsmechanismus 104 bereitzustellen.
Der Spracherkennungsmechanismus 103 leitet erkannte Sprache
dann zu dem Ausgangsmechanismus 105 weiter, um ein die
erkannte Sprache repräsentierendes
elektronisches Ausgangssignal zu erzeugen. Eine solche Anordnung
ist vorteilhaft, weil sie die Belastung drahtloser Kommunikationsbetriebsmittel
reduziert. Übertragungen
zwischen dem Server und dem mobilen Gerät werden reduziert, weil nur
die Wortteilmengenliste 600 zu dem mobilen Gerät übermittelt
werden muß.
Die Spracherkennungsschritte können
in dem mobilen Gerät
mit Bezug auf die Wortteilmengenliste 600 durchgeführt werden,
wodurch sich die Geschwindigkeit und Effizienz des Spracherkennungsprozesses
verbessern.
-
Wenn
Spracherkennung in dem Server 240 ausgeführt wird,
werden der Erkennungsmodellcompiler 213 und der Spracherkennungsmechanismus 103 in
dem Server 240 statt in dem mobilen Gerät 250 implementiert,
wobei die Ausgabe des Spracherkennungsmechanismus 103 von
dem Server 240 zu dem Ausgangsmechanismus 104 in
dem mobilen Gerät 250 gesendet
wird.
-
Die
Funktionsprinzipien der in 4 und 5 gezeigten
Konfigurationen werden am besten mit Bezug auf mehrere beispielhafte
Szenarien dargestellt. Diese Szenarien verdeutlichen den Ortsauflösungsprozeß, der den
durch den Wortfiltermechanismus 102 ausgeführten Filterprozeß gemäß aufzulösenden Ortsdaten
regelt. Die Szenarien betrachten die Verwendung beliebiger von mehreren
verschiedenen Arten von Eingaben, durch die ein Ortskontext bestimmt
wird.
-
Szenario
eins: Interessierendes geographisches Gebiet ist durch eingegebene
Postleitzahl und/oder Stadt zu bestimmen. Postleitzahl und/oder Stadt
werden vom Benutzer in das mobile Gerät 250 eingegeben.
Mögliche
Clients, die von dem mobilen Gerät 250 zum
Annehmen der eingegebenen Postleitzahl und/oder Stadt verwendet
werden, wären zum
Beispiel ein Sprach-Browser und/oder ein multimodaler Client. Im
Fall eines Telefonanrufs ist der Client nicht das Telefon selbst,
sondern der Sprach-Browser (vom Standpunkt des Servers aus gesehen).
Ortsdaten werden im Form einer Stadt und/oder einer Postleitzahl
angegeben. Das diesen Ortsdaten entsprechende interessierende geographische
Gebiet wird in Form einer Stadt oder Postleitzahl bestimmt. In diesem
Fall wird die Ortsauflösung lokal
ausgeführt.
Die Postleitzahl und/oder Stadt werden unter Verwendung von DTMF-Tastenbetätigungen
und/oder Sprache in das mobile Gerät 250 eingegeben.
Als Reaktion auf die eingegebenen Informationen wird, nachdem die
Informationen in dem Eingangsmechanismus 201 empfangen
werden, eine HTTP-Anforderung ausgegeben. In diesem Fall wird die
Wortteilmengenliste 600 durch Auswahl einer Menge von Wörtern und/oder
Grammatik in bezug auf die angegebene Stadt und/oder Postleitzahl erzeugt.
Es werden die folgenden Schritte ausgeführt:
- 1.
Der Benutzer verbindet sich unter Verwendung des mobilen Geräts 250 mit
dem Beschaffungsmechanismus 101 für geographische Daten. Wenn
das mobile Gerät 250 einen
multimodalen Client repräsentiert,
erfolgt eine HTTP-Anforderung durch den Client an einen Dokumentserver des
Wortfiltermechanismus 102 (4 und 5).
Wenn das mobile Gerät 250 ein
drahtloses Telefon repräsentiert,
erfolgt eine HTTP-Anforderung durch den Sprach-Browser ("sprechen" mit dem Telefon)
an den Dokumentserver des Wortfiltermechanismus 102.
- 2. Es wird eine erste Seite in das mobile Gerät 250 oder
auf den Sprach-Browser geladen. Die Seite fordert den Benutzer zur
Eingabe einer Postleitzahl auf. Die Postleitzahl entweder durch
DTMF (Mehrtontasten) oder durch Sprache einzugeben. Die zum Erkennen
der Postleitzahl verwendete Grammatik ist statisch.
- 3. Der Benutzer gibt die Postleitzahl in den Eingabemechanismus 201 ein.
Es erfolgt eine zweite HTTP-Anforderung durch den Client mit dem Postleitzahlwert
als Parameter. Da der auf Ort basierende Dienst 203 in
diesem Szenario nicht zum Auflösen
des Orts verwendet wird, ist die Ortsauflösung "lokal". Das interessierende geographische
Gebiet wird in dem Mechanismus 204 zum Definieren des interessierenden
geographischen Gebiets evaluiert und es erfolgt keine weitere Verfeinerung
des interessierenden geographischen Gebiets.
- 4. Es wird eine zweite Seite in das mobile Gerät 250 (die "reduzierte" Seite) geladen.
Der Dokumentserver des Wortfiltermechanismus 102 berechnet
mit der Seite assoziierte reduzierte Grammatiken in Form der Wortteilmengenliste 600.
- 5. Der Benutzer kann sprachlich über das mobile Gerät 250 mit
der Seite in Dialog treten, da die Seite für ihren Ort optimiert ist.
-
Anmerkung:
Der Mechanismus 205 zur Verfeinerung der Geometriespezifikation
wird in diesem Szenario nicht benutzt. Sollte dieser Mechanismus verwendet
werden, muß eine "abgesetzte" Ortsauflösung ausgeführt werden,
um so das Zurücksenden (zum
Beispiel) einer Karte zu dem multimodalen Client des mobilen Geräts 250 zu
ermöglichen.
-
Szenario
zwei: Das interessierende geographische Gebiet ist automatisch unter
Verwendung von Caller ID oder Cell ID zu bestimmen.
-
Mögliche von
dem mobilen Gerät 250 für Caller
ID oder Cell ID zu verwendende Clients wären ein Sprach-Browser und/oder
ein multimodale Client. Ortsdaten werden in Form eines Parameters
Caller ID oder Cell ID bereitgestellt. Das interessierende geographische
Gebiet wird als eine Postleitzahl oder als Gebiets-ID, die ein geographisches
Gebiet identifiziert, bestimmt. Ortsauflösung wird nicht lokal, sondern
abgesetzt ausgeführt.
Der Eingangsmechanismus 201 wird nicht für den Zweck
der Ortsauflösung verwendet.
Das mobile Gerät 250 ist
dafür programmiert,
eine HTTP-Anforderung auszugeben, während eine erste Seite von
einem Dokumentserver des Wortfiltermechanismus 102 abgerufen
wird. In diesem Szenario werden Wörter und/oder Grammatik aus
der Elementdatenbank 500 gefiltert, um die Wortteilmengenliste 600 auf
der Basis von ANI- oder Cell-ID-Informationen zu erstellen. Der
Eingangsmechanismus 201 ist insofern vollständig transparent, als
die Anforderung, die den Wortfilterprozeß trimmt, in der ersten Phase
der Interaktion erscheint und keine Datensammelphase wie bei dem
vorherigen Szenario notwendig ist. Die HTTP-Anforderung kann von einem
Sprach-Browser (der ANI-Info liefert) oder einem multimodalen Client
in dem mobilen Gerät 250 ausgegeben
werden.
-
Es
wird die folgende Betriebssequenz ausgeführt:
- 1.
Der Benutzer verbindet sich mit der Verwendung des mobilen Geräts 250 mit
dem Beschaffensmechanismus 101 für geographische Daten. Wenn
der Benutzer einen multimodalen Client in dem Mobilgerät 250 verwendet,
erfolgt eine HTTP-Anforderung durch den Client an den Dokumentserver
des Wortfiltermechanismus 102. Wenn das mobile Gerät 250 ein
drahtloses Telefon ist, erfolgt eine HTTP-Anforderung durch den Sprach-Browser
("sprechen" mit dem Telefon)
an den Dokumentserver des Wortfiltermechanismus 102. Die
ANI und/oder Cell ID werden als Teil der HTTP-Anforderung zu dem
Dokumentserver geleitet. Der auf Ort basierende Dienst 203 bestimmt das
interessierende geographische Gebiet in diesem Fall im Anschluß an den
in 5 angegebenen abgesetzten Pfad, der in dem Mechanismus 202 beginnt.
Der auf Ort basierende Dienst bestimmt außerdem die geographische Position
des Benutzers, einen Unbestimmtheitsbereich mit Bezug auf die Position
des Benutzers und eine oder mehrere assoziierte Postleitzahlen.
- 2. Eine Seite wird in das mobile Gerät 250 heruntergeladen
oder auf den Sprach-Browser geladen. Der geographische Kontext wird
von dem Wortfiltermechanismus 102 verwendet, um eine Wortteilmengenliste 600 zu
berechnen, die gemäß dem zuvor
bestimmten interessierenden geographischen Gebiet mit der Seite
assoziiert ist.
- 3. Der Benutzer kann sprachlich unter Verwendung des mobilen
Geräts 250 mit
der Seite in Dialog treten. Die Seite ist für das interessierende geographische
Gebiet des Benutzers optimiert.
-
Szenario
drei: Das interessierende geographische Gebiet ist automatisch unter
Verwendung von GPS-Daten zu bestimmen. Mögliche von dem mobilen Gerät 250 für GPS verwendete
Clients wären
ein multimodaler Client. Ortsdaten werden in Form von GPS-Koordinaten
bereitgestellt. Das interessierende geographische Gebiet wird als
eine Postleitzahl, als (x, y)- oder (x, y, z)-Koordinaten bestimmt,
wobei gegebenenfalls ein Unbestimmtheitsbereich aufgenommen wird.
Die Ortsauflösung
wird nicht abgesetzt, sondern lokal ausgeführt. Der Eingangsmechanimus 201 wird
nicht zum Bestimmen des interessierenden geographischen Gebiets
verwendet. Das mobile Gerät 250 gibt
während
des Abrufens der ersten Seite eine HTTP-Anforderung aus. In diesem
Fall erstellt der Wortfiltermechanismus 102 eine Wortteilmengenliste 600 durch
Filtern der Elementdatenbank 500 unter Verwendung von GPS-Daten.
Der Eingangsmechanismus 201 ist insofern transparent, als
die HTTP-Anforderung, die zu Wortfilterung führt, als die erste Phase der
Interaktion erscheint. Im Gegensatz zu dem ersten Szenario ist keine
Datensammelphase notwendig. Es werden die folgenden Schritte ausgeführt:
- 1. Der Benutzer verbindet sich unter Verwendung des
mobilen Geräts 250 mit
dem Beschaffungsmechanismus 101 für geographische Daten. Wenn
das mobile Gerät 250 einen
multimodalen Client verwendet, erfolgt eine HTTP-Anforderung durch den Client an einen
Dokumentserver des Wortfiltermechanismus 102. Die GPS-Informationen werden
als Teil der HTTP-Anforderung gesendet. Der auf Ort basierende Dienst 203 bestimmt
das interessierende geographische Gebiet durch Hinzufügen grober
Lokalisierung zu den GPS-Informationen, und die grobe Lokalisierung wird
zu dem Mechanismus 204 zum Definieren des interessierenden
geographischen Gebiets gesendet.
- 2. Es wird eine Seite in das mobile Gerät 250 heruntergeladen:
Das interessierende geographische Gebiet in Form der in dem Mechanismus 204 zum
Definieren des interessierenden geographischen Gebiets empfangenen
groben und/oder verfeinerten Lokalisierung wird von dem Wortfiltermechanismus 102 verwendet,
um eine Wortteilmengenliste 600 zu berechnen und um die Wortteilmengenliste
in einer zu dem mobilen Gerät 250 zu
sendenden Seite abzulegen, wobei der oben beschriebene zweischrittige
Filterprozeß verwendet
wird.
- 3. Der Benutzer kann sprachlich mit der Seite, die für das interessierende
geographische Gebiet optimiert ist, in Dialog treten.
-
Anmerkung:
-
- 1. Falls der Mechanismus 205 zum Verfeinern
der Geometriespezifikation verwendet wird, wird eine Zwischenseite
in das mobile Gerät 250 heruntergeladen,
die den Benutzer auffordert, sein Interessengebiet (vor Schritt
2) zu präzisieren:
- 1.a – Es
wird eine dazwischentretende (d. h. "Lokalisierungs-") Seite in das mobile Gerät 250 heruntergeladen.
- 1.b – Der
Benutzer gibt ein interessierendes Gebiet in das mobile Gerät 250 ein.
- 1.c – Ein
verfeinertes interessierendes geographisches Gebiet wird durch das
mobile Gerät 250 gesendet
und durch den Mechanismus 204 zum Definieren des interessierenden
geographischen Gebiets in das interessierende geographische Gebiet
integriert.
-
Im
Gegensatz zu vorbekannten Techniken verwendet die vorliegende Erfindung
keine akustischen Modelle zur Verbesserung der Spracherkennungsgenauigkeit.
Stattdessen reduziert die Erfindung die Gesamtzahl der Wörter, die
von einem Spracherkennungsalgorithmus betrachtet werden müssen. Die
Anzahl der Wörter
wird reduziert, indem Wörter
ausgeschlossen werden, die ein interessierendes geographisches Gebiet
nicht betreffen. Auf diese Weise ermöglich die reduzierte Verarbeitungslast
eine Handhabung der Spracherkennung in dem Handapparat. Darüber hinaus
wird die Genauigkeit des Spracherkennungsalgorithmus verbessert.
-
Zusammengefaßt umfassen
die Vorteile der Erfindung eine genauere Spracherkennung aufgrund der
Nutzung einer Datenbank, deren Größe reduziert wurde (d. h. der
Wortteilmengenliste 600). Die Belastung von Kommunikationsbetriebsmitteln
wird verringert, indem die reduzierte Datenbank zu dem Handapparat
gesendet wird, woraufhin der Handapparat Spracherkennung nur unter
Verwendung der Datenbank reduzierter Größe anstelle einer viel größeren Datenbank
durchführt.
Die verminderte Belastung der Kommunikationsbetriebsmittel führt zu einer schnelleren
und effizienteren Spracherkennung.
-
Obwohl
neuartige Merkmale der Erfindung, so wie sie auf ihre Ausführungsformen
angewandt werden, gezeigt und beschrieben wurden, versteht sich
somit, daß Fachleute
verschiedene Weglassungen und Substitutionen und Änderungen
der Form und Einzelheiten der dargestellten Einrichtungen und ihrer
Funktionsweise vornehmen können,
ohne von dem Schutzumfang der Erfindung abzuweichen, der alleine
durch die angefügten
Ansprüche
definiert wird. Obwohl eine Ausführungsform
der Erfindung im Hinblick auf einen Benutzer beschrieben wurde,
der ein automatisch bestimmtes interessierendes geographisches Gebiet
verfeinert, ist es zum Beispiel auch möglich, daß ein Benutzer ein automatisch
bestimmtes grobes interessierendes geographisches Gebiet ergänzt.
-
Im
Hinblick auf das Obige ist ausdrücklich beabsichtigt,
daß alle
Kombinationen der Elemente und/oder Verfahrensschritte, die im wesentlichen
dieselbe Funktion auf im wesentlichen dieselbe Weise ausführen, um
dieselben Ergebnisse zu erzielen, in einer beliebigen anderen offenbarten
oder beschriebenen oder vorgeschlagenen Form oder Ausführungsform
als allgemeine Frage der Entwurfsauswahl integriert werden können, soweit
sie in den Schutzumfang der angefügten Ansprüche fallen.