DE602005005597T2 - Verfahren und Vorrichtung für erhöhte Spracherkennungspräzision unter Verwendung geografischer Daten zur Filterung einer Wortgruppe - Google Patents

Verfahren und Vorrichtung für erhöhte Spracherkennungspräzision unter Verwendung geografischer Daten zur Filterung einer Wortgruppe Download PDF

Info

Publication number
DE602005005597T2
DE602005005597T2 DE602005005597T DE602005005597T DE602005005597T2 DE 602005005597 T2 DE602005005597 T2 DE 602005005597T2 DE 602005005597 T DE602005005597 T DE 602005005597T DE 602005005597 T DE602005005597 T DE 602005005597T DE 602005005597 T2 DE602005005597 T2 DE 602005005597T2
Authority
DE
Germany
Prior art keywords
interest
words
data
geographic area
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005005597T
Other languages
English (en)
Other versions
DE602005005597D1 (de
Inventor
Keith Waters
Benoit Benjamin Simon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE602005005597D1 publication Critical patent/DE602005005597D1/de
Application granted granted Critical
Publication of DE602005005597T2 publication Critical patent/DE602005005597T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)

Description

  • TECHNISCHES GEBIET
  • Die Erfindung betrifft allgemein Spracherkennungssysteme und -verfahren und insbesondere Systeme und Verfahren zum Verbessern der Spracherkennungsgenauigkeit durch Verwendung geographischer Daten zum Reduzieren der Größe einer Menge von Wörtern, die geprüft werden muß, um Spracherkennung zu bewirken.
  • STAND DER TECHNIK
  • Beim Besuch in einer unvertrauten Stadt wird ein Benutzer eines mobilen Handapparats möglicherweise wünschen, ein Unternehmen, eine Sehenswürdigkeit, eine Straße oder einen anderen interessierenden Ort zu finden. Es wäre relativ vorteilhaft, wenn der Benutzer eine Sprechverbindung zu einem abgesetzten Server mit einer designierten Telefonnummer einleiten und seine Informationsanforderung in den Handapparat sprechen könnte. Der Handapparat würde eine Spracherkennungsprozedur ausführen, wodurch die gesprochene Anforderung in eine Serveranfrage transformiert wird, und die angeforderten Informationen von dem abgesetzten Server in Form eines elektronischen Signals zum Produzieren hörbarer Sprache empfangen. Zum Beispiel könnte ein Benutzer in Manhatten wünschen, das nächste Neiman-Marcus-Kaufhaus zu finden. Er wählt eine designierte Telefonnummer und spricht eine Anforderung, wie zum Beispiel "Wo ist der nächste Neiman Marcus?". Der Handapparat verwendet Spracherkennung, um die Anforderung in eine elektronische Anforderung zum Empfang durch den abgesetzten Server umzusetzen. Auf der Basis des derzeitigen Orts des Handapparats greift der abgesetzte Server auf eine Datenbank zu, um Adresse und Telefonnummer des nächsten Neiman Marcus abzurufen. Die Adresse und Telefonnummer werden von dem Server in Form eines elektronischen Signals zu dem Handapparat des Benutzers gesendet, woraufhin der Handapparat das elektronische Signal in hörbare Sprache umsetzt.
  • Leider sind signifikante Hindernisse zu überwinden, wenn man wünscht, existierende Spracherkennungsalgorithmen zum Ausführen der obigen Prozeduren zu verwenden. Genauer gesagt ist es problematisch, Spracherkennungsalgorithmen zu entwickeln, die in bestimmten Betriebsumgebungen, wie zum Beispiel denen von mobilen Telefongeräten, einen gewünschten Genauigkeitsgrad liefern. Im allgemeinen sind die Verarbeitungsleistung und Speicherfähigkeiten mobiler Telefongeräte durch Größen- und Kosteneinschränkungen begrenzt, wodurch dem Ausmaß, zu dem die Komplexität existierende Algorithmen vergrößert werden kann, begrenzt wird. Außerdem verschlechtern Umgebungsgeräusche die Leistungsfähigkeit vieler Spracherkennungsalgorithmen stark. Im Hinblick auf diese Unzulänglichkeiten wurden vorbekannte Techniken entwickelt, um die Leistungsfähigkeit von Spracherkennungsalgorithmen in Anwendungen, bei denen Verarbeitungsleistung begrenzt sein kann, zu verbessern. Diese vorbekannten Techniken betreffen die Verbesserung eines Erkennungsmodells durch Verwendung verbesserter akustischer Modelle. Die folgenden Definitionen werden hier des Verständnisses und der Klarheit halber angegeben:
    • Lexikalisches Modell: ein lexikalisches Modell zerlegt einzelne Wörter eines (im folgenden definierten) syntaktischem Modells in eine Sequenz von Phonemen (auch im folgenden definiert).
    • Akustisches Modell: ein akustisches Modell zerlegt die durch das lexikalische Modell bestimmte Sequenz von Phonemen in ein Markov-Modell von Cepstrum-Koeffizienten, das auch als Vektorsequenzen bezeichnet wird. Cepstrum-Koeffizienten werden durch Nehmen der Fouriertransformation des Leistungsspektrums eines Sprachsignals erzeugt.
    • Erkennungsmodell: ein Erkennungsmodell ist eine Menge von Regeln und Operationen, die von einer Erkennungs-Engine verwendet werden, um einzelne Wörter zu erkennen. Das Erkennungsmodell enthält ein voll eingesetztes Spracherkennungssystem, das das akustische Modell, das lexikalische Modell und das syntaktische Modell folgendermaßen umschließt: Erkennungsmodell = (akustisches Modell) × (lexikalisches Modell) × (syntaktisches Modell).
  • Aus der US-Patentanmeldung, Publikation Nr. US 2003236099, ist eine Technik zum Verbessern der Genauigkeit eines Spracherkennungsalgorithmus durch Auswahl eines entsprechenden akustischen Modells gemäß dem Ort eines Mobiltelefongeräts (der Einfachheit halber "mobiler Handapparat" oder einfach "Handapparat") bekannt. Wie bereits erwähnt, enthält ein akustisches Modell eine Menge von Cepstrum-Koeffizientenstatistiken für jedes Phonem in einer Sprache. Es können mehrere verschiedene akustische Modelle vorkompiliert werden, die jeweils eine einzigartige akustische Umgebung repräsentieren, dergestalt, daß ein Spracherkennungssystem ein für eine gegebene Menge von Umgebungsbedingungen geeignetes akustisches Modell auswählen kann. Zum Beispiel wird jedes akustische Modell erstellt durch individuelles Aufzeichnen von mehreren hundert Sprechern in einer kontrollierten modellspezifischen Laborumgebung, die bekannte akustische Eigenschaften aufweist, die beispielsweise über Geräusche, Echo, Hall und Frequenzgang spezifiziert wird. Jede modellspezifische Laborumgebung soll eine Echtweltumgebung repräsentieren, wie etwa ein Kaufhaus, ein Büro, ein Einkaufszentrum, einen Flughafen oder den Innenraum eines Automobils. Daher enthalten akustische Modelle Eigenschaften spezifischer Umgebungen sowie Eigenschaften der menschlichen Stimme. Die Laborumgebung kann künstlich erzeugte Geräusche enthalten, um zum Beispiel Verkehr, Gespräche, das Klicken von Computertastaturen und Gabelstapler zu simulieren.
  • Gemäß dieser vorbekannten Technik werden wie nachfolgend definiert aus einem auf Ort basierenden Dienst (LBS) auf der Basis des aktuellen Orts des mobilen Handapparats Positionsinformationen abgerufen. Die abgerufenen Positionsinformationen werden dann zur Auswahl der akustischen Eigenschaften der den Handapparat umgebenden Umgebung verwendet. Es wird ein akustisches Modell, das die akustischen Eigenschaften der Art von Umgebung für den aktuellen Ort des Handapparats approximiert, aus einer Menge zuvor erstellter akustischer Modelle ausgewählt. Das ausgewählte akustische Modell wird dann zur Verbesserung der Genauigkeit des Spracherkennungsalgorithmus verwendet.
  • Die aus der US-Patentanmeldung, Publikation Nr. US2003236099 bekannte Technik hat viele praktische Unzulänglichkeiten. Existierende auf Ort basierende Dienste, die GPS (Global Positioning System) verwenden, bestimmen die Position eines Benutzers nicht mit der erforderlichen Genauigkeit von zum Beispiel ein bis zwei Metern, und diese Dienste bestimmen auch nicht die Höhe eines Benutzers mit ausreichender Genauigkeit für viele Spracherkennungsanwendungen. Die Auswirkung einer unzureichenden Positionsgenauigkeit besteht darin, daß es nicht möglich ist, wenn sich ein Benutzer in der Nähe des Eingangs eines Gebäudes befindet, genau zu bestimmen, ob sich der Benutzer tatsächlich in dem Gebäude befindet. Die Auswirkung einer unzureichenden Höhengenauigkeit besteht darin, daß es nicht möglich ist, mit Sicherheit zu bestimmen, ob sich ein Benutzer in dem Gebäude befindet oder auf dem Dach steht. Ein akustisches Modell, das für eine innere Vorhalle eines Gebäudes geeignet ist, ist nur unwahrscheinlich für die Verwendung im Freien geeignet. Zumindest wird die Auswahl eines ungeeigneten akustischen Modells auf der Basis einer ungenauen Bestimmung der tatsächlichen Position eines Benutzers die Genauigkeit vieler Spracherkennungsalgorithmen verschlechtern.
  • Eine weitere Unzulänglichkeit der aus der US-Patentanmeldung, Publikation Nr. US2003236099, bekannten Technik ist die Notwendigkeit, ein akustisches Modell zu erzeugen. Zuallererst ist es nicht durchführbar, für jede Art von Ort ein einzigartiges akustisches Modell zu erzeugen. Auch wenn für eine bestimmte Art von Ort ein akustisches Modell entwickelt wird, kann zweitens ein tatsächlicher Ort möglicherweise die in dem Modell realisierten akustischen Eigenschaften nicht besitzen. Zum Beispiel kann ein akustisches Modell, das aufgrund von verschiedenen Konstruktionsmaterialien, Möbeln und Zimmerkonfigurationen versucht, einen typischen Konferenzraum zu repräsentieren, möglicherweise einen spezifischen Konferenzraum in einem spezifischen Bürogebäude nicht angemessen repräsentieren. Es wird folglich eine verbesserte Technik zum Verbessern der Genauigkeit von Spracherkennungsalgorithmen benötigt.
  • EP 1233407 beschreibt ein Navigationssystem mit Spracherkennungsfähigkeiten für ein sich bewegendes Fahrzeug. Immer dann, wenn die Distanz zwischen dem Fahrzeug und bekannten aktiven Orten größer als eine gegebene Schwelle wird, beschafft das Navigationssystem zur nachfolgenden Verwendung mit der Spracherkennungs-Engine eine vorexistierende Wortliste entsprechend dem aktiven Ort.
  • US 6,230,132 beschreibt ein weiteres Navigationssystem mit Spracherkennungsfunktionen. In periodischen Intervallen wird ein Lexikon mit einer begrenzten Anzahl von Wörtern erzeugt, um die Spracherkennungsfunktionen zu ermöglichen. Wenn ein Benutzer das Navigationssystem benutzen muß, muß er darüber hinaus mit seiner Stimme den Namen eines Orts anfordern, so daß ein Lexikon erzeugt werden kann.
  • EP 0661688 beschreibt eine Eingeräte-Navigationsvorrichtung an Bord eines Autos mit Spracherkennungsfunktionen. Es werden vorexistierende Bibliotheken verwendet und in regelmäßigen Intervallen aktualisiert, um die Spracherkennungs-Engine zu ermöglichen.
  • KURZFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung wird durch die angefügten unabhängigen Ansprüche definiert.
  • Weitere Aspekte und Merkmale der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich. Es versteht sich jedoch, daß die Zeichnungen lediglich zur Veranschaulichung angegeben werden, und nicht als Definition der Grenzen der Erfindung, für die auf die angefügten Ansprüche verwiesen wird. Ferner versteht sich, daß, sofern es nicht anders angegeben wird, die Zeichnungen lediglich die hier beschriebenen Strukturen und Prozeduren konzeptuell darstellen sollen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Es zeigen:
  • 1 eine Diagrammdarstellung eines interessierenden geographischen Gebiets.
  • 2 ein Datenstrukturdiagramm, das einen Teil einer beispielhaften Elementdatenbank darlegt.
  • 3 ein Datenstrukturdiagramm, das eine beispielhafte Teilmenge von aus der Elementdatenbank von 2 ausgewählten Wörtern darlegt.
  • 4 ein verallgemeinertes Informationsflußdiagramm einer Menge von fundamentalen Operationen für die vorliegende Erfindung.
  • 5 ein ausführliches Blockdiagramm, das den Informationsfluß für ein gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung aufgebautes Spracherkennungssystem darlegt.
  • AUSFÜHRLICHE BESCHREIBUNG DER ZEICHNUNGEN
  • Die hier verwendeten folgenden Begriffe werden folgendermaßen definiert:
    • Interessierendes geographisches Gebiet: Als Beispiel definiert über eine Postleitzahl, eine Gruppe von Postleitzahlen, Informationen der Zellenidentifikation (Cell-ID), Informationen der Anrufer-ID (Call-ID), die Grenzen eines Staates, eines Landes, einer Großstadt, einer Stadt, eines Ortes oder eine andere behördliche oder Gemeindeunterteilung, Gitter des Standards-USGS (United States Geological Survey), Orte mit einem festen Bereich von Höhen- und Breitengrad oder Orte in einer spezifizierten geometrischen Grenze. Das interessierende geographische Gebiet kann, muß aber nicht automatisch auf der Basis des derzeitigen Orts des Handapparats gesetzt werden. Das interessierende geographische Gebiet kann, muß aber nicht von einem Benutzer auf der Basis einer manuellen, verbalen oder benutzerspezifizierten Eingabe designiert werden. Das interessierende geographische Gebiet kann ein grobes interessierendes geographisches Gebiet oder ein verfeinertes interessierendes geographisches Gebiet sein, wobei letzteres ein Teil des ersteren ist.
    • E911: Wie von der FCC (Federal Communications Commission) angeordnet, eine Norm für ein System, durch das drahtlose Betreiber den Ort eines mobilen Geräts in einem Notfall genau lokalisieren können.
    • Element: Name einer Straße, eines Unternehmens, eines Händlers, Name einer Einzelperson, ein Ort, ein interessierender Punkt, eine Transporteinrichtung, ein individueller Haushalt, eine Aktivität und/oder eine Sehenswürdigkeit.
    • GPS: Global Positioning System – Ermöglicht eine geographische Positionsbestimmung in einem landgestützten tragbaren Gerät, das dafür ausgestattet ist, Signale von drei oder mehr GPS-Satelliten im Orbit zu empfangen.
    • LBS: Auf Ort basierender Dienst – Jeder Dienst, der Informationen bezüglich des aktuellen geographischen Orts eines Mobilgerätebenutzers erhält. Anschauungsbeispiele für auf Ort basierende Dienste wären in einem Automobil angezeigte Karten, die die Position eines Kraftfahrers unter Verwendung von GPS verfolgen, oder automatische Lokalisierungsdienste, die durch Wählen von 911 auf einem E911-kompatiblen Mobiltelefonnetz bereitgestellt werden.
    • Mobiles Gerät: Jedes tragbare Gerät, das für drahtlose Kommunikation befähigt ist, wie zum Beispiel ein drahtloses Telefon, ein persönlicher digitaler Assistent oder ein mit einem drahtlosen Modem ausgestatteter Laptop-Computer.
    • Phonem: Ein Phonem repräsentiert ein einzigartiges menschlisches geäußertes Geräusch. Einzelne Wörter, die zum Beispiel von einem menschlichen Sprecher ausgesprochen werden, bestehen aus einer Sequenz von Phonemen.
    • Syntaktisches Modell: Eine Menge von Regeln und Operationen, die zulässige Wortsequenzen (Phrasen) aus einem oder mehreren Wörtern zur nachfolgenden Verwendung in einer Spracherkennungsprozedur spezifizieren. Zulässige Wortsequenzen werden in einer Liste statischer zulässiger Phrasen dargelegt. Zusätzlich können die Phrasen gegebenenfalls durch Wahrscheinlichkeiten des Auftretens gewichtet werden. Andernfalls können Wortsequenzen in Form von stochastischen oder probabilistischen Listen vorliegen, wie zum Beispiel in Form eines Markov-Modells von Wortsequenzen. Syntaktische Modelle sind gewöhnlich für eine bestimmte Sprach-Engine spezifisch ausgelegt.
    • Wort: Eine Einheit der Sprache, die Muttersprachler identifizieren können und die eine Bedeutung übermittelt. Wörter sind die Bausteine, aus denen Phrasen und Sequenzen konstruiert werden. Zum Beispiel sind vier Elemente "Das Empire State Building" der Name eines Elements, der vier Wörter enthält. Eine Straße mit dem Namen "125. Straße" enthält die zwei Wörter "einhundertfünfundzwanzigste Straße". Der Straßenname "K-Straße" enthält die Wörte "K" (wobei es sich für die Zwecke der vorliegenden Erfindung um ein Wort handelt) und "Straße".
  • Die Erfindung setzt voraus, daß eine sehr große Elementdatenbank für ein bestimmtes relativ großes designiertes geographisches Gebiet, wie etwa eine Stadt, einen Staat, eine Grafschaft oder ein Land, zur Verfügung steht. Ein Beispiel für eine bekannte Elementdatenbank ist TIGER (Topologically Integrated Geographic Encoding and Referencing System), erhältlich von dem United States Census Bureau. TIGER compoundiert lokalisierte Straßennamen, Flüsse und Eisenbahnstrecken zu einer Reihe großer regionaler Datenbanken.
  • Die Elementdatenbank enthält eine Menge von Wörtern für Elemente an Orten, die sich in dem designierten geographischen Gebiet befinden. Gemäß einem Aspekt der Erfindung wird durch Verwendung geographischer Daten zur automatischen Auswahl einer Teilmenge der Wörter in der Elementdatenbank zur Verwendung mit einer Spracherkennungsprozedur verbesserte Spracherkennungsgenauigkeit bereitgestellt. Die Teilmenge von Wörtern wird gewählt, indem nur die Wörter in der Elementdatenbank ausgewählt werden, die sich in einem interessierenden geographischen Gebiet befinden. Das interessierende geographische Gebiet, das entweder grob oder verfeinert ist (abhängig von den Umständen, wie nachfolgend erläutert) wird beispielsweise über eine Postleitzahl, eine Gruppe von Postleitzahlen, Informationen der Zellenidentifikation (Cell-ID), Informationen der Anrufer-ID (Call-ID), die Grenzen eines Staats, einer Grafschaft, einer Großstadt, einer Stadt, eines Orts oder einer anderen behördlichen oder Gemeindeunterteilung, Gitter des Standard-USGS (United States Geological Survey), Orte in einem festen Bereich von Höhen- und Breitengrad oder Orte in einer spezifizierten geometrischen Grenze definiert.
  • Durch Auswahl einer Teilmenge von Wörtern wird die Gesamtzahl der in der Spracherkennungsprozedur verwendeten Wörter wesentlich reduziert. Zum Beispiel kann eine große Elementdatenbank, die über alle fünf Bezirke von New York City hinweg verwendete Straßen- und Unternehmensnamen enthält, auf eine wesentlich kürzere Liste von Straßen- und Unternehmensnamen reduziert werden, die nur den Bereich der Grand Central Station abdeckt, indem die Postleitzahl 10017 spezifiziert wird. Eine solche Reduktion der Gesamtzahl zu erkennender potentieller Straßennamen verbessert die Spracherkennungsgenauigkeit signifikant.
  • Gemäß einem weiteren Aspekt der Erfindung werden Positionsinformationen von einem LBS auf der Basis des aktuellen Orts eines mobilen Handapparats beispielsweise unter Verwendung einer beliebigen Kombination von GPS-Koordinaten, Postleitzahlen oder Triangulation zellularer Basisstationen erhalten. Die erhaltenen Positionsinformationen können benutzt werden, um automatisch ein grobes interessierendes geographisches Gebiet zu definieren. Man nehme als Beispiel an, daß für diesen Zweck Postleitzahlen verwendet werden. Sobald der aktuelle Ort des Handapparats bestimmt ist, wird somit die Postleitzahl, die diesen Ort enthält, automatisch zu dem interessierenden groben geographischen Gebiet. In der Regel kann das System auf der Basis einer Kenntnis einer Verbindungskonfiguration bestimmen, welches Lokalisierungsverfahren zu verwenden ist. Wenn zum Beispiel eine Verbindung eingeleitet wird, kann man die Cell-ID verwenden, um den ungefähren Ort des Geräts zu bestimmen. Als Alternative kann die Anwendung selbst auswählen, welche Verfahren einzusetzen sind, oder die Anwendung kann den Benutzer dazu auffordern, auszuwählen, welches Verfahren verwendet werden soll. Eine bespielhafte Ausführungsform wäre etwa "Möchten Sie die Cell-ID oder GPS zur Bestimmung Ihres Orts verwenden?".
  • Gemäß einem weiteren Aspekt der Erfindung ermöglicht eine Schnittstelle einem Benutzer, das grobe interessierende geographische Gebiet zu verfeinern. Zum Beispiel kann der Benutzer zentriert um den aktuellen Ort des Handapparats eine spezifizierte geometrische Form in dem groben geographischen Gebiet auswählen. Dies kann durch Verwendung von auf Schlüsseln basierenden Einträgen erzielt werden. Außerdem kann eine graphische Benutzeroberfläche verwendet werden, um eine geometrische Form in dem groben geographischen Gebiet zu zeichnen. Zusätzlich oder als Alternative kann eine Cell-ID innerhalb der Postleitzahl des geographischen Gebiets spezifiziert werden, wodurch ein verfeinertes interessierendes geographisches Gebiet definiert wird, für das die Teilmenge von Wörtern auszuwählen ist. Das Kombinieren einer automatischen Definition eines groben interessierenden geographischen Gebiets mit zusätzlicher benutzerdefinierbarer geometrischer Verfeinerung ist vorteilhaft, weil sie die Gesamtzahl der Wörter, die in der Spracherkennungsprozedur verwendet werden müssen, weiter reduziert. Zum Beispiel kann eine benutzerwählbare rechteckige Region von 300 × 300 Fuß nur einige wenige Dutzend Elemente enthalten, die erkannt werden müssen.
  • 1 ist eine Diagrammdarstellung einer interessierenden geographischen Region, die in einem großen Gebiet 100, wie zum Beispiel einer Großstadt, enthalten ist. Der aktuelle geographische Ort eines mobilen Geräts wird als der Punkt 401 bestimmt. Bei diesem Anschauungsbeispiel wird das grobe interessierende geographische Gebiet durch die Postleitzahl definiert. Das grobe interessierende geographische Gebiet wird somit durch die Postleitzahl-Region 470 definiert, in der sich der Punkt 401 befindet. Ein Mobilgerätebenutzer hat um den Punkt 401 herum einen spezifischen Radius 407 gewählt, um das verfeinerte interessierende geographische Gebiet zu definieren. Elemente, die (ganz oder teilweise) in diesem groben geographischen Gebiet enthalten sind, sind zum Beispiel die Straße A 420, die Straße B 422 und ein erstes Gebäude 406. Elemente, die in diesem groben interessierenden geographischen Gebiet, aber nicht diesem verfeinerten geographischen Gebiet enthalten sind, wären etwa die Straße C 424, das zweite Gebäude 404 und das dritte Gebäude 402.
  • Eine Elementdatenbank (2, 500) enthält eine Liste von Elementnamen für Straßen, Unternehmen, Händler, Orte, interessierende Punkte, Transporteinrichtungen, individuelle Haushalte, Aktivitäten und/oder Sehenswürdigkeiten in dem großen Gebiet 100 (1). Diese Datenbank kann Teil der LBS-Datenbank sein. Jeder Elementname ist mit einem oder mehreren entsprechenden Parametern zum Identifizieren oder Assoziieren des Elements mit einem verfeinerten interessierenden geographischen Gebiet und einem Parameter zum Identifizieren oder Assoziieren des Elements mit einem groben interessierenden geographischen Gebiet assoziiert. Der Erkennungsmodell-Compiler 213 kann unter Verwendung des ausgegebenen Elementnamens (501) in Verbindung mit einem Phonetisierer eine Menge von dem Elementnamen entsprechenden Phonemen berechnen. Ein Phonetisierer ist ein Mechanismus, der für jeden von mehreren Elementnamen phonemische Transkriptionen bereitstellt. Phonemische Transkriptionen umfassen ein Phonem oder eine Sequenz von zwei oder mehr Phonemen, die angeben, wie ein Elementname gesprochen werden kann. Zum Beispiel hat der Elementname "Madison" eine entsprechende phonemische Transkription "mäd ê sun".
  • Elementnamen werden in einem Elementnamenfeld 501 gespeichert. Jeder Name in dem Elementnamenfeld 501 ist mit einem entsprechenden Parameterfeld (x, y) für das verfeinerte interessierende geographische Gebiet 503 und einem entsprechenden Parameterfeld für das grobe interessierende geographische Gebiet 505 assoziiert. Diese Elementnamen können Elemente enthalten, die sich in jeglichem verfeinerten interessierenden geographischen Gebiet befinden, das vom Benutzer während des Betriebs der Erfindung ausgewählt wird (in diesem Beispiel definiert durch den Radius 407 um den Punkt 401 von 1) oder nicht.
  • Verfeinerte geographische Parameter werden in dem Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 (2) gespeichert. Ein verfeinerter geographischer Parameter legt eine Eigenschaft eines Elements darüber dar, wie das verfeinerte interessierende geographische Gebiet definiert ist. Wenn das verfeinerte geographische Gebiet zum Beispiel vom Benutzer als Form (z. B. ein Kreis) um den aktuellen Ort des Handapparats herum definiert wird, umfassen die verfeinerten geographischen Parameter (x, y)-Koordinaten. In dem Anschauungsbeispiel von 2 sind die verfeinerten geographischen Parameter (x, y)-Koordinaten, die mit Bezug auf einen beliebig zugewiesenen Referenzpunkt bestimmt werden. Wenn eine erste Menge und eine zweite Menge von (x, y)-Koordinaten in dem Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 vorliegen, repräsentiert dies ein Liniensegment zwischen der erste Menge von (x, y)-Koordinaten und der zweiten Menge von (x, y)-Koordinaten. Ein solches Segment wird zum Beispiel dazu verwendet, eine Straße zu definieren, die sich von der ersten Menge von (x, y)-Koordinaten zu der zweiten Menge von (x, y)-Koordinaten erstreckt.
  • In dem Parameterfeld für das grobe interessierende geographische Gebiet 505 werden grobe geographische Parameter gespeichert. Ein grober geographischer Parameter legt eine Eigenschaft eines Elements darüber dar, wie das grobe interessierende geographische Gebiet definiert ist. Wenn das grobe interessierende geographische Gebiet zum Beispiel über eine oder mehrere Postleitzahlen definiert ist, umfassen die groben geographischen Parameter in dem Parameterfeld für das grobe interessierende geographische Gebiet 505 eine oder mehrere Postleitzahlen. Wenn zum Beispiel die Straße A 420 (1) in zwei verschiedene Postleitzahlenregionen einschneidet, enthält das Parameterfeld für das grobe interessierende geographische Gebiet 505 zwei Postleitzahlen, wie etwa 10017 und 10036. Es könnten jedoch andere Arten von groben geographischen Parametern verwendet werden, um das Element mit einem Postleitzahlensystem, wie zum Beispiel Gittern des Standard-USGS (United States Geological System), Regionen mit einem festen Bereich von Höhen- und Breitegrad, Staatengrenzen, Grafschaftengrenzen, Großstädtegrenzen und/oder anderen Grenzen von städtischen Gebieten, in Beziehung zu setzen. Zum Beispiel könnte eine Nachschlagetabelle verwendet werden, um die obige Beziehung zu bestimmen.
  • Nunmehr mit Bezug auf 1 und gemäß einem Merkmal der Erfindung werden nur Wörter, die Elementen in dem interessierenden geographischen Gebiet entsprechen, aus der Elementdatenbank 500 (2) extrahiert, um die Wortteilmengenliste 600 (3) zu bilden. Wenn der Benutzer das verfeinerte interessierende geographische Gebiet wie in 1 gezeigt definiert, enthält die begrenzte Menge von Wörtern nicht die Straße C 424, das zweite Gebäude 404 und das dritte Gebäude 402. Die Verwendung dieser begrenzten Menge von Wörtern verbessert die Genauigkeit einer nachfolgend ausgeführten Spracherkennungsprozedur, weil Wörter, die jedes einzelne Element des großen Gebiets 100 von 1 betreffen, nicht betrachtet werden müssen.
  • 3 ist ein Datenstrukturdiagramm, das einen Teil einer beispielhaften Wortteilmengenliste 600 darlegt. Die Namen eines oder mehrerer Elemente in dem interessierenden geographischen Gebiet werden in einem Elementnamenfeld 601 gespeichert. Gegebenenfalls kann die Wortteilmengenliste 600 zusätzliche Informationen enthalten, wie etwa die Wahrscheinlichkeit, daß ein bestimmtes Element auf der Basis der Distanz dieses Elements von der aktuellen Position des mobilen Geräts in eine Anfrage eines Benutzers integriert wird, um so eine verbesserte Leistungsfähigkeit bereitzustellen.
  • 4 ist ein verallgemeinertes Informationsflußdiagramm, das eine Menge von fundamentalen Operationen für die vorliegende Erfindung beschreibt. Der Beschaffungsmechanismus 101 für geographische Daten (dessen Einzelheiten in 5 gezeigt sind), ist dafür ausgestattet, geographische Daten zu sammeln, die einer aktuellen geographischen Position eines mobilen Geräts entsprechen, um auf deren Basis ein interessierendes geographisches Gebiet zu bestimmen und auszugeben. Geographische Daten umfassen unter anderem beliebige der folgenden: Koordinaten des GPS (Global Positioning System) in Höhen- und Breitengrad und auch gegebenenfalls Höhe, [x, y, z]-Koordinaten, Städtenamen, Ortsnamen, Postleitzahlenbereich, geographisches Gebiet, Art des Gebiets (städtisch, vorstädtisch oder Land), ein oder mehrere Parameter der Zellenidentifikation (Cell-ID) aus einem zellularen Netz oder einen Parameter der Anruferidentifkation (Call-ID) aus einem terrestrischen Fernsprechnetz.
  • Der Wortfiltermechanismus 102 ist dafür ausgestattet, ein interessierendes geographisches Gebiet von dem Beschaffungsmechanimus 101 für geographische Daten zu empfangen und auf dessen Basis eine Teilmenge von Wörtern aus der Elementdatenbank 500 (2 und 4) auszuwählen. Wenn ein grobes interessierendes geographisches Gebiet verwendet wird, wird die Teilmenge von Wörtern durch Vergleichen der groben geographischen Parameter in dem Parameterfeld für das grobe interessierende geographische Gebiet 505 entsprechend den Elementen in dem Elementnamenfeld 501 mit zum Charakterisieren des interessierenden geographischen Gebiets verwendeten groben geographischen Parametern ausgewählt. Wenn genauer gesagt das grobe geographische Gebiet die Postleitzahl 10017 ist, werden alle Elementnamen in dem Elementnamenfeld 501 ausgewählt, die in dem Parameterfeld für das grobe interessierende geographische Gebiet 505 mit der Postleitzahl 10017 assoziiert sind. Eine ähnliche Operation wird ausgeführt, wenn ein verfeinertes interessierendes geographisches Gebiet verwendet wird. Das Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 wird natürlich anstelle des Parameterfelds für das grobe interessierende geographische Gebiet 505 verwendet. Die verfeinerten geographischen Parameter werden mit den groben geographischen Parametern kombiniert, um den Wortfiltermechanismus 102 zu verbessern, indem ein zweischrittiger Filterprozeß verwendet wird. Ein erster Schritt verwendet das Parameterfeld für das grobe interessierende geographische Gebiet 505 und ein zweiter Schritt verwendet das Parameterfeld für das verfeinerte interessierende geographische Gebiet 503.
  • Der Wortfiltermechanismus 102 legt die gewählte Teilmenge von Wörtern in einer Wortteilmengenliste 600 (3 und 4) ab. Der Spracherkennungsmechanismus 103 (4) ist dafür ausgestattet, die Wortteilmengenliste 600 (3 und 4) von dem Wortfiltermechanismus 102 (4) zu empfangen und auf ihrer Basis eine Spracherkennungsprozedur auszuführen. Beispielsweise kann der Spracherkennungsmechanismus 103 dafür ausgestattet sein, eine Spracherkennungsprozedur durch Verwendung eines Paradigmas (syntaktisches Modell) × (lexikalisches Modell) × (akustisches Modell) in Verbindung mit Markov-Modellen zu implementieren. Als Alternative oder zusätzlich kann der Spracherkennungsmechanismus 103 ein neuronales Netzwerk benutzen. Allgemeiner ist die Erfindung auf jeden Spracherkennungsmechanismus anwendbar, der Wörter oder Gruppen von Wörtern, die als "Grammatik" bezeichnet werden, akzeptiert und verarbeitet. Folglich enthält der Wortfiltermechanismus 102 einen Grammatikformatierungsmechanismus, der die Wortteilmengenliste 600 empfängt und die Liste zu einem von dem Erkennungsmodellcompiler 213 benutzbaren Grammatikformat formatiert.
  • Der Erkennungsmodellcompiler 213 kann abhängig von den spezifischen Entwurfseigenschaften des Spracherkennungsmechanismus 103 erforderlich sein oder nicht. Der Erkennungsmodellcompiler 213 parst (oder analysiert) alle Einträge in einer formatierten Grammatik nacheinander und konstruiert dann in einer oder mehreren sukzessiven Phasen oder "Durchgängen" einen von dem Spracherkennungsmechanismus 103 lesbaren Ausgangscode. Da die Spracherkennungsprozedur auf einer geographisch verfeinerten Teilmenge von Wörtern basiert, ist die Gesamtgenauigkeit dieser Prozedur im Vergleich zu vorbekannten Entwürfen verbessert. Der Spracherkennungsmechanismus 103 kann durch einen Server oder durch einen mobilen Handapparat implementiert werden.
  • Eine Sprachanfrage von einem Mobilgerätebenutzer wird von einem akustischen Eingangsmechanismus 104 in dem mobilen Gerät empfangen. Der akustische Eingangsmechanismus 104 kann unter Verwendung eines Mikrofons oder eines anderen Wandlers implementiert werden, der dafür ausgestattet ist, akustische Vibrationen in elektronische Signale zu transformieren. Der akustische Eingangsmechanismus 104 führt dem Spracherkennungsmechanismus 103 eine elektronische Repräsentation von Benutzersprache zu. Der Spracherkennungsmechanismus 103 versucht, ein oder mehrere Wörter in der elektronischen Repräsentation von Benutzersprache zu erkennen, die in der aus der Elementdatenbank 500 abgerufenen Wortteilmengenliste 600 enthalten sind. Wenn ein oder mehrere Wörter erkannt werden, sendet der Spracherkennungsmechanismus 103 eine elektronische Nachricht zu einem Ausgangsmechanismus 105 in dem mobilen Gerät. Die elektronische Nachricht umfaßt etwaige erkannte Wörter in der von dem Mobilgerätebenutzer empfangenen Sprachanfrage, die auch in der Wortteilmengenliste 600 enthalten waren. Der Ausgangsmechanismus 105 setzt die elektronische Nachricht in hörbare und/oder visuelle Form zur Wahrnehmung durch den Mobilgerätebenutzer um. Beispielsweise kann der Ausgangsmechanismus 105 unter Verwendung eines Lautsprechers implementiert werden, der mit Audioverstärkerschaltkreisen und Sprachsynthesizerschaltkreisen zum Produzieren einer Audionachricht, die ein oder mehrere erkannte Wörter enthält, gekoppelt sein. Als Alternative oder zusätzlich kann der Ausgangsmechanismus 105 unter Verwendung einer visuellen Anzeigeeinrichtung zum Anzeigen alphanumerischer Zeichen, einschließlich eines oder mehrerer erkannter Wörter, implementiert werden.
  • 5 ist ein ausführliches Blockdiagramm, das den Informationsfluß für ein gemäß einer Ausführungsform der vorliegenden Erfindung konstruiertes Spracherkennungssystem darlegt. 5 zeigt Einzelheiten des Beschaffungsmechanismus 101 für geographische Daten. Die abgebildeten Operationen werden entweder durch einen abgesetzten Server 240 oder durch das mobile Gerät 250 ausgeführt. Der Informationsfluß beginnt beim Empfang eines "Start-"Signals an dem Eingangsmechanismus 201 des mobilen Geräts 250. In der Praxis kann dieses "Start-"Signal eine von einer multimodalen Webseite, einer HTML-Seite oder lediglich einem Telefonanruf ausgegebene Anforderung sein. Als Alternative kann der Benutzer eine Verbindung auf einem mobilen Handapparat zu einer designierten Telefonnummer einleiten, um auf ein auf dem mobilen Handapparat angezeigtes Postleitzahlformular zuzugreifen. Der Benutzer füllt das Postleitzahlformular unter Verwendung von DTMF-Tastenbetätigungen auf dem Handapparat aus und validiert die eingegebene Postleitzahl durch Betätigen der DTMF-Ziffer "1" als ein "Start-"Signal. Im Prinzip löst das "Start-"Signal eine Informationsanforderung aus.
  • Als nächstes wird in dem Mechanismus 202 entschieden, ob das interessierende geographische Gebiet lokal (d. h. in dem mobilen Gerät 250) oder an einem abgesetzten Ort (d. h. in dem abgesetzten Server 240) bestimmt wird. Abhängig von den Einzelheiten einer gegebenen Systemanwendung kann diese Entscheidung erfolgen, indem eine Anfrage an das mobile Gerät 250 ausgegeben wird, um die Konfiguration und Fähigkeiten des mobilen Geräts 250 zu bestimmen.
  • Falls das interessierende geographische Gebiet lokal bestimmt wird, kann man einen von zwei Ansätzen verwenden. Gemäß dem ersten Ansatz kann das mobile Gerät 250 einen optionalen GPS-Empfänger 207 enthalten, woraufhin beschaffte GPS-Daten zu einem Mechanismus 204 zum Definieren eines interessierenden geographischen Gebiets (Serverseite, siehe 5) weitergeleitet werden. Der Mechanismus 204 verwendet die dem aktuellen Ort des mobilen Geräts 250 entsprechenden GPS-Daten, um grobe geographische Parameter zur Charakterisierung des groben interessierenden geographischen Gebiets zu erhalten. Gemäß einem zweiten Ansatz kann der Benutzer an dem Eingangsmechanismus 201 zum Beispiel Postleitzahldaten eingeben und diese können zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets weitergeleitet werden. Beispielsweise werden Postleitzahldaten durch sequentielles Betätigen von Tasten auf einem DTMF-(Mehrfrequenz-)Tastenfeld in den Eingangsmechanismus 201 eingegeben. Der Mechanismus 204 verwendet die eingegebenen Postleitzahldaten als groben geographischen Parameter zur Charakterisierung des interessierenden geographischen Gebiets.
  • Falls das interessierende geographische Gebiet abgesetzt bestimmt wird, leitet der Mechanismus 202 die aus dem Eingangsmechanismus 201 empfangene Anforderung zu einem auf Ort basierenden Dienst 203 in dem Server 240 weiter. Als Alternative oder zusätzlich werden GPS-Daten aus dem GPS-Empfänger 207 zu dem auf Ort basierenden Dienst 203 übermittelt, wenn sie benötigt werden. Als Reaktion auf die empfangene Anforderung ruft der auf Ort basierende Dienst 203 zum Beispiel Postleitzahlinformationen oder Daten der Zellenidentifikation (Cell ID) für das mobile Gerät 250 ab. Cell-IDs-Daten können in einem Mobilkommunikationsnetz unter Verwendung der aus dem mobilen Gerät 250 abgerufenen ANI (Automatic Nummer Identification) abgerufen werden. ANI ist ein Dienst, der dem Empfänger eines Telefonanrufs die Nummer des anrufenden Telefons zur Verfügung stellt. Das Verfahren zum Bereitstellen dieser Informationen wird vom Dienstanbieter bestimmt. Cell-ID-Daten spezifizieren den geographischen Ort der gerade mit dem mobilen Gerät 250 kommunizierenden drahtlosen Basisstation durch Identifizieren der Telefonnummer und/oder der IP-Adresse (Internet Protocol), die dem mobilen Gerät 250 zugewiesen ist. Zum Beispiel kann das mobile Gerät 250 dem auf Ort basierenden Dienst 203 Cell-ID-Daten in Form eines ANI-Parameters (Automated Number Identification) senden. Gegebenenfalls oder als Alternative bestimmt der auf Ort basierende Dienst 203 den geographischen Ort des mobilen Geräts 250 durch Ausführen einer Triangulationsprozedur zwischen mehreren drahtlosen Basisstationen. Die von dem auf Ort basierenden Dienst 203 (letztendlich durch den Telekommunikationsanbieter) abgerufenen Cell-ID-Daten, Caller-ID-Daten und/oder Triangulationsdaten werden zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets weitergeleitet.
  • Falls das interessierende geographische Gebiet abgesetzt bestimmt wird, verwendet der LBS-Dienst 203 gegebenenfalls Caller-ID-Daten und/oder Cell-ID-Daten zum Zugreifen auf eine Postleitzahldatenbank 243. Auf der Basis der Caller-ID-Daten und/oder Cell-ID-Daten wird eine Postleitzahl aus der Postleitzahldatenbank 243 abgerufen und dann zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets gesendet. Obwohl die beispielhafte Ausführungsform von 5 die Postleitzahldatenbank 243 und den auf Ort basierenden Dienst 203 als separate Elemente zeigt, ist für Fachleute auf dem relevanten Gebiet leicht erkennbar, daß die Postleitzahldatenbank 243 in den auf Ort basierenden Dienst 203 integriert sein kann, obwohl dies nicht der Fall sein muß. Ähnlich ist für Fachleute auf dem relevanten Gebiet leicht erkennbar, daß, obwohl die Elementdatenbank 500 und der auf Ort basierende Dienst 203 als separate Elemente gezeigt sind, die Elementdatenbank 500 in den auf Ort basierenden Dienst 203 integriert sein könnte, obwohl dies nicht der Fall sein muß.
  • Der Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets verarbeitet ankommende geographische Daten, die bespielsweise ankommende GPS-Daten, Postleitzahldaten, Caller-ID-Daten und/oder Cell-ID-Daten umfassen, um einen oder mehrere geographische Parameter zu erzeugen, die das interessierende geographische Gebiet für das mobile Gerät 250 definieren. Wenn zum Beispiel wie oben besprochen die ankommenden Daten auf Postleitzahlendaten basieren, ist die Ausgabe des Mechanismus 204 eine Postleitzahl. Dieser Parameter, z. B. eine Postleitzahl, wird zum Spezifizieren eines interessierenden geographischen Gebiets verwendet. Das definierte interessierende geographische Gebiet kann ein grobes interessierendes geographisches Gebiet mit einem verfeinerten interessierenden geographischen Gebiet kombinieren, wie in dem folgenden Beispiel dargestellt wird. Eine oder mehrere Postleitzahl(en) können aus GPS-Koordinaten abgeleitet werden, wodurch ein grobes interessierendes geographisches Gebiet definiert wird. Die GPS-Koordinaten selbst, die mit einem Unbestimmtheitsbereich assoziiert sind, definieren ein verfeinertes interessierendes geographisches Gebiet. Ein solches definiertes interessierendes geographisches Gebiet kann zum Implementieren des oben beschriebenen zweischrittigen Filterprozesses verwendet werden.
  • Gegebenenfalls kann wie durch die gestrichelten Linien in 5 angegeben ein Benutzer an dem mobilen Gerät 250 wünschen, das interessierende geographische Gebiet, das durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets definiert wird, weiter zu verfeinern. Wenn dies der Fall ist, wird das durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets definierte interessierende geographische Gebiet als ein grobes interessierendes geographisches Gebiet bezeichnet und das vom Benutzer verfeinerte interessierende Gebiet wird als das verfeinerte interessierende geographische Gebiet bezeichnet. Das verfeinerte interessierende geographische Gebiet umfaßt eine Teilmenge des groben interessierenden geographischen Gebiets. Der Eingangsmechanismus 201 nimmt Benutzereingaben an, die eine geometrische Spezifikation eines verfeinerten interessierenden geographischen Gebiets darlegen. Benutzereingaben werden beispielsweise über die Verbindungsleitung 275 in Form von Tastenfeldeingaben, graphischen Objekten, Skizzen, Textbeschreibungen oder Vokaleingabe empfangen. Beispiele für geometrische Spezifikationen sind deren Quadrate, Rechtecke, Achtecke, Dreiecke, Kreise und Freihand-Skizzen. Der Mechanismus 205 zur Verfeinerung der geometrischen Spezifikation nimmt Benutzereingaben von dem Eingangsmechanismus 201 an und verfeinert die Menge der durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets erzeugten geographischen Parametern.
  • Der eine bzw. die mehreren durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets erzeugten geographischen Parameter, die gegebenenfalls durch den Mechanismus 205 zum Verfeinern der Geometriespezifikation verfeinert werden, werden von dem Wortfiltermechanismus 102 empfangen. Der Wortfiltermechanismus 102 ist befähigt, seine Funktionen auszuführen, wenn zwei Bedingungen erfüllt sind. Als erstes sollte das mobile Gerät 250 eine sprachbefähigte Anwendung ausführen, wenn der Benutzer eine Informationsanforderung ausgegeben hat. Diese Anforderung ist bei der Erzeugung einer Anforderung aus dem Eingangsmechanismus 201 erfüllt. Zweitens sollte das interessierende geographische Gebiet definiert werden. Diese Anforderung ist erfüllt, sobald der Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets die oben beschriebenen geographischen Parameter erzeugt.
  • Wenn er freigegeben ist, verwendet der Wortfilter mechanismus 102 den einen oder die mehreren aus dem Mechanismus 204 oder 205 empfangenen geographischen Parameter, um zu bestimmen, ob sich jedes der mehreren Elemente in der Elementdatenbank 500 in dem interessierenden geographischen Gebiet befindet oder nicht. Die in dem Elementnamenfeld 501 (2) gespeicherten Elementnamen können Namen umfassen, die sich in dem interessierenden geographischen Gebiet befinden, und auch Elemente, die nicht in dem interessierenden geographischen Gebiet liegen. Folglich vergleicht der Wortfiltermechanismus 102 (5) den einen oder die mehreren empfangenen Parameter, die das interessierende geographische Gebiet definieren, mit einem oder mehreren Parametern, die in dem mindestens einen Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 oder in einem Parameterfeld für das grobe interessierende geographische Gebiet 505 (2) gespeichert sind, um zu bestimmen, ob jedes von mehreren Elementen in der Elementdatenbank 500 (2 und 5) sich in dem interessierenden geographischen Gebiet befindet. Zum Beispiel ist die Straße A in dem Parameterfeld für das verfeinerte interessierende geographische Gebiet 503 durch eine erste und eine zweite Menge von (x, y)-Koordinaten charakterisiert. Folglich wird Straße A als ein gerades Liniensegment enthaltend konzeptualisiert, das die erste und die zweite Menge von (x, y)-Koordinaten verbindet. Wenn irgendein Teil dieses geraden Liniensegments das interessierende geographische Gebiet schneidet, wird Straße A in die Wortteilmengenliste 600 (3 und 5) aufgenommen.
  • Der Wortfiltermechanismus 102 hängt nur die Elementnamen in dem interessierenden geographischen Gebiet an die Wortteilmengenliste 600 an. Wenn der Benutzer etwaige Verfeinerungen an dem groben interessierenden geographischen Gebiet vorgenommen hat, werden gegebenenfalls nur Elemente, die in dem verfeinerten interessierenden geographischen Gebiet liegen, an die Wortteilmengenliste 600 angehängt.
  • Die Wortteilmengenliste 600 von 3 und 5 repräsentiert ein beispielhaftes Ausgabeformat für den Wortfiltermechanismus 102. Als Alternative oder zusätzlich kann die Ausgabe des Wortfiltermechanismus 102 als computerlesbarer Strom von Wörtern, der ein oder mehrere Elemente in dem interessierenden geographischen Gebiet repräsentiert, konzeptualisiert werden. Dieser beispielsweise im Textformat vorliegende Strom ist mit einer Spracherkennungs-Engine und/oder einem Sprach-Browser-Einbettungs-Spracherkennungsmechanismus 103 (5) kompatibel. Gegebenenfalls kann der Wortfiltermechanismus 102 die Wortteilmengenliste 600 und/oder den computerlesbaren Strom von Wörtern in ein Format wie etwa ein XML-Dokument umformatieren, um eine mit dem Spracherkennungsmechanismus 103 kompatible Teilmenge von Wörtern bereitzustellen.
  • Der Spracherkennungsmechanismus 103 kann in dem Server 240 oder in dem mobilen Gerät 250 implementiert werden. Falls Spracherkennung in dem mobilen Gerät 250 durchgeführt wird, wird die Ausgabe des Wortfiltermechanismus 102 (beispielsweise in Form eines Stroms von Wörtern, der der Grammatikteilmengenliste 600, 3, entspricht) von dem Server 240 zu dem mobilen Gerät 250 gesendet. Die Wortteilmengenliste 600 wird dann durch den Erkennungsmodellcompiler 213 in dem mobilen Gerät 250 kompiliert, um ein Spracherkennungsmodell zur Verwendung durch den Spracherkennungsmechanismus 103 als Reaktion auf den akustischen Eingangsmechanismus 104 bereitzustellen. Der Spracherkennungsmechanismus 103 leitet erkannte Sprache dann zu dem Ausgangsmechanismus 105 weiter, um ein die erkannte Sprache repräsentierendes elektronisches Ausgangssignal zu erzeugen. Eine solche Anordnung ist vorteilhaft, weil sie die Belastung drahtloser Kommunikationsbetriebsmittel reduziert. Übertragungen zwischen dem Server und dem mobilen Gerät werden reduziert, weil nur die Wortteilmengenliste 600 zu dem mobilen Gerät übermittelt werden muß. Die Spracherkennungsschritte können in dem mobilen Gerät mit Bezug auf die Wortteilmengenliste 600 durchgeführt werden, wodurch sich die Geschwindigkeit und Effizienz des Spracherkennungsprozesses verbessern.
  • Wenn Spracherkennung in dem Server 240 ausgeführt wird, werden der Erkennungsmodellcompiler 213 und der Spracherkennungsmechanismus 103 in dem Server 240 statt in dem mobilen Gerät 250 implementiert, wobei die Ausgabe des Spracherkennungsmechanismus 103 von dem Server 240 zu dem Ausgangsmechanismus 104 in dem mobilen Gerät 250 gesendet wird.
  • Die Funktionsprinzipien der in 4 und 5 gezeigten Konfigurationen werden am besten mit Bezug auf mehrere beispielhafte Szenarien dargestellt. Diese Szenarien verdeutlichen den Ortsauflösungsprozeß, der den durch den Wortfiltermechanismus 102 ausgeführten Filterprozeß gemäß aufzulösenden Ortsdaten regelt. Die Szenarien betrachten die Verwendung beliebiger von mehreren verschiedenen Arten von Eingaben, durch die ein Ortskontext bestimmt wird.
  • Szenario eins: Interessierendes geographisches Gebiet ist durch eingegebene Postleitzahl und/oder Stadt zu bestimmen. Postleitzahl und/oder Stadt werden vom Benutzer in das mobile Gerät 250 eingegeben. Mögliche Clients, die von dem mobilen Gerät 250 zum Annehmen der eingegebenen Postleitzahl und/oder Stadt verwendet werden, wären zum Beispiel ein Sprach-Browser und/oder ein multimodaler Client. Im Fall eines Telefonanrufs ist der Client nicht das Telefon selbst, sondern der Sprach-Browser (vom Standpunkt des Servers aus gesehen). Ortsdaten werden im Form einer Stadt und/oder einer Postleitzahl angegeben. Das diesen Ortsdaten entsprechende interessierende geographische Gebiet wird in Form einer Stadt oder Postleitzahl bestimmt. In diesem Fall wird die Ortsauflösung lokal ausgeführt. Die Postleitzahl und/oder Stadt werden unter Verwendung von DTMF-Tastenbetätigungen und/oder Sprache in das mobile Gerät 250 eingegeben. Als Reaktion auf die eingegebenen Informationen wird, nachdem die Informationen in dem Eingangsmechanismus 201 empfangen werden, eine HTTP-Anforderung ausgegeben. In diesem Fall wird die Wortteilmengenliste 600 durch Auswahl einer Menge von Wörtern und/oder Grammatik in bezug auf die angegebene Stadt und/oder Postleitzahl erzeugt. Es werden die folgenden Schritte ausgeführt:
    • 1. Der Benutzer verbindet sich unter Verwendung des mobilen Geräts 250 mit dem Beschaffungsmechanismus 101 für geographische Daten. Wenn das mobile Gerät 250 einen multimodalen Client repräsentiert, erfolgt eine HTTP-Anforderung durch den Client an einen Dokumentserver des Wortfiltermechanismus 102 (4 und 5). Wenn das mobile Gerät 250 ein drahtloses Telefon repräsentiert, erfolgt eine HTTP-Anforderung durch den Sprach-Browser ("sprechen" mit dem Telefon) an den Dokumentserver des Wortfiltermechanismus 102.
    • 2. Es wird eine erste Seite in das mobile Gerät 250 oder auf den Sprach-Browser geladen. Die Seite fordert den Benutzer zur Eingabe einer Postleitzahl auf. Die Postleitzahl entweder durch DTMF (Mehrtontasten) oder durch Sprache einzugeben. Die zum Erkennen der Postleitzahl verwendete Grammatik ist statisch.
    • 3. Der Benutzer gibt die Postleitzahl in den Eingabemechanismus 201 ein. Es erfolgt eine zweite HTTP-Anforderung durch den Client mit dem Postleitzahlwert als Parameter. Da der auf Ort basierende Dienst 203 in diesem Szenario nicht zum Auflösen des Orts verwendet wird, ist die Ortsauflösung "lokal". Das interessierende geographische Gebiet wird in dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets evaluiert und es erfolgt keine weitere Verfeinerung des interessierenden geographischen Gebiets.
    • 4. Es wird eine zweite Seite in das mobile Gerät 250 (die "reduzierte" Seite) geladen. Der Dokumentserver des Wortfiltermechanismus 102 berechnet mit der Seite assoziierte reduzierte Grammatiken in Form der Wortteilmengenliste 600.
    • 5. Der Benutzer kann sprachlich über das mobile Gerät 250 mit der Seite in Dialog treten, da die Seite für ihren Ort optimiert ist.
  • Anmerkung: Der Mechanismus 205 zur Verfeinerung der Geometriespezifikation wird in diesem Szenario nicht benutzt. Sollte dieser Mechanismus verwendet werden, muß eine "abgesetzte" Ortsauflösung ausgeführt werden, um so das Zurücksenden (zum Beispiel) einer Karte zu dem multimodalen Client des mobilen Geräts 250 zu ermöglichen.
  • Szenario zwei: Das interessierende geographische Gebiet ist automatisch unter Verwendung von Caller ID oder Cell ID zu bestimmen.
  • Mögliche von dem mobilen Gerät 250 für Caller ID oder Cell ID zu verwendende Clients wären ein Sprach-Browser und/oder ein multimodale Client. Ortsdaten werden in Form eines Parameters Caller ID oder Cell ID bereitgestellt. Das interessierende geographische Gebiet wird als eine Postleitzahl oder als Gebiets-ID, die ein geographisches Gebiet identifiziert, bestimmt. Ortsauflösung wird nicht lokal, sondern abgesetzt ausgeführt. Der Eingangsmechanismus 201 wird nicht für den Zweck der Ortsauflösung verwendet. Das mobile Gerät 250 ist dafür programmiert, eine HTTP-Anforderung auszugeben, während eine erste Seite von einem Dokumentserver des Wortfiltermechanismus 102 abgerufen wird. In diesem Szenario werden Wörter und/oder Grammatik aus der Elementdatenbank 500 gefiltert, um die Wortteilmengenliste 600 auf der Basis von ANI- oder Cell-ID-Informationen zu erstellen. Der Eingangsmechanismus 201 ist insofern vollständig transparent, als die Anforderung, die den Wortfilterprozeß trimmt, in der ersten Phase der Interaktion erscheint und keine Datensammelphase wie bei dem vorherigen Szenario notwendig ist. Die HTTP-Anforderung kann von einem Sprach-Browser (der ANI-Info liefert) oder einem multimodalen Client in dem mobilen Gerät 250 ausgegeben werden.
  • Es wird die folgende Betriebssequenz ausgeführt:
    • 1. Der Benutzer verbindet sich mit der Verwendung des mobilen Geräts 250 mit dem Beschaffensmechanismus 101 für geographische Daten. Wenn der Benutzer einen multimodalen Client in dem Mobilgerät 250 verwendet, erfolgt eine HTTP-Anforderung durch den Client an den Dokumentserver des Wortfiltermechanismus 102. Wenn das mobile Gerät 250 ein drahtloses Telefon ist, erfolgt eine HTTP-Anforderung durch den Sprach-Browser ("sprechen" mit dem Telefon) an den Dokumentserver des Wortfiltermechanismus 102. Die ANI und/oder Cell ID werden als Teil der HTTP-Anforderung zu dem Dokumentserver geleitet. Der auf Ort basierende Dienst 203 bestimmt das interessierende geographische Gebiet in diesem Fall im Anschluß an den in 5 angegebenen abgesetzten Pfad, der in dem Mechanismus 202 beginnt. Der auf Ort basierende Dienst bestimmt außerdem die geographische Position des Benutzers, einen Unbestimmtheitsbereich mit Bezug auf die Position des Benutzers und eine oder mehrere assoziierte Postleitzahlen.
    • 2. Eine Seite wird in das mobile Gerät 250 heruntergeladen oder auf den Sprach-Browser geladen. Der geographische Kontext wird von dem Wortfiltermechanismus 102 verwendet, um eine Wortteilmengenliste 600 zu berechnen, die gemäß dem zuvor bestimmten interessierenden geographischen Gebiet mit der Seite assoziiert ist.
    • 3. Der Benutzer kann sprachlich unter Verwendung des mobilen Geräts 250 mit der Seite in Dialog treten. Die Seite ist für das interessierende geographische Gebiet des Benutzers optimiert.
  • Szenario drei: Das interessierende geographische Gebiet ist automatisch unter Verwendung von GPS-Daten zu bestimmen. Mögliche von dem mobilen Gerät 250 für GPS verwendete Clients wären ein multimodaler Client. Ortsdaten werden in Form von GPS-Koordinaten bereitgestellt. Das interessierende geographische Gebiet wird als eine Postleitzahl, als (x, y)- oder (x, y, z)-Koordinaten bestimmt, wobei gegebenenfalls ein Unbestimmtheitsbereich aufgenommen wird. Die Ortsauflösung wird nicht abgesetzt, sondern lokal ausgeführt. Der Eingangsmechanimus 201 wird nicht zum Bestimmen des interessierenden geographischen Gebiets verwendet. Das mobile Gerät 250 gibt während des Abrufens der ersten Seite eine HTTP-Anforderung aus. In diesem Fall erstellt der Wortfiltermechanismus 102 eine Wortteilmengenliste 600 durch Filtern der Elementdatenbank 500 unter Verwendung von GPS-Daten. Der Eingangsmechanismus 201 ist insofern transparent, als die HTTP-Anforderung, die zu Wortfilterung führt, als die erste Phase der Interaktion erscheint. Im Gegensatz zu dem ersten Szenario ist keine Datensammelphase notwendig. Es werden die folgenden Schritte ausgeführt:
    • 1. Der Benutzer verbindet sich unter Verwendung des mobilen Geräts 250 mit dem Beschaffungsmechanismus 101 für geographische Daten. Wenn das mobile Gerät 250 einen multimodalen Client verwendet, erfolgt eine HTTP-Anforderung durch den Client an einen Dokumentserver des Wortfiltermechanismus 102. Die GPS-Informationen werden als Teil der HTTP-Anforderung gesendet. Der auf Ort basierende Dienst 203 bestimmt das interessierende geographische Gebiet durch Hinzufügen grober Lokalisierung zu den GPS-Informationen, und die grobe Lokalisierung wird zu dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets gesendet.
    • 2. Es wird eine Seite in das mobile Gerät 250 heruntergeladen: Das interessierende geographische Gebiet in Form der in dem Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets empfangenen groben und/oder verfeinerten Lokalisierung wird von dem Wortfiltermechanismus 102 verwendet, um eine Wortteilmengenliste 600 zu berechnen und um die Wortteilmengenliste in einer zu dem mobilen Gerät 250 zu sendenden Seite abzulegen, wobei der oben beschriebene zweischrittige Filterprozeß verwendet wird.
    • 3. Der Benutzer kann sprachlich mit der Seite, die für das interessierende geographische Gebiet optimiert ist, in Dialog treten.
  • Anmerkung:
    • 1. Falls der Mechanismus 205 zum Verfeinern der Geometriespezifikation verwendet wird, wird eine Zwischenseite in das mobile Gerät 250 heruntergeladen, die den Benutzer auffordert, sein Interessengebiet (vor Schritt 2) zu präzisieren:
    • 1.a – Es wird eine dazwischentretende (d. h. "Lokalisierungs-") Seite in das mobile Gerät 250 heruntergeladen.
    • 1.b – Der Benutzer gibt ein interessierendes Gebiet in das mobile Gerät 250 ein.
    • 1.c – Ein verfeinertes interessierendes geographisches Gebiet wird durch das mobile Gerät 250 gesendet und durch den Mechanismus 204 zum Definieren des interessierenden geographischen Gebiets in das interessierende geographische Gebiet integriert.
  • Im Gegensatz zu vorbekannten Techniken verwendet die vorliegende Erfindung keine akustischen Modelle zur Verbesserung der Spracherkennungsgenauigkeit. Stattdessen reduziert die Erfindung die Gesamtzahl der Wörter, die von einem Spracherkennungsalgorithmus betrachtet werden müssen. Die Anzahl der Wörter wird reduziert, indem Wörter ausgeschlossen werden, die ein interessierendes geographisches Gebiet nicht betreffen. Auf diese Weise ermöglich die reduzierte Verarbeitungslast eine Handhabung der Spracherkennung in dem Handapparat. Darüber hinaus wird die Genauigkeit des Spracherkennungsalgorithmus verbessert.
  • Zusammengefaßt umfassen die Vorteile der Erfindung eine genauere Spracherkennung aufgrund der Nutzung einer Datenbank, deren Größe reduziert wurde (d. h. der Wortteilmengenliste 600). Die Belastung von Kommunikationsbetriebsmitteln wird verringert, indem die reduzierte Datenbank zu dem Handapparat gesendet wird, woraufhin der Handapparat Spracherkennung nur unter Verwendung der Datenbank reduzierter Größe anstelle einer viel größeren Datenbank durchführt. Die verminderte Belastung der Kommunikationsbetriebsmittel führt zu einer schnelleren und effizienteren Spracherkennung.
  • Obwohl neuartige Merkmale der Erfindung, so wie sie auf ihre Ausführungsformen angewandt werden, gezeigt und beschrieben wurden, versteht sich somit, daß Fachleute verschiedene Weglassungen und Substitutionen und Änderungen der Form und Einzelheiten der dargestellten Einrichtungen und ihrer Funktionsweise vornehmen können, ohne von dem Schutzumfang der Erfindung abzuweichen, der alleine durch die angefügten Ansprüche definiert wird. Obwohl eine Ausführungsform der Erfindung im Hinblick auf einen Benutzer beschrieben wurde, der ein automatisch bestimmtes interessierendes geographisches Gebiet verfeinert, ist es zum Beispiel auch möglich, daß ein Benutzer ein automatisch bestimmtes grobes interessierendes geographisches Gebiet ergänzt.
  • Im Hinblick auf das Obige ist ausdrücklich beabsichtigt, daß alle Kombinationen der Elemente und/oder Verfahrensschritte, die im wesentlichen dieselbe Funktion auf im wesentlichen dieselbe Weise ausführen, um dieselben Ergebnisse zu erzielen, in einer beliebigen anderen offenbarten oder beschriebenen oder vorgeschlagenen Form oder Ausführungsform als allgemeine Frage der Entwurfsauswahl integriert werden können, soweit sie in den Schutzumfang der angefügten Ansprüche fallen.

Claims (15)

  1. Verfahren zur Verwendung mit einem mobilen Handapparat, der dafür ausgestattet ist, über ein drahtloses Kommunikationsnetz mit einem abgesetzten Server zu kommunizieren, wobei der abgesetzte Server dafür ausgestattet ist, auf eine Elementdatenbank (500) zuzugreifen, die Wörter enthält, die Elemente an jedem von mehreren geographisch definierten Orten beschreiben, wobei das Verfahren die folgenden Schritte umfaßt: Bestimmen (202) geographischer Daten für den mobilen Handapparat nach einer Anforderung und Verwenden (102) der bestimmten geographischen Daten zum automatischen Auswählen einer Teilmenge (600) von Wörtern zur Verwendung mit einer Spracherkennungsprozedur durch den abgesetzten Server; wobei die Teilmenge von Wörtern aus der Elementdatenbank ausgewählt wird, wodurch die Anzahl der in der Spracherkennungsprozedur verwendeten Wörter reduziert wird.
  2. Verfahren nach Anspruch 1, wobei die bestimmten geographischen Daten Positionsdaten des globalen Navigationssystems (GPS) und/oder Daten der Zellenidentität (Cell-ID) und/oder Daten der Anruferidentifikation (Caller ID) und/oder Städtenamendaten und/oder Postleitzahldaten umfassen.
  3. Verfahren nach Anspruch 1, wobei die geographischen Daten aus einem aus dem mobilen Handapparat empfangenen Signal abgeleitet werden, wobei das Signal eine aktuelle Position des mobilen Handapparats oder eine in den mobilen Handapparat eingegebene manuelle Eingabe betrifft.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Elemente Straßennamen und/oder Unternehmen und/oder Händler und/oder interessierende Punkte und/oder Transporteinrichtungen und/oder individuelle Haushalte und/oder Aktivitäten und/oder Sehenswürdigkeiten umfassen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei der mobile Handapparat die Teilmenge von Wörtern von dem abgesetzten Server empfängt und auf der Basis der empfangenen Teilmenge von Wörtern die Spracherkennungsprozedur ausführt und dadurch die Benutzung des Kommunikationsnetzes und des abgesetzten Servers reduziert.
  6. Spracherkennungssystem, umfassend: einen mobilen Handapparat, der dafür ausgestattet ist, über ein drahtloses Netz mit einem abgesetzten Server zu kommunizieren, einen Datenbeschaffungsmechanismus (101) zum Bestimmen von geographischen Daten für den mobilen Handapparat nach einer Anforderungseingabe und einen Auswahlmechanismus (102) zum Verwenden der bestimmten geographischen Daten zum automatischen Auswählen einer Teilmenge von Wörtern (106) zur Verwendung mit einer Spracherkennungsprozedur; wobei die Teilmenge von Wörtern durch den abgesetzten Server aus einer Elementdatenbank (500) ausgewählt wird, zu der der abgesetzte Server Zugang hat, wobei die Elementdatenbank Wörter enthält, die Elemente an jedem von mehreren geographisch definierten Orten beschreiben, wodurch die Anzahl der bei der Spracherkennungsprozedur verwendeten Wörter reduziert wird.
  7. Spracherkennungssystem nach Anspruch 6, wobei die geographischen Daten aus einem aus dem mobilen Handapparat empfangenen Signal abgeleitet werden, wobei das Signal eine aktuelle Position des mobilen Handapparats oder eine in den mobilen Handapparat eingegebene manuelle Eingabe betrifft.
  8. Spracherkennungssystem nach Anspruch 6, wobei die bestimmten geographischen Daten Positionsdaten des globalen Navigationssystems (GPS) und/oder Daten der Zellenidentität, (Cell-ID) und/oder Daten der Anruferidentifikation (Caller ID) und/oder Städtenamendaten und/oder Postleitzahldaten umfassen.
  9. Spracherkennungssystem nach einem der Ansprüche 6 bis 8, wobei die Elemente Straßennamen und/oder Unternehmen und/oder Händler und/oder interessierende Punkte und/oder Transporteinrichtungen und/oder individuelle Haushalte und/oder Aktivitäten und/oder Sehenswürdigkeiten umfassen.
  10. Spracherkennungssystem zum Assoziieren von empfangener Sprache mit aus einer Elementdatenbank abgerufenen Wörtern, wobei das System folgendes umfaßt: Mittel zum Bestimmen eines interessierenden geographischen Gebiets nach einer Aufforderung, wobei Sprache zu empfangen ist, wobei die Mittel ferner folgendes umfassen: i) einen mit einem mobilen Handapparat assoziierten tragbaren Ortsbestimmungsmechanismus zum Erzeugen eines Anzeigesignals, das einen aktuellen geographischen Ort anzeigt und ii) einen mit dem tragbaren Ortsbestimmungsmechanismus kommunizierenden Server, der dafür programmiert ist, aus dem Anzeigesignal ein interessierendes geographisches Gebiet zu bestimmen; Mittel zum Auswählen einer Teilmenge von Wörtern aus der Elementdatenbank auf der Basis des interessierenden geographischen Gebiets; wobei die Mittel den Server umfassen, der dafür programmiert ist, aus der Elementdatenbank nur Wörter zu extrahieren, die mit dem interessierenden geographischen Gebiet assoziiert sind und Mittel zum Assoziieren der empfangenen Sprache mit aus der Teilmenge von Wörtern ausgewählten Wörtern, wobei die Mittel auf dem mobilen Handapparat implementiert sind.
  11. Spracherkennungssystem nach Anspruch 10, ferner umfassend: Mittel zum Annehmen eines Signals von mindestens einer graphischen Benutzeroberfläche zum Auswählen eines Teils des bestimmten interessierenden geographischen Gebiets, um dadurch ein weiter eingeschränktes interessierendes geographisches Gebiet zu spezifizieren und Mittel zum weiteren Reduzieren der Teilmenge von Wörtern gemäß dem weiter eingeschränkten interessierenden geographischen Gebiet, um eine weitere Teilmenge von Wörtern zu erzeugen, dergestalt, daß die Mittel zum Assoziieren empfangener Sprache mit Wörtern nur Wörter aus der weiteren Teilmenge von Wörtern auswählen.
  12. Spracherkennungssystem nach Anspruch 11, wobei die Mittel zum Annehmen eines Signals folgendes umfassen: ein elektronisches Display zum Anzeigen einer Karte des bestimmten interessierenden geographischen Gebiets und einen Verarbeitungsmechanismus zum Kombinieren des angenommenen Signals mit der Karte des bestimmten interessierenden geographischen Gebiets, um so eine Anzeige des weiter eingeschränkten interessierenden geographischen Gebiets auf dem elektronischen Display zu bewirken.
  13. Mobiler Handapparat (150) mit Spracherkennungsmitteln zum Assoziieren empfangener Sprache mit aus einer abgesetzten Datenbank empfangenen Wörtern, wobei der mobile Handapparat folgendes umfaßt: Mittel zum Empfangen einer Anforderung; Mittel zum Bereitstellen eines Signals, das ein interessierendes geographisches Gebiet repräsentiert, nach der Anforderung; Mittel zum Senden des Signals zu einem abgesetzten Server und zum Empfangen einer Teilmenge von Wörtern aus der abgesetzten Datenbank von dem abgesetzten Server auf der Basis des interessierenden geographischen Gebiets und Mittel zum Assoziieren der empfangenen Sprache mit aus der Teilmenge von Wörtern ausgewählten Wörtern.
  14. Mobiler Handapparat nach Anspruch 13, wobei die Mittel zum Bereitstellen eines Signals Mittel zum Bestimmen eines interessierenden geographischen Gebiets umfaßt, worin Sprache empfangen werden soll.
  15. Mobiler Handapparat nach Anspruch 13 oder 14, ferner umfassen: Mittel (210) zum Annehmen mindestens einer Eingabe, mit der ein verfeinertes interessierendes geographisches Gebiet in dem interessierenden geographischen Gebiet bestimmt wird; Mittel (205) zum Reduzieren der Teilmenge von Wörtern gemäß dem verfeinerten interessierenden geographischen Gebiet und wobei die Mittel zum Assoziieren der empfangenen Sprache dafür ausgelegt sind, Sprache nur mit der reduzierten Teilmenge von Wörtern zu assoziieren.
DE602005005597T 2004-09-29 2005-09-23 Verfahren und Vorrichtung für erhöhte Spracherkennungspräzision unter Verwendung geografischer Daten zur Filterung einer Wortgruppe Active DE602005005597T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US953671 1992-09-29
US10/953,671 US20060074660A1 (en) 2004-09-29 2004-09-29 Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words

Publications (2)

Publication Number Publication Date
DE602005005597D1 DE602005005597D1 (de) 2008-05-08
DE602005005597T2 true DE602005005597T2 (de) 2009-04-30

Family

ID=35786884

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005005597T Active DE602005005597T2 (de) 2004-09-29 2005-09-23 Verfahren und Vorrichtung für erhöhte Spracherkennungspräzision unter Verwendung geografischer Daten zur Filterung einer Wortgruppe

Country Status (6)

Country Link
US (1) US20060074660A1 (de)
EP (1) EP1646037B1 (de)
AT (1) ATE390682T1 (de)
DE (1) DE602005005597T2 (de)
ES (1) ES2304673T3 (de)
PL (1) PL1646037T3 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010026708A1 (de) 2010-07-10 2012-01-12 Volkswagen Ag Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7221949B2 (en) * 2005-02-28 2007-05-22 Research In Motion Limited Method and system for enhanced security using location-based wireless authentication
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8060499B2 (en) * 2006-09-25 2011-11-15 Nokia Corporation Simple discovery UI of location aware information
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
EP1939860B1 (de) * 2006-11-30 2009-03-18 Harman Becker Automotive Systems GmbH Interaktives Spracherkennungssystem
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
TWI349266B (en) * 2007-04-13 2011-09-21 Qisda Corp Voice recognition system and method
US20090018842A1 (en) * 2007-07-11 2009-01-15 Garmin Ltd. Automated speech recognition (asr) context
US8219399B2 (en) * 2007-07-11 2012-07-10 Garmin Switzerland Gmbh Automated speech recognition (ASR) tiling
FR2923319B1 (fr) * 2007-11-06 2012-11-16 Alcatel Lucent Dispositif et procede d'obtention de contextes d'utilisateurs de terminaux de communication, a partir de signaux audio captes dans leur environnement
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
WO2009135517A1 (en) * 2008-05-09 2009-11-12 Agnitio S.L. Method and system for localizing and authenticating a person
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
EP2211336B1 (de) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Verbesserte Spracheingabe unter Verwendung von Navigationsinformationen
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP2325838A1 (de) * 2009-10-27 2011-05-25 verbavoice GmbH Verfahren und System zur Transkription von gesprochener Sprache
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9817622B2 (en) 2010-01-20 2017-11-14 Hewlett-Packard Development Company, L.P. Cloud printer with a common user print experience
US20110202338A1 (en) * 2010-02-18 2011-08-18 Philip Inghelbrecht System and method for recognition of alphanumeric patterns including license plate numbers
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8315799B2 (en) 2010-05-11 2012-11-20 International Business Machines Corporation Location based full address entry via speech recognition
US8468240B2 (en) * 2010-09-14 2013-06-18 Hewlett-Packard Development Company, L.P. Locating network resources
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
US8532674B2 (en) * 2010-12-10 2013-09-10 General Motors Llc Method of intelligent vehicle dialing
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9576573B2 (en) 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8681176B1 (en) 2011-09-20 2014-03-25 Google Inc. Rendering a map using style identifiers
US8928691B2 (en) 2011-09-26 2015-01-06 Google Inc. Rendering map images using modifications of non-raster map data
US8560600B2 (en) * 2011-09-26 2013-10-15 Google Inc. Managing map elements using aggregate feature identifiers
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US9069501B2 (en) 2012-02-28 2015-06-30 Hewlett-Packard Development Company, L.P. Mechanism that allows initiating print without being aware of the printer email address
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8937627B1 (en) 2012-03-28 2015-01-20 Google Inc. Seamless vector map tiles across multiple zoom levels
US9110959B2 (en) * 2012-05-03 2015-08-18 Salesforce.Com, Inc. System and method for geo-location data type searching in an on demand environment
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN104254844B (zh) 2012-06-26 2017-12-19 惠普发展公司,有限责任合伙企业 向wi‑fi客户端暴露网络打印机
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140096026A1 (en) * 2012-09-28 2014-04-03 Interactive Memories, Inc. Methods for Establishing Simulated Force Dynamics Between Two or More Digital Assets Displayed in an Electronic Interface
US9528847B2 (en) 2012-10-15 2016-12-27 Microsoft Technology Licensing, Llc Pictures from sketches
US9361889B2 (en) * 2013-01-29 2016-06-07 Qualcomm Incorporated Landmark based positioning with verbal input
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9396508B2 (en) 2013-05-15 2016-07-19 Google Inc. Use of map data difference tiles to iteratively provide map data to a client device
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9619523B2 (en) * 2014-03-31 2017-04-11 Microsoft Technology Licensing, Llc Using geographic familiarity to generate search results
US20150356212A1 (en) * 2014-04-04 2015-12-10 J. Craig Oxford Senior assisted living method and system
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9293132B2 (en) 2014-08-06 2016-03-22 Honda Motor Co., Ltd. Dynamic geo-fencing for voice recognition dictionary
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10007677B1 (en) 2014-12-04 2018-06-26 Google Llc System and method for geospatial indexing
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
FR3041140B1 (fr) * 2015-09-15 2017-10-20 Dassault Aviat Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10296586B2 (en) 2016-12-23 2019-05-21 Soundhound, Inc. Predicting human behavior by machine learning of natural language interpretations
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10003688B1 (en) 2018-02-08 2018-06-19 Capital One Services, Llc Systems and methods for cluster-based voice verification

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
DE19709518C5 (de) * 1997-03-10 2006-05-04 Harman Becker Automotive Systems Gmbh Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
US6598016B1 (en) * 1998-10-20 2003-07-22 Tele Atlas North America, Inc. System for using speech recognition with map data
US20020111810A1 (en) * 2001-02-15 2002-08-15 Khan M. Salahuddin Spatially built word list for automatic speech recognition program and method for formation thereof
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US7421389B2 (en) * 2002-11-13 2008-09-02 At&T Knowledge Ventures, L.P. System and method for remote speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010026708A1 (de) 2010-07-10 2012-01-12 Volkswagen Ag Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem

Also Published As

Publication number Publication date
EP1646037A2 (de) 2006-04-12
PL1646037T3 (pl) 2008-09-30
ES2304673T3 (es) 2008-10-16
EP1646037A3 (de) 2006-05-03
US20060074660A1 (en) 2006-04-06
ATE390682T1 (de) 2008-04-15
DE602005005597D1 (de) 2008-05-08
EP1646037B1 (de) 2008-03-26

Similar Documents

Publication Publication Date Title
DE602005005597T2 (de) Verfahren und Vorrichtung für erhöhte Spracherkennungspräzision unter Verwendung geografischer Daten zur Filterung einer Wortgruppe
DE19709518C1 (de) Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
DE102009017177B4 (de) Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges
DE102018128006A1 (de) Natürlichsprachliche generierung basierend auf dem benutzersprachstil
DE60212278T2 (de) System und Verfahren zur Integration von teilnehmerbasierten Navigationsdaten und Unterkunftsdaten mit GPS-Daten
EP1204958B1 (de) Navigationsverfahren und navigationssystem für kraftfahrzeuge
EP0963581B1 (de) Verfahren und system zur bereitstellung und übermittlung individualisierter verkehrsinformationen
DE60316125T2 (de) Verfahren und betrieb eines sprach-dialogsystems
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE10146897B4 (de) System und Verfahren zum Speichern und Verwenden von Informationen, die geografische Bereiche betreffen, die für einen mobilen Benutzer von Interesse sind
DE69827667T2 (de) Vokoder basierter spracherkenner
DE102012218938A1 (de) Identifikation von Diensten und Auslösung für eine sprachbasierte Schnittstelle zu einer Mobilvorrichtung
DE10036851A1 (de) Verfahren zur Auswahl einer Ortsbezeichnung in einem Navigationssystem durch Spracheingabe
DE19742054A1 (de) Eingabesystem wenigstens für Orts- und/oder Straßennamen
EP1984910B1 (de) Verfahren und system zum bereitstellen von sprachdialoganwendungen
DE102019105269A1 (de) Spracherkennungs-arbitrierungslogik
DE19808802A1 (de) Kraftfahrzeugnavigationssystem
DE102018125966A1 (de) System und verfahren zur erfassung von stichworten in einer unterhaltung
DE102012218934A1 (de) Sprachbasierte Nutzerschnittstelle für eine Mobilvorrichtung
DE102018128003A1 (de) Neuronales netzwerk zum anwenden bei der spracherkennungsarbitrierung
DE112014006669T5 (de) Routenführungssteuereinrichtung, Routenführungssteuerverfahren und Navigationssystem
DE102019115685A1 (de) Sprachaktivierter fahrzeugalarm
DE112020003033T5 (de) Verfahren und Vorrichtung zum Verbessern einer Geolokalisierungsdatenbank
US20030036844A1 (en) System and method for bookmarking a route
EP0800092A2 (de) Vorrichtung und Verfahren zur Zielführung eines Fahrzeuges

Legal Events

Date Code Title Description
8364 No opposition during term of opposition