DE112014006542B4 - Einrichtung und Verfahren zum Verständnis von einer Benutzerintention - Google Patents

Einrichtung und Verfahren zum Verständnis von einer Benutzerintention Download PDF

Info

Publication number
DE112014006542B4
DE112014006542B4 DE112014006542.0T DE112014006542T DE112014006542B4 DE 112014006542 B4 DE112014006542 B4 DE 112014006542B4 DE 112014006542 T DE112014006542 T DE 112014006542T DE 112014006542 B4 DE112014006542 B4 DE 112014006542B4
Authority
DE
Germany
Prior art keywords
intention
intention understanding
result
understanding
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112014006542.0T
Other languages
English (en)
Other versions
DE112014006542T5 (de
Inventor
Yoichi Fujii
Yi Jing
Jun Ishii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112014006542T5 publication Critical patent/DE112014006542T5/de
Application granted granted Critical
Publication of DE112014006542B4 publication Critical patent/DE112014006542B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

Intentionsverständniseinrichtung (1, 20, 30, 40), umfassend:einen Spracherkenner (3), welcher eine Sprachansage (2) erkennt, welche von einem Benutzer in natürlicher Sprache gesprochen wird, um dadurch mehrere Spracherkennungsergebnisse von hochrangigen Erkennungsbewertungen zu generieren;einen morphologischen Analysator (5), welcher die entsprechenden Spracherkennungsergebnisse in Morphemketten umwandelt;einen Intentionsverständnisprozessor (7), welcher eine Intention über die Sprachansage (2) des Benutzers auf Grundlage von jeder von den Morphemketten schätzt, um dadurch aus jeder von den Morphemketten einen oder mehrere Intentionsverständnisergebnis-Kandidaten und Bewertungen, welche Grade der Wahrscheinlichkeit von den Kandidaten anzeigen, auszugeben und die Intentionsverständnisergebnis-Kandidaten in absteigender Reihenfolge von Wahrscheinlichkeiten der mehreren Spracherkennungsergebnisse zu generieren;einen Gewichtungsrechner (11, 22, 33), welcher entsprechende Gewichtungen für die Intentionsverständnisergebnis-Kandidaten rechnet; undeinen Intentionsverständniskorrektor (12), welcher die Bewertungen von den Intentionsverständnisergebnis-Kandidaten mittels der Gewichtungen korrigiert, um dadurch deren Endbewertungen zu berechnen, und dann den Intentionsverständnisergebnis-Kandidaten mit derjenigen Endbewertung, die als erste einer voreingestellten Bedingung genügt, als das Intentionsverständnisergebnis auswählt.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft eine Intentionsverständniseinrichtung zum Schätzen einer Benutzerintention aus einem Spracherkennungsergebnis und ein Verfahren hierfür.
  • Hintergrund zum Stand der Technik
  • Seit den letzten Jahren wird einer Technologie Beachtung gewidmet, in welcher ein Betrieb von einem Gerät mittels eines Spracherkennungsergebnisses von einer Sprache, welche von einer Person gesprochen wird, ausgeführt wird. Diese Technologie wird in sprachgesteuerten Benutzerschnittstellen in Mobiltelefonen, Fahrzeugnavigationsgeräten und dergleichen angewandt. Als ein herkömmliches grundlegendes Verfahren gibt es ein Verfahren, in welchem das Gerät zum Beispiel im Vorfeld eine Korrespondenzbeziehung zwischen einem geschätzten Spracherkennungsergebnis und einer Operation speichert, und anschließend, wenn ein Erkennungsergebnis von einer Sprachansage, welche von dem Benutzer gesprochen wird, das geschätzte Erkennungsergebnis ist, die Operation entsprechend diesem Erkennungsergebnis ausgeführt.
  • Gemäß diesem Verfahren kann im Vergleich zu dem Fall, in welchem der Benutzer eine Operation manuell veranlasst, die Operation direkt durch eine phonetische Sprachansage ausgeführt werden, so dass dieses Verfahren somit effektiv als eine Shortcut-Funktion dient.
  • Gleichzeitig ist es erforderlich, dass der Benutzer eine Sprache spricht, welche von dem Gerät erwartet wird, so dass die Operation ausgeführt werden kann, wobei, da die Funktionen, welche in dem Gerät verarbeitet werden, zunehmen, auch die Sprachen zunehmen, welche der Benutzer berücksichtigen muss. Zudem benutzen im Allgemeinen nur wenige unter den Benutzern das Gerät erst nachdem sie die Betriebsanleitung vollständig verstanden haben. Somit wissen die Benutzer, welche die Betriebsanleitung nicht verstehen, nicht in welcher Sprache sie für eine Operation zu sprechen haben, so dass das Problem besteht, dass der Benutzer über seine Sprachansage tatsächlich keine Operation veranlassen kann, ohne einen Befehl von der Funktion zu verwenden, welchen er im Gedächtnis behalten hat.
  • Im Hinblick darauf wird das folgende Verfahren als eine Technologie vorgeschlagen, in welcher das vorstehende Problem verbessert ist: Selbst wenn der Benutzer einen Befehl zum Erreichen des Zweckes nicht im Gedächtnis behalten hat, wird der Benutzer durch das Gerät interaktiv geleitet, so dass der Benutzer dadurch bis zum Erreichen des Zweckes geführt wird. Als eine wichtige Technologie zum Realisieren dieses Verfahrens offenbart zum Beispiel Patentdokument 1 eine Technologie zum richtigen Schätzen der Benutzerintention aus der Sprachansage des Benutzers.
  • Die Sprachverarbeitungseinrichtung in Patentdokument 1 weist eine linguistische Wörterbuchdatenbank und eine Grammatikdatenbank für jede von mehreren Intentionsinformationen auf, welche entsprechende mehrere Intentionen anzeigen, und enthält zudem Informationen über die Befehle, welche zuvor ausgeführt wurden, als Vorbewertungen. Für jede von den mehreren Intentionsinformationen berechnet die Sprachverarbeitungseinrichtung eine akustische Bewertung, eine Sprachbewertung und eine Vorbewertung jeweils als eine Bewertung, welche einen Konformitätsgrad von jeder Intentionsinformation von dem Sprachsignal anzeigt, welches auf Grundlage von der Sprachansage des Benutzers eingegeben wurde, und summiert anschließend diese Bewertungen, um eine Gesamtbewertung zu erhalten, und wählt dann die Intentionsinformation mit der höchsten Gesamtbewertung aus. Zudem ist offenbart, dass auf Grundlage von der Gesamtbewertung die Sprachverarbeitungseinrichtung die ausgewählte Intentionsinformation ausführt, diese ausführt nachdem vom Benutzer eine Bestätigung erfolgt ist, oder diese verwirft.
  • In Patentdokument 1 sind die definierten Intentionen spezifische identifizierbare Intentionen in Form von zum Beispiel „Sag mir das Wetter“ oder „Sag mir die Uhrzeit“, und es ist kein Verarbeiten von Intentionen unter der Annahme erwähnt, dass die Intentionen eine Vielzahl von Optionsbezeichnungen umfassen, welche jeweils zum Einstellen, zum Beispiel von einem Zielpunkt in einem Navigationsgerät, erforderlich sind.
  • Patentdokument 2 beschreibt ein Spracherkennungssystem, in welchem ein Client-Gerät Audio selektiv an einen Provider-Computer, z. B. einen Cloud-Computer, überträgt. Die Spracherkennung empfängt Streaming-Audio, ordnet Äußerungen bestimmten Textkandidaten zu und bestimmt die Wahrscheinlichkeit einer korrekten Übereinstimmung für jeden zugeordneten Textkandidaten. Durch ein Kontextmodell wird der Kandidat selektiv dazu gebracht, die Erkennungsmehrdeutigkeit gemäß dem Kontext aufzulösen, wenn mehrere Textkandidaten als potenzielle Übereinstimmungen für dieselbe abgebildete Äußerung erkannt werden. Übereinstimmungen werden zum Aktualisieren des Kontextmodells verwendet.
  • Patentdokument 3 beschreibt ein Verfahren und ein System zum Erfassen von Morphemen in der Kommunikation eines Benutzers.
  • Patentdokument 4 beschreibt ein Dialogsystem, welches eine Spracherkennungseinheit umfasst, die eine Äußerung eines Benutzers in einen Äußerungstext auf der Grundlage von Äußerungsinformationen umwandelt.
  • Patentdokument 5 beschreibt ein Spracherkennungssystem, welches ein eingegebenes Sprachsignal unter Verwendung eines ersten Spracherkenners und eines zweiten Spracherkenners, die jeweils mit einem Entscheidungsmodul gekoppelt sind, erkennt. Der erste und der zweite Spracherkenner geben jeweils einen ersten und einen zweiten erkannten Sprachtext und einen ersten und einen zweiten zugeordneten Vertrauenswert aus, und das Entscheidungsmodul wählt entweder den ersten oder den zweiten Sprachtext aus, abhängig davon, welcher der ersten oder zweiten Vertrauenswerte höher ist.
  • Patentdokument 6 beschreibt ein System zum Interpretieren einer Benutzereingabe.
  • Patentdokument 7 beschreibt ein Verfahren zum Bestimmen der Absicht, die mit einer gesprochenen Äußerung eines Benutzers verbunden ist.
  • Liste der zitierten Druckschriften
  • Patentdokument
    • Patentdokument 1: Japanische Patentanmeldung Offenlegungsschrift JP 2011 - 33 680 A
    • Patentdokument 2: US 2014 / 0 025 377 A1
    • Patentdokument 3: US 7 286 984 B1
    • Patentdokument 4: US 2012 / 0 156 660 A1
    • Patentdokument 5: US 7 228 275 B1
    • Patentdokument 6: DE 10 2012 019 178 A1
    • Patentdokument 7: US 2007 / 0 055 529 A1
  • Zusammenfassung der Erfindung
  • Durch die Erfindung zu lösende Probleme
  • In der Sprachverarbeitungseinrichtung gemäß Patentdokument 1 ist ein Spracherkennungsergebnis vorgesehen, um für jede Intention bereitgestellt zu werden, so dass nur die Auswahl unter den mehreren verschiedenen Intentionen und das Bestimmen des Ausführens oder Verwerfens der letztendlich ausgewählten Intentionsinformation durchgeführt werden, und somit ein nächster Kandidat von dem Spracherkennungsergebnis nicht berücksichtigt ist.
  • Zum Beispiel in einem Zustand beim Hören von Musik, wenn der Benutzer spricht „Ich möchte keine Musik hören“ und als das Ergebnis der erste Kandidat von Intention „Ich möchte Musik hören“ und der zweite Kandidat von Intention „Ich möchte keine Musik hören“ erhalten werden, wird der erste Kandidat von Intention „Ich möchte Musik hören“ ausgewählt.
  • Zudem wird selbst in einem Zustand, in welchem „'oo' -Mitte“ bereits als ein Zielpunkt des Navigationsgeräts eingestellt ist, wenn der Benutzer spricht „Stopp bei ‚ox‘ -Mitte“, um einen Routenpunkt hinzuzufügen, und als das Ergebnis der erste Kandidat von Intention „Stopp bei ‚oo‘ -Mitte“ und der zweite Kandidat von Intention „Stopp bei ‚ox‘ -Mitte“ bereitgestellt sind, wird der erste Kandidat von Intention „Stopp bei ‚oo‘ -Mitte“ ausgewählt.
  • Auf diese Weise betrifft die herkömmliche Einrichtung nicht den nächsten Kandidaten und es besteht somit ein Problem darin, dass es schwierig ist, eine Benutzerintention richtig zu verstehen. Folglich muss der Benutzer den ausgewählten ersten Kandidat verwerfen und dann nochmals sprechen.
  • Die Erfindung wurde realisiert, um die vorstehend beschriebenen Probleme zu lösen und ein Gegenstand der Erfindung besteht darin, eine Intentionsverständniseinrichtung und ein Intentionsverständnisverfahren bereitzustellen, durch welche eine Benutzerintention über eine Spracheingabe richtig verstanden wird.
  • Mittel zum Lösen der Probleme
  • Eine Intentionsverständniseinrichtung gemäß der Erfindung umfasst:
    • einen Spracherkenner, welcher eine Sprachansage erkennt, welche von einem Benutzer in einer natürlichen Sprache gesprochen wird, um dadurch mehrere Spracherkennungsergebnisse zu generieren; einen morphologischen Analysator, welcher die entsprechenden Spracherkennungsergebnisse in Morphemketten umwandelt; einen Intentionsverständnisprozessor, welcher eine Intention über die Sprachansage des Benutzers auf Grundlage von jeder von den Morphemketten schätzt, um dadurch aus jeder von den Morphemketten einen oder mehrere Kandidaten von Intensionsverständnisergebnis und Bewertungen, welche die Grade der Wahrscheinlichkeit von den Kandidaten anzeigen, auszugeben; einen Gewichtungsrechner, welcher entsprechende Gewichtungen für die Kandidaten von Intentionsverständnisergebnis berechnet; und einen Intentionsverständniskorrektor, welcher die Bewertungen von den Kandidaten von Intentionsverständnisergebnis mittels der Gewichtungen korrigiert, um dadurch deren Endbewertungen zu berechnen,
    • und dann einen Kandidaten unter den Kandidaten von Intentionsverständnisergebnis als ein Intentionsverständnisergebnis auf Grundlage von den Endbewertungen auswählt.
  • Ein Intentionsverständnisverfahren umfasst: Erkennen einer Sprachansage, welche von einem Benutzer in einer natürlichen Sprache gesprochen wird, um dadurch mehrere Spracherkennungsergebnisse zu generieren; Umwandeln der entsprechenden Spracherkennungsergebnisse in Morphemketten; Schätzen einer Intention über die Sprachansage des Benutzers auf Grundlage von jeder von den Morphemketten, um dadurch von jeder von den Morphemketten einen oder mehrere Kandidaten von Intentionsverständnisergebnis und Bewertungen, welche die Grade der Wahrscheinlichkeiten von den Kandidaten anzeigen, auszugeben; Berechnen entsprechender Gewichtungen für die Kandidaten von Intensionsverständnisergebnis; und Korrigieren der Bewertungen von den Kandidaten von Intentionsverständnisergebnis mittels der Gewichtungen, um dadurch deren Endbewertungen zu berechnen, und dann einen Kandidaten unter den Kandidaten von Intentionsverständnisergebnis als ein Intentionsverständnisergebnis auf Grundlage von den Endbewertungen auszuwählen.
  • Wirkung der Erfindung
  • Gemäß der Erfindung werden die mehreren Spracherkennungsergebnisse aus einer Sprachansage generiert, die Kandidaten von Intentionsverständnisergebnis aus jedem von den Spracherkennungsergebnissen generiert; die Endbewertungen durch Korrigieren der Bewertungen von den Kandidaten von Intentionsverständnisergebnis mittels der Gewichtungen berechnet; und das Intentionsverständnisergebnis aus den mehreren Kandidaten von Intentionsverständnisergebnis auf Grundlage von den Endbewertungen ausgewählt. Somit kann ein endgültiges Intentionsverständnisergebnis unter den Ergebnissen ausgewählt werden, welche nicht nur die Ergebnisse für den ersten Kandidaten des Spracherkennungsergebnisses für die Spracheingabe, sondern auch die Ergebnisse für den nächsten Kandidaten des Spracherkennungsergebnisses umfassen. Dementsprechend ist es möglich, eine Intentionsverständniseinrichtung bereitzustellen, welche eine Benutzerintention richtig verstehen kann.
  • Gemäß der Erfindung werden die mehreren Spracherkennungsergebnisse aus einer Sprachansage generiert; die Kandidaten von Intentionsverständnisergebnis aus jedem von den Spracherkennungsergebnissen generiert; die Endbewertungen durch Korrigieren der Bewertungen der Kandidaten von Intentionsverständnisergebnis mittels der Gewichtungen berechnet; und das Intentionsverständnisergebnis unter den mehreren Kandidaten von Intentionsverständnisergebnis auf Grundlage von den Endbewertungen ausgewählt. Somit kann ein endgültiges Intentionsverständnisergebnis unter den Ergebnissen ausgewählt werden, welche nicht nur die Ergebnisse für den ersten Kandidaten des Spracherkennungsergebnisses für die Spracheingabe, sondern auch die Ergebnisse für den nächsten Kandidaten des Spracherkennungsergebnisses umfassen. Dementsprechend ist es möglich, ein Intentionsverständnisverfahren bereitzustellen, durch welches eine Benutzerintention richtig verstanden werden kann.
  • Kurzbeschreibung der Zeichnungen
    • 1 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einer Intentionsverständniseinrichtung gemäß Ausführungsform 1 der Erfindung.
    • 2 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einem Navigationsgerät, in welchem die Intentionsverständniseinrichtung gemäß Ausführungsform 1 als sprachgesteuerte Benutzerschnittstelle aufgenommen ist.
    • 3 enthält Diagramme zum Darstellen von Operationen der Intentionsverständniseinrichtung gemäß Ausführungsform 1: ein Beispiel von Einstellungsinformationen ist in 3(a) dargestellt; und ein Beispiel von einem Dialog ist in 3(b) dargestellt.
    • 4 enthält Diagramme zum Darstellen von Ausgabeergebnissen an entsprechenden Teilen in der Intentionsverständniseinrichtung gemäß Ausführungsform 1: Beispiele von Spracherkennungsergebnissen sind in 4(a) dargestellt; und Beispiele für entsprechende Kandidaten von Intentionsverständnisergebnis und dergleichen in Bezug auf die erstrangigen bis drittrangigen Spracherkennungsergebnisse sind jeweils in den 4(b) bis 4(d) dargestellt.
    • 5 ist eine Tabelle zur Verwendung durch einen Gewichtungsrechner in der Intentionsverständniseinrichtung gemäß Ausführungsform 1, in welcher Korrespondenzbeziehungen zwischen beschränkten Bedingungen und Standby-Gewichtungen definiert sind.
    • 6 ist ein Flussdiagramm zum Darstellen der Operationen von der Intentionsverständniseinrichtung gemäß Ausführungsform 1.
    • 7 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einer Intentionsverständniseinrichtung gemäß Ausführungsform 2 der Erfindung.
    • 8 ist ein Diagramm zum Darstellen von Operationen der Intentionsverständniseinrichtung gemäß Ausführungsform 2, und zeigt ein Beispiel von einem Dialog.
    • 9 enthält Diagramme zum Darstellen von Ausgabeergebnissen an entsprechenden Teilen der Intentionsverständniseinrichtung gemäß Ausführungsform 2: Beispiele von Spracherkennungsergebnissen sind in 9(a) dargestellt; und Beispiele von entsprechenden Kandidaten von Intentionsverständnisergebnis und dergleichen in Bezug auf die erstrangigen bis drittrangigen Sprachenerkennungsergebnisse sind jeweils in den 9(b) bis 9(d) dargestellt.
    • 10 ist ein Diagramm zum Darstellen eines Beispiels von einem hierarchischen Baum der Intentionsverständniseinrichtung gemäß Ausführungsform 2.
    • 11 ist eine Liste von Intentionen an entsprechenden Knoten in dem hierarchischen Baum gemäß 10.
    • 12 ist ein Diagramm zum Darstellen von Beispielen von Standby-Gewichtungen, welche durch einen Gewichtungsrechner in der Intentionsverständniseinrichtung gemäß Ausführungsform 2 berechnet wurden.
    • 13 ist ein Flussdiagramm zum Darstellen der Operationen der Intentionsverständniseinrichtung gemäß Ausführungsform 2.
    • 14 ist ein Flussdiagramm zum Darstellen spezifischer Operationen in Schritt ST20 gemäß 13.
    • 15 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einer Intentionsverständniseinrichtung gemäß Ausführungsform 3 der Erfindung.
    • 16 ist ein Diagramm zum Darstellen eines Beispiels von einer Schlüsselworttabelle von der Intentionsverständniseinrichtung gemäß Ausführungsform 3.
    • 17 ist ein Diagramm zum Darstellen eines Beispiels von einer dem Schlüsselwort entsprechenden Intention der Intentionsverständniseinrichtung gemäß Ausführungsform 3.
    • 18 enthält Diagramme zum Darstellen der Ausgabeergebnisse an entsprechenden Teilen in der Intentionsverständniseinrichtung gemäß Ausführungsform 3: Beispiele von Spracherkennungsergebnissen sind in 18(a) dargestellt; und Beispiele von entsprechenden Kandidaten von Intentionsverständnisergebnis und dergleichen in Bezug auf erstrangige bis drittrangige Spracherkennungsergebnisse sind jeweils in den 18(b) bis 18(d) dargestellt.
    • 19 ist ein Flussdiagramm zum Darstellen von Operationen von der Intentionsverständniseinrichtung gemäß Ausführungsform 3.
    • 20 ist ein Flussdiagramm zum Darstellen von spezifischen Operationen in Schritt ST31 in 19.
    • 21 ist ein Blockdiagramm zum Darstellen von einem modifizierten Beispiel von einer Intentionsverständniseinrichtung gemäß der Erfindung.
    • 22 ist ein Diagramm zum Darstellen von Operationen von einer Intentionsverständniseinrichtung gemäß der Erfindung, und zeigt ein Beispiel für einen Dialog.
  • Ausführungsformen zur Realisierung der Erfindung
  • Nachfolgend werden zum detaillierten Darstellen der Erfindung Ausführungsformen zur Realisierung der Erfindung gemäß den beigefügten Zeichnungen erläutert.
  • Ausführungsform 1
  • Wie in 1 dargestellt, umfasst eine Intentionsverständniseinrichtung 1 gemäß Ausführungsform 1 der Erfindung: einen Spracherkenner 3, welcher eine Spracherkennung von einer Spracheingabe 2 durchführt, welche von einem Benutzer gesprochen wird, und diese in Texte umwandelt; ein Spracherkennungswörterbuch 4, welches für die Spracherkennung durch den Spracherkenner 3 verwendet wird, einen morphologischen Analysator 5, welcher ein Spracherkennungsergebnis in Morpheme zerlegt; ein morphologisches Analysewörterbuch 6, welches für die morphologische Analyse durch den morphologischen Analysator 5 verwendet wird; einen Intentionsverständnisprozessor 7, welcher Kandidaten von Intentionsverständnisergebnis aus einem morphologischen Analyseergebnis generiert, ein Intentionsverständnismodell 8, welches zum Schätzen einer Intention des Benutzers durch den Intentionsverständnisprozessor 7 verwendet wird; einen Einstellungsinformationsspeicher 10, in welchem Einstellungsinformationen 9 von einem Steuerungszielgerät gespeichert sind; einen Gewichtungsrechner 11, welcher Gewichtungen mittels der Einstellungsinformationen 9 in dem Einstellungsinformationsspeicher 10 berechnet; und einen Intentionsverständniskorrektor 12, welcher die Kandidaten von Intentionsverständnisergebnis mittels der Gewichtungen korrigiert und anschließend einen Kandidaten unter diesen Kandidaten auswählt und als endgültiges Intentionsverständnisergebnis 13 ausgibt.
  • Die Intentionsverständniseinrichtung 1 ist mit einer nicht dargestellten CPU (Central Processing Unit) konfiguriert, und wenn die CPU ein in dem internen Speicher gespeichertes Programm ausführt, werden die Funktionen als der Spracherkenner 3, der morphologische Analysator 5, der Intentionsverständnisprozessor 7, der Gewichtungsrechner 11 und der Intentionsverständniskorrektor 12 implementiert.
  • Das Spracherkennungswörterbuch 4, das morphologische Analysewörterbuch 6, das Intentionsverständnismodell 8 und der Einstellungsinformationsspeicher 10 sind mit einem HDD (Hard Disk Drive), einer DVD (Digital Versatile Disc), einem Speicher und/oder dergleichen konfiguriert.
  • 2 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einem Navigationsgerät 100, in welchem die Intentionsverständniseinrichtung 1 als eine sprachgesteuerte Benutzerschnittstelle aufgenommen ist. Das Navigationsgerät 100 ist ein Ziel, welches sprachlich zu steuern ist. Eine Spracheingabeeinheit 101 ist mit einem Mikrophon und/oder dergleichen konfiguriert und wandelt die Sprachansage, welche von dem Benutzer gesprochen wird, in Signale um, und gibt die Signale als Spracheingabe 2 anschließend an die Intentionsverständniseinrichtung 1 aus. Eine Navigationssteuerung 102 ist mit einer CPU etc. konfiguriert und führt Such-, Führungs- und ähnliche Funktionen über eine Route von einem aktuellen Punkt zu einem Zielpunkt aus. Die Einstellungsinformationen 9 des Zielpunkts und dergleichen werden von der Navigationssteuerung 102 an die Intentionsverständniseinrichtung 1 ausgegeben. Zudem empfängt die Navigationssteuerung 102 das Intentionsverständnisergebnis 13 von der Intentionsverständniseinrichtung 1, wodurch eine Operation ausgeführt wird, welche durch das Intentionsverständnisergebnis 13 angezeigt ist, oder ein Sprachsignal über das Intentionsverständnisergebnis 13 an eine Sprachausgabeeinheit 103 ausgegeben wird. Die Sprachausgabeeinheit 103 ist mit einem Lautsprecher und/oder dergleichen konfiguriert und gibt das Sprachsignal wieder, welches von der Navigationssteuerung 102 eingegeben wurde.
  • Es wird darauf hingewiesen, dass die Intentionsverständniseinrichtung 1 und die Navigationssteuerung 102 jeweils mittels unterschiedlichen CPUs konfiguriert sein können oder mittels einer einzigen CPU konfiguriert sein können.
  • Eine Intention wird zum Beispiel in einer solchen Form wie „<Hauptintention> [<Slotname>=<Slotwert>, ...]“ wiedergegeben. In einem bestimmten Beispiel wird die Intention wiedergegeben als „Zielpunkteinstellung [Ort =?]“, „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘ Geschäft)]“, oder dergleichen [‚oo‘ bedeutet einen Namen im Japanischen]. „Zielpunkteinstellung [Ort =?]“ zeigt einen Zustand, in welchem der Benutzer einen Zielpunkt einstellen möchte, allerdings noch keinen bestimmten Ortsnamen bestimmt hat. „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘ Geschäft)] zeigt einen Zustand, in welchem der Benutzer einen bestimmten Ort " ‚oo‘ Geschäft" als Zielpunkt einstellt.
  • Als ein Intentionsverständnisverfahren, welches durch den Intentionsverständnisprozessor 7 durchgeführt wird, kann ein Verfahren, wie zum Beispiel ein Maximum-Entropie-Verfahren oder dergleichen, eingesetzt werden. Insbesondere enthält das Intentionsverständnismodell 8 viele Gruppen von Wörtern als unabhängige Wörter (nachfolgend als Features bezeichnet), beispielsweise „Zielpunkt, Einstellung“ und dergleichen, und deren korrekte Intentionen, beispielsweise „Zielpunkteinstellung [Ort =?]“ und dergleichen. Der Intentionsverständnisprozessor 7 extrahiert die Features „Zielpunkt, Einstellung“ aus dem morphologischen Analyseergebnis, beispielsweise der Spracheingabe 2 „Ich möchte einen Zielpunkt einstellen“, und schätzt dann mittels einem Statistikverfahren, welcher Zielpunkt in dem Intentionsverständnismodell 8 wie wahrscheinlich ist. Der Intentionsverständnisprozessor 7 gibt Gruppen von Intentionen als Kandidaten von Intentionsverständnisergebnis und Bewertungen, welche die Wahrscheinlichkeiten dieser Intentionen anzeigen, als eine Liste aus.
  • Nachfolgend wird eine Beschreibung bereitgestellt, in welcher angenommen wird, dass der Intentionsverständnisprozessor 7 ein Intentionsverständnisverfahren mittels eines Maximum-Entropie-Verfahrens ausführt.
  • 3(a) zeigt ein Beispiel der Einstellungsinformationen 9 in Ausführungsform 1 und 3(b) zeigt ein Beispiel von einem Dialog.
  • In dem Fall, in welchem das sprachlich zu steuernde Ziel das Navigationsgerät 100 ist, sind in den Einstellungsinformationen 9 die folgenden Informationen darüber enthalten, ob ein Zielpunkt oder ein Routenpunkt eingestellt ist oder nicht; wenn dieser eingestellt ist, der Name des Zielpunkts oder des Routenpunkts; und weiterhin der Typ der angezeigten Karte und dergleichen. Der Einstellungsinformationsspeicher 10 in der Intentionsverständniseinrichtung 1 speichert die Einstellungsinformationen 9, welche durch die Navigationssteuerung 102 in dem Navigationsgerät 100 ausgegeben werden. In dem Beispiel in 3(a) sind in den Einstellungsinformationen 9 die Informationen "Zielpunkt: ‚ΔΔ‘ " und "Routenpunkt: ‚oo‘ " enthalten, [‚ΔΔ‘ bedeutet einen Namen im Japanischen].
  • 3(b) zeigt, dass ein Dialog zwischen dem Navigationsgerät 100 und dem Benutzer in einer Reihenfolge von oben abläuft. In den Inhalten des Dialogs gibt am Anfang von jeder Zeile „U:“ eine Spracheingabe 2, welche von dem Benutzer gesprochen wird, und „S:“ eine Antwort des Navigationsgeräts 100 wieder.
  • 4 zeigt Beispiele von Ausgabeergebnissen an entsprechenden Teilen der Intentionsverständniseinrichtung 1.
  • 4(a) zeigt Beispiele von Spracherkennungsergebnissen, welche von dem Spracherkenner 3 ausgegeben werden. Die Spracherkennungsergebnisse sind als eine Liste bereitgestellt, in welcher jedes von den Spracherkennungsergebnissen, beispielsweise " ‚oo‘ ist das Ziel", als eine Gruppe mit einer Wahrscheinlichkeit angeordnet ist, welche den Grad der Wahrscheinlichkeit von diesem Spracherkennungsergebnis in absteigender Reihenfolge der Wahrscheinlichkeit anzeigt.
  • 4(b) zeigt die Kandidaten von Intentionsverständnisergebnis, deren Bewertungen, deren Standby-Gewichtungen und deren Endbewertungen in Bezug auf das erstrangige Spracherkennungsergebnis " ‚oo‘ ist das Ziel" in den Spracherkennungsergebnissen in 4(a); 4(c) zeigt die Kandidaten in Bezug auf das zweitrangige Spracherkennungsergebnis "Fahre nicht zu ‚oo‘ "; und 4(d) zeigt die Kandidaten in Bezug auf das drittrangige Spracherkennungsergebnis „Suche 'oΔ'“. Der Intentionsverständnisprozessor 7 gibt eine Lise aus, welche jede Gruppe von einer Intention enthält, beispielsweise "Routenpunkteinstellung [Ort = $Ort$]"und deren Bewertung, als einen Kandidat von Intentionsverständnisergebnis. Diese Kandidaten von Intentionsverständnisergebnis werden in absteigender Reihenfolge der Bewertungen angeordnet. Der Gewichtungsrechner 11 berechnet die Standby-Gewichtung für jeden von den Kandidaten von Intentionsverständnisergebnis, welche von dem Intentionsverständnisprozessor 7 ausgegeben werden. Der Intentionsverständniskorrektor 12 berechnet die Endbewertung mittels der Standby-Gewichtung für jeden von den Kandidaten von Intentionsverständnisergebnis, welche von dem Intentionsverständnisprozessor 7 ausgegeben werden.
  • 5 ist eine Tabelle, in welcher Korrespondenzbeziehungen zwischen beschränkten Bedingungen und den Standby-Gewichtungen definiert sind.
  • Zum Beispiel in dem Fall, in welchem ein Zielpunkt des Navigationsgeräts 100 bereits als „ΔΔ“ eingestellt ist, wird angenommen, dass es weniger wahrscheinlich ist, dass der Benutzer erneut eine Sprachansage mit der Intention „Stelle Zielpunkt als ‚ΔΔ‘ ein“ als die nächste Sprachansage durchführt. Somit wird in Bezug auf diese eingeschränkte Bedingung die Standby-Gewichtung für die Intention „Zielpunkteinstellung [Ort = $Ort$ (=‚ΔΔ‘)]“ mit „0.0“ eingestellt. Währenddessen, da die Wahrscheinlichkeit besteht, dass der Benutzer den Zielpunkt auf „?“ ändert (einen anderen Ort als ‚ΔΔ‘), wird die Standby-Gewichtung für die Intention „Zielpunkteinstellung [Ort = Ort = $Ort$ (=?)]“ auf „1.0“ eingestellt. Zudem, da es weniger wahrscheinlich ist, dass der Benutzer eine Sprachansage mit der Intention durchführt einen Routenpunkt mit „oo“ einzustellen, welcher der Gleiche ist wie der Zielpunkt, wird die Standby-Gewichtung für die Intention „Routenpunkteinstellung [Ort = $Ort$ (= ‚oo‘)“ auf „0.0“ eingestellt. Zudem, da es einen Fall gibt, bei welchem der Benutzer einen bereits eingestellten Routenpunkt „oo“ verwirft, wird die Standby-Gewichtung für die Intention „Zielpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ auf „1.0“ eingestellt.
  • Wie vorstehend erläutert enthält der Gewichtungsrechner 11 die Informationen der Standby-Gewichtungen, welche jeweils im Vorfeld aus der Probabilität des Vorkommens der Intention definiert wurden, und wählt die Standby-Gewichtung entsprechend der Intention auf Grundlage der Einstellungsinformationen 9 aus.
  • Der Intentionsverständniskorrektor 12 korrigiert die Kandidaten von Intentionsverständnisergebnis aus dem Intentionsverständnisprozessor 7 mithilfe der folgenden Formel (1). Insbesondere multipliziert der Intentionsverständniskorrektor 12 die Wahrscheinlichkeit des Spracherkennungsergebnisses, welches durch den Spracherkenner 3 akquiriert wurde, durch eine Intentionsverständnisbewertung von dem Kandidaten von Intentionsverständnisergebnis, welches durch den Intentionsverständnisprozessor 7 akquiriert wurde, um dadurch eine Bewertung (diese entspricht der „Bewertung“ gezeigt in 4(b) und dergleichen) zu berechnen, und diese Bewertung anschließend mit der Standby-Gewichtung zu multiplizieren, welche durch den Gewichtungsrechner 11 akquiriert wurde, um dadurch die Endbewertung zu erhalten (diese entspricht der „Endbewertung“ gezeigt in 4(b) und dergleichen). In der Ausführungsform 1 ist das Korrigieren nicht auf dieses Verfahren beschränkt, obwohl eine Intentionsverständniskorrektur mittels Multiplikation wie in Formel (1) durchgeführt wird
    ( Wahrscheinlichkeit ) × ( Intentionsverständnisbewertung ) = ( Bewertung ) ( Bewertung ) × ( Standby-Gewichtung ) = ( Endbewertung )
    Figure DE112014006542B4_0001
  • Nachfolgend werden Operationen der Intentionsverständniseinrichtung 1 unter Bezugnahme auf das Flussdiagramm gemäß 6 erläutert.
  • Hierbei wird angenommen, dass die Intentionsverständniseinrichtung 1 in dem Navigationsgerät 100 als ein Steuerungsgerät aufgenommen ist, und ein Dialog gestartet wird, wenn der Benutzer einen Dialogstartknopf drückt, welcher nicht explizit dargestellt ist. Zudem, unter der Annahme, dass die in 3(a) gezeigten Einstellungsinformationen 9 in dem Einstellungsinformationsspeicher 10 gespeichert sind, werden die Intentionsverständnisschritte in Bezug auf die Inhalte des Dialogs in 3(b) im Detail erläutert.
  • Die Navigationssteuerung 102 veranlasst die Sprachausgabeeinheit 103 bei Feststellung, dass der Benutzer den Dialogstartknopf des Navigationsgeräts 100 gedrückt hat, die Ausgabe einer Sprachansage „Bitte nach Piepton sprechen“, welches eine Antwort auf das Auslösen des Starts des Dialogs ist, und zur nachfolgenden Ausgabe eines Pieptons. Zudem versetzt die Intentionsverständniseinrichtung 1 den Spracherkenner 3 in einen erkennbaren Zustand, so dass dieser in einen Benutzer-Sprachansage-Wartezustand übergeht.
  • Dann, wenn der Benutzer eine Sprachansage „Geht nicht zu 'oo'“ durchführt, wie in 3(b) gezeigt, wandelt die Spracheingabeeinheit 101 die Spracheingabe in Sprachdaten um und gibt diese an den Spracherkenner 3 in der Intentionsverständniseinrichtung 1 aus. Der Spracherkenner 3 in der Intentionsverständniseinrichtung 1 wandelt die Spracheingabe 2 mittels dem Spracherkennungswörterbuch 4 in jeden Text um und berechnet dessen Wahrscheinlichkeit und gibt diesen dann an den morphologischen Analysator 5 aus (Schritt ST11).
  • Anschließend analysiert der morphologische Analysator 5 jedes Spracherkennungsergebnis morphologisch mittels des morphologischen Analysewörterbuchs 6 und gibt das Ergebnis an den Intentionsverständnisprozessor 7 aus (Schritt ST12). Zum Beispiel stellt das Spracherkennungsergebnis " 'oo'ist das Ziel" ein morphologisches Analyseergebnis " ‚oo‘/Substantiv, ‚ist‘/nachgestellter Teil in Japanisch, ‚Ziel‘/Substantiv, und ‚ist das‘ /nachgestellter Teil in Japanisch" bereit.
  • Dann schätzt der Intentionsverständnisprozessor 7 jede von den Intentionen aus dem morphologischen Analyseergebnis mittels des Intentionsverständnismodells 8 und berechnet deren Bewertung, und gibt diese dann als einen Kandidaten von Intentionsverständnisergebnis an den Intentionsverständniskorrektor 12 aus (Schritt ST13). Zu diesem Zeitpunkt extrahiert der Intentionsverständnisprozessor 7 die Features, welche für das Intentionsverständnis aus dem morphologischen Analyseergebnis verwendet werden, und schätzt die Intention durch Abgleich der Features mit dem Intentionsverständnismodell 8. Aus dem morphologischen Analyseergebnis von dem Spracherkennungsergebnis " 'oo'ist das Ziel" werden in 4(a) die Features " ‚oo‘, Ziel" als eine Liste extrahiert, so dass, wie in 4(b) dargestellt, ein Kandidat von Intentionsverständnisergebnis „Routenpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ und dessen Bewertung „0.623“, und ein Kandidat von Intentionsverständnisergebnis „Ortssuche [Ort = $Ort$ (=‚oo‘)]“ und dessen Bewertung „0.286“ erhalten werden.
  • Dann liest der Gewichtungsrechner 11 die Einstellungsinformationen 9 aus dem Einstellungsinformationsspeicher 10, und wählt die Standby-Gewichtung für jede von den Intentionen auf Grundlage von den Einstellungsinformationen 9 und der in 5 dargestellten Tabelle aus, und gibt diese dann an den Intentionsverständniskorrektor 12 aus (Schritt ST14).
  • Dann berechnet der Intentionsverständniskorrektor 12 durch die vorstehende Formel (1) die Endbewertung von jedem von den Kandidaten des Intentionsverständnisergebnisses mittels der Wahrscheinlichkeit von dem Spracherkennungsergebnis, welches durch den Spracherkenner 3 berechnet wurde, der Bewertung des Kandidaten von Intentionsverständnisergebnis, welcher durch den Intentionsverständnisprozessor 7 berechnet wurde, und der Standby-Gewichtung, welche durch den Gewichtungsrechner 11 ausgewählt wurde (Schritt ST15). Zu diesem Zeitpunkt berechnet der Intentionsverständniskorrektor 12 jede Endbewertung in absteigender Reihenfolge der Wahrscheinlichkeiten der Spracherkennungsergebnisse und in absteigender Reihenfolge der Bewertungen der Kandidaten von Intentionsverständnisergebnis für ein gemeinsames Spracherkennungsergebnis, und ermittelt die Endbewertung bei jeder Berechnung. Zum Beispiel zu dem Zeitpunkt, wenn der Kandidat von Intentionsverständnisergebnis mit einer Endbewertung X = 0.5 oder mehr gefunden wird, bestimmt der Intentionsverständniskorrektor 12 diesen Kandidaten als das endgültige Intentionsverständnisergebnis 13.
  • In dem Beispiel in 4 in Bezug auf das erstrangige Spracherkennungsergebnis „'oo' ist das Ziel“ über die Spracheingabe 2 „Fahre nicht zu 'oo'“ wird die Endbewertung „0.0“ für den erstrangigen Kandidaten von Intentionsverständnisergebnis „Routenpunkteinstellung [Ort = $Ort$ (=‚oo‘)]“ in 4(b) und die Endbewertung „0.286“ für den zweitrangigen Kandidaten "Ortssuche [Ort = $Ort$ (= ‚oo‘)], so dass keiner von den Kandidaten von Intentionsverständnisergebnis der Bedingung genügt, dass die Endbewertung X oder mehr ist (Schritt ST16 „NEIN“).
  • Dementsprechend wiederholt die Intentionsverständniseinrichtung 1 für das zweitrangige Spracherkennungsergebnis „Fahre nicht zu 'oo'“ das Verarbeiten der Schritte ST12 bis ST15 und erhält als das Ergebnis die Endbewertung „0.589“ für den erstrangigen Kandidaten von Intentionsverständnisergebnis "Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)] in 4(c) und die Endbewertung "0.232"für den zweitrangingen Kandidaten „Ortssuche [Ort = $Ort$ (= ‚oo‘)]“, da die Endbewertung „0.589“ von „Routenpunktverwerfung [Ort = $Ort$ (=‚oo‘)]“, welche der erstrangige Kandidat von Intentionsverständnisergebnis für das zweitrangige Spracherkennungsergebnis ist, der Bedingung X oder mehr genügt (Schritt ST16 „JA“), zu diesem Zeitpunkt sendet der Intentionsverständniskorrektor 12 eine Antwort „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ als das endgültige Intentionsverständnisergebnis 13 an die Navigationssteuerung 102, und beendet dann das Verarbeiten.
  • Beim Erhalt des Intentionsverständnisergebnisses 13 „Routenpunktverwerfung [Ort = $Ort$ (=‚oo‘)]“ von der Intentionsverständniseinrichtung 1 gibt die Navigationssteuerung 102 eine Instruktion an die Sprachausgabeeinheit 103 aus, um diese dadurch zu veranlassen, wie in 3(b) dargestellt, eine Sprachansage „Routenpunkt 'oo'wird verworfen, in Ordnung?“ auszugeben. Wenn der Benutzer in Antwort darauf „JA“ spricht, empfängt die Intentionsverständniseinrichtung 1 die Spracheingabe 2 über diese Sprachansage über die Spracheingabeeinheit 101 und bestimmt, dass die Spracherkennung und das Intentionsverständnis richtig durchgeführt wurden. Zudem führt die Intentionsverständniseinrichtung 1 die Spracherkennung und das Intentionsverständnis für die Spracheingabe 2 „JA“ durch und gibt das Intentionsverständnisergebnis 13 an die Navigationssteuerung 102 aus. Die Navigationssteuerung 102 führt die Operation zum Verwerfen des Routenpunkts 'oo'gemäß dem Intentionsverständnisergebnis 13 aus.
  • Dementsprechend wird in der Navigationssteuerung 102 „Routenpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ mit der höchsten Bewertung in den Intentionsverständnisergebnissen für die höchste Wahrscheinlichkeit in den Spracherkennungsergebnissen nicht ausgeführt, sondern „Routenpunktverwerfung [Ort =$Ort$ (= ‚oo‘)]“ ausgeführt, und eine Beeinflussung durch Falscherkennung kann somit beseitigt werden.
  • Dementsprechend ist die Intentionsverständniseinrichtung 1 gemäß Ausführungsform 1 konfiguriert zu umfassen: den Spracherkenner 3, welcher eine Spracheingabe 2 erkennt, welche von einem Benutzer in einer natürlichen Sprache gesprochen wird, um dadurch mehrere Spracherkennungsergebnisse zu generieren; den morphologischen Analysator 5, welcher die entsprechenden Spracherkennungsergebnisse in Morphemketten umwandelt; den Intentionsverständnisprozessor 7, welcher eine Intention über die Sprachansage des Benutzers auf Grundlage von jeder von den Morphemketten schätzt, um dadurch aus jeder von den Morphemketten einen oder mehrere Kandidaten von Intentionsverständnisergebnis und deren Bewertungen auszugeben; den Gewichtungsrechner 11, welcher entsprechende Standby-Gewichtungen für die Kandidaten von Intentionsverständnisergebnis berechnet; und den Intentionsverständniskorrektor 12, welcher die Bewertungen von den Kandidaten von Intentionsverständnisergebnis mittels der Standby-Gewichtungen korrigiert, um dadurch deren Endbewertungen zu berechnen, und dann einen Kandidaten unter den Kandidaten von Intentionsverständnisergebnis als das Intentionsverständnisergebnis auf Grundlage von den Endbewertungen auswählt. Somit kann das endgültige Intentionsverständnisergebnis 13 aus den Spracherkennungsergebnissen ausgewählt werden, welche nicht nur das erstrangige Spracherkennungsergebnis für die Spracheingabe 2, sondern auch die zweit- oder niedrigerrangigen Spracherkennungsergebnisse hierzu umfassen. Dementsprechend ist es möglich, die Intentionsverständniseinrichtung 1 bereitzustellen, welche die Intention des Benutzers richtig verstehen kann.
  • Gemäß Ausführungsform 1 ist der Intentionsverständnisprozessor 7 weiterhin konfiguriert, die Kandidaten von Intentionsverständnisergebnis in absteigender Reihenfolge der Wahrscheinlichkeiten von den mehreren Spracherkennungsergebnissen zu generieren, und der Intentionsverständniskorrektor 12 ist konfiguriert, die Endbewertung zu jedem Zeitpunkt zu berechnen, wenn der Intentionsverständnisprozessor 7 den Kandidaten von Intentionsverständnisergebnis generiert, und den Kandidaten von Intentionsverständnisergebnis mit der Endbewertung auszuwählen, welche der voreingestellten Bedingung über X als das Intentionsverständnisergebnis 13 genügt. Somit kann die Menge an Berechnungen durch die Intentionsverständniseinrichtung 1 reduziert werden.
  • Gemäß Ausführungsform 1 ist der Wichtungsrechner 11 zudem konfiguriert, die Standby-Gewichtungen mittels Einstellungsinformationen 9 von einem Steuerungszielgerät (zum Beispiel das Navigationsgerät 100) zu berechnen, welches auf Grundlage von dem Intentionsverständnisergebnis 13 betrieben wird, welches durch den Intentionsverständniskorrektor 12 ausgewählt wird. Insbesondere ist der Gewichtungsrechner 11 konfiguriert, die in 5 dargestellte Tabelle zu enthalten, in welcher die beschränkten Bedingungen und die Standby-Gewichtungen in den entsprechenden Fällen des Genügens der beschränkten Bedingungen definiert sind, und um auf Grundlage von den Einstellungsinformationen 9 zu bestimmen, ob der beschränkten Bedingung genügt wird oder nicht, um dadurch jede von den Standby-Gewichtungen auszuwählen. Somit ist es möglich, adäquat die Intention zu schätzen, welche mit einer Situation des Steuerungszielgeräts zusammenpasst.
  • Ausführungsform 2
  • 7 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einer Intentionsverständniseinrichtung 20 gemäß Ausführungsform 2. In 7 sind in Bezug auf die gleichen oder äquivalenten Teile wie in 1 die gleichen Bezugszeichen vergeben, so dass auf deren Beschreibung hier verzichtet wird. Die Intentionsverständniseinrichtung 20 umfasst einen hierarchischen Baum 21, in welchem Intentionen in einer Baumstruktur exprimiert sind, und einen Gewichtungsrechner 22, welcher eine Standby-Gewichtung auf Grundlage von einer aktivierten Intention unter den Intentionen in dem hierarchischen Baum 21 berechnet.
  • 8 zeigt ein Beispiel von einem Dialog in Ausführungsform 2. Wie in 3(b) repräsentiert am Anfang von jeder Zeile „U:“ eine Sprachansage des Benutzers und „S:“ eine Antwort von einem Steuerungszielgerät (zum Beispiel das in 2 dargestellte Navigationsgerät 100).
  • 9 zeigt Beispiele von Ausgabeergebnissen an den entsprechenden Teilen in der Intentionsverständniseinrichtung 20. In 9(a) sind Spracherkennungsergebnisse und deren Wahrscheinlichkeiten, welche durch den Spracherkenner 3 ausgegeben werden, dargestellt. In den 9(b) bis (d) ist Folgendes dargestellt: die Kandidaten von Intentionsverständnisergebnis und deren Bewertungen, welche durch den Intentionsverständnisprozessor 7 ausgegeben werden; die Standby-Gewichtungen, welche durch den Gewichtungsrechner 22 ausgegeben werden; und die Endbewertungen, welche durch den Intentionsverständniskorrektor 12 ausgegeben werden. Die Kandidaten von Intentionsverständnisergebnis für das erstrangige Spracherkennungsergebnis „Ich möchte nicht fahren zu 'oo'“ in 9(a), sind in 9(b) dargestellt; die Kandidaten von Intentionsverständnisergebnis für das zweitrangige Spracherkennungsergebnis „Ich möchte fahren über 'oo'“ sind in 9(c) dargestellt; und die Kandidaten von Intentionsverständnisergebnis für das drittrangige Spracherkennungsergebnis „Stelle 'oo'als ein Ziel ein“ sind in 9(d) dargestellt.
  • Die 10 und 11 zeigen ein Beispiel von einem hierarchischen Baum 21. In dem hierarchischen Baum 21, wie in 10 dargestellt, sind Knoten, welche jeweils eine Intention anzeigen, so in einer hierarchischen Struktur angeordnet, dass die angezeigte Intention umso abstrakter wird, je näher der Knoten an der Wurzel liegt (oberste Hierarchie), und die angezeigte Intention umso spezifischer wird, je näher der Knoten an dem Blatt liegt (unterste Hierarchie). Zum Beispiel beim Vergleichen von zwei Intentionen von dem dritten hierarchischen Knoten #9 von „Zielpunkteinstellung [Ort =?]“ und dem vierten hierarchischen Knoten #16 von „Zielpunkteinstellung [Ort = $Ort$ (= 'oo'Geschäft)]“ ist der Knoten #9, welcher eine abstraktere Intention anzeigt, in einer oberen Hierarchie platziert, und unter diesem Knoten der Knoten #16 platziert, welcher eine Intention anzeigt, welche mit einem bestimmten Slotwert belegt ist (zum Beispiel 'oo'Geschäft). Die Intention „Navigation“ von dem Knoten #1, welcher in der ersten Hierarchie platziert ist, ist ein abstrakter Knoten, welcher eine Einheit der Navigationsfunktionen von der Navigationssteuerung 102 anzeigt, und die Knoten #2 bis #5, welche die entsprechenden Navigationsfunktionen anzeigen, sind in der zweiten Hierarchie unter diesem Knoten platziert. Zum Beispiel repräsentiert die Intention „Zielpunkteinstellung []“ von dem Knoten #4 einen Zustand, in welchem der Benutzer einen Zielpunkt einstellen möchte, aber einen bestimmten Ort noch nicht bestimmt hat. Eine Veränderung von einem Zustand, in welchem der Zielpunkt eingestellt wird, bewirkt einen Übergang von dem Knoten #4 zu dem Knoten #9 oder dem Knoten #16. Das Beispiel in 10 zeigt einen Zustand, in welchem der Knoten #4 entsprechend der Sprachansage des Benutzers „Stelle ein Ziel ein“, gezeigt in 8, aktiviert ist.
  • In dem hierarchischen Baum 21 ist der Intentionsknoten entsprechend den Informationen aktiviert, welche durch das Navigationsgerät 100 ausgegeben werden.
  • 12 zeigt Beispiele von den Standby-Gewichtungen, welche durch den Gewichtungsrechner 22 berechnet wurden.
  • Da die Intention „Zielpunkteinstellung []“ von dem Knoten #4 in dem hierarchischen Baum 21 entsprechend der Benutzersprachansage „Stelle ein Ziel ein“ aktiviert ist, sind die Standby-Gewichtungen der Intentionen der Knoten #9, #10 auf der Seite von dem Knoten #4 in Richtung des Zweigs/Blatts jeweils mit 1.0 angegeben, und die Standby-Gewichtung von einem weitern Intentionsknoten mit 0.5 angegeben.
  • Das Berechnungsverfahren von der Standby-Gewichtung durch den Gewichtungsrechner 22 soll später erläutert werden.
  • 13 ist ein Flussdiagramm zum Darstellen der Operationen von der Intentionsverständniseinrichtung 20. In 13 ist das Verarbeiten in den Schritten ST11 bis ST13, ST15 und ST16 gleich wie das Verarbeiten in den Schritten ST11 bis ST13, ST15 und ST16 in 6.
  • In Schritt ST20, unter Bezugnahme auf den hierarchischen Baum 21, berechnet der Gewichtungsrechner 22 die Standby-Gewichtungen von den Kandidaten von Intentionsverständnisergebnis von dem Intentionsverständnisprozessor 7, und gibt diese an den Intentionsverständniskorrektor 12 aus.
  • 14 ist ein Flussdiagramm zum Darstellen bestimmter Operationen in Schritt ST20 in 13. In Schritt ST21 vergleicht der Gewichtungsrechner 22 den Kandidaten von Intentionsverständnisergebnis aus dem Intentionsverständnisprozessor 7 mit der aktivierten Intention in dem hierarchischen Baum 21. Wenn der Kandidat von Intentionsverständnisergebnis aus dem Intentionsverständnisprozessor 7 in der Seite von der aktivierten Intention in Richtung eines Zweigs/Blatts von dem hierarchischen Baum 21 platziert ist (Schritt ST22 „JA“), stellt der Gewichtungsrechner 22 eine erste Gewichtung „a“ als die Standby-Gewichtung ein (Schritt ST23). Dahingegen, wenn der Kandidat von Intentionsverständnisergebnis aus dem Intentionsverständnisprozessor 7 an einer anderen Stelle als in der Seite von der aktivierten Intention in Richtung eines Zweigs/Blatts des hierarchischen Baums 21 platziert ist (Schritt ST22 „NEIN“), stellt der Gewichtungsrechner 22 eine zweite Gewichtung „b“ als die Standby-Gewichtung ein (Schritt ST24). In der vorliegenden Ausführungsform 2 sind „a“ = 1.0 und „b“ = 0.5 angegeben. Zudem, wenn kein aktivierter Intentionsknoten vorliegt, ist die Standby-Gewichtung mit 1.0 eingestellt.
  • Nachfolgend werden die Operationen der Intentionsverständniseinrichtung 20 erläutert.
  • Die Operationen der Intentionsverständniseinrichtung 20 sind grundsätzlich die gleichen wie die Operationen der Intentionsverständniseinrichtung 1 in Ausführungsform 1. Der Unterschied zwischen der vorliegenden Ausführungsform 2 und der vorstehend erläuterten Ausführungsform 1 besteht in der Weise, wie die Standby-Gewichtungen berechnet werden.
  • Nachfolgend wird eine detaillierte Beschreibung über die Intentionsverständnisschritte in Bezug auf die Inhalte des in 8 dargestellten Dialogs bereitgestellt. Wie in der vorstehend erläuterten Ausführungsform 1 wird ein Fall angenommen, in welchem die Intentionsverständniseinrichtung 20 in dem Navigationsgerät 100 als ein Steuerungsziel (gezeigt in 2) aufgenommen ist. Zudem wird angenommen, dass der Dialog gestartet wird, wenn der Benutzer den Dialogstartknopf drückt, welcher nicht dargestellt ist. Zum Zeitpunkt der ersten Benutzersprachansage „Stelle ein Ziel ein“ in 8 ist der hierarchische Baum 21 in der Intentionsverständniseinrichtung 20 in einem Zustand mit keinem aktivierten Intentionsknoten, da das Navigationsgerät 100 keine Informationen von dem Benutzer akquiriert hat.
  • Es wird darauf hingewiesen, dass der Intentionsknoten in dem hierarchischen Baum 21 auf Grundlage von dem Intentionsverständnisergebnis 13 aktiviert wird, welches durch den Intentionsverständniskorrektor 12 ausgegeben wird.
  • Nach dem Starten des Dialogs, wenn der Benutzer die Sprachansage „Stelle ein Ziel ein“ durchführt, wird die Spracheingabe 2 über diese Sprachansage in die Intentionsverständniseinrichtung 20 eingegeben. Die Spracheingabe 2 wird von dem Spracherkenner 3 erkannt (Schritt ST11) und von dem morphologischen Analysator 5 in Morpheme zerlegt (Schritt ST12), so dass die Kandidaten von Intentionsverständnisergebnis bestimmt werden durch Berechnungen von dem Intentionsverständnisprozessor 7 (Schritt ST13). Hierbei, angenommen, dass die Benutzersprachansage „Stelle ein Ziel ein“ nicht falsch erkannt wird, sondern richtig erkannt wird und deren Intention richtig verstanden wird, erhält der Intentionsverständniskorrektor 12 „Zielpunkteinstellung []“ als das Intentionsverständnisergebnis 13. Um einen Ort zu spezifizieren, welcher als der Zielpunkt eingestellt werden soll, gibt die Navigationssteuerung 102 an die Sprachausgabeeinheit 103 eine Instruktion aus, um diese dadurch zu veranlassen, eine Sprachansage „Zielpunkt wird eingestellt. Bitte den Ort sprechen“ auszugeben. Zudem wird in dem hierarchischen Baum 21 der Knoten #4 entsprechend dem Intentionsverständnisergebnis 13 „Zielpunkteinstellung []“ aktiviert.
  • Da das Navigationsgerät 100 eine solche Antwort zum Auslösen der nächsten Sprachansage durchführt, wird der Dialog mit dem Benutzer fortgesetzt, so dass angenommen wird, dass der Benutzer eine Sprachansage „Stelle 'oo'als ein Ziel ein“, wie in 8, durchführt.
  • Die Intentionsverständniseinrichtung 20 führt das Verarbeiten in den Schritten ST11, ST12 für die Benutzersprachansage „Stelle 'oo'als ein Ziel ein“ durch. Als ein Ergebnis wird angenommen, dass die entsprechenden morphologischen Analyseergebnisse für die Spracherkennungsergebnisse „Ich möchte nicht fahren zu 'oo'“, „Ich möchte fahren über 'oo'“ und „Stelle 'oo'als ein Ziel ein“, gezeigt in 9(a), erhalten werden. Dann schätzt der Intentionsverständnisprozessor 7 die Intention aus dem morphologischen Analyseergebnis (Schritt ST13). Zu diesem Zeitpunkt wird angenommen, dass die Kandidaten von Intentionsverständnisergebnis bereitgestellt sind als „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ und „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ in 9(b).
  • Dann berechnet der Gewichtungsrechner 22 die Standby-Gewichtungen unter Bezugnahme auf den hierarchischen Baum 21 (Schritt ST20). Zu diesem Zeitpunkt ist der Knoten #4 in dem hierarchischen Baum 21 in einem aktivierten Zustand, so dass die Gewichtungen durch den Gewichtungsrechner 22 diesem Zustand entsprechend berechnet werden.
  • Zuerst werden in Schritt ST21 Informationen von dem aktivierten Knoten #4 von dem hierarchischen Baum 21 an den Gewichtungsrechner 22 übertragen, und die Kandidaten von Intentionsverständnisergebnis „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ und „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ von dem Intentionsverständnisprozessor 7 an den Gewichtungsrechner 22 übertragen. Der Gewichtungsrechner 22 vergleicht die Intention von dem aktivierten Knoten #4 mit dem Kandidaten von Intentionsverständnisergebnis, und wenn der Kandidat von Intentionsverständnisergebnis auf der Seite von dem aktivierten Knoten #4 in Richtung von einem Zweig/Blatt platziert ist (nämlich an dem Knoten #9 oder dem Knoten #10 platziert ist) (Schritt ST22 „JA“), stellt der Gewichtungsrechner eine erste Gewichtung „a“ als die Standby-Gewichtung ein (Schritt ST23). Dahingegen, wenn der Kandidat von Intentionsverständnisergebnis an einer anderen Stelle als auf der Seite von dem aktivierten Knoten #4 in Richtung von einem Zweig/Blatt platziert ist (Schritt ST22 „NEIN“), stellt der Gewichtungsrechner 22 eine zweite Gewichtung „b“ als die Standby-Gewichtung ein (Schritt ST24).
  • Die erste Gewichtung „a“ ist auf einen Wert größer als die zweite Gewichtung „b“ eingestellt. Zum Beispiel wenn „a“ = 1.0 und „b“ = 0.5 gegeben sind, sind die wie in 9(b) dargestellten Standby-Gewichtungen bereitgestellt.
  • Anschließend berechnet der Intentionsverständniskorrektor 12 durch die vorstehende Formel (1) die Endbewertung von jedem von den Kandidaten von Intentionsverständnisergebnis mittels: der Wahrscheinlichkeit von dem Spracherkennungsergebnis, welches durch den Spracherkenner 3 berechnet wurde, der Bewertung von dem Kandidaten von Intentionsverständnisergebnis, welcher durch den Intentionsverständnisprozessor 7 berechnet wurde, und der Standby-Gewichtung, welche durch den Gewichtungsrechner 22 berechnet wurde (Schritt ST15). Die Endbewertungen sind wie in 9(b) dargestellt bereitgestellt.
  • Wie in Ausführungsform 1 bestimmt der Intentionsverständniskorrektor 12 dann, ob die Endbewertung der Bedingung von X oder mehr genügt oder nicht (Schritt ST16). Wenn die Bedingung in Bezug auf das erstrangige Spracherkennungsergebnis "Ich möchte nicht fahren zu ‚oo‘"auch mit X = 0.5 angegeben ist, genügt weder die Endbewertung „0.314“ für den Kandidaten von Intentionsverständnisergebnis "Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)] noch die Endbewertung „0.127“ für den Kandidaten „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ in 9(b) der Bedingung.
  • Dementsprechend wiederholt die Intentionsverständniseinrichtung 20 für das zweitrangige Spracherkennungsergebnis "Ich möchte fahren über ‚oo‘ " das Verarbeiten der Schritte ST12 bis ST14, ST20 und ST15. Als ein Ergebnis, wie in 9(c) dargestellt, werden die Endbewertung „0.295“ für den Kandidaten von Intentionsverständnisergebnis „Routenpunktverwerfung [Ort = $Ort$ (=‚oo‘)]“ und die Endbewertung „0.116“ für den Kandidaten „Ortssuche [Ort = $Ort$ (= ‚oo‘)]“ erhalten; diese genügen allerdings auch nicht der Bedingung von X oder mehr.
  • Dementsprechend wiederholt die Intentionsverständniseinrichtung 20 für das drittrangige Spracherkennungsergebnis „Stelle 'oo'als ein Ziel ein“ das Verarbeiten der Schritte ST12, ST13, ST20 und ST15 und als das Ergebnis wird, wie in 9(d) dargestellt, die Endbewertung „0.538“ für den Kandidaten von Intentionsverständnisergebnis „Zielpunkteinstellung [Ort = Ort$ (= ‚oo‘)]“ erhalten. Diese Endbewertung genügt der Bedingung von X oder mehr, so dass der Intentionsverständniskorrektor 12 „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ als das endgültige Intentionsverständnisergebnis 13 ausgibt. In dem hierarchischen Baum 21 wird der Knoten #16 auf Grundlage von dem Intentionsverständnisergebnis 13 aktiviert.
  • Beim Erhalt des Intentionsverständnisergebnisses 13 „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ von der Intentionsverständniseinrichtung 20 gibt die Navigationssteuerung 102 eine Anweisung an die Sprachausgabeeinheit 103 aus, um diese dadurch zu veranlassen, wie in 8 dargestellt, eine Spracheingabe " 'oo'wird als ein Zielpunkt eingestellt. In Ordnung?" auszugeben. Wenn der Benutzer in Antwort darauf „JA“ spricht, empfängt die Intentionsverständniseinrichtung 20 die Spracheingabe 2 über diese Sprachansage über die Spracheingabeeinheit 101 und bestimmt, dass die Spracherkennung und das Intentionsverständnis richtig durchgeführt wurden. Zudem führt die Intentionsverständniseinrichtung 20 die Spracherkennung und das Intentionsverständnis für die Spracheingabe 2 von „JA“ durch und gibt dann das Intentionsverständnisergebnis 13 an die Navigationssteuerung 102 aus. Die Navigationssteuerung 102 stellt 'oo'als den Zielpunkt entsprechend dem Intentionsverständnisergebnis 13 ein, und veranlasst dann die Sprachausgabeeinheit 103 zum Ausgeben einer Sprachansage von " 'oo'ist als ein Zielpunkt eingestellt" um dem Benutzer dadurch bekanntzugeben, dass die Zielpunkteinstellung erfolgt ist.
  • Folglich ist der Gewichtungsrechner 22 gemäß Ausführungsform 2 konfiguriert, die Gewichtung so durchzuführen, dass der Kandidat von Intentionsverständnisergebnis entsprechend einer Intention, welche aus einem Dialogfluss mit dem Benutzer erwartet wird, wahrscheinlich ist, durch den Intentionsverständniskorrektor 12 ausgewählt zu werden. Somit ist es möglich, adäquat die Intention zu schätzen, welche mit einer Situation aus einem Dialog zwischen dem Benutzer und dem Steuerungszielgerät zusammenpasst.
  • Zudem ist die Intentionsverständniseinrichtung 20 gemäß Ausführungsform 2 konfiguriert, den hierarchischen Baum 21 zu umfassen, in welchem Benutzerintentionen so in einer Baumstruktur exprimiert sind, dass die Intention umso abstrakter wird, je näher die Intention an deren Wurzel liegt, und die Intention umso spezifischer wird, je näher die Intention an deren Blatt liegt, wobei der Gewichtungsrechner 22 die Gewichtung auf Grundlage von dem hierarchischen Baum 21 durchführt, so dass der Kandidat von Intentionsverständnisergebnis, welche auf der Seite in Richtung des Zweigs/Blatts platziert ist, von der Intention entsprechend dem Intentionsverständnisergebnis 13, welches gerade zuvor ausgewählt wurde, wahrscheinlich ist, ausgewählt zu werden. Auf diese Weise wird die Intention über die Benutzersprachansage mittels der Intentionshierarchie korrigiert, so dass es möglich ist, das Steuerungszielgerät auf Grundlage von dem adäquaten Spracherkennungsergebnis und dem Intentionsverständnisergebnis zu betreiben.
  • Ausführungsform 3
  • 15 ist ein Blockdiagramm zum Darstellen einer Konfiguration von einer Intentionsverständniseinrichtung 30 gemäß Ausführungsform 3. In 15 sind in Bezug auf gleiche oder äquivalente Teile wie in 1 und 5, die gleichen Bezugszeichen vergeben, so dass auf deren Beschreibung hier verzichtet wird. Die Intentionsverständniseinrichtung 30 enthält eine Schlüsselworttabelle 31, in welcher Intentionen und deren entsprechende Schlüsselwörter gespeichert sind; einen Schlüsselwortsuchprozessor 32, welcher eine Intention entsprechend dem morphologischen Analyseergebnis aus der Schlüsselworttabelle 31 sucht; und einen Gewichtungsrechner 33, welcher die Standby-Gewichtung durch Vergleich der Intention entsprechend dem Schlüsselwort mit der aktivierten Intention in dem hierarchischen Baum 21 berechnet.
  • 16 zeigt ein Beispiel der Schlüsselworttabelle 31. In der Schlüsselworttabelle 31 werden entsprechende Gruppen gespeichert, wobei jede eine Gruppe von der Intention und deren Schlüsselwort ist. Zum Beispiel sind für die Intention „Zielpunkteinstellung []“ jeweils die Schlüsselwörter angegeben, welche eine charakteristische Expression der Intention anzeigen, beispielsweise „Ziel“, „Besuch“, „Zielpunkt“ und dergleichen. Jedes Schlüsselwort ist für die Intention von jedem von dem zweiten oder niedrigeren hierarchischen Knoten angegeben, außer der Intention des ersten hierarchischen Knotens #1 in dem hierarchischen Baum 21.
  • Nachfolgend wird die Intention, welche dem Schlüsselwort entspricht, als eine dem Schlüsselwort entsprechende Intention bezeichnet. Zudem wird die Intention, welche dem aktivierten Intentionsknoten in dem hierarchischen Baum 21 entspricht, als eine dem hierarchischen Baum entsprechende Intention bezeichnet.
  • 17 zeigt Beispiele von den Spracherkennungsergebnissen, welche durch den Spracherkenner 3 ausgegeben wurden, die in den Spracherkennungsergebnissen enthaltenen Schlüsselwörter und die den Schlüsselwörtern entsprechenden Intentionen, welche durch den Schlüsselwortsuchprozessor 32 gesucht wurden. Die dem Schlüsselwort entsprechende Intention entsprechend dem Schlüsselwort „Fahre nicht“ für das Spracherkennungsergebnis „Ich möchte nicht fahren zu 'oo'“ ist bereitgestellt als „Routenpunktverwerfung []“; die dem Schlüsselwort entsprechende Intention entsprechend dem Schlüsselwort „über“ für das Spracherkennungsergebnis „ich möchte fahren über 'oo'“ ist bereitgestellt als „Routenpunkteinstellung []“; und die dem Schlüsselwort entsprechende Intention entsprechend dem Schlüsselwort „Ziel“ für das Spracherkennungsergebnis „Stelle 'oo'als ein Ziel ein“ ist bereitgestellt als „Zielpunkteinstellung []“.
  • 18(a) zeigt Beispiele der Spracherkennungsergebnisse und deren Wahrscheinlichkeiten, dass diese durch den Spracherkenner 3 ausgegeben werden. Die 18(b) bis 18(d) zeigen die Kandidaten von Intentionsverständnisergebnis und deren Bewertungen, welche von dem Intentionsverständnisprozessor 7 ausgegeben wurden, die Standby-Gewichtungen, welche durch den Gewichtungsrechner 33 ausgegeben wurden, und die Endbewertungen, welche durch den Intentionsverständniskorrektor 12 ausgegeben wurden. Die Kandidaten von Intentionsverständnisergebnis für das erstrangige Spracherkennungsergebnis „ich möchte nicht fahren zu 'oo'“ in 18(a) sind in 18(b) dargestellt; die Kandidaten von Intentionsverständnisergebnis für das zweitrangige Spracherkennungsergebnis „Ich möchte fahren über 'oo'“ sind in 18(c) dargestellt; und die Kandidaten von Intentionsverständnisergebnis für das drittrangige Spracherkennungsergebnis „Stelle ‚oo‘ als ein Ziel ein“ sind in 18(d) dargestellt.
  • 19 ist ein Flussdiagramm zum Darstellen der Operationen von der Intentionsverständniseinrichtung 30. In 19 ist das Verarbeiten in den Schritten ST11 bis ST13, ST15 und ST16 gleich wie das Verarbeiten in den Schritten ST11 bis ST13, ST15 und ST16 in 6.
  • In Schritt ST30 sucht der Schlüsselwortsuchprozessor 32 aus der Schlüsselworttabelle 31 das Schlüsselwort, welches mit dem morphologischen Analyseergebnis zusammenpasst, um dadurch die dem Schlüsselwort entsprechende Intention zu akquirieren, welche mit dem gesuchten Schlüsselwort assoziiert ist. Der Schlüsselwortsuchprozessor 32 gibt die akquirierte dem Schlüsselwort entsprechende Intention an den Gewichtungsrechner 33 aus.
  • 20 ist ein Flussdiagramm zum Darstellen bestimmter Operationen in Schritt ST31 in 19. In Schritt ST32 vergleicht der Gewichtungsrechner 33 den Kandidaten von Intentionsverständnisergebnis aus dem Intentionsverständnisprozessor 7 mit der dem hierarchischen Baum entsprechenden Intention, welche in dem hierarchischen Baum 21 aktiviert ist, und mit der dem Schlüsselwort entsprechenden Intention aus dem Schlüsselwortsuchprozessor 32. Wenn der Kandidat von Intentionsverständnisergebnis weder mit der dem Schlüsselwort entsprechenden Intention noch mit der dem hierarchischen Baum entsprechenden Intention zusammenpasst (Schritt ST32 „NEIN“), stellt der Gewichtungsrechner 33 eine dritte Gewichtung „c“ als die Standby-Gewichtung ein.
  • Wenn der Kandidat von Intentionsverständnisergebnis mit der dem hierarchischen Baum entsprechenden Intention zusammenpasst (Schritt ST32 „JA“ und Schritt ST34 „JA“) stellt der Gewichtungsrechner 33 eine vierte Gewichtung „d“ als die Standby-Gewichtung ein (Schritt ST35). Es wird darauf hingewiesen, dass in dem Zustand von Schritt ST34 „JA“ ein Fall auftreten kann, bei welchem der Kandidat von Intentionsverständnisergebnis sowohl mit der dem hierarchischen Baum entsprechenden Intention als auch mit der dem Schlüsselwort entsprechenden Intention zusammenpasst.
  • Wenn der Kandidat von Intentionsverständnisergebnis nicht mit der dem hierarchischen Baum entsprechenden Intention zusammenpasst, sondern nur mit der dem Schlüsselwort entsprechenden Intention zusammenpasst (Schritt ST34 „NEIN“), stellt der Gewichtungsrechner 33 eine fünfte Gewichtung „e“ als Standby-Gewichtung ein (Schritt ST36).
  • In Ausführungsform 3 sind c = 0.0, d = 1.0 und e = 0.5 angegeben. Wenn nämlich der Kandidat von Intentionsverständnisergebnis mit der dem hierarchischen Baum entsprechenden Intention zusammenpasst, ist die Standby-Gewichtung 1.0; wenn dieser nicht mit der dem hierarchischen Baum entsprechenden Intention aber mit der dem Schlüsselwort entsprechenden Intention zusammenpasst, ist die Standby-Gewichtung 0.5; und wenn dieser weder mit der dem Schlüsselwort entsprechenden Intention noch mit der dem hierarchischen Baum entsprechenden Intention zusammenpasst, ist die Standby-Gewichtung 0.0.
  • Anschließend werden die Operationen von der Intentionsverständniseinrichtung 30 erläutert.
  • Die Operationen der Intentionsverständniseinrichtung 30 sind im Wesentlichen gleich wie die Operationen der Intentionsverständniseinrichtungen 1, 20 in den vorstehend erläuterten Ausführungsformen 1, 2. Der Unterschied zwischen der vorliegenden Ausführungsform 3 und den vorstehend erläuterten Ausführungsformen 1, 2 besteht in der Weise, wie die Standby-Gewichtungen berechnet werden.
  • Nachfolgend wird eine detailliertere Beschreibung über die Intentionsverständnisschritte in Bezug auf die Benutzersprachansage „Stelle 'oo'als ein Ziel ein“ in den Inhalten des Dialogs bereitgestellt, welcher in 8 dargestellt ist. Wie in den vorstehend erläuterten Ausführungsformen 1, 2 wird ein Fall angenommen, bei welchem die Intentionsverständniseinrichtung 30 in dem Navigationsgerät 100 als Steuerungsziel aufgenommen ist (gezeigt in 2).
  • Weiterhin sind die 10 und 11 analog auf den hierarchischen Baum 21 angewandt.
  • Die Spracheingabe 2 über die Benutzerspracheingabe „Stelle 'oo'als ein Ziel ein“ wird von dem Spracherkenner 3 erkannt (Schritt ST11) und von dem morphologischen Analysator 5 in Morpheme zerlegt (Schritt ST12), so dass die Kandidaten von Intentionsverständnisergebnis durch Berechnungen von dem Intentionsverständnisprozessor 7 bestimmt werden (Schritt ST13). Anschließend, wie in 18(b) dargestellt, wird der Kandidat von Intentionsverständnisergebnis „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ und dessen Bewertung „0.623“ und der Kandidat „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ und dessen Bewertung „0.127“ erhalten.
  • Anschließend sucht der Schlüsselwortsuchprozessor 32 unter den Schlüsselwörtern in der Schlüsselworttabelle 31 das Schlüsselwort, welches mit dem morphologischen Analyseergebnis von dem morphologischen Analysator 5 zusammenpasst, um dadurch die dem Schlüsselwort entsprechende Intention, welche dem gesuchten Schlüsselwort entspricht, zu akquirieren. In dem morphologischen Analyseergebnis „Ich möchte nicht fahren zu 'oo'“ ist das Schlüsselwort „Nicht fahren“ in 16 enthalten, so dass die dem Schlüsselwort entsprechende Intention „Routenpunktverwerfung []“ ist.
  • Dann berechnet der Gewichtungsrechner 33 die Standby-Gewichtungen (Schritt ST31). Zu diesem Zeitpunkt ist der Knoten #4 in dem hierarchischen Baum 21 in einem aktivierten Zustand, so dass die dem hierarchischen Baum entsprechende Intention von dem Knoten #4 „Zielpunkteinstellung []“ ist.
  • Zunächst wird in Schritt ST32 in dem hierarchischen Baum 21 die dem hierarchischen Baum entsprechende Intention „Zielpunkteinstellung []“ des aktivierten Knotens #4 an den Gewichtungsrechner 33 ausgegeben. Zudem gibt der Intentionsverständnisprozessor 7 an den Gewichtungsrechner 33 den erstrangigen Kandidaten von Intentionsverständnisergebnis "Routenpunktverwerfung [Ort = $Ort$ (=‚oo‘)] für die Benutzersprachansage „Ich möchte nicht fahren zu 'oo'“ aus. Zudem gibt der Schlüsselwortsuchprozessor 32 an den Gewichtungsrechner 33 die dem Schlüsselwort entsprechende Intention „Routenpunktverwerfung []“ aus.
  • Da der erstrangige Kandidat von Intentionsverständnisergebnis „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ mit der dem Schlüsselwort entsprechenden Intention „Routenpunktverwerfung []“ zusammenpasst (Schritt ST32 „JA“ und Schritt ST34 „NEIN“), stellt der Gewichtungsrechner 33 eine fünfte Gewichtung „e“ (= 0.5) als die Standby-Gewichtung für den erstrangigen Kandidaten von Intentionsverständnisergebnis ein (Schritt ST35).
  • Hier wird das Zusammenpassen durch den Gewichtungsrechner 33 selbst in dem Fall bestimmt, wenn die Intentionen in dem hierarchischen Baum 21 in einer Eltern-Kind-Beziehung stehen. Somit wird die „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ da diese ein Kind der „Routenpunktverwerfung []“ ist, als passend bestimmt.
  • Währenddessen, da der zweitrangige Kandidat von Intentionsverständnisergebnis „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ mit der dem hierarchischen Baum entsprechenden Intention „Zielpunkteinstellung []“ zusammenpasst (Schritt ST32 „JA“ und Schritt ST34 „JA“), stellt der Gewichtungsrechner 33 eine vierte Gewichtung „d“ (=1.0) als die Standby-Gewichtung für den zweitrangigen Kandidaten von Intentionsverständnisergebnis ein (Schritt ST36).
  • Schließlich, wie in 18(b) dargestellt, wird in Bezug auf das erstrangige Spracherkennungsergebnis „Ich möchte nicht fahren zu 'oo'“, die Endbewertung „0.312“ für den erstrangigen Kandidaten von Intentionsverständnisergebnis „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ und die Endbewertung „0.127“ für den zweitrangigen Kandidaten von Intentionsverständnisergebnis „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“ erhalten. Da weder der erstrangige noch der zweitrangige Kandidat der Bedingung genügen, dass die Endbewertung X oder mehr ist, führt die Intentionsverständniseinrichtung 30 das Verarbeiten in den Schritten ST12, ST13, ST30, ST31 und ST15 für das zweitrangige Spracherkennungsergebnis „Ich möchte fahren über 'oo'“ durch.
  • Folglich, wie in 18 (c) dargestellt wird in Bezug auf „Ich möchte fahren über 'oo'“ die Standby-Gewichtung „0.0“ (= c) für jeden von den erstrangigen Kandidaten von Intentionsverständnisergebnis „Routenpunktverwerfung [Ort = $Ort$ (= ‚oo‘)]“ und den zweitrangigen Kandidaten von Intentionsverständnisergebnis „Ortssuche [Ort = $Ort$ (= ‚oo‘)]“ eingestellt. Somit werden deren Endbewertungen jeweils „0.0“ und genügen selbst hier nicht der Bedingung von X oder mehr.
  • Somit wird das zu verarbeitenden Ziel auf das drittrangige Spracherkennungsergebnis „Stelle 'oo'als ein Ziel ein“ geändert, so dass, wie in 18(d) dargestellt, der erstrangige Kandidat von Intentionsverständnisergebnis „Zielpunkteinstellung [Ort = $Ort$ (= ‚oo‘)]“, da dessen Endbewertung der Bedingung von X oder mehr genügt, als das Intentionsverständnisergebnis 13 ausgegeben wird. Dementsprechend wird, wie in der vorstehend beschriebenen Ausführungsform 2, „oo“ als der Zielpunkt eingestellt.
  • Dementsprechend ist das Intentionsverständnisergebnis 30 gemäß Ausführungsform 3 konfiguriert, den Schlüsselwortsuchprozessor 32 zu umfassen, welcher unter den Schlüsselwörtern in der Schlüsselworttabelle 31, in welcher Korrespondenzbeziehungen zwischen den Intentionen und den Schlüsselwörtern definiert sind, das Schlüsselwort sucht, welches mit der Morphemkette zusammenpasst, um dadurch die dem Schlüsselwort entsprechende Intention entsprechend dem gesuchten Schlüsselwort zu akquirieren, wobei der Gewichtungsrechner 33 jede von den Standby-Gewichtungen mittels der dem hierarchischen Baum entsprechenden Intention und der dem Schlüsselwort entsprechenden Intention berechnet. Somit ist es möglich, die Intention über die Benutzersprachansage mittels der Intentionshierarchie und dem Schlüsselwort, welches eine charakteristische Expression der Intention anzeigt, zu korrigieren, und dabei die Steuerungszieleinrichtung auf Grundlage von dem adäquaten Spracherkennungsergebnis und dem Intentionsverständnisergebnis zu betreiben.
  • Es wird darauf hingewiesen, dass in den vorstehend beschriebenen Ausführungsformen 1 bis 3, obwohl die Beschreibung für den Fall in der Japanischen Sprache erfolgt ist, jede Ausführungsform auf die Fälle von einer Vielzahl von Sprachen in Englisch, Deutsch, Chinesisch und dergleichen durch Ändern des Extrahierungsverfahrens des Features, welches mit der Intentionsschätzung für jede von den entsprechenden Sprachen in Bezug steht, angewandt werden kann.
  • Zudem, ist es in dem Fall von einer Sprache, deren Wörter durch ein bestimmtes Symbol (zum Beispiel ein Leerzeichen) voneinander getrennt sind, wenn deren linguistische Struktur schwer analysierbar ist, auch zulässig, aus dem natürlichen Sprachtext aus der Spracheingabe 2 mittels einer musterbasierten Suche oder einem ähnlichem Verfahren einen Slotwert, beispielsweise als $Ort$, $Wohnort$ oder dergleichen zu extrahieren, und danach die Intentionsverständnisverarbeitung direkt auszuführen.
  • Zudem wird der Text von dem Spracherkennungsergebnis in den vorstehend erläuterten Ausführungsformen 1 bis 3 von dem morphologischen Analysator 5 analysiert, um dadurch für die Intentionsverständnisverarbeitung bereit zu sein, es gibt allerdings in Abhängigkeit von dem Erkennungsverfahren des Spracherkenners 3 einen Fall, in welchem das Spracherkennungsergebnis selbst das morphologische Analyseergebnis enthält, so dass es in diesem Fall zulässig ist, auf Operationen zu verzichten, welche den morphologischen Analysator 5 und das morphologische Analysewörterbuch 6 verwenden, um dadurch die Intentionsverständnisverarbeitung direkt nach der Spracherkennungsverarbeitung auszuführen.
  • Zudem ist in den vorstehend erläuterten Ausführungsformen 1 bis 3, obwohl ein Intentionsverständnisverfahren in dem Fall erläutert wurde, in welchem die Anwendung von einem Lernmodell durch ein Maximum-Entropie-Verfahren angenommen wird, das Intentionsverständnisverfahren nicht darauf beschränkt.
  • Zudem ist es in der vorstehend erläuterten Ausführungsform 3, obwohl der Gewichtungsrechner 33 konfiguriert ist, die Standby-Gewichtung mittels der dem hierarchischen Baum entsprechenden Intention und der dem Schlüsselwort entsprechenden Intention zu berechnen, auch zulässig, dass der Gewichtungsrechner die Standby-Gewichtung ohne Nutzung des hierarchischen Baums 21 in einer solchen Weise berechnet, dass die Bewertung des Kandidaten von Intentionsverständnisergebnis entsprechend der Anzahl der Male geändert wird, wie oft das Schlüsselwort in der Schlüsselworttabelle 31 in dem morphologischen Analyseergebnis vorkommt.
  • Wenn zum Beispiel ein Wort, welches zum Spezifizieren der Intention wichtig ist, beispielsweise „Fahre nicht“ oder „Über“ in der Benutzersprachansage vorkommt, führt der Intentionsverständnisprozessor 7 für gewöhnlich für die Benutzersprachansage „Ich möchte fahren zu 'oo'“ die Intentionsverständnisverarbeitung mittels den Features von " ‚oo‘, Fahre nicht" durch. Dahingegen, wenn ein in der Schlüsselworttabelle 31 enthaltenes Schlüsselwort in einer Weise wie " ‚oo‘, Fahre nicht, Fahre nicht" wiederholt wird, ermöglicht dies dem Intentionsverständnisprozessor 7 die Bewertung zu berechnen, welche entsprechend der Anzahl von Wörtern von „Fahre nicht“ zum Zeitpunkt der Intentionsschätzung gewichtet ist.
  • Zudem wird in den vorstehend erläuterten Ausführungsformen 1 bis 3 das Intentionsverständnisverarbeiten in absteigender Reihenfolge der Wahrscheinlichkeiten der mehreren Spracherkennungsergebnisse durchgeführt, und zu dem Zeitpunkt, wenn der Kandidat von Intentionsverständnisergebnis mit der Endbewertung gefunden wird, welche der Bedingung von X oder mehr genügt, das Verarbeiten beendet; wenn die Intentionsverständniseinrichtung allerdings noch über Kapazität zum Berechnungsverarbeiten verfügt, kann auch das folgende Verfahren angewandt werden: das Intentionsverständnisverarbeiten wird für alle von den Spracherkennungsergebnissen durchgeführt und dann das Intentionsverständnisergebnis 13 ausgewählt.
  • Zudem wird in den vorstehend erläuterten Ausführungsformen 1 bis 3, bevor die Operation entsprechend dem Intentionsverständnisergebnis 13 ausgeführt wird, durch den Benutzer in 3(b) bestätigt, ob das Ausführen zugelassen werden soll oder nicht (zum Beispiel „Routenpunkt 'oo'wird verworfen. In Ordnung?“; ob eine solche Bestätigung durchgeführt werden soll oder nicht kann allerdings entsprechend der Endbewertung von dem Intentionsverständnisergebnis 13 eingestellt werden.
  • Ob das Bestätigen erfolgen soll oder nicht kann ferner entsprechend der Rangfolge eingestellt werden, zum Beispiel in einer solchen Weise, dass, wenn der Kandidat von Intentionsverständnisergebnis für das erstrangige Spracherkennungsergebnis als das Intentionsverständnisergebnis 13 ausgewählt ist, keine Bestätigung erfolgt, und wenn der Kandidat von Intentionsverständnisergebnis für das zweitrangige oder niedrigerrangige Spracherkennungsergebnis als das Intentionsverständnisergebnis 13 ausgewählt ist, die Bestätigung erfolgt.
  • Zudem kann entsprechend der Größenordnung der Bewertung eingestellt werden, ob die Bestätigung durchgeführt werden soll oder nicht, zum Beispiel in einer solchen Weise, dass, wenn der Kandidat von Intentionsverständnisergebnis mit der höchsten Bewertung bevor die Standby-Gewichtung korrigiert wird, als das Intentionsverständnisergebnis 13 ausgewählt ist, keine Bestätigung erfolgt, und wenn der Kandidat von Intentionsverständnisergebnis mit der Bewertung, welche niedriger ist als die vorstehende Bewertung, als das Intentionsverständnisergebnis 13 ausgewählt ist, die Bestätigung erfolgt.
  • Hier ist eine Intentionsverständniseinrichtung 40 als ein modifiziertes Beispiel in 21 dargestellt. Die Intentionsverständniseinrichtung 40 umfasst: eine Spracheingabeeinheit 41, welche die von dem Benutzer gesprochene Sprachansage in Signale umwandelt, um diese dadurch als eine Spracheingabe zu akquirieren; einen Intentionsbestätigungsprozessor 42, welcher, wenn der Intentionsverständniskorrektor 12 den Kandidaten von Intentionsverständnisergebnis mit der höchsten Wahrscheinlichkeit ausschließt (nämlich den Kandidaten von Intentionsverständnisergebnis mit der höchsten Bewertung vor dem Korrigieren durch die Standby-Gewichtung) und den Kandidaten von Intentionsverständnisergebnis neben dem ausgeschlossenen Kandidaten als das Intentionsverständnisergebnis auswählt, das Akzeptieren oder Nichtakzeptieren von dem Intentionsverständnisergebnis 13 bestimmt, nachdem die Bestätigung durch den Benutzer erfolgt ist, ob dieses Ergebnis akzeptiert werden soll oder nicht; und eine Sprachausgabeeinheit 43, welche ein Sprachsignal ausgibt, welches durch den Intentionsbestätigungsprozessor 42 generiert und für die Bestätigung des Intentionsverständnisergebnisses verwendet wird. Die Spracheingabeeinheit 41, der Intentionsbestätigungsprozessor 42 und die Sprachausgabeeinheit 43 erfüllen die gleiche Funktion wie die Spracheingabeeinheit 101, die Navigationssteuerung 102 und die Sprachausgabeeinheit 103 gezeigt in 2, und holen die Bestätigung von dem Benutzer ein, ob das Intentionsverständnisergebnis 13 akzeptiert werden soll oder nicht, indem zum Beispiel eine Sprachansage „Routenpunkt 'oo'wird verworfen. In Ordnung?“, wie in 3(b), ausgegeben wird.
  • Es wird darauf hingewiesen, dass das Verfahren zum Einholen der Bestätigung von dem Benutzer auch anders als durch das Ausgeben von einer Sprachansage erfolgen kann, und beispielsweise durch Anzeigen auf einem Bildschirm oder dergleichen erfolgen kann.
  • In den vorstehend erläuterten Ausführungsformen 2 und 3, obwohl die Intentionshierarchie in einer Baumstruktur als der hierarchische Baum 21 exprimiert ist, ist diese ferner nicht zwangsläufig in einer vollständigen Baumstruktur exprimiert, und wenn diese in einer Graphenstruktur ohne Schleifenstruktur exprimiert ist, ist das Verarbeiten ähnlich dem vorangehenden Verfahren ermöglicht.
  • Zudem wird in den vorstehend erläuterten Ausführungsformen 2 und 3 nur eine momentan erfolgende Benutzersprachansage für das Intentionsverständnisverarbeiten eingesetzt; in dem Fall, in welchem die Sprachansage allerdings in der Mitte des hierarchischen Übergangs in dem hierarchischen Baum 21 erfolgt, kann das Intentionsverständnisverarbeiten mittels der Features erfolgen, welche aus mehreren Sprachansagen extrahiert sind, umfassend eine gerade zuvor erfolgte Benutzersprachansage. Dadurch wird es möglich, eine Intention zu schätzen, welche aus Teilinformationen, welche durch mehrere fragmentarische Sprachansagen erhalten wurden, schwer zu schätzen sind.
  • Hier wird eine Erläuterung bereitgestellt, in welcher die Inhalte des in 22 dargestellten Dialogs verwendet werden.
  • In dem Fall von Ausführungsform 2 werden „Ziel, Einstellen“ als Features von der ersten Benutzersprachansage „Stelle ein Ziel ein“ extrahiert. Zudem wird „$Ort$ (= ‚oo‘)“ als ein Feature von der zweiten Sprachansage „oo“ extrahiert. Als das Ergebnis für die zweite Sprachansage wird das Intentionsverständnisverarbeiten für gewöhnlich nur unter Verwendung von „$Ort$ (= ‚oo‘)“ durchgeführt (Schritt ST13 in 13).
  • Dahingegen, wenn berücksichtigt wird, ob sich die Sprachansage in der Mitte des hierarchischen Übergangs befindet oder nicht, da die erste Sprachansage „Stelle ein Ziel ein“ mit dem Knoten #4 in dem hierarchischen Baum 21 übereinstimmt und die zweite Sprachansage wahrscheinlich ist, mit dem Knoten #4 in einer Eltern-Kind-Beziehung zu stehen, wird ein adäquateres Intentionsverständnisergebnis erhalten, in einer solchen Weise, dass das Intentionsverständnisverarbeiten für die zweite Sprachansage mittels den drei Features „Ziel, Einstellen, $Ort$ (= ‚oo‘)“ durchgeführt wird.
  • Zudem ist in den vorstehend beschriebenen Ausführungsformen 1 bis 3 die Navigationseinrichtung 100 in 2 als ein Beispiel von einem Steuerungszielgerät durch die Intentionsverständniseinrichtung angegeben; das Steuerungszielgerät ist allerdings nicht auf ein Navigationsgerät beschränkt. Zudem, obwohl in 2 die Intentionsverständniseinrichtung in dem Steuerungszielgerät aufgenommen ist, kann diese auch extern vorgesehen sein.
  • Es wird darauf hingewiesen, dass neben den vorstehenden Erläuterungen uneingeschränkte Kombinationen von den entsprechenden Ausführungsformen, Modifikationen von beliebigen Konfigurationselementen in den Ausführungsformen und das Weglassen von beliebigen Konfigurationselementen in den Ausführungsformen in der vorliegenden Erfindung innerhalb des Umfangs der Erfindung vorgenommen werden können.
  • Industrielle Verwertbarkeit
  • Wie vorstehend erläutert ist die Intentionsverständniseinrichtung gemäß der Erfindung konfiguriert, die Intention des Benutzers mittels einer Spracheingabe zu schätzen, und ist somit geeignet, als eine sprachgesteuerte Benutzerschnittstelle in einem Kraftfahrzeug-Navigationsgerät oder dergleichen, welches manuell schwer zu betreiben ist, eingesetzt zu werden.
  • Beschreibung der Bezugsziffern und -zeichen
  • 1, 20, 30, 40: Intentionsverständniseinrichtung, 2: Spracheingabe, 3: Spracherkenner, 4: Spracherkennungswörterbuch, 5: morphologischer Analysator, 6: morphologisches Analysewörterbuch, 7: Intentionsverständnisprozessor, 8: Intentionsverständnismodell, 9: Einstellungsinformationen, 10: Einstellungsinformationsspeicher, 11, 22, 33: Gewichtungsrechner, 12: Intentionsverständniskorrektor, 13: Intentionsverständnisergebnis, 21: hierarchischer Baum, 31: Schlüsselworttabelle, 32: Schlüsselwortsuchprozessor, 41, 101: Spracheingabeeinheit, 43, 103; Sprachausgabeeinheit, 42: Intentionsbestätigungsprozessor, 100: Navigationsgerät, 102: Navigationssteuerung

Claims (9)

  1. Intentionsverständniseinrichtung (1, 20, 30, 40), umfassend: einen Spracherkenner (3), welcher eine Sprachansage (2) erkennt, welche von einem Benutzer in natürlicher Sprache gesprochen wird, um dadurch mehrere Spracherkennungsergebnisse von hochrangigen Erkennungsbewertungen zu generieren; einen morphologischen Analysator (5), welcher die entsprechenden Spracherkennungsergebnisse in Morphemketten umwandelt; einen Intentionsverständnisprozessor (7), welcher eine Intention über die Sprachansage (2) des Benutzers auf Grundlage von jeder von den Morphemketten schätzt, um dadurch aus jeder von den Morphemketten einen oder mehrere Intentionsverständnisergebnis-Kandidaten und Bewertungen, welche Grade der Wahrscheinlichkeit von den Kandidaten anzeigen, auszugeben und die Intentionsverständnisergebnis-Kandidaten in absteigender Reihenfolge von Wahrscheinlichkeiten der mehreren Spracherkennungsergebnisse zu generieren; einen Gewichtungsrechner (11, 22, 33), welcher entsprechende Gewichtungen für die Intentionsverständnisergebnis-Kandidaten rechnet; und einen Intentionsverständniskorrektor (12), welcher die Bewertungen von den Intentionsverständnisergebnis-Kandidaten mittels der Gewichtungen korrigiert, um dadurch deren Endbewertungen zu berechnen, und dann den Intentionsverständnisergebnis-Kandidaten mit derjenigen Endbewertung, die als erste einer voreingestellten Bedingung genügt, als das Intentionsverständnisergebnis auswählt.
  2. Intentionsverständniseinrichtung (1, 20, 30, 40) nach Anspruch 1, wobei der Gewichtungsrechner (11, 22, 33) die Gewichtungen mittels Einstellungsinformationen von einem Steuerungszielgerät (100) berechnet, welches auf Grundlage von dem Intentionsverständnisergebnis betrieben wird, welches durch den Intentionsverständniskorrektor (12) ausgewählt wurde.
  3. Intentionsverständniseinrichtung (1, 20, 30, 40) nach Anspruch 2, wobei der Gewichtungsrechner (11, 22, 33) Informationen enthält, in welchen beschränkte Bedingungen und die Gewichtungen definiert sind, welche zu verwenden sind, wenn den entsprechenden beschränkten Bedingungen genügt wird, und bestimmt, ob der beschränkten Bedingung genügt wird oder nicht, auf Grundlage von den Einstellungsinformationen des Steuerungszielgeräts (100), um dadurch jede von den Gewichtungen auszuwählen.
  4. Intentionsverständniseinrichtung (1, 20, 30, 40) nach Anspruch 1, wobei der Gewichtungsrechner (11, 22, 33) eine Gewichtung durchführt, so dass der Intentionsverständnisergebnis-Kandidat, welcher einer Intention entspricht, welche aus einem Dialogfluss mit dem Benutzer erwartet wird, wahrscheinlich durch den Intentionsverständniskorrektor (12) ausgewählt wird.
  5. Intentionsverständniseinrichtung (20, 30) nach Anspruch 4, umfassend einen hierarchischen Baum (21), in welchem Intentionen des Benutzers in einer Baumstruktur so ausgedrückt sind, dass die Intention umso abstrakter wird, je näher die Intention an deren Wurzel liegt, und die Intention umso spezifischer wird, je näher die Intention an deren Blatt liegt, wobei der Gewichtungsrechner (22, 33) die Gewichtung auf Grundlage von dem hierarchischen Baum (21) durchführt, so dass der Intentionsverständnisergebnis-Kandidat, welcher auf einer Seite in Richtung zu einem Zweig oder Blatt platziert ist, von der Intention, welche dem Intentionsverständnisergebnis entspricht, welches gerade zuvor ausgewählt wurde, wahrscheinlich ausgewählt wird.
  6. Intentionsverständniseinrichtung (20, 30) nach Anspruch 5, wobei der Intentionsverständnisprozessor (7) die Intention des Benutzers neben der Morphemkette, welche aus der momentan erfolgenden Sprachansage generiert wird, mittels der Morphemkette schätzt, welche aus einer zuvor erfolgten Sprachansage (2) generiert wurde.
  7. Intentionsverständniseinrichtung (30) nach Anspruch 5, ferner umfassend einen Schlüsselwortsuchprozessor (32), welcher unter Schlüsselwörtern in einer Schlüsselworttabelle (31), in welcher Korrespondenzbeziehungen zwischen Intentionen und den Schlüsselwörtern definiert sind, ein Schlüsselwort sucht, welches mit der Morphemkette zusammenpasst, um dadurch die Intention zu akquirieren, welche dem gesuchten Schlüsselwort entspricht; wobei der Gewichtungsrechner (33) jede von den Gewichtungen mittels des hierarchischen Baums (21) und der Intention berechnet, welche durch den Schlüsselwortsuchprozessor (32) akquiriert wurde.
  8. Intentionsverständniseinrichtung (40) nach Anspruch 1, ferner umfassend einen Intentionsbestätigungsprozessor (42), welcher, wenn der Intentionsverständniskorrektor (12) den Intentionsverständnisergebnis-Kandidaten mit einer höchsten Wahrscheinlichkeit ausschließt und als das Intentionsverständnisergebnis einen Intentionsverständnisergebnis-Kandidaten, der nicht dem ausgeschlossenen Kandidaten entspricht, auswählt, ein Akzeptieren oder Nichtakzeptieren des Intentionsverständnisergebnisses bestimmt, nachdem vom Benutzer die Bestätigung erfolgt ist, ob das Ergebnis akzeptiert werden soll oder nicht.
  9. Intentionsverständnisverfahren, umfassend: Erkennen (ST11) einer Sprachansage (2), welche von einem Benutzer in natürlicher Sprache gesprochen wird, um dadurch mehrere Spracherkennungsergebnisse von hochrangigen Erkennungsbewertungen zu generieren; Umwandeln (ST12) der entsprechenden Spracherkennungsergebnisse in Morphemketten; Schätzen (ST13) einer Intention über die Sprachansage (2) des Benutzers auf Grundlage von jeder von den Morphemketten, um dadurch von jeder von den Morphemketten einen oder mehrere Intentionsverständnisergebnis und Bewertungen, welche Grade der Wahrscheinlichkeiten von den Kandidaten anzeigen, auszugeben Intentionsverständnisergebnis-Kandidaten Intentionsverständnisergebnis-Kandidaten und die in absteigender Reihenfolge von Wahrscheinlichkeiten der mehreren Spracherkennungsergebnisse zu generieren; Berechnen (ST14, ST20, ST31) entsprechender Gewichtungen für die Intentionsverständnisergebnis-Kandidaten und Korrigieren (ST15) der Bewertungen von den Intentionsverständnisergebnis-Kandidaten mittels der Gewichtungen, um dadurch deren Endbewertungen zu berechnen, und dann den Intentionsverständnisergebnis-Kandidaten mit derjenigen Endbewertung, die als erste einer voreingestellten Bedingung genügt, als das Intentionsverständnisergebnis auszuwählen.
DE112014006542.0T 2014-03-31 2014-03-31 Einrichtung und Verfahren zum Verständnis von einer Benutzerintention Active DE112014006542B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/059445 WO2015151157A1 (ja) 2014-03-31 2014-03-31 意図理解装置および方法

Publications (2)

Publication Number Publication Date
DE112014006542T5 DE112014006542T5 (de) 2016-12-15
DE112014006542B4 true DE112014006542B4 (de) 2024-02-08

Family

ID=54239528

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112014006542.0T Active DE112014006542B4 (de) 2014-03-31 2014-03-31 Einrichtung und Verfahren zum Verständnis von einer Benutzerintention

Country Status (5)

Country Link
US (1) US10037758B2 (de)
JP (1) JPWO2015151157A1 (de)
CN (1) CN106663424B (de)
DE (1) DE112014006542B4 (de)
WO (1) WO2015151157A1 (de)

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (de) 2013-02-07 2021-04-21 Apple Inc. Sprachauslöser für digitalen assistent
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
DE102015205044A1 (de) * 2015-03-20 2016-09-22 Bayerische Motoren Werke Aktiengesellschaft Eingabe von Navigationszieldaten in ein Navigationssystem
US10719524B1 (en) 2015-04-15 2020-07-21 Arimo, LLC Query template based architecture for processing natural language queries for data analysis
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
WO2017010506A1 (ja) * 2015-07-13 2017-01-19 帝人株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102267561B1 (ko) * 2016-01-28 2021-06-22 한국전자통신연구원 음성 언어 이해 장치 및 방법
US20190005950A1 (en) * 2016-03-30 2019-01-03 Mitsubishi Electric Corporation Intention estimation device and intention estimation method
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN106251869B (zh) 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置
US10216832B2 (en) 2016-12-19 2019-02-26 Interactions Llc Underspecification of intents in a natural language processing system
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) * 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) * 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) * 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107170446A (zh) * 2017-05-19 2017-09-15 深圳市优必选科技有限公司 语义处理服务器及用于语义处理的方法
CN107240398B (zh) * 2017-07-04 2020-11-17 科大讯飞股份有限公司 智能语音交互方法及装置
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10455322B2 (en) 2017-08-18 2019-10-22 Roku, Inc. Remote control with presence sensor
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US10777197B2 (en) * 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
CN110168535B (zh) * 2017-10-31 2021-07-09 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质
US10733375B2 (en) * 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11379706B2 (en) * 2018-04-13 2022-07-05 International Business Machines Corporation Dispersed batch interaction with a question answering system
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11704533B2 (en) * 2018-05-23 2023-07-18 Ford Global Technologies, Llc Always listening and active voice assistant and vehicle operation
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
CN109634692A (zh) * 2018-10-23 2019-04-16 蔚来汽车有限公司 车载对话系统及用于其的处理方法和系统
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200072907A (ko) * 2018-12-13 2020-06-23 현대자동차주식회사 대화 시스템이 구비된 차량 및 그 제어 방법
CN109710941A (zh) * 2018-12-29 2019-05-03 上海点融信息科技有限责任公司 基于人工智能的用户意图识别方法和装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11715467B2 (en) * 2019-04-17 2023-08-01 Tempus Labs, Inc. Collaborative artificial intelligence method and system
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110472030A (zh) * 2019-08-08 2019-11-19 网易(杭州)网络有限公司 人机交互方法、装置和电子设备
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
KR20210081103A (ko) * 2019-12-23 2021-07-01 엘지전자 주식회사 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법
CN113516491B (zh) * 2020-04-09 2024-04-30 百度在线网络技术(北京)有限公司 推广信息展示方法、装置、电子设备及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111696558A (zh) * 2020-06-24 2020-09-22 深圳壹账通智能科技有限公司 智能外呼方法、装置、计算机设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112002321B (zh) * 2020-08-11 2023-09-19 海信电子科技(武汉)有限公司 显示设备、服务器及语音交互方法
JP2022050011A (ja) * 2020-09-17 2022-03-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN113763947B (zh) * 2021-01-15 2024-04-05 北京沃东天骏信息技术有限公司 一种语音意图识别方法、装置、电子设备及存储介质
CN112417712A (zh) * 2021-01-21 2021-02-26 深圳市友杰智新科技有限公司 目标设备的确定方法、装置、计算机设备和存储介质
JP7420109B2 (ja) * 2021-04-08 2024-01-23 トヨタ自動車株式会社 情報出力システム、サーバ装置および情報出力方法
US11947548B2 (en) * 2021-11-29 2024-04-02 Walmart Apollo, Llc Systems and methods for providing search results based on a primary intent
CN113870842B (zh) * 2021-12-02 2022-03-15 深圳市北科瑞声科技股份有限公司 基于权重调节的语音控制方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055529A1 (en) 2005-08-31 2007-03-08 International Business Machines Corporation Hierarchical methods and apparatus for extracting user intent from spoken utterances
US7228275B1 (en) 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US20120156660A1 (en) 2010-12-16 2012-06-21 Electronics And Telecommunications Research Institute Dialogue method and system for the same
DE102012019178A1 (de) 2011-09-30 2013-04-04 Apple Inc. Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten
US20140025377A1 (en) 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US7751551B2 (en) * 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
CN101331537A (zh) * 2005-12-14 2008-12-24 三菱电机株式会社 声音识别装置
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
JP2008203559A (ja) 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
JP5326549B2 (ja) * 2008-12-22 2013-10-30 日産自動車株式会社 音声認識装置及び方法
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP5710317B2 (ja) * 2011-03-03 2015-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、自然言語解析方法、プログラムおよび記録媒体
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
KR101359718B1 (ko) * 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation
JP5921716B2 (ja) * 2012-11-30 2016-05-24 三菱電機株式会社 意図推定装置および意図推定方法
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
KR102261552B1 (ko) * 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US7228275B1 (en) 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US20070055529A1 (en) 2005-08-31 2007-03-08 International Business Machines Corporation Hierarchical methods and apparatus for extracting user intent from spoken utterances
US20120156660A1 (en) 2010-12-16 2012-06-21 Electronics And Telecommunications Research Institute Dialogue method and system for the same
DE102012019178A1 (de) 2011-09-30 2013-04-04 Apple Inc. Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten
US20140025377A1 (en) 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment

Also Published As

Publication number Publication date
US20170011742A1 (en) 2017-01-12
CN106663424A (zh) 2017-05-10
WO2015151157A1 (ja) 2015-10-08
CN106663424B (zh) 2021-03-05
DE112014006542T5 (de) 2016-12-15
US10037758B2 (en) 2018-07-31
JPWO2015151157A1 (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE112017004374B4 (de) System und Verfahren zur Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE112014002819B4 (de) System und Verfahren zur Erkennung von Sprache
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE60201262T2 (de) Hierarchische sprachmodelle
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)
R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015100000

Ipc: G10L0015240000

R016 Response to examination communication
R018 Grant decision by examination section/examining division