DE102017104094B4 - Sprachverarbeitungssystem und sprachverarbeitungsverfahren - Google Patents

Sprachverarbeitungssystem und sprachverarbeitungsverfahren Download PDF

Info

Publication number
DE102017104094B4
DE102017104094B4 DE102017104094.3A DE102017104094A DE102017104094B4 DE 102017104094 B4 DE102017104094 B4 DE 102017104094B4 DE 102017104094 A DE102017104094 A DE 102017104094A DE 102017104094 B4 DE102017104094 B4 DE 102017104094B4
Authority
DE
Germany
Prior art keywords
word
query
unit
user
instead
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102017104094.3A
Other languages
English (en)
Other versions
DE102017104094A1 (de
Inventor
Sei Kato
Junichi Ito
Takuma MINEMURA
Junya MASUI
Toshiyuki Namba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of DE102017104094A1 publication Critical patent/DE102017104094A1/de
Application granted granted Critical
Publication of DE102017104094B4 publication Critical patent/DE102017104094B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Sprachverarbeitungssystem mit:einer Spracherfassungseinheit (110), die konfiguriert ist zum Erfassen einer Äußerung eines Benutzers;einer Spracherkennungseinheit (210), die konfiguriert ist zum Erkennen eines Inhalts der durch die Spracherfassungseinheit (110) erfassten Äußerung;einer Ausführungseinheit (220), die konfiguriert ist zum Ausführen einer Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit (210); undeiner Bestimmungseinheit (240), die konfiguriert ist zum Bestimmen eines Kandidaten eines Worts zum Ersetzen eines bestimmten Worts, wobeiwenn die Spracherkennungseinheit (210) eine Anfrage erkennt, die ein erstes Wort umfasst,die Ausführungseinheit (220) die Anfrage ausführt, die das erste Wort umfasst, und dem Benutzer ein Verarbeitungsergebnis der Anfrage, die das erste Wort umfasst, bereitstellt, unddie Bestimmungseinheit (240) ein zweites Wort bestimmt, das ein Ersetzungskandidat des ersten Worts ist, und die Ausführungseinheit (220) auch eine Anfrage ausführt, die das zweite Wort anstelle des ersten Worts umfasst, dadurch gekennzeichnet, dassdie Ausführungseinheit (220) ein Verarbeitungsergebnis der Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, in einer Speichereinheit speichert, undwenn die Spracherkennungseinheit (210) die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, nach Erkennung der Anfrage erkennt, die das erste Wort umfasst, die Ausführungseinheit (220) das in der Speichereinheit gespeicherte Verarbeitungsergebnis erfasst und dem Benutzer das Verarbeitungsergebnis bereitstellt.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Sprachverarbeitungssystem/ -verfahren und insbesondere auf ein Sprachverarbeitungssystem/-verfahren, das imstande ist, auf eine Nachfrage von einem Benutzer mit hoher Geschwindigkeit zu reagieren bzw. zu antworten.
  • Beschreibung der verwandten Technik
  • Mit Fortschritten, die in der Spracherkennungstechnik gemacht wurden, gab es eine Zunahme in der Verwendung einer Sprachbenutzerschnittstelle in einem Fahrzeugraum. Andererseits ist ein Fahrzeugraum eine geräuschvolle bzw. verrauschte Umgebung, und ist eine robuste Erkennung in Geräuschen bzw. Rauschen erforderlich. Zusätzlich ist es gewünscht, dass ein System erstellt wird, das darauf basiert, dass Nachfragen mit einer gewissen Häufigkeit auftreten.
  • In diesem Fall bezieht sich eine „Nachfrage“ auf eine Äußerung wie etwa „Was ist mit B anstelle von A?“, die auf eine für A vorgenommene Anfrage folgt. Zum Beispiel entspricht eine Äußerung bzw. Aussage wie etwa „Was ist mit Yokohama anstelle von Shibuya?“ oder „Finde französische Restaurants anstelle von italienischen Restaurants“, die auf eine Anfrage „Finde italienische Restaurants nahe Shibuya“ folgt, einer „Nachfrage“.
  • Die Druckschrift US 7 353 176 B1 , die Druckschrift US 8 036 877 B2 und die Druckschrift US 8 515 752 B1 offenbaren ein Verstehen vom Inhalt einer Nachfrage unter Berücksichtigung von deren Kontext und ein adäquates Verarbeiten der Nachfrage.
  • Die Druckschrift US 7 353 176 B1 , die Druckschrift US 8 036 877 B2 und die Druckschrift US 8 515 752 B1 zielen jedoch hauptsächlich darauf ab, ein Reagieren bzw. Antworten auf Nachfragen möglich zu machen, und sie offenbaren nicht ein Erleichtern einer Verarbeitung einer Nachfrage.
  • Die Druckschrift US 8 538 984 B1 , die den gattungsbildenden Stand der Technik darstellt, offenbart ein gattungsgemäßes Sprachverarbeitungssystem/-verfahren. Insbesondere offenbart die Druckschrift US 8 538 984 B1 eine Technik zum Identifizieren eines bestimmten Abfragebegriffs einer ursprünglichen Suchabfrage, Identifizieren eines Kandidatensynonyms für den bestimmten Abfragebegriff im Kontext mit einem anderen nicht-benachbarten Abfragebegriff der ursprünglichen Suchabfrage, der nicht an den bestimmten Abfragebegriff in der ursprünglichen Suchabfrage angrenzt, Zugreifen auf gespeicherte Daten, die für ein Begriffspaar, das den bestimmten Abfragebegriff und das Kandidatensynonym des bestimmten Abfragebegriffs enthält, einen jeweiligen Konfidenzwert für den anderen nicht-benachbarten Abfragebegriff angeben, Bestimmen, dass in den gespeicherten Daten der Konfidenzwert für den anderen nicht-benachbarten Abfragebegriff einen Schwellenwert erfüllt, und Bestimmen, die ursprüngliche Suchabfrage abzuändern, um das Kandidatensynonym des bestimmten Abfragebegriffs aufzunehmen, basierend auf der Bestimmung, dass der Konfidenzwert des anderen nicht-benachbarten Abfrageterms den Schwellenwert erfüllt.
  • KURZFASSUNG DER ERFINDUNG
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Sprachverarbeitungssystem und -verfahren zu befähigen, mit hoher Geschwindigkeit auf eine Anfrage durch eine Nachfrage zu reagieren bzw. zu antworten.
  • Dazu wird erfindungsgemäß ein Sprachverarbeitungssystem und ein Sprachverarbeitungsverfahren bereitgestellt, wie sie in den Patentansprüchen definiert sind.
  • Ein Sprachverarbeitungssystem gemäß der vorliegenden Offenbarung umfasst: eine Spracherfassungseinheit, die eine Äußerung eines Benutzers erfasst; eine Spracherkennungseinheit, die einen Inhalt der durch die Spracherfassungseinheit erfassten Äußerung erkennt; eine Ausführungseinheit, die eine Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit ausführt; und eine Bestimmungseinheit, die einen Kandidaten eines Worts zum Ersetzen eines bestimmten/gewissen Worts bestimmt. Zusätzlich, wenn die Spracherkennungseinheit eine Anfrage erkennt, die ein erstes Wort umfasst, führt die Ausführungseinheit die Anfrage aus, die das erste Wort umfasst, und stellt sie dem Benutzer ein Verarbeitungsergebnis bereit, bestimmt die Bestimmungseinheit ein zweites Wort, das ein Ersetzungskandidat des ersten Worts ist, und führt die Ausführungseinheit auch eine Anfrage aus, die das zweite Wort anstelle des ersten Worts umfasst, und speichert sie ein Verarbeitungsergebnis in einer Speichereinheit.
  • Bei der vorliegenden Offenbarung erfasst vorteilhafterweise die Ausführungseinheit das in der Speichereinheit gespeicherte Verarbeitungsergebnis, und stellt sie dem Benutzer das Verarbeitungsergebnis bereit, wenn die Spracherkennungseinheit die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, nach Erkennung der Anfrage erkennt, die das erste Wort umfasst.
  • Wie es vorstehend beschrieben ist, kann durch Bestimmung eines Wortpaars als einen Kandidaten einer Nachfrage mit der Bestimmungseinheit, Ausführung einer Verarbeitung in Bezug auf den Kandidaten der Nachfrage im Voraus und Speicherung eines Ergebnisses von dieser eine Verarbeitungszeit, wenn eine Nachfrage tatsächlich erfolgt, die das erste Wort mit dem zweiten Wort ersetzt, verkürzt werden.
  • Bei der vorliegenden Offenbarung kann, nach Erfassung einer Anfrage, die ein bestimmtes/gewisses Wort umfasst, von dem Benutzer, die Bestimmungseinheit die Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle des bestimmten/gewissen Worts umfasst, von dem Benutzer erfasst wurde, für jedes Paar des bestimmten/gewissen Worts und des anderen Worts speichern und ein Wort, von dem die Häufigkeit gleich oder größer einem Schwellenwert ist, unter Wörtern, die jeweils ein Paar mit einem eingegebenen Wort bilden, als einen Ersetzungskandidaten des eingegebenen Worts bestimmen. In diesem Fall kann die „Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde“ als die Häufigkeit bzw. Anzahl interpretiert werden, mit der eine Äußerung bzw. Aussage erfasst wurde, die anweist, dass die Anfrage, die ein anderes Wort anstelle des bestimmten/gewissen Worts umfasst, vorzunehmen ist. Mit anderen Worten speichert die Bestimmungseinheit vorteilhafterweise die Anzahl von Nachfragen wie etwa „Was ist mit B anstelle von A?“, nachdem eine Anfrage für A vorgenommen wurde, mit Bezug auf ein Paar, das durch die Wörter A und B gebildet wird. Außerdem muss die durch die Bestimmungseinheit gespeicherte Anzahl nicht notwendigerweise ausschließlich basierend auf einem Inhalt von tatsächlichen Äußerungen bzw. Aussagen eines Benutzers bestimmt werden, und kann die Anzahl für ein Wortpaar, für das eine hohe Frequenz von Nachfragen erwartet wird, im Voraus groß eingestellt werden/sein.
  • Alternativ kann bei der vorliegenden Offenbarung die Bestimmungseinheit ein bestimmtes/gewisses Wort und einen Ersetzungskandidaten des bestimmten/gewissen Worts in Zusammenhang miteinander speichern und ein in Zusammenhang mit einem eingegebenen Wort gespeichertes Wort als einen Ersetzungskandidaten des eingegebenen Worts bestimmen. Zusätzlich kann die Bestimmungseinheit eine Ähnlichkeit eines Worts basierend auf einem Vokabelwörterbuch bestimmen und ein Wort, das ähnlich zu einem eingegebenen Wort ist, als einen Ersetzungskandidaten bestimmen. Jedenfalls wird ein Ersetzungskandidat vorteilhafterweise bestimmt, indem auch ein Kontext bzw. Sinnzusammenhang in einer Äußerung bzw. Aussage berücksichtigt wird.
  • Zusätzlich bestimmt bei der vorliegenden Offenbarung vorteilhafterweise die Spracherkennungseinheit ein Attribut bzw. eine Eigenschaft des zweiten Worts aus einer Kontextinformation der Anfrage, die das erste Wort umfasst, und erkennt sie das zweite Wort, wenn der Benutzer die Anfrage, die das zweite Wort umfasst, anstelle der Anfrage, die das erste Wort umfasst, nach Vornahme der Anfrage, die das erste Wort umfasst, äußert.
  • Obgleich ein gleiches Wort abhängig von dem Kontext bzw. Sinnzusammenhang unterschiedliche Bedeutungen haben kann, wird angenommen, dass das erste Wort und das zweite Wort ein gleiches Attribut bzw. eine gleiche Eigenschaft aufweisen, wenn eine Anfrage, die das zweite Wort umfasst, anstelle einer Anfrage, die das erste Wort umfasst, geäußert wird. Daher kann ein Attribut bzw. eine Eigenschaft des zweiten Worts akkurat bestimmt werden, und kann das zweite Wort akkurat erkannt werden, indem eine Kontextinformation einer Anfrage, die das erste Wort umfasst, berücksichtigt wird.
  • Gemäß der vorliegenden Erfindung kann ein Sprachverarbeitungssystem mit hoher Geschwindigkeit auf eine Anfrage durch eine Nachfrage reagieren bzw. antworten.
  • Weitere Merkmale der vorliegenden Erfindung werden aus der folgenden Beschreibung von beispielhaften Ausführungsbeispielen unter Bezugnahme auf die beigefügten Zeichnungen deutlich.
  • Figurenliste
    • 1 ist eine Darstellung, die ein Beispiel einer Konfiguration eines Sprachverarbeitungssystems gemäß einem Ausführungsbeispiel zeigt;
    • 2 ist eine Darstellung, die ein Beispiel einer Wortpaar-Speichereinheit gemäß einem Ausführungsbeispiel zeigt;
    • 3 ist ein Ablaufdiagramm, das einen Ablauf eines Sprachverarbeitungsverfahrens gemäß einem Ausführungsbeispiel zeigt; und
    • 4 ist ein Ablaufdiagramm, das einen Ablauf eines Sprachverarbeitungsverfahrens gemäß einem Ausführungsbeispiel zeigt.
  • BESCHREIBUNG DES AUSFÜHRUNGSBEISPIELS
  • Nachstehend wird hierin ein beispielhaftes Ausführungsbeispiel der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen beschrieben. Es ist selbstverständlich, dass die folgende Beschreibung lediglich ein Beispiel der vorliegenden Erfindung darstellt, und dass die vorliegende Erfindung nicht auf das nachstehend beschriebene Ausführungsbeispiel beschränkt ist.
  • < Nachfrage>
  • Bevor ein Sprachverarbeitungssystem gemäß dem vorliegenden Ausführungsbeispiel beschrieben wird, wird eine „Nachfrage“ beschrieben. Es sei eine Situation angenommen, in der ein Inhalt einer Äußerung bzw. Aussage durch einen Benutzer eine gewisse Art von Verarbeitungsanfrage mit Bezug auf das Sprachverarbeitungssystem darstellt. Zum Beispiel sei eine Situation betrachtet, in der eine Anfrage „Finde ein italienisches Restaurant nahe Shibuya“ vorgenommen wird. Wenn der Benutzer nachfolgend eine Anfrage „Finde ein italienisches Restaurant nahe Yokohama“ vornimmt, ist es vorstellbar, dass der Benutzer „Was ist mit Yokohama anstelle von Shibuya?“ äußert. In der vorliegenden Schrift wird eine Äußerung wie etwa „Was ist mit B anstelle von A?“, die nach einer Anfrage oder einer Anweisung gemacht wird, die ein bestimmtes/gewisses Wort A umfasst, wie etwa in dem vorstehend beschriebenen Fall, als eine „Nachfrage“ bezeichnet. In dem vorstehend beschriebenen Beispiel ist zusätzlich zu einer Nachfrage, die das Wort „Shibuya“ ersetzt, eine Nachfrage vorstellbar, die „italienisch“ mit „französisch“ ersetzt. Mit anderen Worten ist die Anzahl von vorstellbaren Mustern bzw. Strukturen von Nachfragen gleich der Anzahl von Wörtern, die in einer gegebenen Anfrage umfasst sind.
  • <Systemkonfiguration>
  • 1 ist eine Darstellung, die eine Systemkonfiguration eines Sprachverarbeitungssystems gemäß dem vorliegenden Ausführungsbeispiel zeigt. Das Sprachverarbeitungssystem gemäß dem vorliegenden Ausführungsbeispiel ist ein System, in dem eine Äußerung durch einen Benutzer in einem Fahrzeug 100 durch einen Sprachverarbeitungsserver 200 erkannt wird, eine Verarbeitung gemäß einem Inhalt der Äußerung ausgeführt wird, und dem Benutzer in dem Fahrzeug 100 ein Verarbeitungsergebnis bereitgestellt wird.
  • Das Fahrzeug 100 ist durch eine Informationsverarbeitungsvorrichtung (einen Computer) ausgebildet, der eine Spracherfassungseinheit 110 und eine Informationsbereitstellungseinheit 120 umfasst. Die Informationsverarbeitungsvorrichtung umfasst eine Rechenvorrichtung, eine Speichervorrichtung, eine Eingabe-/ Ausgabevorrichtung und dergleichen, wodurch die folgenden Funktionen verwirklicht werden, wenn die Rechenvorrichtung ein in der Speichervorrichtung gespeichertes Programm ausführt.
  • Die Spracherfassungseinheit 110 ist durch ein oder eine Vielzahl von Mikrofonen oder Mikrofonfeldern bzw. -gruppen ausgebildet und erfasst durch einen Benutzer erzeugte Sprache. Die durch die Spracherfassungseinheit 110 erfasste Sprache wird durch drahtlose Kommunikation an den Sprachverarbeitungsserver 200 übertragen. Außerdem muss die Spracherfassungseinheit 110 die erfasste Sprache nicht an den Sprachverarbeitungsserver 200 übertragen, wie sie ist, und kann sie ein Merkmalsmaß bzw. einen Merkmalswert der Sprache erfassen und nur das Merkmalsmaß bzw. den Merkmalswert übertragen. Die Informationsbereitstellungseinheit 120 ist eine Vorrichtung, die durch das Fahrzeug 100 verwendet wird, um einem Benutzer Informationen bereitzustellen, die von dem Sprachverarbeitungsserver 200 erfasst werden, und ist durch eine Bildanzeigevorrichtung, eine Sprachausgabevorrichtung oder dergleichen ausgebildet.
  • Der Sprachverarbeitungsserver 200 ist durch eine Informationsverarbeitungsvorrichtung (einen Computer) ausgebildet, die eine Spracherkennungseinheit 210, eine Ausführungseinheit 220, eine Wortpaar-Speichereinheit 230 und eine Bestimmungseinheit 240 umfasst. Die Informationsverarbeitungsvorrichtung umfasst eine Rechenvorrichtung, eine Speichervorrichtung, eine Eingabe-/ Ausgabevorrichtung und dergleichen, wodurch die folgenden Funktionen verwirklicht werden, wenn die Rechenvorrichtung ein in der Speichervorrichtung gespeichertes Programm ausführt.
  • Die Spracherkennungseinheit 210 ist eine Funktionseinheit zum Erkennen von Sprache, die von der Spracherfassungseinheit 110 des Fahrzeugs 100 übertragen wird, und Verstehen eines Inhalts (eines Texts) und einer Bedeutung der Sprache. Die Spracherkennungseinheit 210 führt eine Spracherkennung basierend auf einem Vokabelwörterbuch oder einem Sprachmodell durch. Als ein spezifisches Spracherkennungsverfahren können beliebige bestehende Verfahren verwendet werden. Während die Spracherkennungseinheit 210 in der Zeichnung dahingehend abgebildet ist, dass sie nur Sprache von einem einzigen Fahrzeug 100 erfasst, kann alternativ Sprache von einer großen Anzahl von Fahrzeugen 100, die zu erkennen ist, erfasst werden.
  • Außerdem erkennt die Spracherkennungseinheit 210, wenn eine Äußerung einer Nachfrage erkannt wird, vorteilhafterweise die Äußerung durch Bestimmung eines Attributs oder dergleichen von einem Wort, das in der Nachfrage umfasst ist, gemäß einem Kontext eines Inhalts einer Äußerung vor der Nachfrage. Da ein in einer Nachfrage ersetztes Wort ein Wort ist, das in einem gleichen Kontext verwendet wird, kann ein in einer Nachfrage umfasstes Wort unter Verwendung einer Kontextinformation akkurater erkannt werden.
  • Die Ausführungseinheit 220 ist eine Funktionseinheit, die eine Verarbeitung gemäß einem Ergebnis einer Spracherkennung durch die Spracherkennungseinheit 210 ausführt. Zum Beispiel, wenn eine Äußerung durch den Benutzer eine Anfrage zum Erfassen von Informationen ist, die vorgeschriebene Bedingungen erfüllen, erfasst die Ausführungseinheit 220 Informationen, die die Bedingungen erfüllen, von einem Beschaffungs- bzw. Abrufserver 300, und überträgt sie die Informationen an das Fahrzeug 100.
  • Wenn eine Anfrage von dem Benutzer empfangen wird, schätzt die Ausführungseinheit 220 eine angenommene bzw. vermutete Nachfrage, führt sie eine Verarbeitung gemäß einer Anfrage der geschätzten Nachfrage aus, und speichert sie ein Verarbeitungsergebnis in einer (nicht gezeigten) Speichereinheit. Mit anderen Worten holt die Ausführungseinheit 220 vorab ein Ergebnis einer Anfrage der geschätzten Nachfrage ein. Zusätzlich, wenn eine Nachfrage tatsächlich von dem Benutzer empfangen wird, wird, wenn ein Ergebnis von dieser bereits vorab eingeholt ist, das Ergebnis an das Fahrzeug 100 übertragen. Außerdem, wenn eine Nachfrage erfolgt, zeichnet die Ausführungseinheit 220 in der Wortpaar-Speichereinheit 230 auf, welches Wort durch welches Wort ersetzt wurde. Einzelheiten der Verarbeitung werden nachstehend beschrieben.
  • Die Wortpaar-Speichereinheit 230 speichert die Auftrittsanzahl bzw. Häufigkeit eines Paars, das durch ein Wort vor Ersetzung und ein Wort nach Ersetzung in einer Nachfrage gebildet wird. 2 ist eine Darstellung, die eine Tabellenkonfiguration der Wortpaar-Speichereinheit 230 zeigt. Die Wortpaar-Speichereinheit 230 speichert ein Wort vor Ersetzung 231, ein Wort nach Ersetzung 232, eine Kontextinformation 233 und eine Auftrittsanzahl 234. Das Wort vor Ersetzung 231 ist ein Wort, bevor es in einer Nachfrage ersetzt ist, und das Wort nach Ersetzung 232 ist ein Wort, nachdem es in der Nachfrage ersetzt ist. Eine Kontextinformation 233 bezieht sich auf eine Information zum Spezifizieren eines Kontexts in einer Äußerung. Die Auftrittsanzahl 234 stellt die Anzahl bzw. Häufigkeit eines Auftretens einer Nachfrage dar, in der das Wort vor Ersetzung 231 durch das Wort nach Ersetzung 232 in dem durch die Kontextinformation 233 spezifizierten Kontext ersetzt wurde.
  • Außerdem muss die Auftrittsanzahl in der Wortpaar-Speichereinheit 230 nicht ausschließlich basierend auf Nachfragen bestimmt werden, die tatsächlich erfolgt sind. Zum Beispiel, wenn eine Nachfrage „Was ist mit B anstelle von A?“ erfolgt, nachdem eine Anfrage „Finde A“ vorgenommen ist, wird die Auftrittsanzahl einer Nachfrage inkrementiert, die das Wort A mit dem Wort B ersetzt. Dadurch kann die Auftrittsanzahl einer Nachfrage, die das Wort B mit dem Wort A ersetzt, inkrementiert werden. Zusätzlich, wenn eine Nachfrage „Was ist mit C?“ nachfolgend vorgenommen wird, wird die Auftrittsanzahl einer Nachfrage inkrementiert, die das Wort A mit dem Wort C ersetzt. An diesem Punkt können, neben einer Nachfrage, die das Wort A mit dem Wort C ersetzt, die Auftrittshäufigkeit einer Nachfrage, die das Wort B mit dem Wort C ersetzt, die Auftrittsanzahl einer Nachfrage, die das Wort C mit dem Wort A ersetzt, und die Auftrittsanzahl einer Nachfrage, die das Wort C mit dem Wort B ersetzt, inkrementiert werden. Dies ist deshalb so, da es, wenn eine Nachfrage erfolgt, vorstellbar ist, dass Wörter, die Objekte der Nachfrage sind, wechselseitig ersetzbar sind.
  • Die Bestimmungseinheit 240 ist eine Funktionseinheit, die, wenn eine Äußerung durch den Benutzer erfasst wird, eine Nachfrage der Äußerung durch den Benutzer schätzt. Die Bestimmungseinheit 240 schätzt, welches Wort durch welches Wort in der Nachfrage zu ersetzen ist, indem sie auf die Wortpaar-Speichereinheit 230 Bezug nimmt. Im Speziellen bezieht sich die Bestimmungseinheit 240 auf die Wortpaar-Speichereinheit 230, und schätzt sie, dass ein Wortpaar, das in einer Äußerung des Benutzers umfasst ist, und von dem die Auftrittsanzahl in dem Kontext der Äußerung gleich oder größer einem Schwellenwert ist, ein Wortpaar ist, das in einer Nachfrage ersetzt wird. Wenn es eine Vielzahl von Wortpaaren gibt, von denen die Auftrittsanzahl gleich oder größer dem Schwellenwert ist, kann die Bestimmungseinheit 240 alle solche Wortpaare auswählen. Alternativ kann nur eine vorgeschriebene Anzahl von hochrangigen Wortpaaren ausgewählt werden.
  • <Inhalt von Verarbeitung>
  • Unter Bezugnahme auf 3 und 4 wird zunächst eine Verarbeitung in dem Sprachverarbeitungssystem gemäß dem vorliegenden Ausführungsbeispiel beschrieben. Zunächst, in Schritt S102, erfasst die Spracherfassungseinheit 110 eine Äußerung eines Benutzers, und überträgt sie die Äußerung an die Spracherkennungseinheit 210, und erkennt die Spracherkennungseinheit 210 einen Inhalt der Äußerung. In diesem Fall wird angenommen, dass eine Äußerung „Finde eine Route von A nach C“ von dem Benutzer empfangen wurde. In Wirklichkeit sind A und C spezifische Ortsnamen, Geschäftsnamen oder dergleichen. Zusätzlich wird diese Äußerung in der folgenden Beschreibung als {A, C} ausgedrückt.
  • In Schritt S104 speichert die Spracherkennungseinheit 210 vorübergehend eine Kontextinformation und ein Gebiet von jedem Wort, das erhalten wird, wenn die Äußerung {A, C} erkannt wird.
  • In Schritt S106 führt die Ausführungseinheit 220 eine der Äußerung {A, C} entsprechende Verarbeitung aus, und überträgt sie ein Ergebnis von dieser an das Fahrzeug 100. Im Speziellen gibt die Ausführungseinheit 220 eine Anforderung zum Erhalten einer Route von A nach C mit Bezug auf den Beschaffungs- bzw. Abrufserver 300 ab, und erfasst sie ein Ergebnis von dieser. Nachfolgend überträgt die Ausführungseinheit 220 ein von dem Beschaffungs- bzw. Abrufserver 300 erhaltenes Verarbeitungsergebnis an das Fahrzeug 100. An dem Fahrzeug 100 stellt die Informationsbereitstellungseinheit 120 dem Benutzer das Verarbeitungsergebnis bereit.
  • In Schritt S108 bestimmt die Bestimmungseinheit 240 ein Kandidatenwort in einer Nachfrage, das mit Bezug auf die Äußerung {A, C} angenommen bzw. vermutet wird. Zum Beispiel wird ein Satz bzw. eine Menge von Kandidaten {Bi} von Wörtern zum Ersetzen des Worts A in der Äußerung {A, C} bestimmt. Im Speziellen bezieht sich die Bestimmungseinheit 240 auf die Wortpaar-Speichereinheit 230, und bestimmt sie, als Kandidatenwort, ein Wort nach Ersetzung, von dem ein Wort vor Ersetzung das Wort A ist, und das in einem Datensatz umfasst ist, von dem eine Kontextinformation mit der (bereits in S104 gespeicherten) Kontextinformation der Äußerung {A, C} übereinstimmt bzw. zusammenpasst. Während hier nur Kandidatenwörter zum Ersetzen des Worts A beschrieben werden, werden vorteilhafterweise auch Kandidatenwörter zum Ersetzen des Worts C in ähnlicher Weise bestimmt.
  • In Schritt S110 führt die Ausführungseinheit 220, für jeden von dem Satz bzw. der Menge von Kandidaten {Bi} von Wörtern zum Ersetzen des Worts A, eine einem Inhalt einer Äußerung {Bi, C} entsprechende Verarbeitung oder, mit anderen Worten, eine Verarbeitung „Finden einer Route von Bi nach C“ durch, und speichert sie ein Ergebnis von dieser in der Speichervorrichtung. Das Finden der Route kann, in ähnlicher Weise zu Schritt S102, durch Abgeben einer Anforderung an den Beschaffungs- bzw. Abrufserver 300 durchgeführt werden.
  • In Schritt S112 wird eine Äußerung einer Nachfrage von dem Benutzer erfasst, und wird ein Inhalt von dieser erkannt. Es wird ein Fall einer Nachfrage „Was ist mit einer Route von B1 anstelle von A?“ durch den Benutzer angenommen bzw. vermutet. Eine solche Nachfrage wird in der folgenden Beschreibung als (A, B1) ausgedrückt. Wenn das Wort B1 erkannt wird, bestimmt die Spracherkennungseinheit 210 eine Attributinformation des Worts B1 unter Berücksichtigung von einer Kontextinformation und Gebieten der Äußerung {A, C}, die in Schritt S104 gespeichert wurden. Zum Beispiel, während das Wort B1 eine Vielzahl von Bedeutungen haben kann, wie etwa einen Ortsnamen und einen Geschäftsnamen, kann die Spracherkennungseinheit 210 die Kontextinformation und dergleichen von der Äußerung {A, C} berücksichtigen und bestimmen, dass das Wort B1 in der Nachfrage (A, B1) einen Ortsnamen darstellt.
  • In Schritt S114 aktualisiert der Sprachverarbeitungsserver 200 die Wortpaar-Speichereinheit 230. Im Speziellen wird die Auftrittsanzahl eines Datensatzes, in dem das Wort vor Ersetzung „A“ ist, das Wort nach Ersetzung „B1“ ist und eine Kontextinformation die Kontextinformation der Äußerung {A, C} ist, um 1 inkrementiert. Wenn ein solcher Datensatz nicht existiert, kann der Datensatz neu erzeugt werden, und kann die Auftrittsanzahl des Datensatzes auf 1 eingestellt werden. An diesem Punkt kann die Auftrittsanzahl eines Datensatzes, in dem das Wort vor Ersetzung „B1“ ist und das Wort nach Ersetzung „A“ ist, um 1 inkrementiert werden. Dies ist deshalb so, da es vorstellbar ist, dass ein nachzufragendes Wortpaar in beide Richtungen ersetz- bzw. austauschbar ist.
  • In Schritt S116 bestimmt die Ausführungseinheit 220, ob ein Verarbeitungsergebnis von {B1, C} oder, mit anderen Worten, „Finde eine Route von B1 nach C“ bereits gespeichert (vorab eingeholt) wurde oder nicht. Wenn dies der Fall ist, erfasst die Ausführungseinheit 220 ein Ergebnis von dieser von der Speichereinheit, und überträgt sie das Ergebnis an das Fahrzeug 100. Wenn dies nicht der Fall ist, wird die Verarbeitung von {B1, C} ausgeführt, und wird ein Verarbeitungsergebnis von dieser an das Fahrzeug 100 übertragen. An dem Fahrzeug 100 stellt die Informationsbereitstellungseinheit 120 dem Benutzer das Verarbeitungsergebnis bereit.
  • <Vorteilhafte Wirkungen der vorliegenden Erfindung>
  • Gemäß der vorliegenden Erfindung wird, wenn eine Anfrage per Sprache von einem Benutzer empfangen wird, ein Auftreten einer Nachfrage antizipiert bzw. vorausgesehen, und wird eine Verarbeitung gemäß der antizipierten bzw. vorausgesehenen Nachfrage im Voraus ausgeführt und ein Ergebnis der Verarbeitung vorab eingeholt. Daher kann, wenn die Nachfrage tatsächlich erfolgt, ein Ergebnis ohne Durchführung einer Verarbeitung unverzüglich zurückgesendet werden. Wie bei dem vorliegenden Ausführungsbeispiel kann, obgleich ein Durchführen einer Verarbeitung durch Abgeben einer Anforderung an einen externen Server etwa mehrere Sekunden dauert, eine Verarbeitungszeit durch Voreinholung auf weniger als eine Sekunde reduziert werden. Mit anderen Worten kann die Geschwindigkeit einer Reaktion bzw. Antwort auf eine Nachfrage erhöht werden.
  • Zusätzlich kann, da ein Wort, das ein Objekt einer Nachfrage ist, basierend auf der Anzahl bzw. Häufigkeit von Nachfragen bestimmt wird, die tatsächlich erfolgt sind, eine Schätzgenauigkeit erhöht werden. Wenn der Sprachverarbeitungsserver 200 Sprache von einer Vielzahl von Fahrzeugen 100 kollektiv verarbeitet, wie es bei dem vorliegenden Ausführungsbeispiel der Fall ist, kann eine Schätzung mit höherer Genauigkeit durchgeführt werden, da eine Historie von einer größeren Anzahl bzw. Häufigkeit von Nachfragen gespeichert werden kann.
  • Außerdem kann, wenn eine Nachfrage erfolgt, eine Spracherkennung mit hoher Genauigkeit durchgeführt werden, da eine Attributinformation von in der Nachfrage umfassten Wörtern unter Verwendung von einer Kontextinformation und Gebieten einer Äußerung vor der Nachfrage erkannt wird. Während erfasste Sprache in einem Fahrzeug aufgrund des Einflusses von Fahrbahngeräuschen bzw. -rauschen und dergleichen undeutlich werden kann, ermöglicht eine derartige Verwendung von einer Kontextinformation, dass eine Spracherkennung mit hoher Genauigkeit auch in einem Fahrzeug durchgeführt wird.
  • <Abwandlungen>
  • Während bei dem vorstehend beschriebenen Ausführungsbeispiel ein Wort, das ein Objekt einer Nachfrage ist, basierend auf der Anzahl bzw. Häufigkeit von Nachfragen geschätzt wird, die tatsächlich erfolgt sind, ist ein Verfahren zum Schätzen eines Worts, das ein Objekt einer Nachfrage ist, nicht darauf beschränkt. Zum Beispiel kann die Bestimmungseinheit 240 konfiguriert sein, ein Vokabelwörterbuch zu umfassen, und ein Wort, von dem ein Ähnlichkeitsgrad mit einem Wort, das in einer Äußerung vor der Nachfrage umfasst ist, in dem Kontext der Äußerung, gleich oder höher einem Schwellenwert ist, als ein Wort zu schätzen, das ein Objekt einer Nachfrage ist.
  • Zusätzlich ist es auch vorteilhaft, auf eine Historie von einem Benutzer abzuheben, der die Äußerung vornimmt, wenn ein Wort geschätzt wird, das ein Objekt einer Nachfrage ist. Während in der vorstehend gegebenen Beschreibung der Sprachverarbeitungsserver 200 die Auftrittsanzahl von Nachfragen, die von verschiedenen Fahrzeugen (Benutzern) erhalten werden, in der Wortpaar-Speichereinheit 230 speichert, kann der Sprachverarbeitungsserver 200 die Anzahl bzw. Häufigkeit von Nachfragen für jeden Benutzer zählen und eine Nachfrage gemäß der Anzahl bzw. Häufigkeit von Nachfragen von jedem Benutzer schätzen. Dementsprechend kann eine Schätzung durchgeführt werden, die Besonderheiten/Kennzeichen bzw. Charakteristika von jedem Benutzer widerspiegelt.
  • Während bei dem vorstehend beschriebenen Ausführungsbeispiel eine Verwendung in einem Fahrzeug des Sprachverarbeitungssystems gemäß der vorliegenden Erfindung angenommen wird, sind Szenarien, in denen das Sprachverarbeitungssystem verwendet wird, nicht auf das Innere eines Fahrzeugs beschränkt, und kann das Sprachverarbeitungssystem in jeder beliebigen Umgebung verwendet werden. Zusätzlich kann, während ein sogenanntes zentrumsartiges bzw. zentrales Sprachverarbeitungssystem, in dem eine Spracherfassungseinheit (ein Mikrofon) in einem Fahrzeug bereitgestellt ist und eine Spracherkennungseinheit sowie eine Ausführungseinheit in einem Server bereitgestellt sind, als Beispiel beschrieben wurde, die vorliegende Erfindung als eine Ausführungsform, in der alle diese Funktionen in einer einzelnen Vorrichtung umfasst sind, oder durch eine Konfiguration, in der Funktionen in einer anderen Art und Weise als vorstehend beschrieben verteilt sind, implementiert werden.
  • Es ist ein Sprachverarbeitungssystem bereitgestellt, mit: einer Spracherfassungseinheit, die eine Äußerung eines Benutzers erfasst; einer Spracherkennungseinheit, die einen Inhalt der durch die Spracherfassungseinheit erfassten Äußerung erkennt; einer Ausführungseinheit, die eine Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit ausführt; und einer Bestimmungseinheit, die einen Kandidaten eines Worts zum Ersetzen eines bestimmten Worts bestimmt, wobei, wenn die Spracherkennungseinheit eine Anfrage erkennt, die ein erstes Wort umfasst, die Ausführungseinheit die Anfrage ausführt, die das erste Wort umfasst, und dem Benutzer ein Verarbeitungsergebnis bereitstellt, die Bestimmungseinheit ein zweites Wort bestimmt, das ein Ersetzungskandidat des ersten Worts ist, und die Ausführungseinheit auch eine Anfrage ausführt, die das zweite Wort anstelle des ersten Worts umfasst, und ein Verarbeitungsergebnis in einer Speichereinheit speichert.

Claims (11)

  1. Sprachverarbeitungssystem mit: einer Spracherfassungseinheit (110), die konfiguriert ist zum Erfassen einer Äußerung eines Benutzers; einer Spracherkennungseinheit (210), die konfiguriert ist zum Erkennen eines Inhalts der durch die Spracherfassungseinheit (110) erfassten Äußerung; einer Ausführungseinheit (220), die konfiguriert ist zum Ausführen einer Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit (210); und einer Bestimmungseinheit (240), die konfiguriert ist zum Bestimmen eines Kandidaten eines Worts zum Ersetzen eines bestimmten Worts, wobei wenn die Spracherkennungseinheit (210) eine Anfrage erkennt, die ein erstes Wort umfasst, die Ausführungseinheit (220) die Anfrage ausführt, die das erste Wort umfasst, und dem Benutzer ein Verarbeitungsergebnis der Anfrage, die das erste Wort umfasst, bereitstellt, und die Bestimmungseinheit (240) ein zweites Wort bestimmt, das ein Ersetzungskandidat des ersten Worts ist, und die Ausführungseinheit (220) auch eine Anfrage ausführt, die das zweite Wort anstelle des ersten Worts umfasst, dadurch gekennzeichnet, dass die Ausführungseinheit (220) ein Verarbeitungsergebnis der Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, in einer Speichereinheit speichert, und wenn die Spracherkennungseinheit (210) die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, nach Erkennung der Anfrage erkennt, die das erste Wort umfasst, die Ausführungseinheit (220) das in der Speichereinheit gespeicherte Verarbeitungsergebnis erfasst und dem Benutzer das Verarbeitungsergebnis bereitstellt.
  2. Sprachverarbeitungssystem gemäß Anspruch 1, wobei nach Erfassung einer Anfrage, die ein bestimmtes Wort umfasst, von dem Benutzer, die Bestimmungseinheit (240) die Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde, für jedes Paar des bestimmten Worts und des anderen Worts speichert und ein Wort, von dem die Häufigkeit gleich oder größer einem Schwellenwert ist, unter Wörtern, die jeweils ein Paar mit einem eingegebenen Wort bilden, als einen Ersetzungskandidaten des eingegebenen Worts bestimmt.
  3. Sprachverarbeitungssystem gemäß Anspruch 2, wobei die Häufigkeit, mit der die Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde, die Häufigkeit umfasst, mit der eine Äußerung erfasst wurde, die anweist, dass die Anfrage, die das andere Wort anstelle des bestimmten Worts umfasst, vorzunehmen ist.
  4. Sprachverarbeitungssystem gemäß Anspruch 1, wobei die Bestimmungseinheit (240) ein bestimmtes Wort und einen Ersetzungskandidaten des bestimmten Worts in Zusammenhang miteinander speichert und ein in Zusammenhang mit einem eingegebenen Wort gespeichertes Wort als einen Ersetzungskandidaten des eingegebenen Worts bestimmt.
  5. Sprachverarbeitungssystem gemäß einem der Ansprüche 1 bis 4, wobei wenn der Benutzer die das zweite Wort umfassende Anfrage anstelle der das erste Wort umfassenden Anfrage nach Vornahme der das erste Wort umfassenden Anfrage äußert, die Spracherkennungseinheit (210) ein Attribut des zweiten Worts aus einer Kontextinformation der das erste Wort umfassenden Anfrage bestimmt und das zweite Wort erkennt.
  6. Sprachverarbeitungsverfahren, mit: einem Spracherfassungsschritt (S102) des Erfassens einer Äußerung eines Benutzers; einem Spracherkennungsschritt (S102) des Erkennens eines Inhalts der in dem Spracherfassungsschritt erfassten Äußerung; einem Verarbeitungsausführungsschritt (S106) des Ausführens einer Verarbeitung basierend auf einem Ergebnis des Spracherkennungsschritts; und einem Ersetzungskandidatenwortbestimmungsschritt (S108) des Bestimmens eines Kandidaten eines Worts zum Ersetzen eines bestimmten Worts, wobei wenn in dem Spracherkennungsschritt (S102) eine Anfrage, die ein erstes Wort umfasst, erkannt wird, die Anfrage, die das erste Wort umfasst, ausgeführt wird, und dem Benutzer ein Verarbeitungsergebnis der Anfrage, die das erste Wort umfasst, bereitgestellt wird (S106), und ein zweites Wort, das ein Ersetzungskandidat des ersten Worts ist, bestimmt wird, und eine Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, auch ausgeführt wird (S110), dadurch gekennzeichnet, dass ein Verarbeitungsergebnis der Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, gespeichert wird (S110), und wenn die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, erkannt wird, nachdem die Anfrage, die das erste Wort umfasst, erkannt wird, in dem Verarbeitungsausführungsschritt (S110) das gespeicherte Verarbeitungsergebnis erfasst wird und dem Benutzer das Verarbeitungsergebnis bereitgestellt wird.
  7. Sprachverarbeitungsverfahren gemäß Anspruch 6, zusätzlich mit einem Schritt des Speicherns der Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle eines bestimmten Worts umfasst, von dem Benutzer erfasst wurde, für jedes Paar des bestimmten Worts und des anderen Worts in einer Tabelle, nach Erfassung einer Anforderung, die das bestimmte Wort umfasst, von dem Benutzer, wobei in dem Ersetzungskandidatenwortbestimmungsschritt (S108) ein Wort, von dem die Häufigkeit gleich oder größer einem Schwellenwert ist, unter Wörtern, die jeweils ein Paar mit einem eingegebenen Wort bilden, als ein Ersetzungskandidat des eingegebenen Worts bestimmt wird, indem auf die Tabelle Bezug genommen wird.
  8. Sprachverarbeitungsverfahren gemäß Anspruch 7, wobei die Häufigkeit, mit der die Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde, die Häufigkeit umfasst, mit der eine Äußerung erfasst wurde, die anweist, dass die Anfrage, die das andere Wort anstelle des bestimmten Worts umfasst, vorzunehmen ist.
  9. Sprachverarbeitungsverfahren gemäß Anspruch 6, zusätzlich mit einem Schritt des Speicherns eines bestimmten Worts und eines Ersetzungskandidaten des bestimmten Worts in Zusammenhang miteinander im Voraus, wobei in dem Ersetzungskandidatenwortbestimmungsschritt (S108) ein in Zusammenhang mit einem eingegebenen Wort gespeichertes Wort als ein Ersetzungskandidat des eingegebenen Worts bestimmt wird.
  10. Sprachverarbeitungsverfahren gemäß einem der Ansprüche 6 bis 9, wobei wenn der Benutzer die das zweite Wort umfassende Anfrage anstelle der das erste Wort umfassenden Anfrage nach Vornahme der das erste Wort umfassenden Anfrage äußert, in dem Spracherkennungsschritt (S102) ein Attribut des zweiten Worts aus einer Kontextinformation der das erste Wort umfassenden Anfrage bestimmt wird und das zweite Wort erkannt wird.
  11. Programm, das einen Computer veranlasst zum Ausführen der jeweiligen Schritte des Verfahrens gemäß einem der Ansprüche 6 bis 10.
DE102017104094.3A 2016-03-08 2017-02-28 Sprachverarbeitungssystem und sprachverarbeitungsverfahren Expired - Fee Related DE102017104094B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016044653A JP6481643B2 (ja) 2016-03-08 2016-03-08 音声処理システムおよび音声処理方法
JP2016-044653 2016-03-08

Publications (2)

Publication Number Publication Date
DE102017104094A1 DE102017104094A1 (de) 2017-09-14
DE102017104094B4 true DE102017104094B4 (de) 2021-02-25

Family

ID=59700728

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017104094.3A Expired - Fee Related DE102017104094B4 (de) 2016-03-08 2017-02-28 Sprachverarbeitungssystem und sprachverarbeitungsverfahren

Country Status (4)

Country Link
US (1) US10629197B2 (de)
JP (1) JP6481643B2 (de)
CN (1) CN107170447B (de)
DE (1) DE102017104094B4 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110088927B (zh) 2016-12-14 2021-04-20 Agc株式会社 电荷传输层及有机光电子元件
JP7059813B2 (ja) * 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7192561B2 (ja) 2019-02-20 2022-12-20 トヨタ自動車株式会社 音声出力装置および音声出力方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036877B2 (en) * 2001-12-20 2011-10-11 Sybase, Inc. Context-based suggestions mechanism and adaptive push mechanism for natural language systems
US8538984B1 (en) * 2012-04-03 2013-09-17 Google Inc. Synonym identification based on co-occurring terms

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1317750B1 (de) * 2000-09-08 2007-06-06 Koninklijke Philips Electronics N.V. Spracherkennungsverfahren mit ersetzungsbefehl
US7275033B1 (en) * 2000-09-30 2007-09-25 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
JP2002207761A (ja) * 2001-01-10 2002-07-26 Just Syst Corp 検索装置、検索方法、プログラム、ならびに、記録媒体
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
US7353176B1 (en) 2001-12-20 2008-04-01 Ianywhere Solutions, Inc. Actuation system for an agent oriented architecture
US20030233230A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for representing and resolving ambiguity in spoken dialogue systems
US7054818B2 (en) * 2003-01-14 2006-05-30 V-Enablo, Inc. Multi-modal information retrieval system
JP2007272463A (ja) 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
JP2008022493A (ja) * 2006-07-14 2008-01-31 Fujitsu Ltd 受付支援システムとそのプログラム
JP4967519B2 (ja) * 2006-08-11 2012-07-04 日産自動車株式会社 音声認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US20080134038A1 (en) * 2006-12-05 2008-06-05 Electronics And Telecommunications Research Interactive information providing service method and apparatus
US7720721B1 (en) * 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
CN101295293B (zh) * 2007-04-29 2010-06-02 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8046220B2 (en) * 2007-11-28 2011-10-25 Nuance Communications, Inc. Systems and methods to index and search voice sites
JP2009237786A (ja) * 2008-03-26 2009-10-15 Brother Ind Ltd 情報提示装置及びコンピュータプログラム、並びに情報提示方法
US8090738B2 (en) * 2008-05-14 2012-01-03 Microsoft Corporation Multi-modal search wildcards
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
JP5315289B2 (ja) * 2010-04-12 2013-10-16 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法
US9098569B1 (en) * 2010-12-10 2015-08-04 Amazon Technologies, Inc. Generating suggested search queries
US9129606B2 (en) * 2011-09-23 2015-09-08 Microsoft Technology Licensing, Llc User query history expansion for improving language model adaptation
US8762389B1 (en) * 2012-02-02 2014-06-24 Google Inc. Synonym identification based on search quality
WO2013146736A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 同義関係判定装置、同義関係判定方法、及びそのプログラム
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
JP5948192B2 (ja) * 2012-09-10 2016-07-06 富士通テン株式会社 施設検索装置、施設検索方法、ナビゲーション装置
US9092509B2 (en) * 2012-11-19 2015-07-28 Microsoft Technology Licensing, Llc Search query user interface
JP2014109897A (ja) * 2012-11-30 2014-06-12 Toshiba Corp 情報処理装置およびコンテンツ検索方法
JP6223739B2 (ja) * 2013-07-24 2017-11-01 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150161198A1 (en) * 2013-12-05 2015-06-11 Sony Corporation Computer ecosystem with automatically curated content using searchable hierarchical tags
JP6543460B2 (ja) * 2013-12-18 2019-07-10 ハーマン インターナショナル インダストリーズ インコーポレイテッド 音声認識問い合わせ応答システム
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
JP6357055B2 (ja) 2014-08-26 2018-07-11 ダイハツ工業株式会社 内燃機関のシール構造
US10614799B2 (en) * 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10339165B2 (en) * 2015-02-27 2019-07-02 Walmart Apollo, Llc System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10133821B2 (en) * 2016-01-06 2018-11-20 Google Llc Search result prefetching of voice queries
JP7059813B2 (ja) * 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036877B2 (en) * 2001-12-20 2011-10-11 Sybase, Inc. Context-based suggestions mechanism and adaptive push mechanism for natural language systems
US8538984B1 (en) * 2012-04-03 2013-09-17 Google Inc. Synonym identification based on co-occurring terms

Also Published As

Publication number Publication date
CN107170447B (zh) 2021-01-05
JP2017161644A (ja) 2017-09-14
US10629197B2 (en) 2020-04-21
US20170263250A1 (en) 2017-09-14
JP6481643B2 (ja) 2019-03-13
DE102017104094A1 (de) 2017-09-14
CN107170447A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60316912T2 (de) Verfahren zur Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE202016008203U1 (de) Spracherkennungssystem
DE112017004374T5 (de) System und Verfahren zur Spracherkennung
DE102013212215A1 (de) System und Verfahren zum Feststellen von Fachkenntnissen durch Sprachanalyse
DE202016008230U1 (de) Sprachwiedererkennung mit externen Datenquellen
DE112013006770B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE102012224488A1 (de) System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch
DE102017104094B4 (de) Sprachverarbeitungssystem und sprachverarbeitungsverfahren
DE69819438T2 (de) Verfahren zur Spracherkennung
DE102005029869A1 (de) Verfahren und Vorrichtung zur Anruflenkung für natürliche Sprache unter Verwendung von Vertrauenswertungen
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE102006055864A1 (de) Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
DE102012214196A1 (de) Erkennen nicht eindeutiger Namen in einer Gruppe von Namen
DE102015121098A1 (de) Multimodale Antwort auf eine Multimodale Suche
DE112016006549T5 (de) Antworterzeugungsvorrichtung, dialogsteuersystem und antworterzeugungsverfahren
DE102013224331A1 (de) System und Verfahren zur Bereitstellung prädiktiver Anfragen
DE202017106609U1 (de) Kontextuelles Eindeutigmachen von Anfragen
DE102014113817A1 (de) Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
DE202016008204U1 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee