DE102017104094B4

DE102017104094B4 - Sprachverarbeitungssystem und sprachverarbeitungsverfahren

Info

Publication number: DE102017104094B4
Application number: DE102017104094.3A
Authority: DE
Inventors: Sei Kato; Junichi Ito; Takuma MINEMURA; Junya MASUI; Toshiyuki Namba
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-03-08
Filing date: 2017-02-28
Publication date: 2021-02-25
Anticipated expiration: 2037-03-01
Also published as: CN107170447B; JP2017161644A; US10629197B2; US20170263250A1; JP6481643B2; DE102017104094A1; CN107170447A

Abstract

Sprachverarbeitungssystem mit:einer Spracherfassungseinheit (110), die konfiguriert ist zum Erfassen einer Äußerung eines Benutzers;einer Spracherkennungseinheit (210), die konfiguriert ist zum Erkennen eines Inhalts der durch die Spracherfassungseinheit (110) erfassten Äußerung;einer Ausführungseinheit (220), die konfiguriert ist zum Ausführen einer Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit (210); undeiner Bestimmungseinheit (240), die konfiguriert ist zum Bestimmen eines Kandidaten eines Worts zum Ersetzen eines bestimmten Worts, wobeiwenn die Spracherkennungseinheit (210) eine Anfrage erkennt, die ein erstes Wort umfasst,die Ausführungseinheit (220) die Anfrage ausführt, die das erste Wort umfasst, und dem Benutzer ein Verarbeitungsergebnis der Anfrage, die das erste Wort umfasst, bereitstellt, unddie Bestimmungseinheit (240) ein zweites Wort bestimmt, das ein Ersetzungskandidat des ersten Worts ist, und die Ausführungseinheit (220) auch eine Anfrage ausführt, die das zweite Wort anstelle des ersten Worts umfasst, dadurch gekennzeichnet, dassdie Ausführungseinheit (220) ein Verarbeitungsergebnis der Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, in einer Speichereinheit speichert, undwenn die Spracherkennungseinheit (210) die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, nach Erkennung der Anfrage erkennt, die das erste Wort umfasst, die Ausführungseinheit (220) das in der Speichereinheit gespeicherte Verarbeitungsergebnis erfasst und dem Benutzer das Verarbeitungsergebnis bereitstellt.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Sprachverarbeitungssystem/ -verfahren und insbesondere auf ein Sprachverarbeitungssystem/-verfahren, das imstande ist, auf eine Nachfrage von einem Benutzer mit hoher Geschwindigkeit zu reagieren bzw. zu antworten.
Beschreibung der verwandten Technik
Mit Fortschritten, die in der Spracherkennungstechnik gemacht wurden, gab es eine Zunahme in der Verwendung einer Sprachbenutzerschnittstelle in einem Fahrzeugraum. Andererseits ist ein Fahrzeugraum eine geräuschvolle bzw. verrauschte Umgebung, und ist eine robuste Erkennung in Geräuschen bzw. Rauschen erforderlich. Zusätzlich ist es gewünscht, dass ein System erstellt wird, das darauf basiert, dass Nachfragen mit einer gewissen Häufigkeit auftreten.
In diesem Fall bezieht sich eine „Nachfrage“ auf eine Äußerung wie etwa „Was ist mit B anstelle von A?“, die auf eine für A vorgenommene Anfrage folgt. Zum Beispiel entspricht eine Äußerung bzw. Aussage wie etwa „Was ist mit Yokohama anstelle von Shibuya?“ oder „Finde französische Restaurants anstelle von italienischen Restaurants“, die auf eine Anfrage „Finde italienische Restaurants nahe Shibuya“ folgt, einer „Nachfrage“.
Die Druckschrift US 7 353 176 B1 , die Druckschrift US 8 036 877 B2 und die Druckschrift US 8 515 752 B1 offenbaren ein Verstehen vom Inhalt einer Nachfrage unter Berücksichtigung von deren Kontext und ein adäquates Verarbeiten der Nachfrage.
Die Druckschrift US 7 353 176 B1 , die Druckschrift US 8 036 877 B2 und die Druckschrift US 8 515 752 B1 zielen jedoch hauptsächlich darauf ab, ein Reagieren bzw. Antworten auf Nachfragen möglich zu machen, und sie offenbaren nicht ein Erleichtern einer Verarbeitung einer Nachfrage.
Die Druckschrift US 8 538 984 B1 , die den gattungsbildenden Stand der Technik darstellt, offenbart ein gattungsgemäßes Sprachverarbeitungssystem/-verfahren. Insbesondere offenbart die Druckschrift US 8 538 984 B1 eine Technik zum Identifizieren eines bestimmten Abfragebegriffs einer ursprünglichen Suchabfrage, Identifizieren eines Kandidatensynonyms für den bestimmten Abfragebegriff im Kontext mit einem anderen nicht-benachbarten Abfragebegriff der ursprünglichen Suchabfrage, der nicht an den bestimmten Abfragebegriff in der ursprünglichen Suchabfrage angrenzt, Zugreifen auf gespeicherte Daten, die für ein Begriffspaar, das den bestimmten Abfragebegriff und das Kandidatensynonym des bestimmten Abfragebegriffs enthält, einen jeweiligen Konfidenzwert für den anderen nicht-benachbarten Abfragebegriff angeben, Bestimmen, dass in den gespeicherten Daten der Konfidenzwert für den anderen nicht-benachbarten Abfragebegriff einen Schwellenwert erfüllt, und Bestimmen, die ursprüngliche Suchabfrage abzuändern, um das Kandidatensynonym des bestimmten Abfragebegriffs aufzunehmen, basierend auf der Bestimmung, dass der Konfidenzwert des anderen nicht-benachbarten Abfrageterms den Schwellenwert erfüllt.
KURZFASSUNG DER ERFINDUNG
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Sprachverarbeitungssystem und -verfahren zu befähigen, mit hoher Geschwindigkeit auf eine Anfrage durch eine Nachfrage zu reagieren bzw. zu antworten.
Dazu wird erfindungsgemäß ein Sprachverarbeitungssystem und ein Sprachverarbeitungsverfahren bereitgestellt, wie sie in den Patentansprüchen definiert sind.
Ein Sprachverarbeitungssystem gemäß der vorliegenden Offenbarung umfasst: eine Spracherfassungseinheit, die eine Äußerung eines Benutzers erfasst; eine Spracherkennungseinheit, die einen Inhalt der durch die Spracherfassungseinheit erfassten Äußerung erkennt; eine Ausführungseinheit, die eine Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit ausführt; und eine Bestimmungseinheit, die einen Kandidaten eines Worts zum Ersetzen eines bestimmten/gewissen Worts bestimmt. Zusätzlich, wenn die Spracherkennungseinheit eine Anfrage erkennt, die ein erstes Wort umfasst, führt die Ausführungseinheit die Anfrage aus, die das erste Wort umfasst, und stellt sie dem Benutzer ein Verarbeitungsergebnis bereit, bestimmt die Bestimmungseinheit ein zweites Wort, das ein Ersetzungskandidat des ersten Worts ist, und führt die Ausführungseinheit auch eine Anfrage aus, die das zweite Wort anstelle des ersten Worts umfasst, und speichert sie ein Verarbeitungsergebnis in einer Speichereinheit.
Bei der vorliegenden Offenbarung erfasst vorteilhafterweise die Ausführungseinheit das in der Speichereinheit gespeicherte Verarbeitungsergebnis, und stellt sie dem Benutzer das Verarbeitungsergebnis bereit, wenn die Spracherkennungseinheit die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, nach Erkennung der Anfrage erkennt, die das erste Wort umfasst.
Wie es vorstehend beschrieben ist, kann durch Bestimmung eines Wortpaars als einen Kandidaten einer Nachfrage mit der Bestimmungseinheit, Ausführung einer Verarbeitung in Bezug auf den Kandidaten der Nachfrage im Voraus und Speicherung eines Ergebnisses von dieser eine Verarbeitungszeit, wenn eine Nachfrage tatsächlich erfolgt, die das erste Wort mit dem zweiten Wort ersetzt, verkürzt werden.
Bei der vorliegenden Offenbarung kann, nach Erfassung einer Anfrage, die ein bestimmtes/gewisses Wort umfasst, von dem Benutzer, die Bestimmungseinheit die Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle des bestimmten/gewissen Worts umfasst, von dem Benutzer erfasst wurde, für jedes Paar des bestimmten/gewissen Worts und des anderen Worts speichern und ein Wort, von dem die Häufigkeit gleich oder größer einem Schwellenwert ist, unter Wörtern, die jeweils ein Paar mit einem eingegebenen Wort bilden, als einen Ersetzungskandidaten des eingegebenen Worts bestimmen. In diesem Fall kann die „Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde“ als die Häufigkeit bzw. Anzahl interpretiert werden, mit der eine Äußerung bzw. Aussage erfasst wurde, die anweist, dass die Anfrage, die ein anderes Wort anstelle des bestimmten/gewissen Worts umfasst, vorzunehmen ist. Mit anderen Worten speichert die Bestimmungseinheit vorteilhafterweise die Anzahl von Nachfragen wie etwa „Was ist mit B anstelle von A?“, nachdem eine Anfrage für A vorgenommen wurde, mit Bezug auf ein Paar, das durch die Wörter A und B gebildet wird. Außerdem muss die durch die Bestimmungseinheit gespeicherte Anzahl nicht notwendigerweise ausschließlich basierend auf einem Inhalt von tatsächlichen Äußerungen bzw. Aussagen eines Benutzers bestimmt werden, und kann die Anzahl für ein Wortpaar, für das eine hohe Frequenz von Nachfragen erwartet wird, im Voraus groß eingestellt werden/sein.
Alternativ kann bei der vorliegenden Offenbarung die Bestimmungseinheit ein bestimmtes/gewisses Wort und einen Ersetzungskandidaten des bestimmten/gewissen Worts in Zusammenhang miteinander speichern und ein in Zusammenhang mit einem eingegebenen Wort gespeichertes Wort als einen Ersetzungskandidaten des eingegebenen Worts bestimmen. Zusätzlich kann die Bestimmungseinheit eine Ähnlichkeit eines Worts basierend auf einem Vokabelwörterbuch bestimmen und ein Wort, das ähnlich zu einem eingegebenen Wort ist, als einen Ersetzungskandidaten bestimmen. Jedenfalls wird ein Ersetzungskandidat vorteilhafterweise bestimmt, indem auch ein Kontext bzw. Sinnzusammenhang in einer Äußerung bzw. Aussage berücksichtigt wird.
Zusätzlich bestimmt bei der vorliegenden Offenbarung vorteilhafterweise die Spracherkennungseinheit ein Attribut bzw. eine Eigenschaft des zweiten Worts aus einer Kontextinformation der Anfrage, die das erste Wort umfasst, und erkennt sie das zweite Wort, wenn der Benutzer die Anfrage, die das zweite Wort umfasst, anstelle der Anfrage, die das erste Wort umfasst, nach Vornahme der Anfrage, die das erste Wort umfasst, äußert.
Obgleich ein gleiches Wort abhängig von dem Kontext bzw. Sinnzusammenhang unterschiedliche Bedeutungen haben kann, wird angenommen, dass das erste Wort und das zweite Wort ein gleiches Attribut bzw. eine gleiche Eigenschaft aufweisen, wenn eine Anfrage, die das zweite Wort umfasst, anstelle einer Anfrage, die das erste Wort umfasst, geäußert wird. Daher kann ein Attribut bzw. eine Eigenschaft des zweiten Worts akkurat bestimmt werden, und kann das zweite Wort akkurat erkannt werden, indem eine Kontextinformation einer Anfrage, die das erste Wort umfasst, berücksichtigt wird.
Gemäß der vorliegenden Erfindung kann ein Sprachverarbeitungssystem mit hoher Geschwindigkeit auf eine Anfrage durch eine Nachfrage reagieren bzw. antworten.
Weitere Merkmale der vorliegenden Erfindung werden aus der folgenden Beschreibung von beispielhaften Ausführungsbeispielen unter Bezugnahme auf die beigefügten Zeichnungen deutlich.
Figurenliste

1 ist eine Darstellung, die ein Beispiel einer Konfiguration eines Sprachverarbeitungssystems gemäß einem Ausführungsbeispiel zeigt;
2 ist eine Darstellung, die ein Beispiel einer Wortpaar-Speichereinheit gemäß einem Ausführungsbeispiel zeigt;
3 ist ein Ablaufdiagramm, das einen Ablauf eines Sprachverarbeitungsverfahrens gemäß einem Ausführungsbeispiel zeigt; und
4 ist ein Ablaufdiagramm, das einen Ablauf eines Sprachverarbeitungsverfahrens gemäß einem Ausführungsbeispiel zeigt.

BESCHREIBUNG DES AUSFÜHRUNGSBEISPIELS
Nachstehend wird hierin ein beispielhaftes Ausführungsbeispiel der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen beschrieben. Es ist selbstverständlich, dass die folgende Beschreibung lediglich ein Beispiel der vorliegenden Erfindung darstellt, und dass die vorliegende Erfindung nicht auf das nachstehend beschriebene Ausführungsbeispiel beschränkt ist.
< Nachfrage>
Bevor ein Sprachverarbeitungssystem gemäß dem vorliegenden Ausführungsbeispiel beschrieben wird, wird eine „Nachfrage“ beschrieben. Es sei eine Situation angenommen, in der ein Inhalt einer Äußerung bzw. Aussage durch einen Benutzer eine gewisse Art von Verarbeitungsanfrage mit Bezug auf das Sprachverarbeitungssystem darstellt. Zum Beispiel sei eine Situation betrachtet, in der eine Anfrage „Finde ein italienisches Restaurant nahe Shibuya“ vorgenommen wird. Wenn der Benutzer nachfolgend eine Anfrage „Finde ein italienisches Restaurant nahe Yokohama“ vornimmt, ist es vorstellbar, dass der Benutzer „Was ist mit Yokohama anstelle von Shibuya?“ äußert. In der vorliegenden Schrift wird eine Äußerung wie etwa „Was ist mit B anstelle von A?“, die nach einer Anfrage oder einer Anweisung gemacht wird, die ein bestimmtes/gewisses Wort A umfasst, wie etwa in dem vorstehend beschriebenen Fall, als eine „Nachfrage“ bezeichnet. In dem vorstehend beschriebenen Beispiel ist zusätzlich zu einer Nachfrage, die das Wort „Shibuya“ ersetzt, eine Nachfrage vorstellbar, die „italienisch“ mit „französisch“ ersetzt. Mit anderen Worten ist die Anzahl von vorstellbaren Mustern bzw. Strukturen von Nachfragen gleich der Anzahl von Wörtern, die in einer gegebenen Anfrage umfasst sind.
<Systemkonfiguration>
1 ist eine Darstellung, die eine Systemkonfiguration eines Sprachverarbeitungssystems gemäß dem vorliegenden Ausführungsbeispiel zeigt. Das Sprachverarbeitungssystem gemäß dem vorliegenden Ausführungsbeispiel ist ein System, in dem eine Äußerung durch einen Benutzer in einem Fahrzeug 100 durch einen Sprachverarbeitungsserver 200 erkannt wird, eine Verarbeitung gemäß einem Inhalt der Äußerung ausgeführt wird, und dem Benutzer in dem Fahrzeug 100 ein Verarbeitungsergebnis bereitgestellt wird.
Das Fahrzeug 100 ist durch eine Informationsverarbeitungsvorrichtung (einen Computer) ausgebildet, der eine Spracherfassungseinheit 110 und eine Informationsbereitstellungseinheit 120 umfasst. Die Informationsverarbeitungsvorrichtung umfasst eine Rechenvorrichtung, eine Speichervorrichtung, eine Eingabe-/ Ausgabevorrichtung und dergleichen, wodurch die folgenden Funktionen verwirklicht werden, wenn die Rechenvorrichtung ein in der Speichervorrichtung gespeichertes Programm ausführt.
Die Spracherfassungseinheit 110 ist durch ein oder eine Vielzahl von Mikrofonen oder Mikrofonfeldern bzw. -gruppen ausgebildet und erfasst durch einen Benutzer erzeugte Sprache. Die durch die Spracherfassungseinheit 110 erfasste Sprache wird durch drahtlose Kommunikation an den Sprachverarbeitungsserver 200 übertragen. Außerdem muss die Spracherfassungseinheit 110 die erfasste Sprache nicht an den Sprachverarbeitungsserver 200 übertragen, wie sie ist, und kann sie ein Merkmalsmaß bzw. einen Merkmalswert der Sprache erfassen und nur das Merkmalsmaß bzw. den Merkmalswert übertragen. Die Informationsbereitstellungseinheit 120 ist eine Vorrichtung, die durch das Fahrzeug 100 verwendet wird, um einem Benutzer Informationen bereitzustellen, die von dem Sprachverarbeitungsserver 200 erfasst werden, und ist durch eine Bildanzeigevorrichtung, eine Sprachausgabevorrichtung oder dergleichen ausgebildet.
Der Sprachverarbeitungsserver 200 ist durch eine Informationsverarbeitungsvorrichtung (einen Computer) ausgebildet, die eine Spracherkennungseinheit 210, eine Ausführungseinheit 220, eine Wortpaar-Speichereinheit 230 und eine Bestimmungseinheit 240 umfasst. Die Informationsverarbeitungsvorrichtung umfasst eine Rechenvorrichtung, eine Speichervorrichtung, eine Eingabe-/ Ausgabevorrichtung und dergleichen, wodurch die folgenden Funktionen verwirklicht werden, wenn die Rechenvorrichtung ein in der Speichervorrichtung gespeichertes Programm ausführt.
Die Spracherkennungseinheit 210 ist eine Funktionseinheit zum Erkennen von Sprache, die von der Spracherfassungseinheit 110 des Fahrzeugs 100 übertragen wird, und Verstehen eines Inhalts (eines Texts) und einer Bedeutung der Sprache. Die Spracherkennungseinheit 210 führt eine Spracherkennung basierend auf einem Vokabelwörterbuch oder einem Sprachmodell durch. Als ein spezifisches Spracherkennungsverfahren können beliebige bestehende Verfahren verwendet werden. Während die Spracherkennungseinheit 210 in der Zeichnung dahingehend abgebildet ist, dass sie nur Sprache von einem einzigen Fahrzeug 100 erfasst, kann alternativ Sprache von einer großen Anzahl von Fahrzeugen 100, die zu erkennen ist, erfasst werden.
Außerdem erkennt die Spracherkennungseinheit 210, wenn eine Äußerung einer Nachfrage erkannt wird, vorteilhafterweise die Äußerung durch Bestimmung eines Attributs oder dergleichen von einem Wort, das in der Nachfrage umfasst ist, gemäß einem Kontext eines Inhalts einer Äußerung vor der Nachfrage. Da ein in einer Nachfrage ersetztes Wort ein Wort ist, das in einem gleichen Kontext verwendet wird, kann ein in einer Nachfrage umfasstes Wort unter Verwendung einer Kontextinformation akkurater erkannt werden.
Die Ausführungseinheit 220 ist eine Funktionseinheit, die eine Verarbeitung gemäß einem Ergebnis einer Spracherkennung durch die Spracherkennungseinheit 210 ausführt. Zum Beispiel, wenn eine Äußerung durch den Benutzer eine Anfrage zum Erfassen von Informationen ist, die vorgeschriebene Bedingungen erfüllen, erfasst die Ausführungseinheit 220 Informationen, die die Bedingungen erfüllen, von einem Beschaffungs- bzw. Abrufserver 300, und überträgt sie die Informationen an das Fahrzeug 100.
Wenn eine Anfrage von dem Benutzer empfangen wird, schätzt die Ausführungseinheit 220 eine angenommene bzw. vermutete Nachfrage, führt sie eine Verarbeitung gemäß einer Anfrage der geschätzten Nachfrage aus, und speichert sie ein Verarbeitungsergebnis in einer (nicht gezeigten) Speichereinheit. Mit anderen Worten holt die Ausführungseinheit 220 vorab ein Ergebnis einer Anfrage der geschätzten Nachfrage ein. Zusätzlich, wenn eine Nachfrage tatsächlich von dem Benutzer empfangen wird, wird, wenn ein Ergebnis von dieser bereits vorab eingeholt ist, das Ergebnis an das Fahrzeug 100 übertragen. Außerdem, wenn eine Nachfrage erfolgt, zeichnet die Ausführungseinheit 220 in der Wortpaar-Speichereinheit 230 auf, welches Wort durch welches Wort ersetzt wurde. Einzelheiten der Verarbeitung werden nachstehend beschrieben.
Die Wortpaar-Speichereinheit 230 speichert die Auftrittsanzahl bzw. Häufigkeit eines Paars, das durch ein Wort vor Ersetzung und ein Wort nach Ersetzung in einer Nachfrage gebildet wird. 2 ist eine Darstellung, die eine Tabellenkonfiguration der Wortpaar-Speichereinheit 230 zeigt. Die Wortpaar-Speichereinheit 230 speichert ein Wort vor Ersetzung 231, ein Wort nach Ersetzung 232, eine Kontextinformation 233 und eine Auftrittsanzahl 234. Das Wort vor Ersetzung 231 ist ein Wort, bevor es in einer Nachfrage ersetzt ist, und das Wort nach Ersetzung 232 ist ein Wort, nachdem es in der Nachfrage ersetzt ist. Eine Kontextinformation 233 bezieht sich auf eine Information zum Spezifizieren eines Kontexts in einer Äußerung. Die Auftrittsanzahl 234 stellt die Anzahl bzw. Häufigkeit eines Auftretens einer Nachfrage dar, in der das Wort vor Ersetzung 231 durch das Wort nach Ersetzung 232 in dem durch die Kontextinformation 233 spezifizierten Kontext ersetzt wurde.
Außerdem muss die Auftrittsanzahl in der Wortpaar-Speichereinheit 230 nicht ausschließlich basierend auf Nachfragen bestimmt werden, die tatsächlich erfolgt sind. Zum Beispiel, wenn eine Nachfrage „Was ist mit B anstelle von A?“ erfolgt, nachdem eine Anfrage „Finde A“ vorgenommen ist, wird die Auftrittsanzahl einer Nachfrage inkrementiert, die das Wort A mit dem Wort B ersetzt. Dadurch kann die Auftrittsanzahl einer Nachfrage, die das Wort B mit dem Wort A ersetzt, inkrementiert werden. Zusätzlich, wenn eine Nachfrage „Was ist mit C?“ nachfolgend vorgenommen wird, wird die Auftrittsanzahl einer Nachfrage inkrementiert, die das Wort A mit dem Wort C ersetzt. An diesem Punkt können, neben einer Nachfrage, die das Wort A mit dem Wort C ersetzt, die Auftrittshäufigkeit einer Nachfrage, die das Wort B mit dem Wort C ersetzt, die Auftrittsanzahl einer Nachfrage, die das Wort C mit dem Wort A ersetzt, und die Auftrittsanzahl einer Nachfrage, die das Wort C mit dem Wort B ersetzt, inkrementiert werden. Dies ist deshalb so, da es, wenn eine Nachfrage erfolgt, vorstellbar ist, dass Wörter, die Objekte der Nachfrage sind, wechselseitig ersetzbar sind.
Die Bestimmungseinheit 240 ist eine Funktionseinheit, die, wenn eine Äußerung durch den Benutzer erfasst wird, eine Nachfrage der Äußerung durch den Benutzer schätzt. Die Bestimmungseinheit 240 schätzt, welches Wort durch welches Wort in der Nachfrage zu ersetzen ist, indem sie auf die Wortpaar-Speichereinheit 230 Bezug nimmt. Im Speziellen bezieht sich die Bestimmungseinheit 240 auf die Wortpaar-Speichereinheit 230, und schätzt sie, dass ein Wortpaar, das in einer Äußerung des Benutzers umfasst ist, und von dem die Auftrittsanzahl in dem Kontext der Äußerung gleich oder größer einem Schwellenwert ist, ein Wortpaar ist, das in einer Nachfrage ersetzt wird. Wenn es eine Vielzahl von Wortpaaren gibt, von denen die Auftrittsanzahl gleich oder größer dem Schwellenwert ist, kann die Bestimmungseinheit 240 alle solche Wortpaare auswählen. Alternativ kann nur eine vorgeschriebene Anzahl von hochrangigen Wortpaaren ausgewählt werden.
<Inhalt von Verarbeitung>
Unter Bezugnahme auf 3 und 4 wird zunächst eine Verarbeitung in dem Sprachverarbeitungssystem gemäß dem vorliegenden Ausführungsbeispiel beschrieben. Zunächst, in Schritt S102, erfasst die Spracherfassungseinheit 110 eine Äußerung eines Benutzers, und überträgt sie die Äußerung an die Spracherkennungseinheit 210, und erkennt die Spracherkennungseinheit 210 einen Inhalt der Äußerung. In diesem Fall wird angenommen, dass eine Äußerung „Finde eine Route von A nach C“ von dem Benutzer empfangen wurde. In Wirklichkeit sind A und C spezifische Ortsnamen, Geschäftsnamen oder dergleichen. Zusätzlich wird diese Äußerung in der folgenden Beschreibung als {A, C} ausgedrückt.
In Schritt S104 speichert die Spracherkennungseinheit 210 vorübergehend eine Kontextinformation und ein Gebiet von jedem Wort, das erhalten wird, wenn die Äußerung {A, C} erkannt wird.
In Schritt S106 führt die Ausführungseinheit 220 eine der Äußerung {A, C} entsprechende Verarbeitung aus, und überträgt sie ein Ergebnis von dieser an das Fahrzeug 100. Im Speziellen gibt die Ausführungseinheit 220 eine Anforderung zum Erhalten einer Route von A nach C mit Bezug auf den Beschaffungs- bzw. Abrufserver 300 ab, und erfasst sie ein Ergebnis von dieser. Nachfolgend überträgt die Ausführungseinheit 220 ein von dem Beschaffungs- bzw. Abrufserver 300 erhaltenes Verarbeitungsergebnis an das Fahrzeug 100. An dem Fahrzeug 100 stellt die Informationsbereitstellungseinheit 120 dem Benutzer das Verarbeitungsergebnis bereit.
In Schritt S108 bestimmt die Bestimmungseinheit 240 ein Kandidatenwort in einer Nachfrage, das mit Bezug auf die Äußerung {A, C} angenommen bzw. vermutet wird. Zum Beispiel wird ein Satz bzw. eine Menge von Kandidaten {Bi} von Wörtern zum Ersetzen des Worts A in der Äußerung {A, C} bestimmt. Im Speziellen bezieht sich die Bestimmungseinheit 240 auf die Wortpaar-Speichereinheit 230, und bestimmt sie, als Kandidatenwort, ein Wort nach Ersetzung, von dem ein Wort vor Ersetzung das Wort A ist, und das in einem Datensatz umfasst ist, von dem eine Kontextinformation mit der (bereits in S104 gespeicherten) Kontextinformation der Äußerung {A, C} übereinstimmt bzw. zusammenpasst. Während hier nur Kandidatenwörter zum Ersetzen des Worts A beschrieben werden, werden vorteilhafterweise auch Kandidatenwörter zum Ersetzen des Worts C in ähnlicher Weise bestimmt.
In Schritt S110 führt die Ausführungseinheit 220, für jeden von dem Satz bzw. der Menge von Kandidaten {Bi} von Wörtern zum Ersetzen des Worts A, eine einem Inhalt einer Äußerung {Bi, C} entsprechende Verarbeitung oder, mit anderen Worten, eine Verarbeitung „Finden einer Route von Bi nach C“ durch, und speichert sie ein Ergebnis von dieser in der Speichervorrichtung. Das Finden der Route kann, in ähnlicher Weise zu Schritt S102, durch Abgeben einer Anforderung an den Beschaffungs- bzw. Abrufserver 300 durchgeführt werden.
In Schritt S112 wird eine Äußerung einer Nachfrage von dem Benutzer erfasst, und wird ein Inhalt von dieser erkannt. Es wird ein Fall einer Nachfrage „Was ist mit einer Route von B1 anstelle von A?“ durch den Benutzer angenommen bzw. vermutet. Eine solche Nachfrage wird in der folgenden Beschreibung als (A, B1) ausgedrückt. Wenn das Wort B1 erkannt wird, bestimmt die Spracherkennungseinheit 210 eine Attributinformation des Worts B1 unter Berücksichtigung von einer Kontextinformation und Gebieten der Äußerung {A, C}, die in Schritt S104 gespeichert wurden. Zum Beispiel, während das Wort B1 eine Vielzahl von Bedeutungen haben kann, wie etwa einen Ortsnamen und einen Geschäftsnamen, kann die Spracherkennungseinheit 210 die Kontextinformation und dergleichen von der Äußerung {A, C} berücksichtigen und bestimmen, dass das Wort B1 in der Nachfrage (A, B1) einen Ortsnamen darstellt.
In Schritt S114 aktualisiert der Sprachverarbeitungsserver 200 die Wortpaar-Speichereinheit 230. Im Speziellen wird die Auftrittsanzahl eines Datensatzes, in dem das Wort vor Ersetzung „A“ ist, das Wort nach Ersetzung „B1“ ist und eine Kontextinformation die Kontextinformation der Äußerung {A, C} ist, um 1 inkrementiert. Wenn ein solcher Datensatz nicht existiert, kann der Datensatz neu erzeugt werden, und kann die Auftrittsanzahl des Datensatzes auf 1 eingestellt werden. An diesem Punkt kann die Auftrittsanzahl eines Datensatzes, in dem das Wort vor Ersetzung „B1“ ist und das Wort nach Ersetzung „A“ ist, um 1 inkrementiert werden. Dies ist deshalb so, da es vorstellbar ist, dass ein nachzufragendes Wortpaar in beide Richtungen ersetz- bzw. austauschbar ist.
In Schritt S116 bestimmt die Ausführungseinheit 220, ob ein Verarbeitungsergebnis von {B1, C} oder, mit anderen Worten, „Finde eine Route von B1 nach C“ bereits gespeichert (vorab eingeholt) wurde oder nicht. Wenn dies der Fall ist, erfasst die Ausführungseinheit 220 ein Ergebnis von dieser von der Speichereinheit, und überträgt sie das Ergebnis an das Fahrzeug 100. Wenn dies nicht der Fall ist, wird die Verarbeitung von {B1, C} ausgeführt, und wird ein Verarbeitungsergebnis von dieser an das Fahrzeug 100 übertragen. An dem Fahrzeug 100 stellt die Informationsbereitstellungseinheit 120 dem Benutzer das Verarbeitungsergebnis bereit.
<Vorteilhafte Wirkungen der vorliegenden Erfindung>
Gemäß der vorliegenden Erfindung wird, wenn eine Anfrage per Sprache von einem Benutzer empfangen wird, ein Auftreten einer Nachfrage antizipiert bzw. vorausgesehen, und wird eine Verarbeitung gemäß der antizipierten bzw. vorausgesehenen Nachfrage im Voraus ausgeführt und ein Ergebnis der Verarbeitung vorab eingeholt. Daher kann, wenn die Nachfrage tatsächlich erfolgt, ein Ergebnis ohne Durchführung einer Verarbeitung unverzüglich zurückgesendet werden. Wie bei dem vorliegenden Ausführungsbeispiel kann, obgleich ein Durchführen einer Verarbeitung durch Abgeben einer Anforderung an einen externen Server etwa mehrere Sekunden dauert, eine Verarbeitungszeit durch Voreinholung auf weniger als eine Sekunde reduziert werden. Mit anderen Worten kann die Geschwindigkeit einer Reaktion bzw. Antwort auf eine Nachfrage erhöht werden.
Zusätzlich kann, da ein Wort, das ein Objekt einer Nachfrage ist, basierend auf der Anzahl bzw. Häufigkeit von Nachfragen bestimmt wird, die tatsächlich erfolgt sind, eine Schätzgenauigkeit erhöht werden. Wenn der Sprachverarbeitungsserver 200 Sprache von einer Vielzahl von Fahrzeugen 100 kollektiv verarbeitet, wie es bei dem vorliegenden Ausführungsbeispiel der Fall ist, kann eine Schätzung mit höherer Genauigkeit durchgeführt werden, da eine Historie von einer größeren Anzahl bzw. Häufigkeit von Nachfragen gespeichert werden kann.
Außerdem kann, wenn eine Nachfrage erfolgt, eine Spracherkennung mit hoher Genauigkeit durchgeführt werden, da eine Attributinformation von in der Nachfrage umfassten Wörtern unter Verwendung von einer Kontextinformation und Gebieten einer Äußerung vor der Nachfrage erkannt wird. Während erfasste Sprache in einem Fahrzeug aufgrund des Einflusses von Fahrbahngeräuschen bzw. -rauschen und dergleichen undeutlich werden kann, ermöglicht eine derartige Verwendung von einer Kontextinformation, dass eine Spracherkennung mit hoher Genauigkeit auch in einem Fahrzeug durchgeführt wird.
<Abwandlungen>
Während bei dem vorstehend beschriebenen Ausführungsbeispiel ein Wort, das ein Objekt einer Nachfrage ist, basierend auf der Anzahl bzw. Häufigkeit von Nachfragen geschätzt wird, die tatsächlich erfolgt sind, ist ein Verfahren zum Schätzen eines Worts, das ein Objekt einer Nachfrage ist, nicht darauf beschränkt. Zum Beispiel kann die Bestimmungseinheit 240 konfiguriert sein, ein Vokabelwörterbuch zu umfassen, und ein Wort, von dem ein Ähnlichkeitsgrad mit einem Wort, das in einer Äußerung vor der Nachfrage umfasst ist, in dem Kontext der Äußerung, gleich oder höher einem Schwellenwert ist, als ein Wort zu schätzen, das ein Objekt einer Nachfrage ist.
Zusätzlich ist es auch vorteilhaft, auf eine Historie von einem Benutzer abzuheben, der die Äußerung vornimmt, wenn ein Wort geschätzt wird, das ein Objekt einer Nachfrage ist. Während in der vorstehend gegebenen Beschreibung der Sprachverarbeitungsserver 200 die Auftrittsanzahl von Nachfragen, die von verschiedenen Fahrzeugen (Benutzern) erhalten werden, in der Wortpaar-Speichereinheit 230 speichert, kann der Sprachverarbeitungsserver 200 die Anzahl bzw. Häufigkeit von Nachfragen für jeden Benutzer zählen und eine Nachfrage gemäß der Anzahl bzw. Häufigkeit von Nachfragen von jedem Benutzer schätzen. Dementsprechend kann eine Schätzung durchgeführt werden, die Besonderheiten/Kennzeichen bzw. Charakteristika von jedem Benutzer widerspiegelt.
Während bei dem vorstehend beschriebenen Ausführungsbeispiel eine Verwendung in einem Fahrzeug des Sprachverarbeitungssystems gemäß der vorliegenden Erfindung angenommen wird, sind Szenarien, in denen das Sprachverarbeitungssystem verwendet wird, nicht auf das Innere eines Fahrzeugs beschränkt, und kann das Sprachverarbeitungssystem in jeder beliebigen Umgebung verwendet werden. Zusätzlich kann, während ein sogenanntes zentrumsartiges bzw. zentrales Sprachverarbeitungssystem, in dem eine Spracherfassungseinheit (ein Mikrofon) in einem Fahrzeug bereitgestellt ist und eine Spracherkennungseinheit sowie eine Ausführungseinheit in einem Server bereitgestellt sind, als Beispiel beschrieben wurde, die vorliegende Erfindung als eine Ausführungsform, in der alle diese Funktionen in einer einzelnen Vorrichtung umfasst sind, oder durch eine Konfiguration, in der Funktionen in einer anderen Art und Weise als vorstehend beschrieben verteilt sind, implementiert werden.
Es ist ein Sprachverarbeitungssystem bereitgestellt, mit: einer Spracherfassungseinheit, die eine Äußerung eines Benutzers erfasst; einer Spracherkennungseinheit, die einen Inhalt der durch die Spracherfassungseinheit erfassten Äußerung erkennt; einer Ausführungseinheit, die eine Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit ausführt; und einer Bestimmungseinheit, die einen Kandidaten eines Worts zum Ersetzen eines bestimmten Worts bestimmt, wobei, wenn die Spracherkennungseinheit eine Anfrage erkennt, die ein erstes Wort umfasst, die Ausführungseinheit die Anfrage ausführt, die das erste Wort umfasst, und dem Benutzer ein Verarbeitungsergebnis bereitstellt, die Bestimmungseinheit ein zweites Wort bestimmt, das ein Ersetzungskandidat des ersten Worts ist, und die Ausführungseinheit auch eine Anfrage ausführt, die das zweite Wort anstelle des ersten Worts umfasst, und ein Verarbeitungsergebnis in einer Speichereinheit speichert.

Claims

Sprachverarbeitungssystem mit: einer Spracherfassungseinheit (110), die konfiguriert ist zum Erfassen einer Äußerung eines Benutzers; einer Spracherkennungseinheit (210), die konfiguriert ist zum Erkennen eines Inhalts der durch die Spracherfassungseinheit (110) erfassten Äußerung; einer Ausführungseinheit (220), die konfiguriert ist zum Ausführen einer Verarbeitung basierend auf einem Ergebnis der Spracherkennungseinheit (210); und einer Bestimmungseinheit (240), die konfiguriert ist zum Bestimmen eines Kandidaten eines Worts zum Ersetzen eines bestimmten Worts, wobei wenn die Spracherkennungseinheit (210) eine Anfrage erkennt, die ein erstes Wort umfasst, die Ausführungseinheit (220) die Anfrage ausführt, die das erste Wort umfasst, und dem Benutzer ein Verarbeitungsergebnis der Anfrage, die das erste Wort umfasst, bereitstellt, und die Bestimmungseinheit (240) ein zweites Wort bestimmt, das ein Ersetzungskandidat des ersten Worts ist, und die Ausführungseinheit (220) auch eine Anfrage ausführt, die das zweite Wort anstelle des ersten Worts umfasst, dadurch gekennzeichnet, dass die Ausführungseinheit (220) ein Verarbeitungsergebnis der Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, in einer Speichereinheit speichert, und wenn die Spracherkennungseinheit (210) die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, nach Erkennung der Anfrage erkennt, die das erste Wort umfasst, die Ausführungseinheit (220) das in der Speichereinheit gespeicherte Verarbeitungsergebnis erfasst und dem Benutzer das Verarbeitungsergebnis bereitstellt.
Sprachverarbeitungssystem gemäß Anspruch 1, wobei nach Erfassung einer Anfrage, die ein bestimmtes Wort umfasst, von dem Benutzer, die Bestimmungseinheit (240) die Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde, für jedes Paar des bestimmten Worts und des anderen Worts speichert und ein Wort, von dem die Häufigkeit gleich oder größer einem Schwellenwert ist, unter Wörtern, die jeweils ein Paar mit einem eingegebenen Wort bilden, als einen Ersetzungskandidaten des eingegebenen Worts bestimmt.
Sprachverarbeitungssystem gemäß Anspruch 2, wobei die Häufigkeit, mit der die Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde, die Häufigkeit umfasst, mit der eine Äußerung erfasst wurde, die anweist, dass die Anfrage, die das andere Wort anstelle des bestimmten Worts umfasst, vorzunehmen ist.
Sprachverarbeitungssystem gemäß Anspruch 1, wobei die Bestimmungseinheit (240) ein bestimmtes Wort und einen Ersetzungskandidaten des bestimmten Worts in Zusammenhang miteinander speichert und ein in Zusammenhang mit einem eingegebenen Wort gespeichertes Wort als einen Ersetzungskandidaten des eingegebenen Worts bestimmt.
Sprachverarbeitungssystem gemäß einem der Ansprüche 1 bis 4, wobei wenn der Benutzer die das zweite Wort umfassende Anfrage anstelle der das erste Wort umfassenden Anfrage nach Vornahme der das erste Wort umfassenden Anfrage äußert, die Spracherkennungseinheit (210) ein Attribut des zweiten Worts aus einer Kontextinformation der das erste Wort umfassenden Anfrage bestimmt und das zweite Wort erkennt.
Sprachverarbeitungsverfahren, mit: einem Spracherfassungsschritt (S102) des Erfassens einer Äußerung eines Benutzers; einem Spracherkennungsschritt (S102) des Erkennens eines Inhalts der in dem Spracherfassungsschritt erfassten Äußerung; einem Verarbeitungsausführungsschritt (S106) des Ausführens einer Verarbeitung basierend auf einem Ergebnis des Spracherkennungsschritts; und einem Ersetzungskandidatenwortbestimmungsschritt (S108) des Bestimmens eines Kandidaten eines Worts zum Ersetzen eines bestimmten Worts, wobei wenn in dem Spracherkennungsschritt (S102) eine Anfrage, die ein erstes Wort umfasst, erkannt wird, die Anfrage, die das erste Wort umfasst, ausgeführt wird, und dem Benutzer ein Verarbeitungsergebnis der Anfrage, die das erste Wort umfasst, bereitgestellt wird (S106), und ein zweites Wort, das ein Ersetzungskandidat des ersten Worts ist, bestimmt wird, und eine Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, auch ausgeführt wird (S110), dadurch gekennzeichnet, dass ein Verarbeitungsergebnis der Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, gespeichert wird (S110), und wenn die Anfrage, die das zweite Wort anstelle des ersten Worts umfasst, erkannt wird, nachdem die Anfrage, die das erste Wort umfasst, erkannt wird, in dem Verarbeitungsausführungsschritt (S110) das gespeicherte Verarbeitungsergebnis erfasst wird und dem Benutzer das Verarbeitungsergebnis bereitgestellt wird.
Sprachverarbeitungsverfahren gemäß Anspruch 6, zusätzlich mit einem Schritt des Speicherns der Häufigkeit, mit der eine Anfrage, die ein anderes Wort anstelle eines bestimmten Worts umfasst, von dem Benutzer erfasst wurde, für jedes Paar des bestimmten Worts und des anderen Worts in einer Tabelle, nach Erfassung einer Anforderung, die das bestimmte Wort umfasst, von dem Benutzer, wobei in dem Ersetzungskandidatenwortbestimmungsschritt (S108) ein Wort, von dem die Häufigkeit gleich oder größer einem Schwellenwert ist, unter Wörtern, die jeweils ein Paar mit einem eingegebenen Wort bilden, als ein Ersetzungskandidat des eingegebenen Worts bestimmt wird, indem auf die Tabelle Bezug genommen wird.
Sprachverarbeitungsverfahren gemäß Anspruch 7, wobei die Häufigkeit, mit der die Anfrage, die ein anderes Wort anstelle des bestimmten Worts umfasst, von dem Benutzer erfasst wurde, die Häufigkeit umfasst, mit der eine Äußerung erfasst wurde, die anweist, dass die Anfrage, die das andere Wort anstelle des bestimmten Worts umfasst, vorzunehmen ist.
Sprachverarbeitungsverfahren gemäß Anspruch 6, zusätzlich mit einem Schritt des Speicherns eines bestimmten Worts und eines Ersetzungskandidaten des bestimmten Worts in Zusammenhang miteinander im Voraus, wobei in dem Ersetzungskandidatenwortbestimmungsschritt (S108) ein in Zusammenhang mit einem eingegebenen Wort gespeichertes Wort als ein Ersetzungskandidat des eingegebenen Worts bestimmt wird.
Sprachverarbeitungsverfahren gemäß einem der Ansprüche 6 bis 9, wobei wenn der Benutzer die das zweite Wort umfassende Anfrage anstelle der das erste Wort umfassenden Anfrage nach Vornahme der das erste Wort umfassenden Anfrage äußert, in dem Spracherkennungsschritt (S102) ein Attribut des zweiten Worts aus einer Kontextinformation der das erste Wort umfassenden Anfrage bestimmt wird und das zweite Wort erkannt wird.
Programm, das einen Computer veranlasst zum Ausführen der jeweiligen Schritte des Verfahrens gemäß einem der Ansprüche 6 bis 10.