DE112019003234T5

DE112019003234T5 - Audioverarbeitungsvorrichtung, audioverarbeitungsverfahren und aufzeichnungsmedium

Info

Publication number: DE112019003234T5
Application number: DE112019003234.8T
Authority: DE
Inventors: Koso Kashima
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-06-27
Filing date: 2019-05-27
Publication date: 2021-03-11
Also published as: JPWO2020003851A1; WO2020003851A1; CN112313743A; US20210233556A1

Abstract

Diese Audioverarbeitungsvorrichtung umfasst: eine Empfangseinheit (30), die Audio einer vorgeschriebenen Länge und Informationen empfängt, die auf eine Gelegenheit zum Veranlassen des Startens einer vorgeschriebenen Funktion, die dem Audio entspricht, bezogen sind; und eine Bewertungseinheit (51), die, im Einklang mit den Informationen, die auf eine durch die Empfangseinheit (30) empfangene Gelegenheit bezogen sind, Audio bewertet, das zum Ausführen der vorgeschriebenen Funktion verwendet werden kann, wobei ein solches Audio ein Audio einer vorgeschriebenen Länge ist.

Description

Gebiet
Die vorliegende Offenbarung betrifft eine Sprachverarbeitungsvorrichtung, ein Sprachverarbeitungsverfahren und ein Aufzeichnungsmedium. Insbesondere betrifft die vorliegende Offenbarung Spracherkennungsverarbeitung für eine von einem Benutzer empfangene Äußerung.
Hintergrund
Mit weit verbreiteter Nutzung von Smartphones und intelligenten Lautsprechern sind Spracherkennungstechniken für die Reaktion auf eine von einem Benutzer empfangene Äußerung weit verbreitet. Bei solchen Spracherkennungstechniken wird ein Aktivierungswort als Auslöser zum Starten von Spracherkennung im Voraus festgelegt, und in einem Fall, in dem bestimmt wird, dass der Benutzer das Aktivierungswort äußert, wird die Spracherkennung gestartet.
Als eine auf Spracherkennung bezogene Technik ist eine Technik zum dynamischen Festlegen eines Aktivierungswortes bekannt, das im Einklang mit einer Bewegung eines Benutzers zu äußern ist, um zu verhindern, dass die Benutzererfahrung aufgrund der Äußerung des Aktivierungswortes beeinträchtigt wird.
Anführungsliste
Patentdokumente
Patentdokument 1: Japanische Patentanmeldungs-Offenlegungsnummer 2016-218852
Kurzdarstellung
Technisches Problem
Bei der oben beschriebenen konventionellen Technik gibt es jedoch Raum für Verbesserungen. Beispielsweise, in einem Fall der Durchführung von Spracherkennungsverarbeitung unter Verwendung des Aktivierungswortes, spricht der Benutzer zu einer Vorrichtung, welche die Spracherkennung in der Annahme steuert, dass der Benutzer das Aktivierungswort zuerst äußert. Somit, zum Beispiel in einem Fall, in dem der Benutzer eine bestimmte Äußerung eingibt, während er vergisst, das Aktivierungswort zu sagen, wird die Spracherkennung nicht gestartet, so dass der Benutzer das Aktivierungswort und den Inhalt der Äußerung erneut sagen müsste. Diese Tatsache bewirkt, dass der Benutzer Zeit und Aufwand vergeudet, wodurch die Nutzbarkeit verschlechtert werden kann.
Demgemäß stellt die vorliegende Offenbarung eine Sprachverarbeitungsvorrichtung, ein Sprachverarbeitungsverfahren und ein Aufzeichnungsmedium bereit, welche die auf Spracherkennung bezogene Nutzbarkeit verbessern können.
Lösung des Problems
Um das oben beschriebene Problem zu lösen, weist eine Sprachverarbeitungsvorrichtung Folgendes auf: eine Empfangseinheit, dazu ausgelegt, Sprachen zu empfangen, die einer vorbestimmten Zeitlänge und Informationen entsprechen, die auf einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion bezogen sind; und eine Bestimmungseinheit, dazu ausgelegt, eine zur Ausführung der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen zu bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen Informationen, die durch die Empfangseinheit empfangen werden.
Vorteilhafte Effekte der Erfindung
Mit der Sprachverarbeitungsvorrichtung, dem Sprachverarbeitungsverfahren und dem Aufzeichnungsmedium gemäß der vorliegenden Offenbarung kann die auf die Spracherkennung bezogene Nutzbarkeit verbessert werden. Die hierin beschriebenen Effekte sind keine Einschränkungen, und jeder der hierin beschriebenen Effekte kann eingesetzt werden.
Figurenliste

1 ist ein Diagramm, das einen Umriss von Informationsverarbeitung gemäß einer ersten Ausführungsform der vorliegenden Offenbarung darstellt.
2 ist ein Diagramm zum Erläutern von Äußerungs-Extraktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung.
3 ist ein Diagramm, das ein Konfigurationsbeispiel eines intelligenten Lautsprechers gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
4 ist ein Diagramm, das einen Beispiel von Äußerungsdaten gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
5 ist ein Diagramm, das einen Beispiel von Kombinationsdaten gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
6 ist ein Diagramm, das ein Beispiel von Aktivierungswortdaten gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
7 ist ein Diagramm (1), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
8 ist ein Diagramm (2), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
9 ist ein Diagramm (3), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
10 ist ein Diagramm (4), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
11 ist ein Diagramm (5), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
12 ist ein Flussdiagramm (1), das ein Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
13 ist ein Flussdiagramm (2), das ein Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
14 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems gemäß einer zweiten Ausführungsform der vorliegenden Offenbarung darstellt.
15 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems gemäß einer dritten Ausführungsform der vorliegenden Offenbarung darstellt.
16 ist ein Hardware-Konfigurationsdiagramm, das ein Beispiel eines Computers darstellt, der eine Funktion eines intelligenten Lautsprechers implementiert.

Beschreibung der Ausführungsformen
Im Folgenden werden Ausführungsformen der vorliegenden Offenbarung auf der Basis der Zeichnungen ausführlich beschrieben. In den folgenden Ausführungsformen werden gleiche Teile durch gleiche Referenznummern gekennzeichnet, und redundante Beschreibungen werden nicht wiederholt.
Erste Ausführungsform
1-1. Umriss der Informationsverarbeitung gemäß der ersten Ausführungsform
1 ist ein Diagramm, das einen Umriss von Informationsverarbeitung gemäß einer ersten Ausführungsform der vorliegenden Offenbarung darstellt. Die Informationsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung wird durch ein in 1 dargestelltes Sprachverarbeitungssystem 1 durchgeführt. Wie in 1 dargestellt, weist das Sprachverarbeitungssystem 1 einen intelligenten Lautsprecher 10 auf.
Der intelligente Lautsprecher 10 ist ein Beispiel einer Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung. Der intelligente Lautsprecher 10 ist ein Gerät, das mit einem Benutzer interagiert und verschiedene Arten von Informationsverarbeitung, wie z. B. Spracherkennung und eine Antwort, durchführt. Alternativ dazu kann der intelligente Lautsprecher 10 Sprachverarbeitung gemäß der vorliegenden Offenbarung unter Kooperation mit einer über ein Netzwerk damit verbundenen Servervorrichtung durchführen. In diesem Fall funktioniert der intelligente Lautsprecher 10 als eine Schnittstelle, die hauptsächlich Interaktionsverarbeitung mit dem Benutzer durchführt, wie z. B. Verarbeitung des Sammelns von Äußerungen des Benutzers, Verarbeitung des Übertragens von gesammelten Äußerungen zu der Servervorrichtung, und Verarbeitung des Ausgebens einer von der Servervorrichtung übertragenen Antwort. Ein Beispiel der Durchführung von Sprachverarbeitung gemäß der vorliegenden Offenbarung mit einer solchen Konfiguration wird in einer zweiten Ausführungsform und der folgenden Beschreibung ausführlich beschrieben. In der ersten Ausführungsform ist ein Beispiel beschrieben, in dem die Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung der intelligente Lautsprecher 10 ist, doch die Sprachverarbeitungsvorrichtung kann auch ein Smartphone, ein Tablet-Terminal und dergleichen sein. In diesem Fall zeigt das Tablet-Terminal eine Sprachverarbeitungsfunktion gemäß der vorliegenden Offenbarung durch Ausführen eines Computerprogramms (Anwendung), das die gleiche Funktion wie die des intelligenten Lautsprechers 10 hat. Die Sprachverarbeitungsvorrichtung (das heißt die Sprachverarbeitungsfunktion gemäß der vorliegenden Offenbarung) kann zusätzlich zu dem Smartphone und dem Tablet-Terminal auch durch eine tragbare Vorrichtung, wie z. B. ein Terminal in Armbanduhr- oder Brillenausführung, implementiert werden. Die Sprachverarbeitungsvorrichtung kann auch durch verschiedene intelligente Geräte implementiert werden, die über die Informationsverarbeitungsfunktion verfügen. Beispielsweise kann die Sprachverarbeitungsvorrichtung ein intelligentes Haushaltsgerät, wie etwa ein Fernsehgerät, eine Klimaanlage und ein Kühlschrank, ein intelligentes Fahrzeug, wie etwa ein Automobil, eine Drohne, ein Haushaltsroboter und dergleichen sein.
In dem Beispiel von 1 ist der intelligente Lautsprecher 10 in einem Haus installiert, in dem ein Benutzer U01, als Beispiel eines Benutzers, der den intelligenten Lautsprecher 10 benutzt, wohnt. In der folgenden Beschreibung, in einem Fall, in dem es nicht notwendig ist, den Benutzer U01 und andere Personen voneinander zu unterscheiden, werden die Benutzer kollektiv und einfach als „Benutzer“ bezeichnet. In der ersten Ausführungsform führt der intelligente Lautsprecher 10 eine Antwortverarbeitung für gesammelte Sprachen durch. Beispielsweise erkennt der intelligente Lautsprecher 10 eine dem Benutzer U01 gestellte Frage und gibt eine Antwort auf die Frage per Sprache aus. Insbesondere erzeugt der intelligente Lautsprecher 10 eine Antwort auf die dem Benutzer U01 gestellte Frage, ruft eine von dem Benutzer U01 gewünschte Melodie ab, und führt eine Steuerungsverarbeitung durch, um den intelligenten Lautsprecher 10 zu veranlassen, eine abgerufene Sprache auszugeben.
Verschiedene bekannte Techniken können für Spracherkennungsverarbeitung, Sprachantwortverarbeitung und dergleichen verwendet werden, die von dem intelligenten Lautsprecher 10 durchgeführt werden. Beispielsweise kann der intelligente Lautsprecher 10 verschiedene Sensoren aufweisen, nicht nur zum Sammeln von Sprachen, sondern auch zum Beschaffen verschiedener Arten anderer Informationen. Beispielsweise kann der intelligente Lautsprecher 10 zusätzlich zu einem Mikrofon eine Kamera zum Beschaffen von Informationen im Raum, einen Beleuchtungsstärkesensor, der eine Beleuchtungsstärke erkennt, einen Gyrosensor, der eine Neigung erkennt, einen Infrarotsensor, der ein Objekt erkennt, und dergleichen aufweisen.
In einem Fall des Veranlassens des intelligenten Lautsprechers 10, Spracherkennung und Antwortverarbeitung durchzuführen, wie oben beschrieben, muss der Benutzer U01 einen bestimmten Auslöser betätigen, um die Ausführung einer Funktion zu bewirken. Beispielsweise, bevor er eine Anforderung oder eine Frage äußert, muss der Benutzer U01 einen bestimmten Auslöser betätigen, wie z. B. Äußern eines bestimmten Wortes (im Folgenden als „Aktivierungswort“ bezeichnet), um das Starten einer Interaktionsfunktion (im Folgenden als „Interaktionssystem“ bezeichnet) des intelligenten Lautsprechers 10 zu bewirken, oder Anblicken einer in dem intelligenten Lautsprecher 10 enthaltenen Kamera. Wenn er eine Frage von dem Benutzer empfängt, nachdem der Benutzer das Aktivierungswort geäußert hat, gibt der intelligente Lautsprecher 10 eine Antwort auf die Frage per Sprache aus. Auf diese Weise muss der intelligente Lautsprecher 10 das Interaktionssystem nicht eher starten, bis das Aktivierungswort erkannt wird, so dass eine Verarbeitungslast reduziert werden kann. Zusätzlich kann der Benutzer U01 eine Situation verhindern, in der eine unnötige Antwort von dem intelligenten Lautsprecher 10 ausgegeben wird, wenn der Benutzer U01 keine Antwort benötigt.
In manchen Fällen kann die oben beschriebene konventionelle Verarbeitung jedoch die Nutzbarkeit verschlechtern. Beispielsweise, in einem Fall, in dem eine bestimmte Anfrage an den intelligenten Lautsprecher 10 gestellt wird, sollte der Benutzer U01 einen Vorgang des Unterbrechens eines laufenden Gesprächs mit umstehenden Personen ausführen, indem er das Aktivierungswort äußert und danach eine Frage stellt. In einem Fall, in dem der Benutzer U01 vergaß, das Aktivierungswort zu sagen, sollte der Benutzer U01 das Aktivierungswort und den ganzen Satz der Anfrage erneut sagen. Auf diese Weise kann bei der konventionellen Verarbeitung eine Sprachantwortfunktion nicht flexibel verwendet werden, und die Nutzbarkeit kann verschlechtert werden.
Somit löst der intelligente Lautsprecher 10 gemäß der vorliegenden Offenbarung das Problem des einschlägigen Stands der Technik durch die nachstehend beschriebene Informationsverarbeitung. Insbesondere bestimmt der intelligente Lautsprecher 10 eine für die Ausführung der Funktion zu benutzende Sprache unter Sprachen, die einer bestimmten Zeitlänge entsprechen, basierend auf Informationen in Bezug auf das Aktivierungswort (zum Beispiel ein Attribut, das im Voraus auf das Aktivierungswort festgelegt wird). Als Beispiel bestimmt der intelligente Lautsprecher 10 in einem Fall, in dem der Benutzer U01 das Aktivierungswort äußert, nachdem er eine Äußerung einer Anfrage oder einer Frage gemacht hat, ob das Aktivierungswort ein Attribut „Durchführen von Antwortverarbeitung mit einer Sprache, die vor dem Aktivierungswort geäußert wird“ aufweist. In einem Fall des Bestimmens, dass das Aktivierungswort das Attribut „Durchführen von Antwortverarbeitung mit einer Sprache, die vor dem Aktivierungswort geäußert wird“ aufweist, bestimmt der intelligente Lautsprecher 10, dass die Sprache, die von dem Benutzer vor dem Aktivierungswort geäußert wird, eine Sprache ist, die für Antwortverarbeitung zu benutzen ist. Aus diesem Grund kann der intelligente Lautsprecher 10 eine Antwort zur Bewältigung einer Frage oder einer Anfrage erzeugen, indem er zu der Sprache zurückgeht, die von dem Benutzer vor dem Aktivierungswort geäußert wird. Der Benutzer U01 muss das Aktivierungswort nicht noch einmal sagen, selbst in einem Fall, in dem der Benutzer U01 vergaß, das Aktivierungswort zu sagen, so dass der Benutzer U01 die durch den intelligenten Lautsprecher 10 durchgeführte Antwortverarbeitung ohne Stress benutzen kann. Im Folgenden wird ein Umriss der Sprachverarbeitung gemäß der vorliegenden Offenbarung neben einem Vorgang unter Bezugnahme auf 1 beschrieben.
Wie in 1 dargestellt, sammelt der intelligente Lautsprecher 10 tägliche Gespräche des Benutzers U01. An diesem Punkt speichert der intelligente Lautsprecher 10 vorübergehend gesammelte Sprachen, die einer vorbestimmten Zeitlänge (zum Beispiel eine Minute) entsprechen. Das heißt, der intelligente Lautsprecher 10 sammelt und löscht die gesammelten Sprachen wiederholt durch Puffern der gesammelten Sprachen.
An diesem Punkt kann der intelligente Lautsprecher 10 eine Verarbeitung des Erkennens einer Äußerung unter den gesammelten Sprachen durchführen. Im Folgenden wird dieser Punkt unter Bezugnahme auf 2 beschrieben. 2 ist ein Diagramm zum Erläutern von Äußerungs-Extraktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung. Wie in 2 dargestellt, kann der intelligente Lautsprecher 10 durch Aufzeichnen nur einer Sprache (zum Beispiel einer Äußerung des Benutzers), die als effektiv zur Ausführung einer Funktion, wie z. B. Antwortverarbeitung, angenommen wird, einen Speicherbereich (der Pufferspeicher genannt wird) effizient zum Puffern von Sprachen nutzen.
Beispielsweise, bezüglich einer Amplitude, bei der ein Sprachsignal einen bestimmten Pegel überschreitet, bestimmt der intelligente Lautsprecher 10 ein Anfangsende eines Äußerungsabschnitts, wenn eine Nulldurchgangsrate eine bestimmte Zahl überschreitet, und bestimmt ein Abschlussende, wenn ein Wert gleich oder kleiner als ein bestimmter Wert wird, um den Äußerungsabschnitt zu extrahieren. Der intelligente Lautsprecher 10 extrahiert dann nur den Äußerungsabschnitt und puffert die Sprachen, von denen ein Stummabschnitt entfernt wird.
In dem in 2 dargestellten Beispiel erkennt der intelligente Lautsprecher 10 eine Anfangs-Endzeit ts1, und erkennt danach eine Terminal-Endzeit tel, um eine Sprachäußerung 1 zu extrahieren. Ebenso erkennt der intelligente Lautsprecher 10 eine Anfangs-Endzeit ts2, und erkennt danach eine Abschluss-Endzeit te2 zum Extrahieren einer Sprachäußerung 2. Der intelligente Lautsprecher 10 erkennt eine Anfangs-Endzeit ts3, und erkennt danach eine Terminal-Endzeit te3, um eine Sprachäußerung 3 zu extrahieren. Der intelligente Lautsprecher 10 löscht dann einen Stummabschnitt vor der Sprachäußerung 1, einen Stummabschnitt zwischen der Sprachäußerung 1 und der Sprachäußerung 2, und einen Stummabschnitt zwischen der Sprachäußerung 2 und der Sprachäußerung 3 und puffert die Sprachäußerung 1, die Sprachäußerung 2 und die Sprachäußerung 3. Dadurch kann der intelligente Lautsprecher 10 den Pufferspeicher effizient nutzen.
An diesem Punkt kann der intelligente Lautsprecher 10 Identifikationsinformationen und dergleichen zum Identifizieren des Benutzers, der die Äußerung macht, in Verbindung mit der Äußerung durch Verwendung einer bekannten Technik speichern. In einem Fall, in dem ein freier Platz des Pufferspeichers kleiner als ein vorbestimmter Schwellenwert wird, löscht der intelligente Lautsprecher 10 eine alte Äußerung, um den freien Platz zu sichern, und speichert eine neue Sprache. Der intelligente Lautsprecher 10 kann die gesammelten Sprachen direkt puffern, ohne eine Verarbeitung des Extrahierens der Äußerung durchzuführen.
In dem Beispiel von 1 wird angenommen, dass der intelligente Lautsprecher 10 eine Sprache A01 von „es sieht nach Regen aus“ und eine Sprache A02 von „sag mir das Wetter“ unter Äußerungen des Benutzers U01 puffert.
Zusätzlich führt der intelligente Lautsprecher 10 eine Verarbeitung des Erkennens eines Auslösers zum Starten einer der Sprache entsprechenden vorbestimmten Funktion durch, während er mit der Pufferung der Sprache fortfährt. Insbesondere erkennt der intelligente Lautsprecher 10, ob das Aktivierungswort in den gesammelten Sprachen enthalten ist. In dem Beispiel von 1 wird angenommen, dass das für den intelligenten Lautsprecher 10 festgelegte Aktivierungswort „Computer“ ist.
In einem Fall des Sammelns der Sprache, wie z. B. der Sprache A03 von „Bitte, Computer“, erkennt der intelligente Lautsprecher 10, dass „Computer“ in der Sprache A03 als das Aktivierungswort enthalten ist. Durch Auslösung durch Erkennung des Aktivierungswortes startet der intelligente Lautsprecher 10 eine vorbestimmte Funktion (in dem Beispiel von 1 das, was eine Interaktionsverarbeitungsfunktion der Ausgabe einer Antwort auf eine Interaktion des Benutzers U01 genannt wird). Zusätzlich, in einem Fall des Erkennens des Aktivierungswortes, bestimmt der intelligente Lautsprecher 10 die für eine Antwort zu benutzende Äußerung im Einklang mit dem Aktivierungswort, und erzeugt die Antwort auf die Äußerung. Das heißt, der intelligente Lautsprecher 10 führt eine Interaktionsverarbeitung im Einklang mit Informationen durch, die auf die empfangene Sprache und den Auslöser bezogen sind.
Insbesondere bestimmt der intelligente Lautsprecher 10 ein Attribut, das im Einklang mit dem von dem Benutzer U01 geäußerten Aktivierungswort festzulegen ist, oder eine Kombination des Aktivierungswortes und der Sprache, die vor oder nach dem Aktivierungswort geäußert wird. Das Attribut des Aktivierungswortes gemäß der vorliegenden Offenbarung bedeutet das Einstellen von Informationen zum Trennen von Fällen des Zeitpunkts der Äußerung, die für eine Verarbeitung zu benutzen ist, wie z. B. „zum Durchführen einer Verarbeitung durch Verwendung der Sprache, die vor dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“ oder „zum Durchführen einer Verarbeitung durch Verwendung der Sprache, die nach dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“. Beispielsweise, in einem Fall, in dem das von dem Benutzer U01 geäußerte Aktivierungswort das Attribut „zum Durchführen einer Verarbeitung durch Verwendung der Sprache, die vor dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“ aufweist, bestimmt der intelligente Lautsprecher 10, die Sprache zu benutzen, die vor dem Aktivierungswort für Antwortverarbeitung geäußert wurde.
In dem Beispiel von 1 wird angenommen, dass das Attribut „zum Durchführen einer Verarbeitung durch Verwendung der Sprache, die vor dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“ (im Folgenden wird dieses Attribut als „vorherige Sprache“ bezeichnet) auf eine Kombination der Sprache von „Bitte“ und des Aktivierungswortes von „Computer“ eingestellt ist. Das heißt, in einem Fall des Erkennens der Sprache A03 von „Bitte, Computer“ bestimmt der intelligente Lautsprecher 10, die Äußerung vor der Sprache A03 für Antwortverarbeitung zu benutzen. Insbesondere bestimmt der intelligente Lautsprecher 10, die vor der Sprache A03 gepufferte Sprache A01 oder die Sprache A02 für Interaktionsverarbeitung zu benutzen. Das heißt, der intelligente Lautsprecher 10 erzeugt eine Antwort auf die Sprache A01 oder die Sprache A02 und gibt dem Benutzer eine Antwort.
In dem Beispiel von 1, als Resultat der Verarbeitung von semantischem Verständnis für die Sprache A01 oder die Sprache A02, schätzt der intelligente Lautsprecher 10 eine Situation, in welcher der Benutzer U01 verlangt, das Wetter zu erfahren. Der intelligente Lautsprecher 10 bezieht sich dann auf Standortinformationen und dergleichen eines gegenwärtigen Standorts und führt eine Verarbeitung des Abrufens von Wetterinformationen auf dem Web durch, um eine Antwort zu erzeugen. Insbesondere erzeugt der intelligente Lautsprecher 10 eine Antwortsprache R01 von „In Tokyo ist es am Morgen wolkig, und am Nachmittag regnet es“ und gibt sie aus. In einem Fall, in dem Informationen zum Erzeugen einer Antwort unzureichend sind, kann der intelligente Lautsprecher 10 entsprechend eine Antwort zum Kompensieren des Mangels an Informationen geben (zum Beispiel „Bitte nenne mir den Ort, das Datum und die Uhrzeit des Wetters, das du wissen möchtest“) .
Auf diese Weise empfängt der intelligente Lautsprecher 10 gemäß der ersten Ausführungsform die der vorbestimmten Zeitlänge entsprechende gepufferte Sprache und die auf den Auslöser bezogenen Informationen (Aktivierungswort und dergleichen) zum Starten der vorbestimmten Funktion, die der Sprache entspricht. Der intelligente Lautsprecher 10 bestimmt dann die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen empfangenen Informationen. Beispielsweise bestimmt der intelligente Lautsprecher 10 im Einklang mit dem Attribut des Auslösers die Sprache, die vor der Erkennung des Auslösers gesammelt wird, als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache. Der intelligente Lautsprecher 10 steuert die Ausführung der vorbestimmten Funktion auf der Basis der bestimmten Sprache. Beispielsweise steuert der intelligente Lautsprecher 10 die Ausführung der vorbestimmten Funktion, die der Sprache entspricht, die vor der Erkennung des Auslösers gesammelt wird (in dem Beispiel von 1 eine Abruffunktion des Abrufens des Wetters und eine Ausgabefunktion des Ausgebens der abgerufenen Informationen).
Wie oben beschrieben gibt der intelligente Lautsprecher 10 nicht nur eine Antwort auf die Sprache nach dem Aktivierungswort, sondern kann auch eine flexible Antwort geben, die verschiedenen Situationen entspricht, wie z. B. eine sofortige Antwort, die der Sprache vor dem Aktivierungswort zu der Zeit des Startens des Interaktionssystems durch das Aktivierungswort entspricht. Mit anderen Worten, der intelligente Lautsprecher 10 kann eine Antwortverarbeitung durchführen, indem er ohne eine Spracheingabe von dem Benutzer U01 und dergleichen zu der gepufferten Sprache zurückgeht, nachdem das Aktivierungswort erkannt worden ist. Obwohl Details später beschrieben werden, kann der intelligente Lautsprecher 10 auch eine Antwort erzeugen, indem er die Sprache vor der Erkennung des Aktivierungswortes und die Sprache nach der Erkennung des Aktivierungswortes kombiniert. Aus diesem Grund kann der intelligente Lautsprecher 10 eine entsprechende Antwort auf eine beiläufige Frage und dergleichen geben, die von dem Benutzer U01 und dergleichen während eines Gesprächs geäußert wird, ohne den Benutzer U01 zu veranlassen, die Frage nach der Äußerung des Aktivierungswortes zu wiederholen, so dass die auf die Interaktionsverarbeitung bezogene Nutzbarkeit verbessert werden kann.
1-2. Konfiguration der Sprachverarbeitungsvorrichtung gemäß der ersten Ausführungsform
Als Nächstes wird im Folgenden eine Konfiguration des intelligenten Lautsprechers 10 als ein Beispiel der Sprachverarbeitungsvorrichtung beschrieben, die Sprachverarbeitung gemäß der ersten Ausführungsform durchführt. 3 ist ein Diagramm, das ein Konfigurationsbeispiel des intelligenten Lautsprechers 10 gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
Wie in 3 dargestellt, weist der intelligente Lautsprecher 10 Verarbeitungseinheiten, wie z. B. eine Empfangseinheit 30 und eine Interaktionsverarbeitungseinheit 50 auf. Die Empfangseinheit 30 weist eine Tonsammeleinheit 31, eine Äußerungsextraktionseinheit 32 und eine Detektionseinheit 33 auf. Die Interaktionsverarbeitungseinheit 50 weist eine Bestimmungseinheit 51, einer Äußerungserkennungseinheit 52, eine Einheit für semantisches Verständnis 53, eine Interaktionsverwaltungseinheit 54 und eine Antworterzeugungseinheit 55 auf. Jede der Verarbeitungseinheiten wird zum Beispiel implementiert, wenn ein in dem intelligenten Lautsprecher 10 gespeichertes Computerprogramm (zum Beispiel ein auf dem Aufzeichnungsmedium aufgezeichnetes Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung) durch eine zentrale Verarbeitungseinheit (CPU), eine Mikroprozessoreinheit (MPU) oder dergleichen unter Verwendung eines Direktzugriffsspeichers (RAM) oder dergleichen als Arbeitsbereich ausgeführt wird. Jede der Verarbeitungseinheiten kann auch durch eine integrierte Schaltung, wie z. B. eine anwendungsspezifische integrierte Schaltung (ASIC) oder ein feldprogrammierbares Gate-Array (FPGA), implementiert werden.
Die Empfangseinheit 30 empfängt die Sprache, die der vorbestimmten Zeitlänge entspricht, und den Auslöser zum Starten der vorbestimmten Funktion, die der Sprache entspricht. Die der vorbestimmten Zeitlänge entsprechende Sprache ist zum Beispiel eine in einer Sprachpuffereinheit 40 gespeicherte Sprache, eine Äußerung des Benutzers, die nach der Erkennung des Aktivierungswortes gesammelt wird, und dergleichen. Die vorbestimmte Funktion stellt verschiedene Arten von Informationsverarbeitung dar, die durch den intelligenten Lautsprecher 10 durchgeführt wird. Insbesondere stellt die vorbestimmte Funktion Start, Ausführung, Stopp und dergleichen der Interaktionsverarbeitung (Interaktionssystem) mit dem Benutzer, durchgeführt durch den intelligenten Lautsprecher 10, dar. Die vorbestimmte Funktion umfasst verschiedene Funktionen zum Implementieren verschiedener Arten von Informationsverarbeitung, begleitet von einer Verarbeitung des Erzeugens einer Antwort für den Benutzer (zum Beispiel Web-Abrufverarbeitung zum Abrufen des Inhalts einer Antwort, Verarbeitung des Abrufens einer von dem Benutzer gewünschten Melodie und des Herunterladens der abgerufenen Melodie und dergleichen). Die Verarbeitung der Empfangseinheit 30 wird durch die jeweiligen Verarbeitungseinheiten durchgeführt, das heißt die Tonsammeleinheit 31, die Äußerungsextraktionseinheit 32 und die Detektionseinheit 33.
Die Tonsammeleinheit 31 sammelt die Sprachen durch Steuern eines in dem intelligenten Lautsprecher 10 enthaltenen Sensors 20. Der Sensor 20 ist zum Beispiel ein Mikrofon. Der Sensor 20 kann auch eine Funktion des Erkennens verschiedener Arten von Informationen haben, die auf eine Bewegung des Benutzers bezogen sind, wie z. B. Orientierung, Neigung, Bewegung, Bewegungsgeschwindigkeit und dergleichen des Körpers eines Benutzers. Das heißt, der Sensor 20 kann auch eine Kamera aufweisen, die den Benutzer oder eine periphere Umgebung abbildet, einen Infrarotsensor, der die Anwesenheit des Benutzers erfasst, und dergleichen.
Die Tonsammeleinheit 31 sammelt die Sprachen und speichert die gesammelten Sprachen in einer Speichereinheit. Insbesondere speichert die Tonsammeleinheit 31 die gesammelten Sprachen vorübergehend in der Sprachpuffereinheit 40 als ein Beispiel der Speichereinheit.
Die Tonsammeleinheit 31 kann vorher eine Einstellung über einen Informationsbetrag der in der Sprachpuffereinheit 40 zu speichernden Sprachen empfangen. Beispielsweise empfängt die Tonsammeleinheit 31 von dem Benutzer eine Einstellung des Speicherns der Sprachen, die einer bestimmten Zeit entsprechen, als Puffer. Die Tonsammeleinheit 31 empfängt dann den Informationsbetrag der in der Sprachpuffereinheit 40 zu speichernden Sprachen und speichert die in einem Bereich der empfangenen Einstellung gesammelten Sprachen in der Sprachpuffereinheit 40. Aufgrund dessen kann die Tonsammeleinheit 31 die Sprachen in einem von dem Benutzer gewünschten Bereich der Speicherkapazität puffern.
In einem Fall des Empfangens einer Anfrage zum Löschen der in der Sprachpuffereinheit 40 gespeicherten Sprache kann die Tonsammeleinheit 31 die in der Sprachpuffereinheit 40 gespeicherte Sprache löschen. Beispielsweise mag der Benutzer wünschen, angesichts des Datenschutzes in manchen Fällen, die Speicherung vergangener Sprachen in dem intelligenten Lautsprecher 10 zu verhindern. In diesem Fall löscht der intelligente Lautsprecher 10 die gepufferte Sprache, nachdem er eine auf die Löschung der gepufferten Sprache bezogene Bedienung von dem Benutzer empfangen hat.
Die Äußerungsextraktionseinheit 32 extrahiert einen von dem Benutzer geäußerten Äußerungsteil von den Sprachen, die der vorbestimmten Zeitlänge entsprechen. Wie oben beschrieben, extrahiert die Äußerungsextraktionseinheit 32 den Äußerungsteil durch Verwendung einer bekannten Technik, die auf Sprachabschnittserkennung und dergleichen bezogen ist. Die Äußerungsextraktionseinheit 32 speichert extrahierte Äußerungsdaten in den Äußerungsdaten 41. Das heißt, die Empfangseinheit 30 extrahiert, als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache, den von dem Benutzer geäußerten Äußerungsteil von den Sprachen, die der vorbestimmten Zeitlänge entsprechen, und empfängt den extrahierten Äußerungsteil.
Die Äußerungsextraktionseinheit 32 kann auch die Äußerung und die Identifikationsinformationen zum Identifizieren des Benutzers, der die Äußerung gemacht hat, in Verbindung miteinander in der Sprachpuffereinheit 40 speichern. Aufgrund dessen ist die Bestimmungseinheit 51 (später beschrieben) in der Lage, eine Bestimmungsverarbeitung mittels der Benutzeridentifikationsinformation durchzuführen, indem sie z. B. nur eine Äußerung eines Benutzers verwendet, welcher derselbe Benutzer ist, der das Aktivierungswort für Verarbeitung geäußert hat, und keine Äußerung eines anderen Benutzers als demjenigen, der das Aktivierungswort für Verarbeitung geäußert hat, verwendet.
Im Folgenden werden die Sprachpuffereinheit 40 und die Äußerungsdaten 41 gemäß der ersten Ausführungsform beschrieben. Beispielsweise wird die Sprachpuffereinheit 40 durch ein Halbleiterspeicherelement, wie z. B. ein RAM und einen Flash-Speicher, eine Speichervorrichtung, wie z. B. eine Festplatte und eine optische Disc oder dergleichen, implementiert. Die Sprachpuffereinheit 40 weist die Äußerungsdaten 41 als eine Datentabelle auf.
Die Äußerungsdaten 41 sind eine Datentabelle, die durch Extrahieren nur einer Sprache erhalten wird, die unter den in der Sprachpuffereinheit 40 gepufferten Sprachen schätzungsweise eine auf die Äußerung des Benutzers bezogene Sprache ist. Das heißt, die Empfangseinheit 30 sammelt die Sprachen, erkennt die Äußerung aus den gesammelten Sprachen, und speichert die erkannte Äußerung in den Äußerungsdaten 41 in der Sprachpuffereinheit 40.
4 stellt ein Beispiel der Äußerungsdaten 41 gemäß der ersten Ausführungsform dar. 4 ist ein Diagramm, das ein Beispiel der Äußerungsdaten 41 gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. In dem in 4 dargestellten Beispiel enthalten die Äußerungsdaten 41 solche Posten wie „Puffereinstellungszeit“, „Äußerungsinformationen“, „Sprach-ID“, „erfasste Datums- und Uhrzeitwerte“, „Benutzer-ID“ und „Äußerung“.
„Puffereinstellungszeit“ gibt eine Zeitlänge der zu puffernden Sprache an. „Äußerungsinformationen“ gibt Informationen der von den gepufferten Sprachen extrahierten Äußerung an. „Sprach-ID“ gibt Identifikationsinformationen zum Identifizieren der Sprache (Äußerung) an. „Erfasste Datums- und Uhrzeitwerte“ gibt das Datum und die Uhrzeit der Erfassung der Sprache an. „Benutzer-ID“ gibt Identifikationsinformationen zum Identifizieren des Benutzers an, der die Äußerung gemacht hat. In einem Fall, in dem der Benutzer, der die Äußerung gemacht hat, nicht angegeben werden kann, registriert der intelligente Lautsprecher 10A nicht unbedingt die Informationen der Benutzer-ID. „Äußerung“ gibt den bestimmten Inhalt der Äußerung an. Zur Erläuterung stellt 4 ein Beispiel dar, in dem bestimmte Zeichenfolgen als die Posten der Äußerung gespeichert werden, doch die Informationen können als Posten der Äußerung in einem Modus von Sprachdaten, die auf die Äußerung bezogen sind, oder Zeitdaten zum Angeben der Äußerung gespeichert werden (Informationen, die einen Anfangspunkt und einen Endpunkt der Äußerung angeben).
Auf diese Weise kann die Empfangseinheit 30 nur die Äußerung unter den gepufferten Sprachen extrahieren und speichern. Das heißt, die Empfangseinheit 30 kann die Sprache empfangen, die durch Extrahieren nur des Äußerungsteils als eine Sprache erhalten wird, die für eine Funktion von Interaktionsverarbeitung zu benutzen ist. Aufgrund dessen genügt es, dass die Empfangseinheit 30 nur die Äußerung verarbeitet, die als für die Antwortverarbeitung effektiv eingeschätzt wird, so dass die Verarbeitungslast reduziert werden kann. Die Empfangseinheit 30 kann den begrenzten Pufferspeicher effektiv nutzen.
Zu 3 zurückkehrend, wird die Beschreibung fortgesetzt. Die Detektionseinheit 33 erkennt einen Auslöser zum Starten der vorbestimmten Funktion, die der Sprache entspricht. Insbesondere führt die Detektionseinheit 33 Spracherkennung für die der vorbestimmten Zeitlänge entsprechende Sprache als Auslöser durch und erkennt das Aktivierungswort als den Auslöser zum Starten der vorbestimmten Funktion. Die Empfangseinheit 30 empfängt das von der Detektionseinheit 33 erkannte Aktivierungswort und überträgt die Tatsache, dass das Aktivierungswort empfangen wird, zu der Interaktionsverarbeitungseinheit 50.
In einem Fall, in dem der Äußerungsteil des Benutzers extrahiert wird, kann die Empfangseinheit 30 den extrahierten Äußerungsteil mit dem Aktivierungswort als die Sprache empfangen, die der Auslöser zum Starten der vorbestimmten Funktion sein soll. In diesem Fall kann die Bestimmungseinheit 51 (später beschrieben) einen Äußerungsteil eines Benutzers, der derselbe Benutzer wie derjenige ist, der das Aktivierungswort geäußert hat, unter den Äußerungsteilen als die Sprache bestimmen, die zum Ausführen der vorbestimmten Funktion zu benutzen ist.
Beispielsweise, wenn eine andere Äußerung als die des Benutzers, der das Aktivierungswort geäußert hat, in einem Fall der Ausgabe einer Antwort unter Verwendung der gepufferten Sprache verwendet wird, kann eine Antwort gegeben werden, die von dem Benutzer, der das Aktivierungswort tatsächlich geäußert hat, unbeabsichtigt ist. Aufgrund dessen kann die Bestimmungseinheit 51 veranlassen, dass eine von dem Benutzer gewünschte angemessene Antwort erzeugt wird, indem eine Interaktionsverarbeitung nur unter Verwendung der Äußerung eines Benutzers durchgeführt wird, welcher der gleiche Benutzer wie derjenige ist, der das Aktivierungswort unter den gepufferten Sprachen geäußert hat.
Die Bestimmungseinheit 51 bestimmt nicht unbedingt, nur die Äußerung zu verwenden, die von einem Benutzer geäußert wird, welcher derselbe Benutzer ist, der das Aktivierungswort zur Verarbeitung geäußert hat. Das heißt, die Bestimmungseinheit 51 kann bestimmen, dass der Äußerungsteil eines Benutzers, der derselbe Benutzer wie derjenige ist, der das Aktivierungswort geäußert hat, und der Äußerungsteil eines im Voraus registrierten vorbestimmten Benutzers unter den Äußerungsteilen die Sprache sein soll, die zum Ausführen der vorbestimmten Funktion zu benutzen ist. Beispielsweise kann ein Gerät, das eine Interaktionsverarbeitung durchführt, wie z. B. der intelligente Lautsprecher 10, eine Funktion des Registrierens eines Benutzers für eine Vielzahl von Personen haben, wie z. B. eine Familie, die in ihrem eigenen Haus wohnt, in dem das Gerät installiert ist. In einem Fall, dass eine solche Funktion vorhanden ist, kann der intelligente Lautsprecher 10 eine Interaktionsverarbeitung unter Verwendung der Äußerung vor oder nach dem Aktivierungswort zu der Zeit durchführen, zu der das Aktivierungswort erkannt wird, selbst wenn die Äußerung von einem anderen Benutzer als demjenigen stammt, der das Aktivierungswort geäußert hat, solange die Äußerung von einem im Voraus registrierten Benutzer gemacht wird.
Wie oben beschrieben, empfängt die Empfangseinheit 30 die Sprachen, die der vorbestimmten Zeitlänge entsprechen, und die auf den Auslöser zum Starten der vorbestimmten Funktionen bezogenen Informationen, die den Sprachen entsprechen, basierend auf den von den Verarbeitungseinheiten ausgeführten Funktionen, einschließlich der Tonsammeleinheit 31, der Äußerungsextraktionseinheit 32 und der Detektionseinheit 33. Die Empfangseinheit 30 überträgt dann die empfangenen Sprachen und die auf den Auslöser bezogenen Informationen zu der Interaktionsverarbeitungseinheit 50.
Die Interaktionsverarbeitungseinheit 50 steuert das Interaktionssystem als die Funktion des Durchführens einer Interaktionsverarbeitung mit dem Benutzer und führt eine Interaktionsverarbeitung mit dem Benutzer durch. Das durch die Interaktionsverarbeitungseinheit 50 gesteuerte Interaktionssystem wird zu dem Zeitpunkt gestartet, an dem die Empfangseinheit 30 den Auslöser, wie z. B. das Aktivierungswort, erkennt und zum Beispiel die Verarbeitungseinheiten nach der Bestimmungseinheit 51 steuert und eine Interaktionsverarbeitung mit dem Benutzer durchführt. Insbesondere erzeugt die Interaktionsverarbeitungseinheit 50 eine Antwort an den Benutzer, basierend auf der Sprache, die als zum Ausführen der vorbestimmten Funktion durch die Bestimmungseinheit 51 zu benutzen bestimmt wird, und steuert die Verarbeitung des Ausgebens der erzeugten Antwort.
Die Bestimmungseinheit 51 bestimmt die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen Informationen, die von der Empfangseinheit 30 empfangen werden (zum Beispiel das Attribut, das im Voraus für den Auslöser festgelegt wird).
Beispielsweise bestimmt die Bestimmungseinheit 51 eine vor dem Auslöser geäußerte Sprache als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit dem Attribut des Auslösers. Alternativ dazu kann die Bestimmungseinheit 51 eine nach dem Auslöser geäußerte Sprache als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit dem Attribut des Auslösers.
Die Bestimmungseinheit 51 kann auch eine Sprache, die durch Kombinieren der vor dem Auslöser geäußerten Sprache und der nach dem Auslöser geäußerten Sprache erhalten wird, als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit dem Attribut des Auslösers.
In einem Fall, in dem das Aktivierungswort als Auslöser empfangen wird, bestimmt die Bestimmungseinheit 51 die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit dem Attribut, das im Voraus für jedes Aktivierungswort festgelegt wird. Alternativ dazu kann die Bestimmungseinheit 51 die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit dem Attribut, das mit jeder Kombination des Aktivierungswortes verknüpft ist, und der Sprache, die vor oder nach dem Aktivierungswort erkannt wird. Auf diese Weise speichert der intelligente Lautsprecher 10 zum Beispiel vorher, als Definitionsinformationen, die Informationen, die auf die Einstellung zum Durchführen der Bestimmungsverarbeitung bezogen sind, z. B. ob die Sprache vor dem Aktivierungswort oder die Sprache nach dem Aktivierungswort für die Verarbeitung zu benutzen ist.
Insbesondere werden die oben beschriebenen Definitionsinformationen in einer Attributinformationen-Speichereinheit 60 gespeichert, die in dem intelligenten Lautsprecher 10 enthalten ist. Wie in 3 dargestellt, weist die Attributinformationen-Speichereinheit 60 Kombinationsdaten 61 und Aktivierungswortdaten 62 als Datentabelle auf.
5 stellt ein Beispiel der Kombinationsdaten 61 gemäß der ersten Ausführungsform dar. 5 ist ein Diagramm, das ein Beispiel der Kombinationsdaten 61 gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. Die Kombinationsdaten 61 speichern Informationen in Bezug auf eine Phrase, die mit dem Aktivierungswort zu kombinieren ist, und das Attribut, das dem Aktivierungswort in einem Fall der Kombination mit der Phrase zu verleihen ist. In dem in 5 dargestellten Beispiel weisen die Kombinationsdaten 61 die Posten „Attribut“, „Aktivierungswort“ und „Kombinationssprache“ auf.
„Attribut“ gibt das Attribut an, das dem Aktivierungswort in einem Fall zu verleihen ist, in dem das Aktivierungswort mit einer vorbestimmten Phrase kombiniert wird. Wie oben beschrieben, bedeutet das Attribut eine Einstellung zum Trennen von Fällen der zeitlichen Steuerung der Äußerung, die für eine Verarbeitung wie z. B. „zum Durchführen einer Verarbeitung unter Verwendung der Sprache, die vor dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“ zu benutzen ist. Beispielsweise schließen Attribute gemäß der vorliegenden Offenbarung das Attribut von „vorherige Sprache“ ein, das heißt „zum Durchführen einer Verarbeitung unter Verwendung der Sprache, die vor dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“. Die Attribute schließen auch das Attribut von „nachfolgende Sprache“ ein, das heißt „zum Durchführen einer Verarbeitung unter Verwendung der Sprache, die nach dem Aktivierungswort geäußert wird, in einem Fall des Erkennens des Aktivierungswortes“. Die Attribute schließen ferner ein Attribut von „unbestimmt“ ein, das die zeitliche Steuerung der zu verarbeitenden Sprache nicht einschränkt. Das Attribut stellt lediglich Informationen zum Bestimmen der Sprache dar, die für die Antworterzeugungsverarbeitung nach Erkennung des Aktivierungswortes zu benutzen ist, und beschränkt eine Bedingung für die zur Interaktionsverarbeitung verwendete Sprache nicht kontinuierlich. Beispielsweise, selbst wenn das Attribut des Aktivierungswortes „vorherige Sprache“ ist, kann der intelligente Lautsprecher 10 eine Interaktionsverarbeitung durch Verwendung einer Sprache durchführen, die nach der Erkennung des Aktivierungswortes neu empfangen wird.
„Aktivierungswort“ gibt eine Zeichenfolge an, die von dem intelligenten Lautsprecher 10 als das Aktivierungswort erkannt wird. In dem Beispiel von 5 ist zur Erläuterung nur ein Aktivierungswort dargestellt, doch es kann eine Vielzahl der Aktivierungswörter gespeichert werden. „Kombinationssprache“ gibt eine Zeichenfolge an, durch die das Attribut dem Auslöser (Aktivierungswort) verliehen wird, wenn es mit dem Aktivierungswort kombiniert wird.
Das heißt, in dem in 5 dargestellten Beispiel ist ein Fall veranschaulicht, in dem das Attribut von „vorherige Sprache“ dem Aktivierungswort verliehen wird, wenn das Aktivierungswort mit einer Sprache, wie z. B. „Bitte“, kombiniert wird. Dies liegt daran, dass in einem Fall, in dem der Benutzer „Bitte, Computer“ äußert, angenommen wird, dass der Benutzer eine Anfrage vor dem Aktivierungswort an den intelligenten Lautsprecher 10 gestellt hat. Das heißt, dass in einem Fall, in dem der Benutzer „Bitte, Computer“ äußert, angenommen wird, dass der intelligente Lautsprecher 10 eine Anfrage oder Forderung von dem Benutzer durch Verwendung einer Sprache vor der Äußerung entsprechend beantwortet.
5 stellt auch die Tatsache dar, dass, wenn das Aktivierungswort mit einer Sprache von „übrigens“ kombiniert wird, das Attribut „nachfolgende Sprache“ dem Aktivierungswort verliehen wird. Dies liegt daran, dass in einem Fall, in dem der Benutzer „Übrigens, Computer“ äußert, angenommen wird, dass der Benutzer eine Anfrage oder Forderung nach dem Aktivierungswort stellt. Das heißt, dass in einem Fall, in dem der Benutzer „Übrigens, Computer“ äußert, der intelligente Lautsprecher 10 eine Verarbeitungslast reduzieren kann, indem er die Sprache vor der Äußerung nicht verwendet und eine Verarbeitung an einer darauf folgenden Sprache durchführt. Der intelligente Lautsprecher 10 kann auch eine Anfrage oder eine Forderung von dem Benutzer entsprechend beantworten.
Als Nächstes werden im Folgenden die Aktivierungswortdaten 62 gemäß der ersten Ausführungsform beschrieben. 6 ist ein Diagramm, das ein Beispiel der Aktivierungswortdaten 62 gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. Die Aktivierungswortdaten 62 speichern Einstellungsinformationen in einem Fall, in dem das Attribut auf das Aktivierungswort selbst festgelegt wird. In dem in 6 dargestellten Beispiel weisen die Aktivierungswortdaten 62 solche Posten wie „Attribut“ und „Aktivierungswort“ auf.
„Attribut“ entspricht dem in 5 dargestellten gleichen Posten. „Aktivierungswort“ gibt die Zeichenfolge an, die von dem intelligenten Lautsprecher 10 als das Aktivierungswort erkannt wird.
Das heißt, in dem in 6 dargestellten Beispiel ist ein Fall veranschaulicht, in dem das Attribut „vorherige Sprache“ dem Aktivierungswort „beendet“ selbst verliehen wird. Dies liegt daran, dass in einem Fall, in dem der Benutzer das Aktivierungswort „beendet“ äußert, angenommen wird, dass der Benutzer eine Anfrage vor dem Aktivierungswort an den intelligenten Lautsprecher 10 gestellt hat. Das heißt, dass in einem Fall, in dem der Benutzer „beendet“ äußert, angenommen wird, dass der intelligente Lautsprecher 10 eine Anfrage oder eine Forderung von dem Benutzer durch Verwendung der Sprache vor der Äußerung zur Verarbeitung beantworten kann.
6 veranschaulicht auch, dass das Attribut „nachfolgende Sprache“ dem Aktivierungswort „hallo“ verliehen wird. Dies liegt daran, dass in einem Fall, in dem der Benutzer „hallo“ äußert, angenommen wird, dass der Benutzer eine Anfrage oder eine Forderung nach dem Aktivierungswort stellt. Das heißt, dass in einem Fall, in dem der Benutzer „hallo“ äußert, der intelligente Lautsprecher 10 die Verarbeitungslast reduzieren kann, indem er die Sprache vor der Äußerung nicht verwendet und eine Verarbeitung an einer darauf folgenden Sprache durchführt.
Zu 3 zurückkehrend, wird die Beschreibung fortgesetzt. Wie oben beschrieben, bestimmt die Bestimmungseinheit 51 die zur Verarbeitung zu benutzende Sprache im Einklang mit dem Attribut des Aktivierungswortes und dergleichen. In diesem Fall, in einem Fall des Bestimmens der Sprache, die vor dem Aktivierungswort geäußert wird, unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache, die zum Ausführen der vorbestimmten Funktion zu benutzen ist, im Einklang mit dem Attribut des Aktivierungswortes, kann die Bestimmungseinheit 51 das Ende einer Sitzung veranlassen, die dem Aktivierungswort entspricht, in einem Fall, in dem die vorbestimmte Funktion ausgeführt wird. Das heißt, die Bestimmungseinheit 51 kann die Verarbeitungslast reduzieren, indem sie veranlasst, dass die auf die Interaktion bezogene Sitzung sofort endet (genauer gesagt, zu veranlassen, dass das Interaktionssystem früher als gewöhnlich endet), nachdem das Aktivierungswort, dem das Attribut der vorherigen Sprache verliehen wird, geäußert worden ist. Die dem Aktivierungswort entsprechende Sitzung bedeutet eine Reihe von Verarbeitungen, durchgeführt durch das Interaktionssystem, das durch Auslösung durch das Aktivierungswort gestartet wird. Beispielsweise endet die dem Aktivierungswort entsprechende Sitzung in einem Fall, in dem der intelligente Lautsprecher 10 das Aktivierungswort erkennt, und die Interaktion wird danach für eine vorbestimmte Zeit unterbrochen (zum Beispiel eine Minute, fünf Minuten und dergleichen).
Die Äußerungserkennungseinheit 52 wandelt die Sprache (Äußerung), die von der Bestimmungseinheit 51 als für die Verarbeitung zu verwenden bestimmt wird, in eine Zeichenfolge um. Die Äußerungserkennungseinheit 52 kann die Sprache, die vor der Erkennung des Aktivierungswortes gepuffert wird, und die Sprache, die nach der Erkennung des Aktivierungswortes erfasst wird, parallel verarbeiten.
Die Einheit für semantisches Verständnis 53 analysiert den Inhalt einer Anfrage oder einer Frage von dem Benutzer auf der Basis der Zeichenfolge, die von der Äußerungserkennungseinheit 52 erkannt wird. Beispielsweise nimmt die Einheit für semantisches Verständnis 53 auf Wörterbuchdaten, die in dem intelligenten Lautsprecher 10 enthalten sind, oder auf eine externe Datenbank Bezug, um den Inhalt einer Anfrage oder einer Frage, gemeint durch die Zeichenfolge, zu analysieren. Insbesondere gibt die Einheit für semantisches Verständnis 53 auf der Basis der Zeichenfolge den Inhalt einer Anfrage von dem Benutzer an, wie z. B. „Bitte sage mir, was ein bestimmtes Objekt ist“, „Bitte registriere einen Terminplan in einer Kalenderanwendung“ und „Bitte spiele eine Melodie eines bestimmten Interpreten ab“. Die Einheit für semantisches Verständnis 53 leitet dann den angegebenen Inhalt an die Interaktionsverwaltungseinheit 54 weiter.
In einem Fall, in dem eine Absicht des Benutzers nicht auf der Basis der Zeichenfolge analysiert werden kann, kann die Einheit für semantisches Verständnis 53 diese Tatsache an die Antworterzeugungseinheit 55 weiterleiten. Beispielsweise, in einem Fall, in dem Informationen, die anhand der Äußerung des Benutzers nicht eingeschätzt werden können, als Resultat der Analyse enthalten sind, leitet die Einheit für semantisches Verständnis 53 den Inhalt an die Antworterzeugungseinheit 55 weiter. In diesem Fall kann die Antworterzeugungseinheit 55 eine Antwort erzeugen, um den Benutzer zu ersuchen, unklare Informationen noch einmal genau zu äußern.
Die Interaktionsverwaltungseinheit 54 aktualisiert das Interaktionssystem auf der Basis semantischer Repräsentation, verstanden durch die Einheit für semantisches Verständnis 53, und bestimmt eine Aktion des Interaktionssystems. Das heißt, die Interaktionsverwaltungseinheit 54 führt verschiedene Arten von Aktionen durch, die der verstandenen semantischen Repräsentation entsprechen (zum Beispiel die Aktion des Abrufens von Inhalt eines Ereignisses, das für den Benutzer beantwortet werden sollte, oder des Abrufens einer Antwort, die dem von dem Benutzer angeforderten Inhalt folgt).
Die Antworterzeugungseinheit 55 erzeugt eine Antwort an den Benutzer auf der Basis der Aktion und dergleichen, durchgeführt von der Interaktionsverwaltungseinheit 54. Beispielsweise, in einem Fall, in dem die Interaktionsverwaltungseinheit 54 dem Inhalt der Anfrage entsprechende Informationen erfasst, erzeugt die Antworterzeugungseinheit 55 Sprachdaten, die dem Wortlaut und dergleichen entsprechen, als Antwort. Je nach dem Inhalt einer Frage oder einer Anfrage kann die Antworterzeugungseinheit 55 eine Antwort von „nichts tun“ für die Äußerung des Benutzers erzeugen. Die Antworterzeugungseinheit 55 führt eine Steuerung durch, um zu bewirken, dass die erzeugte Antwort von einer Ausgabeeinheit 70 ausgegeben wird.
Die Ausgabeeinheit 70 ist ein Mechanismus zum Ausgeben verschiedener Arten von Informationen. Die Ausgabeeinheit 70 kann beispielsweise ein Lautsprecher oder ein Display sein. Beispielsweise gibt die Ausgabeeinheit 70 die von der Antworterzeugungseinheit 55 erzeugten Sprachdaten per Sprache aus. In einem Fall, in dem die Ausgabeeinheit 70 ein Display ist, kann die Antworterzeugungseinheit 55 eine Steuerung durchführen, die bewirkt, dass die empfangene Antwort als Textdaten auf dem Display angezeigt wird.
Das Folgende veranschaulicht speziell, unter Bezugnahme auf 7 bis 12, verschiedene Muster, bei denen die zur Verarbeitung zu benutzende Sprache durch die Bestimmungseinheit 51 bestimmt wird, und bei denen eine Antwort auf der Basis der bestimmten Sprache erzeugt wird. 7 bis 12 stellen konzeptionell ein Interaktionsverarbeitungsverfahren dar, das zwischen dem Benutzer und dem intelligenten Lautsprecher 10 durchgeführt wird. 7 ist ein Diagramm (1), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. 7 stellt ein Beispiel dar, in dem das Attribut des Aktivierungswortes und der Kombinationssprache „vorherige Sprache“ ist.
Wie in 7 dargestellt, selbst wenn der Benutzer U01 die Äußerung „Es sieht nach Regen aus“ macht, ist das Aktivierungswort nicht in der Äußerung enthalten, so dass der intelligente Lautsprecher 10 einen Stoppzustand des Interaktionssystems aufrechterhält. Andererseits setzt der intelligente Lautsprecher 10 die Pufferung der Äußerung fort. Danach, in einem Fall des Erkennens der Äußerungen „Wie denkst du darüber?“ und „Computer“ des Benutzers U01, startet der intelligente Lautsprecher 10 das Interaktionssystem, um die Verarbeitung zu starten. Der intelligente Lautsprecher 10 analysiert dann eine Vielzahl der Äußerungen, bevor er beginnt, die Aktion zu bestimmen, und erzeugt eine Antwort. Das heißt, in dem Beispiel von 7 erzeugt der intelligente Lautsprecher 10 die Antwort auf die Äußerung des Benutzers U01, das heißt „Es sieht nach Regen aus“ und „wie denkst du darüber?“. Genauer gesagt, führt der intelligente Lautsprecher 10 einen Web-Abruf durch und erfasst Wettervorhersage-Informationen oder gibt eine Wahrscheinlichkeit von Regen an. Der intelligente Lautsprecher 10 wandelt dann die erfassten Informationen in eine Sprache um, die an den Benutzer U01 auszugeben ist.
Nachdem die Antwort erfolgt ist, hält der intelligente Lautsprecher 10 sich bereit, während er das gestartete Interaktionssystem für eine vorbestimmte Zeit aufrechterhält. Das heißt, der intelligente Lautsprecher 10 setzt die Sitzung des Interaktionssystems für die vorbestimmte Zeit fort, nachdem er die Antwort ausgegeben hat, und beendet die Sitzung des Interaktionssystems in einem Fall, in dem die vorbestimmte Zeit abgelaufen ist. In einem Fall, in dem die Sitzung endet, startet der intelligente Lautsprecher 10 das Interaktionssystem nicht und führt keine Interaktionsverarbeitung durch, bis das Aktivierungswort erneut erkannt wird.
In einem Fall der Durchführung von Antwortverarbeitung auf der Basis des Attributs der vorherigen Sprache kann der intelligente Lautsprecher 10 die vorbestimmte Zeit, während der die Sitzung fortgesetzt wird, gegenüber dem Fall des anderen Attributs verkürzen. Dies liegt daran, dass bei der Antwortverarbeitung auf der Basis des Attributs der vorherigen Sprache die Wahrscheinlichkeit, dass der Benutzer die nächste Äußerung macht, geringer als die bei der Antwortverarbeitung auf der Basis des anderen Attributs ist. Aufgrund dessen kann der intelligente Lautsprecher 10 das Interaktionssystem sofort stoppen, so dass die Verarbeitungslast reduziert werden kann.
Als Nächstes wird die Beschreibung unter Bezugnahme auf 8 vorgenommen. 8 ist ein Diagramm (2), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. 8 stellt ein Beispiel dar, in dem das Attribut des Aktivierungswortes „unbestimmt“ ist. In diesem Fall gibt der intelligente Lautsprecher 10 im Grunde eine Antwort auf die Äußerung, die nach dem Aktivierungswort empfangen wird, erzeugt aber in einem Fall, in dem eine gepufferte Äußerung vorhanden ist, eine Antwort, indem er auch diese Äußerung verwendet.
Wie in 8 dargestellt, macht der Benutzer U01 die Äußerung „es sieht nach Regen aus“. Ähnlich dem Beispiel von 7, puffert der intelligente Lautsprecher 10 die Äußerung des Benutzers U01. Danach, in einem Fall, in dem der Benutzer U01 das Aktivierungswort „Computer“ äußert, startet der intelligente Lautsprecher 10 das Interaktionssystem, um die Verarbeitung zu starten, und wartet auf die nächste Äußerung des Benutzers U01.
Der intelligente Lautsprecher 10 empfängt dann die Äußerung „Wie denkst du darüber?“ von dem Benutzer U01. In diesem Fall bestimmt der intelligente Lautsprecher 10, dass die Äußerung „Wie denkst du darüber?“ allein keine ausreichende Information zum Erzeugen einer Antwort ist. An diesem Punkt durchsucht der intelligente Lautsprecher 10 die in der Sprachpuffereinheit 40 gepufferten Äußerungen und nimmt auf eine unmittelbar vorhergehende Äußerung des Benutzers U01 Bezug. Der intelligente Lautsprecher 10 bestimmt dann, die Äußerung „Es sieht nach Regen aus“ unter den gepufferten Äußerungen für die Verarbeitung zu benutzen.
Das heißt, der intelligente Lautsprecher 10 versteht semantisch die beiden Äußerungen „Es sieht nach Regen aus“ und „Wie denkst du darüber?“ und erzeugt eine Antwort, die der Anfrage von dem Benutzer entspricht. Insbesondere erzeugt der intelligente Lautsprecher 10 die Antwort „In Tokyo ist es am Morgen wolkig, und am Nachmittag regnet es“ als eine Antwort auf die Äußerungen „Es sieht nach Regen aus“ und „Wie denkst du darüber?“ des Benutzers U01 und gibt eine Antwortsprache aus.
Auf diese Weise, in einem Fall, in dem das Attribut des Aktivierungswortes „unbestimmt“ ist, kann der intelligente Lautsprecher 10 die Sprache nach dem Aktivierungswort für die Verarbeitung verwenden, oder er kann eine Antwort erzeugen, indem er abhängig von der Situation Sprachen vor und nach dem Aktivierungswort kombiniert. Beispielsweise, in einem Fall, in dem es schwierig ist, eine Antwort von der nach dem Aktivierungswort empfangenen Äußerung zu erzeugen, nimmt der intelligente Lautsprecher 10 Bezug auf die gepufferten Sprachen und versucht, eine Antwort zu erzeugen. Auf diese Weise, durch Kombinieren der Verarbeitung einer Pufferung der Sprachen und der Verarbeitung einer Bezugnahme auf das Attribut des Aktivierungswortes, kann der intelligente Lautsprecher 10 eine flexible Antwortverarbeitung durchführen, die verschiedenen Situationen entspricht.
Anschließend wird die Beschreibung unter Bezugnahme auf 9 vorgenommen. 9 ist ein Diagramm (3), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. In dem Beispiel von 9 ist ein Fall dargestellt, bei dem selbst in einem Fall, in dem das Attribut nicht im Voraus festgelegt ist, das Attribut durch Kombinieren des Aktivierungswortes und einer vorbestimmten Phrase als „vorherige Sprache“ bestimmt wird.
In dem Beispiel von 9 macht ein Benutzer U02 die Äußerung „Es ist eine Melodie mit dem Titel YY, gespielt von XX“ zu dem Benutzer U01. In dem Beispiel von 9 ist „YY“ ein bestimmter Titel der Melodie, und „XX“ ist ein Name eines Interpreten, der „YY“ singt. Der intelligente Lautsprecher 10 puffert die Äußerung des Benutzers U02. Danach macht der Benutzer U01 die Äußerungen „Spiele diese Melodie ab“ und „Computer“ zu dem intelligenten Lautsprecher 10.
Der intelligente Lautsprecher 10 startet das Interaktionssystem, ausgelöst durch das Aktivierungswort „Computer“. Anschließend führt der intelligente Lautsprecher 10 eine Erkennungsverarbeitung für die mit dem Aktivierungswort kombinierte Phrase, das heißt, „Spiele diese Melodie ab“, durch und bestimmt, dass die Phrase ein Demonstrativpronomen oder ein Demonstrativ aufweist. In der Regel wird in einem Fall, in dem die Äußerung ein Demonstrativpronomen oder ein Demonstrativ wie „diese Melodie“ in einem Gespräch enthält, angenommen, dass das Objekt in einer vorherigen Äußerung aufgetaucht ist. Somit bestimmt der intelligente Lautsprecher 10 in einem Fall, in dem die Äußerung durch Kombinieren einer Phrase, die ein Demonstrativpronomen oder ein Demonstrativ wie „diese Melodie“ und das Aktivierungswort aufweist, gemacht wird, dass das Attribut des Aktivierungswortes „vorherige Sprache“ ist. Das heißt, der intelligente Lautsprecher 10 bestimmt, dass die Sprache, die für die Interaktionsverarbeitung zu benutzen ist, „eine Äußerung vor dem Aktivierungswort“ sein soll.
In dem Beispiel von 9 analysiert der intelligente Lautsprecher 10 Äußerungen einer Vielzahl der Benutzer, bevor das Interaktionssystem gestartet wird (das heißt, die Äußerungen des Benutzers U01 und des Benutzers U02, bevor „Computer“ erkannt wird), und bestimmt eine auf die Antwort bezogene Aktion. Insbesondere führt der intelligente Lautsprecher 10 einen Abruf und Download der Melodie „mit dem Titel YY und gespielt von XX“ auf der Basis der Äußerungen „Es ist eine Melodie mit dem Titel YY, gespielt von XX“ und „Spiele diese Melodie ab“ durch. Wenn die Wiedergabevorbereitung der Melodie abgeschlossen ist, führt der intelligente Lautsprecher 10 eine Ausgabe durch, so dass die Melodie zusammen mit der Antwort „Spiele YY von XX ab“ wiedergegeben wird. Danach veranlasst der intelligente Lautsprecher 10 die Fortsetzung der Sitzung des Interaktionssystems für eine vorbestimmte Zeit und wartet auf eine Äußerung. Beispielsweise, wenn eine Rückmeldung wie etwa „Nein, eine andere Melodie“ während dieser Zeit von dem Benutzer U01 erhalten wird, führt der intelligente Lautsprecher 10 eine Verarbeitung des Stoppens der Wiedergabe der gegenwärtig wiedergegebenen Melodie durch. Falls während einer vorbestimmten Zeit keine neue Äußerung empfangen wird, beendet der intelligente Lautsprecher 10 die Sitzung und stoppt das Interaktionssystem.
Auf diese Weise führt der intelligente Lautsprecher 10 nicht unbedingt eine Verarbeitung auf der Basis nur des im Voraus festgelegten Attributs durch, sondern er kann bestimmen, dass die Äußerung für eine Interaktionsverarbeitung unter einer bestimmten Regel, wie z. B. Durchführen einer Verarbeitung im Einklang mit dem Attribut „vorherige Sprache“, zu benutzen ist in einem Fall, in dem ein Demonstrativ und das Aktivierungswort kombiniert werden. Aufgrund dessen kann der intelligente Lautsprecher 10 eine natürliche Antwort auf die Antwort des Benutzers geben, wie bei einem wirklichen Gespräch zwischen Personen.
Das in 9 dargestellte Beispiel kann auf verschiedene Instanzen angewandt werden. Beispielsweise wird bei einem Gespräch zwischen einem Elternteil und einem Kind angenommen, dass das Kind die folgende Äußerung macht: „Unsere Grundschule hat einen Klassenausflug am X Monat Y Tag“. In Reaktion auf die Äußerung wird von dem Elternteil die Äußerung „Computer, registriere das im Kalender“ angenommen. An diesem Punkt, nachdem er das Interaktionssystem durch Erkennen von „Computer“ in der Äußerung des Elternteils gestartet hat, nimmt der intelligente Lautsprecher 10 auf der Basis der Zeichenfolge „das“ auf die gepufferten Sprachen Bezug. Der intelligente Lautsprecher 10 kombiniert dann die beiden Äußerungen „Unsere Grundschule hat einen Klassenausflug am X Monat Y Tag“ und „Registriere das im Kalender“, um eine Verarbeitung des Registrierens von „X Monat Y Tag“ als „Klassenausflug der Grundschule“ durchzuführen (zum Beispiel Registrieren des Terminplans in einer Kalenderanwendung). Auf diese Weise kann der intelligente Lautsprecher 10 eine entsprechende Antwort geben, indem er die Äußerungen vor und nach dem Aktivierungswort kombiniert.
Anschließend wird die Beschreibung unter Bezugnahme auf 10 vorgenommen. 10 ist ein Diagramm (4), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. In dem Beispiel von 10 ist ein Beispiel einer Verarbeitung dargestellt, die zu der Zeit erzeugt wird, wenn die für die Verarbeitung verwendete Äußerung allein als Information zum Erzeugen einer Antwort unzureichend ist in einem Fall, in dem das Attribut des Aktivierungswortes und die Kombinationssprache „vorherige Sprache“ ist.
Wie in 10 dargestellt, äußert der Benutzer U01 „Wecke mich morgen“ und äußert danach „Bitte, Computer“. Nach der Pufferung der Äußerung „Wecke mich morgen“ startet der intelligente Lautsprecher 10 das Interaktionssystem, ausgelöst durch das Aktivierungswort „Computer“, und startet die Interaktionsverarbeitung.
Der intelligente Lautsprecher 10 bestimmt das Attribut des Aktivierungswortes als „vorherige Sprache“ auf der Basis der Kombination von „Bitte“ und „Computer“. Das heißt, der intelligente Lautsprecher 10 bestimmt die für die Verarbeitung zu benutzende Sprache als die Sprache vor dem Aktivierungswort (in dem Beispiel von 10 „Wecke mich morgen“). Der intelligente Lautsprecher 10 analysiert die Äußerung „Wecke mich morgen“ vor dem Starten und bestimmt die Aktion.
An diesem Punkt bestimmt der intelligente Lautsprecher 10, dass es der Äußerung „Wecke mich morgen“ an Informationen über „zu welcher Uhrzeit wünscht der Benutzer, von mir geweckt zu werden“ in der Aktion des Weckens des Benutzers U01 mangelt (zum Beispiel Einstellen eines Timers als Wecker). In diesem Fall, um die Aktion „Wecken des Benutzers U01“ zu implementieren, erzeugt der intelligente Lautsprecher 10 eine Antwort, um den Benutzer U01 nach einer Uhrzeit als Ziel der Aktion zu fragen. Insbesondere erzeugt der intelligente Lautsprecher 10 die Frage „Um wie viel Uhr soll ich dich wecken?“ an den Benutzer U01. Danach, in einem Fall, in dem die Äußerung „um sieben Uhr“ neu von dem Benutzer U01 erhalten wird, analysiert der intelligente Lautsprecher 10 die Äußerung und stellt den Timer ein. In diesem Fall kann der intelligente Lautsprecher 10 bestimmen, dass die Aktion abgeschlossen ist (bestimmen, dass das Gespräch mit geringer Wahrscheinlichkeit weiter fortgesetzt wird), und kann das Interaktionssystem sofort stoppen.
Anschließend wird die Beschreibung unter Bezugnahme auf 11 vorgenommen. 11 ist ein Diagramm (5), das ein Beispiel von Interaktionsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. In dem Beispiel von 11 ist ein Beispiel einer Verarbeitung dargestellt, die zu der Zeit erzeugt wird, wenn die Äußerung vor dem Aktivierungswort allein als Information zum Erzeugen der Antwort in dem in 10 dargestellten Beispiel unzureichend ist.
Wie in 11 dargestellt, äußert der Benutzer U01 „Wecke mich morgen um sieben Uhr“ und äußert danach „Bitte, Computer“. Der intelligente Lautsprecher 10 puffert die Äußerung „Wecke mich morgen um sieben Uhr“, startet das Interaktionssystem, ausgelöst durch das Aktivierungswort „Computer“, und startet die Verarbeitung.
Der intelligente Lautsprecher 10 bestimmt das Attribut des Aktivierungswortes als „vorherige Sprache“ auf der Basis der Kombination von „Bitte“ und „Computer“. Das heißt, der intelligente Lautsprecher 10 bestimmt die für die Verarbeitung zu benutzende Sprache als die Sprache vor dem Aktivierungswort (in dem Beispiel von 10 „Wecke mich morgen um sieben Uhr“). Der intelligente Lautsprecher 10 analysiert die Äußerung „Wecke mich morgen“ vor dem Starten und bestimmt die Aktion. Insbesondere stellt der intelligente Lautsprecher 10 den Timer auf sieben Uhr ein. Daraufhin erzeugt der intelligente Lautsprecher 10 eine Antwort, welche die Tatsache angibt, dass der Timer eingestellt ist, und antwortet dem Benutzer U01. In diesem Fall kann der intelligente Lautsprecher 10 bestimmen, dass die Aktion abgeschlossen ist (bestimmen, dass das Gespräch mit geringer Wahrscheinlichkeit weiter fortgesetzt wird), und kann das Interaktionssystem sofort stoppen. Das heißt, in einem Fall des Bestimmens, dass das Attribut „vorherige Sprache“ ist, und des Abschätzens, dass die Interaktionsverarbeitung abgeschlossen ist, basierend auf der Äußerung vor dem Aktivierungswort, kann der intelligente Lautsprecher 10 das Interaktionssystem sofort stoppen. Aufgrund dessen kann der Benutzer U01 dem intelligenten Lautsprecher 10 nur einen notwendigen Inhalt mitteilen und den intelligenten Lautsprecher 10 veranlassen, unmittelbar danach in einen Stoppzustand überzugehen, so dass Zeit und Aufwand zur Durchführung einer überflüssigen Antwort gespart werden können, und eine Stromversorgung des intelligenten Lautsprechers 10 gespart werden kann.
Die Beispiele der Interaktionsverarbeitung gemäß der vorliegenden Offenbarung sind oben unter Bezugnahme auf 7 bis 11 beschrieben worden, doch die Beispiele sind lediglich ein Beispiel. Der intelligente Lautsprecher 10 kann Antworten erzeugen, die verschiedenen Situationen entsprechen, indem er in einer Situation außer der oben beschriebenen auf die gepufferte Sprache oder das Attribut des Aktivierungswortes Bezug nimmt.
1-3. Informationsverarbeitungsverfahren gemäß der ersten Ausführungsform
Als Nächstes wird im Folgenden ein Informationsverarbeitungsverfahren gemäß der ersten Ausführungsform unter Bezugnahme auf 12 beschrieben. 12 ist ein Flussdiagramm (1), das ein Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. Insbesondere, unter Bezugnahme auf 12, wird im Folgenden ein Verarbeitungsverfahren des Erzeugens einer Antwort auf die Äußerung des Benutzers und des Ausgebens der erzeugten Antwort durch den intelligenten Lautsprecher 10 gemäß der ersten Ausführungsform beschrieben.
Wie in 12 dargestellt, sammelt der intelligente Lautsprecher 10 Sprachen aus der Umgebung (Schritt S101). Der intelligente Lautsprecher 10 bestimmt, ob die Äußerung von den gesammelten Sprachen extrahiert wird (Schritt S102). Wird die Äußerung nicht von den gesammelten Sprachen extrahiert (Nein bei Schritt S102), speichert der intelligente Lautsprecher 10 die Sprachen nicht in der Sprachpuffereinheit 40 und setzt die Verarbeitung des Sammelns der Sprachen fort.
Andererseits, falls die Äußerung extrahiert wird, speichert der intelligente Lautsprecher 10 die extrahierte Äußerung in der Speichereinheit (Sprachpuffereinheit 40) (Schritt S103). Wird die Äußerung extrahiert, bestimmt der intelligente Lautsprecher 10 auch, ob das Interaktionssystem gestartet worden ist (Schritt S104).
Ist das Interaktionssystem nicht gestartet worden (Nein bei Schritt S104), bestimmt der intelligente Lautsprecher 10, ob die Äußerung das Aktivierungswort einschließt (Schritt S105). Ist das Aktivierungswort in der Äußerung enthalten (Ja bei Schritt S105), startet der intelligente Lautsprecher 10 das Interaktionssystem (Schritt S106). Ist dagegen das Aktivierungswort nicht in der Äußerung enthalten (Nein bei Schritt S105), startet der intelligente Lautsprecher 10 das Interaktionssystem nicht und fährt mit dem Sammeln der Sprachen fort.
In einem Fall, in dem die Äußerung empfangen und das Interaktionssystem gestartet wird, bestimmt der intelligente Lautsprecher 10 die für eine Antwort zu benutzende Äußerung im Einklang mit dem Attribut des Aktivierungswortes (Schritt S107). Daraufhin führt der intelligente Lautsprecher 10 eine Verarbeitung des semantischen Verständnisses an der Äußerung durch, die als für eine Antwort zu benutzen bestimmt ist (Schritt S108).
An diesem Punkt bestimmt der intelligente Lautsprecher 10, ob eine zum Erzeugen einer Antwort ausreichende Äußerung erhalten wird (Schritt S109). Wird eine zum Erzeugen einer Antwort ausreichende Äußerung nicht erhalten (Nein bei Schritt S109), nimmt der intelligente Lautsprecher 10 auf die Sprachpuffereinheit 40 Bezug und bestimmt, ob eine gepufferte unverarbeitete Äußerung vorhanden ist (Schritt S110).
Ist eine gepufferte unverarbeitete Äußerung vorhanden (Ja bei Schritt S110), nimmt der intelligente Lautsprecher 10 auf die Sprachpuffereinheit 40 Bezug und bestimmt, ob die Äußerung eine Äußerung innerhalb einer vorbestimmten Zeit ist (Schritt S111). Ist die Äußerung eine Äußerung innerhalb der vorbestimmten Zeit (Ja bei Schritt S111), bestimmt der intelligente Lautsprecher 10, dass die gepufferte Äußerung die für Antwortverarbeitung zu benutzende Äußerung ist (Schritt S112). Dies liegt daran, dass, selbst wenn eine gepufferte Sprache vorhanden ist, eine Sprache, die früher als die vorbestimmte Zeit gepuffert wird (zum Beispiel 60 Sekunden) als für Antwortverarbeitung ineffektiv angenommen wird. Wie oben beschrieben, puffert der intelligente Lautsprecher 10 die Sprache, indem er nur die Äußerung extrahiert, so dass eine Äußerung, die lange vor der vorbestimmten Zeit gesammelt worden ist, ungeachtet der Puffereinstellungszeit gepuffert werden kann. In diesem Fall wird angenommen, dass die Effizienz der Antwortverarbeitung verbessert wird, indem Informationen von dem Benutzer neu empfangen werden, verglichen mit einem Fall der Nutzung der vor langer Zeit gesammelten Äußerung für die Verarbeitung. Somit benutzt der intelligente Lautsprecher 10 die Äußerung innerhalb der vorbestimmten Zeit, ohne die früher als die vorbestimmte Zeit empfangene Äußerung für die Verarbeitung zu benutzen.
Wird die zum Erzeugen der Antwort ausreichende Äußerung erhalten (Ja bei Schritt S109), falls keine gepufferte unverarbeitete Äußerung vorhanden ist (Nein bei Schritt S110), und falls die gepufferte Äußerung nicht die Äußerung innerhalb der vorbestimmten Zeit ist (Nein bei Schritt S111), erzeugt der intelligente Lautsprecher 10 eine Antwort auf der Basis der Äußerung (Schritt S113). Bei Schritt S113 kann die Antwort, die in einem Fall erzeugt wird, in dem keine gepufferte unverarbeitete Äußerung vorhanden ist, oder in einem Fall, in dem die gepufferte Äußerung nicht die Äußerung innerhalb der vorbestimmten Zeit ist, zu einer Antwort werden, um den Benutzer aufzufordern, neue Informationen einzugeben, oder zu einer Antwort, um den Benutzer über die Tatsache zu informieren, dass keine Antwort auf eine Anfrage von dem Benutzer erzeugt werden kann.
Der intelligente Lautsprecher 10 gibt die erzeugte Antwort aus (Schritt S114). Beispielsweise wandelt der intelligente Lautsprecher 10 eine der erzeugten Antwort entsprechende Zeichenfolge in eine Sprache um und gibt den Antwortinhalt über den Lautsprecher wieder.
Als Nächstes wird im Folgenden ein Verarbeitungsverfahren nach der Ausgabe der Antwort unter Bezugnahme auf 13 beschrieben. 13 ist ein Flussdiagramm (2), das ein Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
Wie in 13 dargestellt, bestimmt der intelligente Lautsprecher 10, ob das Attribut des Aktivierungswortes „vorherige Sprache“ ist (Schritt S201). Ist das Attribut des Aktivierungswortes „vorherige Sprache“ (Ja bei Schritt S201), legt der intelligente Lautsprecher 10, als N, eine Wartezeit als eine Zeit zum Warten auf die nächste Äußerung des Benutzers fest (Schritt S202). Ist dagegen das Attribut des Aktivierungswortes nicht „vorherige Sprache“ (Nein bei Schritt S201), legt der intelligente Lautsprecher 10, als M, die Wartezeit als eine Zeit zum Warten auf die nächste Äußerung des Benutzers fest (Schritt S203). N und M sind optionale Zeitlängen (zum Beispiel die Anzahl von Sekunden), und es wird vorausgesetzt, dass eine Beziehung von N < M erfüllt ist.
Anschließend bestimmt der intelligente Lautsprecher 10, ob die Wartezeit abgelaufen ist (Schritt S204). Bis die Wartezeit abläuft (Nein bei Schritt S204), bestimmt der intelligente Lautsprecher 10, ob eine neue Äußerung erkannt wird (Schritt S205). Wird eine neue Äußerung erkannt (Ja bei Schritt S205), erhält der intelligente Lautsprecher 10 das Interaktionssystem aufrecht (Schritt S206). Wird dagegen keine neue Äußerung erkannt (Nein bei Schritt S205), wartet der intelligente Lautsprecher 10 im Bereitschaftszustand, bis eine neue Äußerung erkannt wird. Ist die Wartezeit abgelaufen (Ja bei Schritt S204), beendet der intelligente Lautsprecher 10 das Interaktionssystem (Schritt S207).
Beispielsweise, bei dem oben beschriebenen Schritt S202, kann der intelligente Lautsprecher 10 durch Einstellen der Wartezeit N auf einen äußerst niedrigen Zahlenwert das Interaktionssystem sofort beenden, wenn die Antwort auf die Anfrage von dem Benutzer abgeschlossen ist. Die Einstellung der Wartezeit kann von dem Benutzer empfangen werden, oder sie kann von einem Verwalter und dergleichen des intelligenten Lautsprechers 10 durchgeführt werden.
1-4. Modifikation gemäß der ersten Ausführungsform
In der oben beschriebenen ersten Ausführungsform wird ein Fall veranschaulicht, in dem der intelligente Lautsprecher 10 das von dem Benutzer geäußerte Aktivierungswort als den Auslöser erkennt. Der Auslöser ist jedoch nicht auf das Aktivierungswort beschränkt.
Beispielsweise, in einem Fall, in dem der intelligente Lautsprecher 10 eine Kamera als Sensor 20 aufweist, kann der intelligente Lautsprecher 10 eine Bilderkennung an einem Bild durchführen, das durch Abbilden des Benutzers erhalten wird, und einen Auslöser von den erkannten Informationen erkennen. Beispielsweise kann der intelligente Lautsprecher 10 eine Sichtlinie des Benutzers erkennen, der auf den intelligenten Lautsprecher 10 blickt. In diesem Fall kann der intelligente Lautsprecher 10 anhand verschiedener bekannter Techniken, die auf die Erkennung einer Sichtlinie bezogen sind, bestimmen, ob der Benutzer auf den intelligenten Lautsprecher 10 blickt.
In einem Fall des Bestimmens, dass der Benutzer auf den intelligenten Lautsprecher 10 blickt, bestimmt der intelligente Lautsprecher 10, dass der Benutzer eine Antwort von dem intelligenten Lautsprecher 10 wünscht, und startet das Interaktionssystem. Das heißt, der intelligente Lautsprecher 10 führt eine Verarbeitung des Lesens der gepufferten Sprache durch, um eine Antwort zu erzeugen, und des Ausgebens der erzeugten Antwort, ausgelöst durch die Sichtlinie des auf den intelligenten Lautsprecher 10 blickenden Benutzers. Auf diese Weise, durch Durchführung einer Antwortverarbeitung im Einklang mit der Sichtlinie des Benutzers, kann der intelligente Lautsprecher 10 eine von dem Benutzer beabsichtigte Verarbeitung durchführen, bevor der Benutzer das Aktivierungswort äußert, so dass die Nutzbarkeit weiter verbessert werden kann.
In einem Fall, in dem der intelligente Lautsprecher 10 einen Infrarotsensor und dergleichen als den Sensor 20 aufweist, kann der intelligente Lautsprecher 10, als Auslöser, Informationen erkennen, die durch Erfassen einer vorbestimmten Bewegung des Benutzers oder einen Abstand zu dem Benutzer erhalten werden. Beispielsweise kann der intelligente Lautsprecher 10 die Tatsache erfassen, dass der Benutzer sich einem Bereich eines vorbestimmten Abstands von dem intelligenten Lautsprecher 10 nähert (zum Beispiel 1 Meter), und kann eine Annäherungsbewegung davon als einen Auslöser für Sprachantwortverarbeitung erkennen. Alternativ dazu kann der intelligente Lautsprecher 10 die Tatsache erkennen, dass der Benutzer sich dem intelligenten Lautsprecher 10 von außerhalb des Bereichs des vorbestimmten Abstands nähert und zum Beispiel dem intelligenten Lautsprecher 10 gegenübersteht. In diesem Fall kann der intelligente Lautsprecher 10 anhand verschiedener bekannter Techniken, die auf die Erkennung der Bewegung des Benutzers bezogen sind, bestimmen, dass der Benutzer sich dem intelligenten Lautsprecher 10 nähert, oder dass der Benutzer dem intelligenten Lautsprecher 10 gegenübersteht.
Der intelligente Lautsprecher 10 erfasst dann eine vorbestimmte Bewegung des Benutzers oder einen Abstand zu dem Benutzer, und in einem Fall, in dem die erfassten Informationen eine vorbestimmte Bedingung erfüllen, bestimmt der intelligente Lautsprecher 10, dass der Benutzer eine Antwort von dem intelligenten Lautsprecher 10 wünscht, und startet das Interaktionssystem. Das heißt, der intelligente Lautsprecher 10 führt eine Verarbeitung des Lesens der gepufferten Sprache durch, um eine Antwort zu erzeugen, und des Ausgebens der erzeugten Antwort, ausgelöst durch die Tatsache, dass der Benutzer dem intelligenten Lautsprecher 10 gegenübersteht, die Tatsache, dass der Benutzer sich dem intelligenten Lautsprecher 10 nähert und dergleichen. Durch eine solche Verarbeitung kann der intelligente Lautsprecher 10 auf der Basis der von dem Benutzer geäußerten Sprache eine Antwort geben, bevor der Benutzer die vorbestimmte Bewegung und dergleichen ausführt. Auf diese Weise, durch Abschätzen auf der Basis der Bewegung des Benutzers, dass der Benutzer eine Antwort wünscht, und durch Durchführen einer Antwortverarbeitung, kann der intelligente Lautsprecher 10 die Nutzbarkeit weiter verbessern.
Zweite Ausführungsform
2-1. Konfiguration des Sprachverarbeitungssystems gemäß der zweiten Ausführungsform
Als Nächstes wird im Folgenden die zweite Ausführungsform beschrieben. In der ersten Ausführungsform wird ein Fall veranschaulicht, in dem die Sprachverarbeitung gemäß der vorliegenden Offenbarung durch den intelligenten Lautsprecher 10 durchgeführt wird. Dagegen wird in der zweiten Ausführungsform ein Fall veranschaulicht, in dem die Sprachverarbeitung gemäß der vorliegenden Offenbarung durch das Sprachverarbeitungssystem 2 durchgeführt wird, das den intelligenten Lautsprecher 10A aufweist, der die Sprachen sammelt, und einen Informationsverarbeitungsserver 100 als eine Servervorrichtung, welche die Sprachen über ein Netzwerk empfängt.
14 stellt ein Konfigurationsbeispiel des Sprachverarbeitungssystems 2 gemäß der zweiten Ausführungsform dar. 14 ist ein Diagramm, das ein Konfigurationsbeispiel des Sprachverarbeitungssystems 2 gemäß der zweiten Ausführungsform der vorliegenden Offenbarung darstellt.
Der intelligente Lautsprecher 10A ist das, was man ein Gerät des Internet der Dinge (IoT) nennt, und führt verschiedene Arten von Informationsverarbeitung in Kooperation mit dem Informationsverarbeitungsserver 100 durch. Insbesondere ist der intelligente Lautsprecher 10A ein Gerät, das als Front-End von Sprachverarbeitung gemäß der vorliegenden Offenbarung dient (Verarbeitung, wie z. B. Interaktion mit dem Benutzer), das in manchen Fällen zum Beispiel ein Agentengerät genannt wird. Der intelligente Lautsprecher 10A gemäß der vorliegenden Offenbarung kann ein Smartphone, ein Tablet-Terminal und dergleichen sein. In diesem Fall führen das Smartphone und das Tablet-Terminal ein Computerprogramm (Anwendung) aus, das die gleiche Funktion wie die des intelligenten Lautsprechers 10A hat, um die oben beschriebene Agentenfunktion zu zeigen. Die durch den intelligenten Lautsprecher 10A implementierte Sprachverarbeitungsfunktion kann zusätzlich zu dem Smartphone und dem Tablet-Terminal auch durch eine tragbare Vorrichtung, wie z. B. ein Terminal in Armbanduhr- und Brillenausführung, implementiert werden. Die durch den intelligenten Lautsprecher 10A implementierte Sprachverarbeitungsfunktion kann auch durch verschiedene intelligente Geräte implementiert werden, die über eine Informationsverarbeitungsfunktion verfügen, und können durch ein intelligentes Haushaltsgerät, wie z. B. ein Fernsehgerät, eine Klimaanlage und einen Kühlschrank, ein intelligentes Fahrzeug, wie z. B. ein Automobil, eine Drohne oder einen Haushaltsroboter implementiert werden.
Wie in 14 dargestellt, weist der intelligente Lautsprecher 10A eine Sprachübertragungseinheit 35, verglichen mit dem intelligenten Lautsprecher 10 gemäß der ersten Ausführungsform. Die Sprachübertragungseinheit 35 weist zusätzlich zu der Empfangseinheit 30 gemäß der ersten Ausführungsform eine Übertragungseinheit 34 auf.
Die Übertragungseinheit 34 überträgt verschiedene Arten von Informationen über ein verdrahtetes oder drahtloses Netzwerk und dergleichen. Beispielsweise, in einem Fall, in dem das Aktivierungswort erkannt wird, überträgt die Übertragungseinheit 34, zu dem Informationsverarbeitungsserver 100, die Sprachen, die gesammelt werden, bevor das Aktivierungswort erkannt wird, das heißt die in der Sprachpuffereinheit 40 gepufferten Sprachen. Die Übertragungseinheit 34 kann nicht nur die gepufferten Sprachen, sondern auch Sprachen, die gesammelt werden, nachdem das Aktivierungswort erkannt worden ist, zu dem Informationsverarbeitungsserver 100 übertragen. Das heißt, der intelligente Lautsprecher 10A führt die auf Interaktionsverarbeitung bezogene Funktion, wie z. B. Erzeugung einer Antwort, nicht selbst aus, überträgt die Äußerung zu dem Informationsverarbeitungsserver 100 und veranlasst den Informationsverarbeitungsserver 100, die Interaktionsverarbeitung durchzuführen.
Der in 14 dargestellte Informationsverarbeitungsserver 100 ist das, was man einen Cloud-Server nennt, was eine Servervorrichtung ist, die Informationsverarbeitung in Kooperation mit dem intelligenten Lautsprecher 10A durchführt. In der zweiten Ausführungsform entspricht der Informationsverarbeitungsserver 100 der Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung. Der Informationsverarbeitungsserver 100 erfasst die von dem intelligenten Lautsprecher 10A gesammelte Sprache, analysiert die erfasste Sprache und erzeugt eine Antwort, die der analysierten Sprache entspricht. Der Informationsverarbeitungsserver 100 überträgt dann die erzeugte Antwort zu dem intelligenten Lautsprecher 10A. Beispielsweise erzeugt der Informationsverarbeitungsserver 100 eine Antwort auf eine von dem Benutzer geäußerte Frage, oder er führt eine Steuerungsverarbeitung zum Abrufen einer von dem Benutzer gewünschten Melodie durch und veranlasst den intelligenten Lautsprecher 10, eine abgerufene Sprache auszugeben.
Wie in 14 dargestellt, weist der Informationsverarbeitungsserver 100 eine Empfangseinheit 131, eine Bestimmungseinheit 132, eine Äußerungserkennungseinheit 133, eine Einheit für semantisches Verständnis 134, eine Antworterzeugungseinheit 135 und eine Übertragungseinheit 136 auf. Jede Verarbeitungseinheit wird implementiert, wenn zum Beispiel ein in dem Informationsverarbeitungsserver 100 gespeichertes Computerprogramm (zum Beispiel ein auf dem Aufzeichnungsmedium aufgezeichnetes Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung) durch eine CPU, eine MPU und dergleichen unter Verwendung eines RAM und dergleichen als Arbeitsbereich ausgeführt wird. Beispielsweise kann jede Verarbeitungseinheit auch durch eine integrierte Schaltung, wie z. B. eine ASIC, ein FPGA und dergleichen implementiert werden.
Die Empfangseinheit 131 empfängt a Sprache, die der vorbestimmten Zeitlänge entspricht, und einen Auslöser zum Starten einer vorbestimmten Funktion, die der Sprache entspricht. Das heißt, die Empfangseinheit 131 empfängt verschiedene Arten von Informationen, wie z. B. die der vorbestimmten Zeitlänge entsprechende Sprache, gesammelt durch den intelligenten Lautsprecher 10A, Informationen, die angeben, dass das Aktivierungswort durch den intelligenten Lautsprecher 10A erkannt wird, und dergleichen. Die Empfangseinheit 131 leitet dann die empfangene Sprache und die auf den Auslöser bezogenen Informationen zu der Bestimmungseinheit 132 weiter.
Die Bestimmungseinheit 132, die Äußerungserkennungseinheit 133, die Einheit für semantisches Verständnis 134 und die Antworterzeugungseinheit 135 führen die gleiche Informationsverarbeitung durch wie diejenige, die durch die Interaktionsverarbeitungseinheit 50 gemäß der ersten Ausführungsform durchgeführt wird. Die Antworterzeugungseinheit 135 leitet die erzeugte Antwort zu der Übertragungseinheit 136 weiter. Die Übertragungseinheit 136 überträgt die erzeugte Antwort zu dem intelligenten Lautsprecher 10A.
Auf diese Weise kann die Sprachverarbeitung gemäß der vorliegenden Offenbarung durch das Agentengerät, wie z. B. den intelligenten Lautsprecher 10A, und den Cloud-Server, wie z. B. dem Informationsverarbeitungsserver 100, der die durch das Agentengerät empfangenen Informationen verarbeitet, implementiert werden. Das heißt, die Sprachverarbeitung gemäß der vorliegenden Offenbarung kann auch in einem Modus implementiert werden, in dem die Konfiguration des Gerätes flexibel geändert wird.
Dritte Ausführungsform
Als Nächstes wird im Folgenden eine dritte Ausführungsform beschrieben. In der zweiten Ausführungsform ist ein Konfigurationsbeispiel beschrieben, bei dem der Informationsverarbeitungsserver 100 die Bestimmungseinheit 132 aufweist und die für die Verarbeitung verwendete Sprache bestimmt. In der dritten Ausführungsform ist ein Beispiel beschrieben, bei dem ein intelligenter Lautsprecher 10B, der die Bestimmungseinheit 51 aufweist, die für die Verarbeitung verwendete Sprache bei einem vorherigen Schritt des Übertragens der Sprache zu dem Informationsverarbeitungsserver 100 bestimmt.
15 ist ein Diagramm, das ein Konfigurationsbeispiel des Sprachverarbeitungssystems 3 gemäß der dritten Ausführungsform der vorliegenden Offenbarung darstellt. Wie in 15 dargestellt, weist das Sprachverarbeitungssystem 3 gemäß der dritten Ausführungsform den intelligenten Lautsprecher 10B und einen Informationsverarbeitungsserver 100B auf.
Verglichen mit dem intelligenten Lautsprecher 10A, weist der intelligente Lautsprecher 10B ferner die Empfangseinheit 30, die Bestimmungseinheit 51 und die Attributinformationen-Speichereinheit 60 auf. Bei dieser Konfiguration sammelt der intelligente Lautsprecher 10B die Sprachen und speichert die gesammelten Sprachen in der Sprachpuffereinheit 40. Der intelligente Lautsprecher 10B erkennt auch einen Auslöser zum Starten einer vorbestimmten Funktion, die der Sprache entspricht. In einem Fall, in dem der Auslöser erkannt wird, bestimmt der intelligente Lautsprecher 10B die Sprache, die zum Ausführen der vorbestimmten Funktion zu benutzen ist, unter den Sprachen im Einklang mit dem Attribut des Auslösers, und überträgt die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache zu dem Informationsverarbeitungsserver 100.
Das heißt, der intelligente Lautsprecher 10B überträgt nicht alle der gepufferten Äußerungen nach der Erkennung des Aktivierungswortes, sondern führt die Bestimmungsverarbeitung selbst durch und wählt die zu übertragende Sprache aus, um eine Übertragungsverarbeitung zu dem Informationsverarbeitungsserver 100 durchzuführen. Beispielsweise, in einem Fall, in dem das Attribut des Aktivierungswortes „vorherige Sprache“ ist, überträgt der intelligente Lautsprecher 10B nur die Äußerung, die vor der Erkennung des Aktivierungswortes empfangen worden ist, zu dem Informationsverarbeitungsserver 100.
In der Regel, in einem Fall, in dem der Cloud-Server und dergleichen auf dem Netzwerk die auf die Interaktion bezogene Verarbeitung durchführen, bestehen Bedenken bezüglich eine Zunahme des Kommunikationsverkehrsvolumens aufgrund der Übertragung der Sprachen. Wenn jedoch die zu übertragenden Sprachen reduziert werden, besteht die Möglichkeit, dass eine entsprechende Interaktionsverarbeitung nicht durchgeführt wird. Das heißt, es besteht das Problem, dass eine entsprechende Interaktionsverarbeitung implementiert werden sollte, während das Kommunikationsverkehrsvolumen reduziert wird. Andererseits, bei der Konfiguration gemäß der dritten Ausführungsform, kann eine entsprechende Antwort erzeugt werden, während das auf die Interaktionsverarbeitung bezogene Kommunikationsverkehrsvolumen reduziert wird, so dass das oben beschriebene Problem gelöst werden kann.
In der dritten Ausführungsform kann die Bestimmungseinheit 51 die für die Verarbeitung zu benutzende Sprache als Reaktion auf eine Anfrage von dem Informationsverarbeitungsserver 100B bestimmen. Beispielsweise wird davon ausgegangen, dass der Informationsverarbeitungsserver 100B bestimmt, dass die von dem intelligenten Lautsprecher 10B übertragene Sprache als Information unzureichend ist und eine Antwort nicht erzeugt werden kann. In diesem Fall fordert der Informationsverarbeitungsserver 100B den intelligenten Lautsprecher 10B auf, ferner die in der Vergangenheit gepufferten Äußerungen zu übertragen. Der intelligente Lautsprecher 10B nimmt auf die Äußerungsdaten 41 Bezug, und in einem Fall, in dem eine Äußerung vorhanden ist, bei der eine vorbestimmte Zeit nach der Aufzeichnung nicht abgelaufen ist, überträgt der intelligente Lautsprecher 10B die Äußerung zu dem Informationsverarbeitungsserver 100B. Auf diese Weise kann der intelligente Lautsprecher 10B abhängig davon, ob die Antwort erzeugt werden kann, eine Sprache bestimmen, die neu zu dem Informationsverarbeitungsserver 100B zu übertragen ist, und dergleichen. Aufgrund dessen kann der Informationsverarbeitungsserver 100B eine Interaktionsverarbeitung durchführen, indem er eine notwendige Menge entsprechender Sprachen verwendet, so dass eine entsprechende Interaktionsverarbeitung durchgeführt werden kann, während das Kommunikationsverkehrsvolumen zwischen sich selbst und dem intelligenten Lautsprecher 10B gespart wird.
Andere Ausführungsformen
Die oben beschriebene Verarbeitung gemäß den jeweiligen Ausführungsform kann in zahlreichen unterschiedlichen Formen außer den oben beschriebenen Ausführungsformen durchgeführt werden.
Beispielsweise kann die Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung als eine Funktion eines Smartphones und dergleichen anstelle eines Einzelgerätes, wie z. B. dem intelligenten Lautsprecher 10, implementiert werden. Die Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung kann auch in einem Modus eines IC-Chips und dergleichen, montiert in einem Informationsverarbeitungsterminal, implementiert werden.
Die Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung kann eine Konfiguration der Erzeugung einer vorbestimmten Benachrichtigung für den Benutzer haben. Dieser Punkt wird nachstehend am Beispiel des intelligenten Lautsprechers 10 beschrieben. Beispielsweise erzeugt der intelligente Lautsprecher 10 eine vorbestimmte Benachrichtigung an den Benutzer in einem Fall des Ausführens einer vorbestimmten Funktion durch Verwendung einer Sprache, die vor der Erkennung des Auslösers gesammelt wird.
Wie oben beschrieben, führt der intelligente Lautsprecher 10 gemäß der vorliegenden Offenbarung eine Antwortverarbeitung auf der Basis der gepufferten Sprache durch. Eine solche Verarbeitung wird auf der Basis der vor dem Aktivierungswort geäußerten Sprache durchgeführt, so dass der Benutzer daran gehindert werden kann, überflüssige Zeit und Mühe aufzuwenden. Der Benutzer kann jedoch besorgt darüber werden, wie lange es her ist, dass die Sprache, auf deren Basis die Verarbeitung durchgeführt wird, geäußert wurde. Das heißt, die Sprachantwortverarbeitung unter Verwendung des Puffers kann den Benutzer besorgt darüber machen, ob die Privatsphäre verletzt wird, weil lebendige Klänge ständig gesammelt werden. Mit anderen Worten, eine solche Technik bringt das Problem mit sich, dass die Besorgnis des Benutzers verringert werden sollte. Andererseits kann der intelligente Lautsprecher 10 dem Benutzer ein Gefühl der Sicherheit geben, indem er durch eine von dem intelligenten Lautsprecher 10 durchgeführte Benachrichtigungsverarbeitung eine vorbestimmte Benachrichtigung an den Benutzer erzeugt.
Beispielsweise, zu der Zeit, da die vorbestimmte Funktion ausgeführt wird, erzeugt der intelligente Lautsprecher 10 eine Benachrichtigung in unterschiedlichen Modi zwischen einem Fall der Verwendung der vor der Erkennung des Auslösers gesammelten Sprache und einem Fall der Verwendung der nach der Erkennung des Auslösers gesammelten Sprache. Zum Beispiel führt der intelligente Lautsprecher 10 in einem Fall, in dem die Antwortverarbeitung durch Verwendung der gepufferten Sprache durchgeführt wird, eine Steuerung durch, so dass rotes Licht von einer Außenfläche des intelligenten Lautsprechers 10 emittiert wird. In einem Fall, in dem die Antwortverarbeitung durch Verwendung der Sprache nach dem Aktivierungswort durchgeführt wird, führt der intelligente Lautsprecher 10 eine Steuerung durch, so dass blaues Licht von der Außenfläche des intelligenten Lautsprechers 10 emittiert wird. Aufgrund dessen kann der Benutzer erkennen, ob die Antwort an ihn auf der Basis der gepufferten Sprache oder auf der Basis der Sprache, die von ihm nach dem Aktivierungswort geäußert wird, gemacht wird.
Der intelligente Lautsprecher 10 kann eine Benachrichtigung in noch einem anderen unterschiedlichen Modus erzeugen. Insbesondere in einem Fall, in dem die vor der Erkennung des Auslösers gesammelte Sprache zu der Zeit verwendet wird, da die vorbestimmte Funktion ausgeführt wird, kann der intelligente Lautsprecher 10 den Benutzer von einem Log benachrichtigen, welcher der verwendeten Sprache entspricht. Beispielsweise kann der intelligente Lautsprecher 10 die Sprache, die tatsächlich für eine Antwort verwendet wird, in eine Zeichenfolge umwandeln, die auf einem in dem intelligenten Lautsprecher 10 enthaltenen externen Display anzuzeigen ist. Unter Bezugnahme auf 1 als Beispiel zeigt der intelligente Lautsprecher 10 Zeichenfolgen von „Es sieht nach Regen aus“ und „Sag mir das Wetter“ auf dem externen Display an und gibt die Antwortsprache R01 zusammen mit dieser Anzeige aus. Aufgrund dessen kann der Benutzer genau erkennen, welche Äußerung für die Verarbeitung verwendet wird, so dass der Benutzer hinsichtlich des Schutzes der Privatsphäre ein Gefühl der Sicherheit gewinnen kann.
Der intelligente Lautsprecher 10 kann die für die Antwort verwendete Zeichenfolge über eine vorbestimmte Vorrichtung anzeigen, anstatt die Zeichenfolge auf dem intelligenten Lautsprecher 10 anzuzeigen. Beispielsweise, in einem Fall, in dem die gepufferte Sprache für die Verarbeitung verwendet wird, kann der intelligente Lautsprecher 10 eine Zeichenfolge, die der für die Verarbeitung verwendeten Sprache entspricht, zu einem im Voraus registrierten Endgerät, wie z. B. einem Smartphone, übertragen. Aufgrund dessen kann der Benutzer genau erfassen, welche Sprache für die Verarbeitung verwendet wird, und welche Zeichenfolge nicht für die Verarbeitung verwendet wird.
Der intelligente Lautsprecher 10 kann auch eine Benachrichtigung erzeugen, die angibt, ob die gepufferte Sprache übertragen wird. Beispielsweise, in einem Fall, in dem der Auslöser nicht erkannt wird und die Sprache nicht übertragen wird, führt der intelligente Lautsprecher 10 eine Steuerung durch, um eine Anzeige auszugeben, die diese Tatsache angibt (zum Beispiel Ausgabe eines Lichts von blauer Farbe). Dagegen wird in einem Fall, in dem der Auslöser erkannt wird, die gepufferte Sprache übertragen, und die darauf folgende Sprache wird zum Ausführen der vorbestimmten Funktion verwendet, so dass der intelligente Lautsprecher 10 eine Steuerung durchführt, um eine Anzeige auszugeben, die diese Tatsache angibt (zum Beispiel Ausgabe eines Lichts von roter Farbe).
Der intelligente Lautsprecher 10 kann auch eine Rückmeldung von dem Benutzer empfangen, der die Benachrichtigung empfängt. Beispielsweise, nachdem er die Benachrichtigung erzeugt hat, dass die gepufferte Sprache verwendet wird, empfängt der intelligente Lautsprecher 10 von dem Benutzer eine Sprache, die vorschlägt, eine weitere vorherige Äußerung wie „Nein, verwende eine ältere Äußerung“ zu verwenden. In diesem Fall kann der intelligente Lautsprecher 10 zum Beispiel eine vorbestimmte Lernverarbeitung, wie etwa eine Verlängerung einer Pufferzeit, oder eine Erhöhung der Anzahl von Äußerungen, die zu dem Informationsverarbeitungsserver 100 zu übertragen sind, durchführen. Das heißt, der intelligente Lautsprecher 10 kann eine Informationsmenge der Sprache, die vor der Erkennung des Auslösers gesammelt und zum Ausführen der vorbestimmten Funktion verwendet wird, basierend auf einer Reaktion des Benutzers auf die Ausführung der vorbestimmten Funktion, einstellen. Aufgrund dessen kann der intelligente Lautsprecher 10 eine Antwortverarbeitung durchführen, die besser an einen Benutzungsmodus des Benutzers angepasst ist.
Unter den Stücken der oben in den jeweiligen Ausführungsformen beschriebenen Verarbeitung können alle oder ein Teil der Stücke der beschriebenen Verarbeitung, die automatisch durchzuführen ist, auch manuell durchgeführt werden, oder alle oder ein Teil der Stücke der beschriebenen Verarbeitung, die manuell durchzuführen ist, können auch unter Verwendung eines bekannten Verfahrens automatisch durchgeführt werden. Zusätzlich können Informationen, einschließlich Verarbeitungsverfahren, spezieller Namen, verschiedener Arten von Daten und Parametern, die hierin beschrieben und in den Zeichnungen dargestellt sind, optional geändert werden, wenn nicht ausdrücklich anders angegeben. Beispielsweise sind verschiedene Arten von in den Zeichnungen dargestellten Informationen nicht auf die darin dargestellten Informationen beschränkt.
Die Komponenten der in den Zeichnungen dargestellten Vorrichtungen sind lediglich konzeptionell, und es ist nicht erforderlich, dass die Komponenten unbedingt physikalisch konfiguriert sind, wie dargestellt. Das heißt, spezifische Formen der Verteilung und Integration der Vorrichtungen sind nicht auf die in den Zeichnungen dargestellten beschränkt. Alle oder Teile davon können abhängig von verschiedenen Belastungen oder Gebrauchszuständen in beliebigen Einheiten funktional oder physikalisch verteilt/integriert sein. Die Äußerungsextraktionseinheit 32 und die Detektionseinheit 33 können miteinander integriert sein.
Die oben beschriebenen Ausführungsformen und Modifikationen können gegebenenfalls ohne Widerspruch des Verarbeitungsinhalts kombiniert werden.
Die hierin beschriebenen Effekte sind lediglich Beispiele, und die Effekte sind nicht darauf beschränkt. Andere Effekte können gezeigt werden.
Hardware-Konfiguration
Die Informationsvorrichtung, wie z. B. der intelligente Lautsprecher 10 oder der Informationsverarbeitungsserver 100, gemäß den oben beschriebenen Ausführungsformen wird durch einen Computer 1000 implementiert, der zum Beispiel eine in 16 dargestellte Konfiguration hat. Das Folgende veranschaulicht den intelligenten Lautsprecher 10 gemäß der ersten Ausführungsform. 16 ist ein Hardware-Konfigurationsdiagramm, das ein Beispiel des Computers 1000 darstellt, der die Funktion des intelligenten Lautsprechers 10 implementiert. Der Computer 1000 umfasst eine CPU 1100, ein RAM 1200, einen Nur-Lese-Speicher (ROM) 1300, ein Festplattenlaufwerk (HDD) 1400, eine Kommunikationsschnittstelle 1500 und eine Eingabe/Ausgabe-Schnittstelle 1600. Die jeweiligen Teile des Computers 1000 sind über einen Bus 1050 miteinander verbunden.
Die CPU 1100 operiert auf der Basis eines Computerprogramms, das in dem ROM 1300 oder auf dem HDD 1400 gespeichert ist, und steuert die jeweiligen Teile. Beispielsweise lädt die CPU 1100 das in dem ROM 1300 oder auf dem HDD 1400 gespeicherte Computerprogramm in das RAM 1200 und führt eine verschiedenen Computerprogrammen entsprechende Verarbeitung durch.
Das ROM 1300 speichert ein Boot-Programm, wie z. B. ein Basic Input Output System (BIOS), das beim Starten des Computers 1000 durch die CPU 1100 ausgeführt wird, ein Computerprogramm, abhängig von der Hardware des Computers 1000 und dergleichen.
Das HDD 1400 ist ein computerlesbares Aufzeichnungsmedium, das ein durch die CPU 1100 ausgeführtes Computerprogramm, von dem Computerprogramm verwendete Daten und dergleichen, nicht-temporär aufzeichnet. Insbesondere das HDD 1400 ist ein Aufzeichnungsmedium, welches das Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung als ein Beispiel von Programmdaten 1450 aufzeichnet.
Die Kommunikationsschnittstelle 1500 ist eine Schnittstelle zum Verbinden des Computers 1000 mit einem externen Netzwerk 1550 (zum Beispiel dem Internet). Beispielsweise empfängt die CPU 1100 Daten von einem anderen Gerät, oder überträgt von der CPU 1100 erzeugte Daten über die Kommunikationsschnittstelle 1500 zu einem anderen Gerät.
Die Eingabe/Ausgabe-Schnittstelle 1600 ist eine Schnittstelle zum Verbinden einer Eingabe/AusgabeVorrichtung 1650 mit dem Computer 1000. Beispielsweise empfängt die CPU 1100 Daten von einer Eingabevorrichtung, wie z. B. einer Tastatur und einer Maus, über die Eingabe/Ausgabe-Schnittstelle 1600. Die CPU 1100 überträgt Daten über die Eingabe/Ausgabe-Schnittstelle 1600 zu einer Ausgabevorrichtung, wie z. B. einem Display, einem Lautsprecher und einem Drucker. Die Eingabe/Ausgabe-Schnittstelle 1600 kann als eine Medienschnittstelle funktionieren, die ein in einem vorbestimmten Aufzeichnungsmedium (Medium) aufgezeichnetes Computerprogramm und dergleichen liest. Beispiele des Mediums umfassen ein optisches Aufzeichnungsmedium, wie z. B. eine Digital Versatile Disc (DVD) und eine wiederbeschreibbare Phasenwechsel-Disk (PD), ein magnetooptisches Aufzeichnungsmedium, wie z. B. eine magnetooptische Disk (MO), ein Bandmedium, ein magnetisches Aufzeichnungsmedium, einen Halbleiterspeicher oder dergleichen.
Beispielsweise, in einem Fall, in dem der Computer 1000 als der intelligente Lautsprecher 10 gemäß der ersten Ausführungsform funktioniert, führt die CPU 1100 des Computers 1000 das in das RAM 1200 geladene Sprachverarbeitungsprogramm aus, um die Funktion der Empfangseinheit 30 und dergleichen zu implementieren. Das HDD 1400 speichert das Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung und die in der Sprachpuffereinheit 40 enthaltenen Daten. Die CPU 1100 liest die auszuführenden Programmdaten 1450 von dem HDD 1400. Alternativ dazu, als ein weiteres Beispiel, kann die CPU 1100 diese Computerprogramme über das externe Netzwerk 1550 von einer anderen Vorrichtung erfassen.
Die vorliegende Technik kann die folgenden Konfigurationen anwenden.
(1)
Sprachverarbeitungsvorrichtung, Folgendes umfassend:

eine Empfangseinheit, dazu ausgelegt, Sprachen zu empfangen, die einer vorbestimmten Zeitlänge und Informationen entsprechen, die auf einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion bezogen sind; und
eine Bestimmungseinheit, dazu ausgelegt, eine zur Ausführung der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen zu bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen Informationen, die durch die Empfangseinheit empfangen werden.

(2)
Sprachverarbeitungsvorrichtung gemäß (1), wobei die Bestimmungseinheit eine vor dem Auslöser geäußerte Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion im Einklang mit den auf den Auslöser bezogenen Informationen zu benutzen ist.
(3)
Sprachverarbeitungsvorrichtung gemäß (1), wobei die Bestimmungseinheit eine nach dem Auslöser geäußerte Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion im Einklang mit den auf den Auslöser bezogenen Informationen zu benutzen ist.
(4)
Sprachverarbeitungsvorrichtung gemäß (1), wobei die Bestimmungseinheit eine durch Kombinieren einer vor dem Auslöser geäußerten Sprache mit einer nach dem Auslöser geäußerten Sprache erhaltene Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion im Einklang mit den auf den Auslöser bezogenen Informationen zu benutzen ist.
(5)
Sprachverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (4), wobei die Empfangseinheit, als die auf den Auslöser bezogenen Informationen, auf ein Aktivierungswort bezogene Informationen als eine Sprache empfängt, die der Auslöser zum Starten der vorbestimmten Funktion sein soll.
(6)
Sprachverarbeitungsvorrichtung gemäß (5), wobei die Bestimmungseinheit die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit einem Attribut, das zuvor auf das Aktivierungswort festgelegt wurde, bestimmt.
(7)
Sprachverarbeitungsvorrichtung gemäß (5), wobei die Bestimmungseinheit die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen bestimmt, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit dem Attribut, das mit jeder Kombination des Aktivierungswortes verknüpft ist, und eine Sprache, die vor oder nach dem Aktivierungswort erkannt wird.
(8)
Sprachverarbeitungsvorrichtung gemäß (6) oder (7), wobei in einem Fall des Bestimmens der vor dem Auslöser geäußerten Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache, die zum Ausführen der vorbestimmten Funktion zu benutzen ist, im Einklang mit dem Attribut, die Bestimmungseinheit eine Sitzung beendet, die dem Aktivierungswort entspricht, in einem Fall, in dem die vorbestimmte Funktion ausgeführt wird.
(9)
Sprachverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (8), wobei die Empfangseinheit die von einem Benutzer geäußerten Äußerungsteile von den Sprachen extrahiert, die der vorbestimmten Zeitlänge entsprechen, und die extrahierten Äußerungsteile empfängt.
(10)
Sprachverarbeitungsvorrichtung gemäß (9), wobei
die Empfangseinheit die extrahierten Äußerungsteile mit einem Aktivierungswort als eine Sprache empfängt, die der Auslöser zum Starten der vorbestimmten Funktion sein soll, und
die Bestimmungseinheit einen Äußerungsteil eines Benutzers, der derselbe Benutzer wie derjenige ist, der das Aktivierungswort geäußert hat, unter den Äußerungsteilen als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion zu benutzen ist.
(11)
Sprachverarbeitungsvorrichtung gemäß (9), wobei
die Empfangseinheit die extrahierten Äußerungsteile mit einem Aktivierungswort als eine Sprache empfängt, die der Auslöser zum Starten der vorbestimmten Funktion sein soll, und
die Bestimmungseinheit einen Äußerungsteil eines Benutzers, der derselbe Benutzer wie derjenige ist, der das Aktivierungswort geäußert hat, und einen Äußerungsteil eines vorher registrierten vorbestimmten Benutzers unter den Äußerungsteilen als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion zu benutzen ist.
(12)
Sprachverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (11), wobei die Empfangseinheit, als die auf den Auslöser bezogenen Informationen, auf eine Sichtlinie eines Benutzers bezogene Informationen empfängt, die durch Durchführen einer Bilderkennung an einem Bild, das durch Abbilden des Benutzers erhalten wird, erkannt werden.
(13)
Sprachverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (12), wobei die Empfangseinheit, als die auf den Auslöser bezogenen Informationen, durch Erfassen einer vorbestimmten Bewegung eines Benutzers oder eines Abstands zu dem Benutzer erhaltene Informationen empfängt.
(14)
Sprachverarbeitungsverfahren, durchgeführt von einem Computer, wobei das Sprachverarbeitungsverfahren Folgendes umfasst:

Empfangen von Sprachen, die einer vorbestimmten Zeitlänge und Informationen entsprechen, die auf einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion bezogen sind; und
Bestimmen einer zum Ausführen der vorbestimmten Funktion zu benutzenden Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen empfangenen Informationen.

(15)
Computerlesbares nicht-transitorisches Aufzeichnungsmedium, das ein Sprachverarbeitungsprogramm aufzeichnet, um einen Computer zu veranlassen, als Folgendes zu funktionieren:

(16)
Sprachverarbeitungsvorrichtung, Folgendes umfassend:

eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Speichereinheit zu speichern;
eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen;
eine Bestimmungseinheit, die dazu ausgelegt ist, in einem Fall, in dem der Auslöser durch die Detektionseinheit erkannt wird, eine zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen im Einklang mit den auf den Auslöser bezogenen Informationen zu bestimmen; und
eine Übertragungseinheit, die dazu ausgelegt ist, die Sprache, die durch die Bestimmungseinheit als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache bestimmt wird, zu einer Servervorrichtung, welche die vorbestimmte Funktion ausführt, zu übertragen.

(17)
Sprachverarbeitungsverfahren, durchgeführt von einem Computer, wobei das Sprachverarbeitungsverfahren Folgendes umfasst:

Sammeln von Sprachen und Speichern der gesammelten Sprachen in einer Speichereinheit;
Erkennen eines Auslösers zum Starten einer der Sprache entsprechenden vorbestimmten Funktion;
Bestimmen, in einem Fall, in dem der Auslöser erkannt wird, einer zum Ausführen der vorbestimmten Funktion zu benutzenden Sprache unter den Sprachen im Einklang mit den auf den Auslöser bezogenen Informationen; und
Übertragen der Sprache, die als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache bestimmt wird,
zu einer Servervorrichtung, welche die vorbestimmte Funktion ausführt.

(18)
Computerlesbares nicht-transitorisches Aufzeichnungsmedium, das ein Sprachverarbeitungsprogramm aufzeichnet, um einen Computer zu veranlassen, als Folgendes zu funktionieren:

Bezugszeichenliste

1, 2, 3: SPRACHVERARBEITUNGSSYSTEM
10, 10A, 10B: INTELLIGENTER LAUTSPRECHER
100, 100B: INFORMATIONSVERARBEITUNGSSERVER
31: TONSAMMELEINHEIT
32: ÄUSSERUNGSEXTRAKTIONSEINHEIT
33: DETEKTIONSEINHEIT
34: ÜBERTRAGUNGSEINHEIT
35: SPRACHÜBERTRAGUNGSEINHEIT
40: SPRACHPUFFEREINHEIT
41: ÄUSSERUNGSDATEN
50: INTERAKTIONSVERARBEITUNGSEINHEIT
51: BESTIMMUNGSEINHEIT
52: ÄUSSERUNGSERKENNUNGSEINHEIT
53: EINHEIT FÜR SEMANTISCHES VERSTÄNDNIS
54: INTERAKTIONSVERWALTUNGSEINHEIT
55: ANTWORTERZEUGUNGSEINHEIT
60: ATTRIBUTINFORMATIONEN-SPEICHEREINHEIT
61: KOMBINATIONSDATEN
62: AKTIVIERUNGSWORTDATEN

Claims

Sprachverarbeitungsvorrichtung, Folgendes umfassend: eine Empfangseinheit, dazu ausgelegt, Sprachen zu empfangen, die einer vorbestimmten Zeitlänge und Informationen entsprechen, die auf einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion bezogen sind; und eine Bestimmungseinheit, dazu ausgelegt, eine zur Ausführung der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen zu bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen Informationen, die durch die Empfangseinheit empfangen werden.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Bestimmungseinheit eine vor dem Auslöser geäußerte Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion im Einklang mit den auf den Auslöser bezogenen Informationen zu benutzen ist.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Bestimmungseinheit eine nach dem Auslöser geäußerte Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion im Einklang mit den auf den Auslöser bezogenen Informationen zu benutzen ist.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Bestimmungseinheit eine durch Kombinieren einer vor dem Auslöser geäußerten Sprache mit einer nach dem Auslöser geäußerten Sprache erhaltene Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion im Einklang mit den auf den Auslöser bezogenen Informationen zu benutzen ist.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Empfangseinheit, als die auf den Auslöser bezogenen Informationen, auf ein Aktivierungswort bezogene Informationen als eine Sprache empfängt, die der Auslöser zum Starten der vorbestimmten Funktion sein soll.
Sprachverarbeitungsvorrichtung gemäß Anspruch 5, wobei die Bestimmungseinheit die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit einem Attribut, das zuvor auf das Aktivierungswort festgelegt wurde, bestimmt.
Sprachverarbeitungsvorrichtung gemäß Anspruch 5, wobei die Bestimmungseinheit die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen bestimmt, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit einem Attribut, das mit jeder Kombination des Aktivierungswortes verknüpft ist, und einer Sprache, die vor oder nach dem Aktivierungswort erkannt wird.
Sprachverarbeitungsvorrichtung gemäß Anspruch 7, wobei in einem Fall des Bestimmens der vor dem Auslöser geäußerten Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, als die Sprache, die zum Ausführen der vorbestimmten Funktion zu benutzen ist, im Einklang mit dem Attribut, die Bestimmungseinheit eine Sitzung beendet, die dem Aktivierungswort entspricht, in einem Fall, in dem die vorbestimmte Funktion ausgeführt wird.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Empfangseinheit die von einem Benutzer geäußerten Äußerungsteile von den Sprachen extrahiert, die der vorbestimmten Zeitlänge entsprechen, und die extrahierten Äußerungsteile empfängt.
Sprachverarbeitungsvorrichtung gemäß Anspruch 9, wobei die Empfangseinheit die extrahierten Äußerungsteile mit einem Aktivierungswort als eine Sprache empfängt, die der Auslöser zum Starten der vorbestimmten Funktion sein soll, und die Bestimmungseinheit einen Äußerungsteil eines Benutzers, der derselbe Benutzer wie derjenige ist, der das Aktivierungswort geäußert hat, unter den Äußerungsteilen als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion zu benutzen ist.
Sprachverarbeitungsvorrichtung gemäß Anspruch 9, wobei die Empfangseinheit die extrahierten Äußerungsteile mit einem Aktivierungswort als eine Sprache empfängt, die der Auslöser zum Starten der vorbestimmten Funktion sein soll, und die Bestimmungseinheit einen Äußerungsteil eines Benutzers, der derselbe Benutzer wie derjenige ist, der das Aktivierungswort geäußert hat, und einen Äußerungsteil eines vorher registrierten vorbestimmten Benutzers unter den Äußerungsteilen als die Sprache bestimmt, die zum Ausführen der vorbestimmten Funktion zu benutzen ist.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Empfangseinheit, als die auf den Auslöser bezogenen Informationen, auf eine Sichtlinie eines Benutzers bezogene Informationen empfängt, die durch Durchführen einer Bilderkennung an einem Bild, das durch Abbilden des Benutzers erhalten wird, erkannt werden.
Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Empfangseinheit, als die auf den Auslöser bezogenen Informationen, durch Erfassen einer vorbestimmten Bewegung eines Benutzers oder eines Abstands zu dem Benutzer erhaltene Informationen empfängt.
Sprachverarbeitungsverfahren, durchgeführt von einem Computer, wobei das Sprachverarbeitungsverfahren Folgendes umfasst: Empfangen von Sprachen, die einer vorbestimmten Zeitlänge und Informationen entsprechen, die auf einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion bezogen sind; und Bestimmen einer zum Ausführen der vorbestimmten Funktion zu benutzenden Sprache unter den Sprachen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen empfangenen Informationen.
Computerlesbares nicht-transitorisches Aufzeichnungsmedium, das ein Sprachverarbeitungsprogramm aufzeichnet, um einen Computer zu veranlassen, als Folgendes zu funktionieren: eine Empfangseinheit, dazu ausgelegt, Sprachen zu empfangen, die einer vorbestimmten Zeitlänge und Informationen entsprechen, die auf einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion bezogen sind; und eine Bestimmungseinheit, dazu ausgelegt, eine zur Ausführung der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen zu bestimmen, die der vorbestimmten Zeitlänge entsprechen, im Einklang mit den auf den Auslöser bezogenen Informationen, die durch die Empfangseinheit empfangen werden.
Sprachverarbeitungsvorrichtung, Folgendes umfassend: eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Speichereinheit zu speichern; eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; eine Bestimmungseinheit, die dazu ausgelegt ist, in einem Fall, in dem der Auslöser durch die Detektionseinheit erkannt wird, eine zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen im Einklang mit den auf den Auslöser bezogenen Informationen zu bestimmen; und eine Übertragungseinheit, die dazu ausgelegt ist, die Sprache, die durch die Bestimmungseinheit als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache bestimmt wird, zu einer Servervorrichtung, welche die vorbestimmte Funktion ausführt, zu übertragen.
Sprachverarbeitungsverfahren, durchgeführt von einem Computer, wobei das Sprachverarbeitungsverfahren Folgendes umfasst: Sammeln von Sprachen und Speichern der gesammelten Sprachen in einer Speichereinheit; Erkennen eines Auslösers zum Starten einer der Sprache entsprechenden vorbestimmten Funktion; Bestimmen, in einem Fall, in dem der Auslöser erkannt wird, einer zum Ausführen der vorbestimmten Funktion zu benutzenden Sprache unter den Sprachen im Einklang mit den auf den Auslöser bezogenen Informationen; und Übertragen der Sprache, die als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache bestimmt wird, zu einer Servervorrichtung, welche die vorbestimmte Funktion ausführt.
Computerlesbares nicht-transitorisches Aufzeichnungsmedium, das ein Sprachverarbeitungsprogramm aufzeichnet, um einen Computer zu veranlassen, als Folgendes zu funktionieren: eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Speichereinheit zu speichern; eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; eine Bestimmungseinheit, die dazu ausgelegt ist, in einem Fall, in dem der Auslöser durch die Detektionseinheit erkannt wird, eine zum Ausführen der vorbestimmten Funktion zu benutzende Sprache unter den Sprachen im Einklang mit den auf den Auslöser bezogenen Informationen zu bestimmen; und eine Übertragungseinheit, die dazu ausgelegt ist, die Sprache, die durch die Bestimmungseinheit als die zum Ausführen der vorbestimmten Funktion zu benutzende Sprache bestimmt wird, zu einer Servervorrichtung, welche die vorbestimmte Funktion ausführt, zu übertragen.