DE112019005921T5

DE112019005921T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm

Info

Publication number: DE112019005921T5
Application number: DE112019005921.1T
Authority: DE
Inventors: Juri YAEDA; Saki Yokoyama; Chiaki Miyazaki
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-11-28
Filing date: 2019-11-14
Publication date: 2021-08-12
Also published as: JP2022021349A; WO2020110744A1; US20220028368A1

Abstract

Der vorliegende Stand der Technik betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm, um es zu ermöglichen, mit korrekter Aussprache auf eine Äußerung eines Benutzers zu antworten. Eine Informationsverarbeitungsvorrichtung nach einem Aspekt des gegenwärtigen Standes der Technik erzeugt Antworttext, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers darstellt, auf der Basis von Äußerungstext, der den Inhalt der Äußerung des Benutzers darstellt, und gibt Antworttext aus, dem Ausspracheinformationen hinzugefügt werden, um die Art und Weise der Lesart einer in dem Antworttext enthaltenen Zeichenkette darzustellen. Der vorliegende Stand der Technik kann auf ein Gerät mit einer Sprachassistenzfunktion angewendet werden.

Description

TECHNISCHES GEBIET
Die vorliegende Technologie betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm, und insbesondere eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm, die in der Lage sind, auf eine Äußerung eines Benutzers mit einer korrekten Aussprache zu antworten.
STAND DER TECHNIK
Mit den Fortschritten in der Spracherkennungstechnologie und der Technologie der künstlichen Intelligenz werden Geräte, die mit einer Sprachassistenzfunktion ausgestattet sind, immer weiter verbreitet. Beispielsweise wird ein Sprachdialog mit einer natürlichen Äußerung archiviert, bei dem das Gerät auf die Äußerung eines Benutzers „Sag mir das Wetter“ mit „Das heutige Wetter ist sonnig“ antwortet.
Ein solcher Sprachdialog wird hauptsächlich durch eine Reihe von Verarbeitungsschritten erreicht, einschließlich der Spracherkennung, bei der die Stimme eines Benutzers in einen Text umgewandelt wird, der Sprachanalyse, bei der die Ergebnisse der Spracherkennung analysiert werden und eine Absicht des Benutzers geschätzt wird, der Antwortgenerierung, bei der ein Antworttext entsprechend der Absicht des Benutzers erzeugt wird, und der Sprachsynthese, bei der der Antworttext in eine Stimme umgewandelt wird.
LISTE DER ANFÜHRUNGEN
PATENTDOKUMENT
Patentdokument 1: Japanische Patentanmeldungs-Offenlegungsnummer 2016-201643
ZUSAMMENFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
Die Sprachsynthese, die die abschließende Verarbeitung zur Erzielung des Sprachdialogs darstellt, wird so durchgeführt, dass der durch die Antwortgenerierung erzeugte Antworttext in einen symbolischen sprachlichen Ausdruck umgewandelt wird, der eine Lesart und eine Prosodie angibt. Die Prosodie umfasst Tonhöhe, Rhythmus, Intonation und dergleichen.
Hier wird eine Lesart einer im Antworttext enthaltenen Zeichenkette durch den Gebrauch beispielsweise eines Sprachwörterbuchs ausgewählt. Eine Lesart jeder Zeichenkette wird im Sprachwörterbuch registriert.
In einem Fall, in dem eine Vielzahl von Lesarten für eine Zeichenkette mit der gleichen Notation im Sprachwörterbuch registriert ist, kann eine falsche Lesart, die vom Benutzer nicht erwartet wird, der Zeichenkette hinzugefügt werden. In diesem Fall wird der Inhalt der Antwort möglicherweise nicht korrekt an den Benutzer übermittelt.
Die vorliegende Technologie wurde im Hinblick auf eine solche Situation entwickelt und ermöglicht es, auf eine Äußerung eines Benutzers mit einer korrekten Aussprache zu antworten
LÖSUNGEN DER PROBLEME
Eine Informationsverarbeitungsvorrichtung eines Aspekts der vorliegenden Technologie enthält eine Dialogverwaltungseinheit, die einen Antworttext erzeugt, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers auf der Basis eines Äußerungstextes angibt, der den Inhalt der Äußerung des Benutzers angibt, und die den Antworttext ausgibt, zu dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer in dem Antworttext enthaltenen Zeichenkette angeben.
In einem Aspekt der vorliegenden Technologie wird der Antworttext, der den Inhalt der Antwort auf die Äußerung des Benutzers angibt, auf der Basis des Äußerungstextes, der den Inhalt der Äußerung des Benutzers angibt, erzeugt, und der Antworttext, zu dem die Ausspracheinformationen, die die Lesart der im Antworttext enthaltenen Zeichenfolge angeben, hinzugefügt werden, wird ausgegeben.
Figurenliste

1 ist ein Diagramm, das ein Konfigurationsbeispiel eines Informationsverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Technologie darstellt.
2 ist ein Diagramm, das ein Beispiel für eine Äußerung darstellt.
3 ist ein Diagramm, das ein Beispiel für eine Reihe von Prozessen zur Erzielung eines Sprachdialogs darstellt.
4 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
5 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
6 ist ein Diagramm, das ein Konzept der Verarbeitung eines Informationsverarbeitungsservers darstellt.
7 ist ein Blockdiagramm, das ein Hardware-Konfigurationsbeispiel eines Informationsverarbeitungs-Endgerätes darstellt.
8 ist ein Blockdiagramm, das ein Hardware-Konfigurationsbeispiel des Informationsverarbeitungsservers darstellt.
9 ist ein Blockdiagramm, das ein funktionales Konfigurationsbeispiel des Informationsverarbeitungsservers darstellt.
10 ist ein Blockdiagramm, das ein Konfigurationsbeispiel einer Dialogverwaltungseinheit aus 9 darstellt.
11 ist ein Diagramm, das ein Beispiel für die Beschreibung einer vordefinierten Datenbank für Ausspracheinformationen darstellt.
12 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
13 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
14 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
15 ist ein Flussdiagramm zur Beschreibung der Antwortverarbeitung des Informationsverarbeitungsservers.
16 ist ein Flussdiagramm zur Beschreibung der Verarbeitung von Ausspracheinformationen, die in Schritt S4 von 15 durchgeführt wird.
17 ist ein Flussdiagramm zur Beschreibung der Ausspracheinformationen-Hinzufügungshistorien-Speicherungsverarbeitung des Informationsverarbeitungsservers.
18 ist ein Diagramm, das ein Konzept der weiteren Verarbeitung des Informationsverarbeitungsservers darstellt.

MODUS ZUM AUSFÜHREN DER ERFINDUNG
Im Folgenden wird ein Modus zum Ausführen der vorliegenden Technologie beschrieben. Die Beschreibung erfolgt in der folgenden Reihenfolge.

1. Beispiel eines Sprachdialogs im Informationsverarbeitungssystem
2. Konfiguration des Informationsverarbeitungssystems
3. Konkrete Beispiele der Hinzufügung von Ausspracheinformationen
4. Betrieb des Informationsverarbeitungssystems
5. Modifiziertes Beispiel

«Beispiel eines Sprachdialogs im Informationsverarbeitungssystem»
1 ist ein Diagramm, das ein Konfigurationsbeispiel eines Informationsverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Technologie darstellt.
Das Informationsverarbeitungssystem von 1 wird durch die Verbindung eines Informationsverarbeitungs-Endgerätes 1 und eines Informationsverarbeitungsservers 2 über ein Netzwerk 11, z. B. das Internet, konfiguriert. Das Informationsverarbeitungs-Endgerät 1 und der Informationsverarbeitungsserver 2 arbeiten bei der Verarbeitung zusammen, so dass eine so genannte Sprachassistenzfunktion erreicht wird. Ein Benutzer kann das Informationsverarbeitungssystem verschiedene Funktionen, wie z. B. Recherche, Zeitplanregistrierung und Nachrichtenübertragung, per Sprache ausführen lassen.
Das Informationsverarbeitungs-Endgerät 1 enthält Ein-/Ausgabegeräte wie z. B. ein Mikrofon (Mikrofon), eine Kamera und einen Lautsprecher. Diese Ein-/Ausgabegeräte sind an vorgegebenen Positionen in einem zylindrischen Gehäuse vorgesehen. Das Informationsverarbeitungs-Endgerät 1 erkennt eine Äußerung des Benutzers mit dem Mikrofon und überträgt die Sprachdaten an den Informationsverarbeitungsserver 2.
Der Informationsverarbeitungsserver 2 schätzt eine Absicht des Benutzers, indem er die vom Informationsverarbeitungs-Endgerät 1 übertragenen Sprachdaten analysiert, und führt eine Verarbeitung durch, um eine Funktion entsprechend der Absicht des Benutzers zu erreichen. Der Informationsverarbeitungsserver 2 überträgt ein Verarbeitungsergebnis an das Informationsverarbeitungs-Endgerät 1 und veranlasst das Informationsverarbeitungs-Endgerät 1, das Verarbeitungsergebnis als Antwort an den Benutzer auszugeben. Beispielsweise wird in einem Fall, in dem der Benutzer eine Äußerung macht, um zu recherchieren, eine synthetische Stimme zur Benachrichtigung des Benutzers über ein Ergebnis der Recherche vom Lautsprecher des Informationsverarbeitungs-Endgerätes 1 ausgegeben.
Wie oben beschrieben, übernimmt in dem in 1 dargestellten Informationsverarbeitungssystem im Wesentlichen das Informationsverarbeitungs-Endgerät 1 eine Benutzerschnittstellenfunktion (UI), und der Informationsverarbeitungsserver 2 übernimmt die Ausführung der Verarbeitung zum Erreichen der Funktion entsprechend der Absicht des Benutzers, so dass die Sprachassistenzfunktion erreicht wird.
Darüber hinaus wird im Informationsverarbeitungssystem von 1 die synthetische Sprachausgabe des Informationsverarbeitungs-Endgerätes 1 als Antwort auf die Äußerung des Benutzers mit einer korrekten Aussprache entsprechend der Absicht des Benutzers ausgegeben.
2 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
Wie in Sprechblase #1 dargestellt, wird ein Fall beschrieben, in dem der Benutzer „Wie ist das Wetter in Sanda heute?“ ausspricht. Eine solche Äußerung ist eine Äußerung, in der der Benutzer das Informationsverarbeitungssystem auffordert, das Wetter von „Sanda“ zu prüfen.
Im Folgenden wird eine Äußerung, in der der Benutzer etwas von dem Informationsverarbeitungssystem anfordert, passenderweise als Anforderungsäußerung bezeichnet.
Hier wird bei einer in der Anforderungsäußerung enthaltenen Zeichenkette (Wort) von „Sanda/Mita“ angenommen, dass der Benutzer „Sanda“ ausspricht. „Sanda“ ist ein Ortsname.
Beachten Sie, dass in 2 Konfigurationen des Informationsverarbeitungs-Endgerätes 2 und dergleichen, die sich aus Sicht des Benutzers vor dem Informationsverarbeitungs-Endgerät 1 befinden, nicht dargestellt sind. Das Gleiche gilt auch für andere Zeichnungen, wie z. B. 5.
3 ist ein Diagramm, das ein Beispiel für eine Reihe von Prozessen zur Erzielung eines Sprachdialogs darstellt.
In einem Fall, in dem die Anforderungsäußerung „Wie ist das Wetter in Sanda heute?“ vom Benutzer gemacht wird, wird die Spracherkennung an den Sprachdaten der Anforderungsäußerung durchgeführt, wie durch einen Pfeil A1 angegeben. Wenn die Spracherkennung durchgeführt wird, wird ein Äußerungstext als Textdaten von „Wie ist das Wetter in Sanda/Mita heute?“ erzeugt, der durch Umwandlung der Sprachdaten der Anforderungsäußerung in einen Text erhalten wird.
Bei der Spracherkennung durch den Informationsverarbeitungsserver 2 werden, wie später noch beschrieben wird, Ausspracheinformationen von „Wie ist das Wetter in Sanda heute?“ zusammen mit dem Äußerungstext erzeugt. Die Ausspracheinformationen umfassen Informationen, die eine Lesart jeder Zeichenkette angeben, wenn der Benutzer die Anforderungsäußerung vornimmt, sowie Informationen, die eine Prosodie angeben.
Wie an der Spitze des Pfeils A2 angegeben, wird die Sprachanalyse an dem Äußerungstext „Wie ist das Wetter in Sanda/Mita heute?“, der in den Ergebnissen der Spracherkennung enthalten ist, durchgeführt. Bei der Sprachanalyse wird die Absicht des Benutzers, der die Anforderungsäußerung macht, geschätzt. Außerdem wird eine im Äußerungstext enthaltene Zeichenkette extrahiert. In dem Beispiel von 3 wird die Absicht des Benutzers von „Wetterabfrage“ geschätzt, und die Zeichenkette von „Sanda/Mita“ wird extrahiert.
Wie an der Spitze des Pfeils A3 angegeben, wird die Antwortgenerierung entsprechend der Absicht des Benutzers und der durch die Sprachanalyse erhaltenen Zeichenkette durchgeführt. Die Antwortgenerierung erzeugt einen Antworttext als Textdaten, der den Inhalt der Antwort entsprechend der Anforderungsäußerung des Benutzers angibt.
Beispielsweise wird eine Wettersuche auf Basis der Zeichenkette „Sanda/Mita“, die einen Ortsnamen angibt, durchgeführt, und das Wetter von „Sanda/Mita“ wird als Suchergebnis erfasst. Der Antworttext wird so generiert, dass er eine Zeichenkette z. B. von „sonnig“ enthält, die das Wetter von „Sanda/Mita“ angibt, das als Suchergebnis erhalten wurde. In dem Beispiel von 3 wird ein Antworttext von „Das heutige Wetter in Sanda/Mita ist sonnig“ erzeugt.
Wie an der Spitze eines Pfeils A4 angegeben, erfolgt die Sprachsynthese auf der Basis des durch die Antwortgenerierung erhaltenen Antworttextes „Das heutige Wetter in Sanda/Mita ist sonnig.“
In einem Fall, in dem die Anforderungsäußerung beispielsweise durch den Benutzer erfolgt, führt der Informationsverarbeitungsserver 2 die oben beschriebene Verarbeitungsreihe durch. Auf Basis eines Ergebnisses der Sprachsynthese durch den Informationsverarbeitungsserver 2 wird aus dem Lautsprecher des Informationsverarbeitungs-Endgerätes 1 eine Antwortstimme als synthetische Stimme zur Präsentation des Inhalts der Antwort an den Benutzer ausgegeben.
Eine Lesart eines Ortsnamens mit der Schreibweise „Sanda/Mita“ beinhaltet hier zum Beispiel „Mita“ zusätzlich zu „Sanda“. Ein Ort, an dem „Sanda/Mita“ als „Sanda“ ausgesprochen wird, und ein Ort, an dem „Sanda/Mita“ als „Mita“ ausgesprochen wird, sind unterschiedliche Orte.
Daher kann in einem Fall, in dem die Sprachsynthese nur auf der Basis des Antworttextes durchgeführt wird, eine Antwortstimme „Das heutige Wetter in Sanda ist sonnig“ ausgegeben werden, wie in der Sprechblase #11 in 4 angegeben, oder eine Antwortstimme „Das heutige Wetter in Mita ist sonnig“ ausgegeben werden, wie in der Sprechblase #12 angegeben. Das heißt, die im Antworttext enthaltene Zeichenfolge „Sanda/Mita“ kann als „Sanda“ oder „Mita“ ausgesprochen werden.
Da der Benutzer in diesem Beispiel das Wetter von „Sanda“ wissen möchte, entspricht die in der Sprechblase #12 angegebene Antwortstimme, die die Zeichenfolge von „Sanda/Mita“ als „Mita“ ausspricht, nicht der Absicht des Benutzers.
Im Informationsverarbeitungsserver 2 werden zur Durchführung der Sprachsynthese, bei der die Zeichenkette „Sanda/Mita“ als „Sanda“ ausgesprochen wird, Ausspracheinformationen, die angeben, dass die Zeichenkette „Sanda/Mita“ als „Sanda“ ausgesprochen wird, der im Antworttext enthaltenen Zeichenkette „Sanda/Mita“ hinzugefügt.
Wenn die Sprachsynthese auf der Basis des Antworttextes durchgeführt wird, zu dem die Ausspracheinformationen zur Zeichenkette von „Sanda/Mita“ hinzugefügt werden, wird „Das heutige Wetter in Sanda ist sonnig“, also die Antwortstimme, die die Zeichenkette von „Sanda/Mita“ als „Sanda“ ausspricht, ausgegeben, wie in einer Sprechblase #21 in 5 angegeben.
Die Ausspracheinformationen, die angeben, dass die Zeichenkette „Sanda/Mita“ als „Sanda“ ausgesprochen wird, werden beispielsweise auf der Basis der Tatsache hinzugefügt, dass die im Antworttext enthaltene Zeichenkette „Sanda/Mita“ auch im Äußerungstext enthalten ist und der Benutzer die im Äußerungstext enthaltene Zeichenkette „Sanda/Mita“ als „Sanda“ ausgesprochen hat.
Wenn die Sprachsynthese auf der Basis des Antworttextes durchgeführt wird, der die Zeichenkette enthält, zu der die Ausspracheinformationen hinzugefügt sind, kann der Informationsverarbeitungsserver 2 das Informationsverarbeitungs-Endgerät 1 veranlassen, die Antwortstimme mit der Aussprache entsprechend der Absicht des Benutzers auszugeben.
Außerdem kann der Informationsverarbeitungsserver 2 den Inhalt der Antwort korrekt an den Benutzer weitergeben. In einem Fall, in dem das Feedback in einer Form gegeben wird, die eine Aussprache enthält, die der Absicht des Benutzers widerspricht, kann der Inhalt der Antwort dem Benutzer möglicherweise nicht korrekt mitgeteilt werden, aber eine solche Situation kann verhindert werden.
6 ist ein Diagramm, das ein Konzept der Verarbeitung des Informationsverarbeitungsservers 2 darstellt.
Wie in 6 dargestellt, empfängt eine Dialogverwaltungseinheit des Informationsverarbeitungsservers 2 als Eingabe die Anforderungsäußerung des Benutzers und gibt den Antworttext aus, dem die Ausspracheinformationen hinzugefügt werden. Die Sprachsynthese erfolgt durch eine nachfolgende Verarbeitungseinheit auf Basis des Antworttextes, dem die Ausspracheinformationen hinzugefügt werden.
Wie oben beschrieben, fungiert der Informationsverarbeitungsserver 2 als Informationsverarbeitungsvorrichtung, die als Eingabe die Anforderungsäußerung des Benutzers empfängt und den Antworttext und die Ausspracheinformationen ausgibt. Die Einzelheiten des Betriebs des Informationsverarbeitungsservers 2 werden später beschrieben.
«Konfiguration des
Informationsverarbeitungssystems»
<Konfigurationsbeispiel des Informationsverarbeitungs-Endgerätes>
7 ist ein Blockdiagramm, das ein Hardware-Konfigurationsbeispiel des Informationsverarbeitungs-Endgerätes 1 darstellt.
Eine Zentraleinheit (CPU) 51, ein Nur-Lese-Speicher (ROM) 52 und ein Direktzugriffsspeicher (RAM) 53 sind über einen Bus 54 miteinander verbunden.
An den Bus 54 sind ein Mikrofon 55, eine Kamera 56, ein Sensor 57, ein Lautsprecher 58, eine Anzeigeeinheit 59, eine Speichereinheit 60 und eine Kommunikationseinheit 61 angeschlossen.
Das Mikrofon 55 erfasst verschiedene Geräusche, wie z. B. eine Stimme des Benutzers und ein Umgebungsgeräusch.
Die Kamera 56 nimmt ein Bild der Umgebung des Informationsverarbeitungs-Endgerätes 1 auf, zu der auch der Benutzer gehört.
Der Sensor 57 umfasst verschiedene Sensoren, wie z. B. einen Beleuchtungsstärkesensor, der die Helligkeit der Umgebung erkennt, einen Abstandsmessungssensor, der einen Abstand zu einem umgebenden Objekt misst, und einen Positionierungssensor, der ein globales Positionierungssystem (GPS) verwendet.
Der Lautsprecher 58 antwortet auf die Anforderungsäußerung des Benutzers, indem er beispielsweise unter der Steuerung des Informationsverarbeitungsservers 2 die synthetische Stimme ausgibt.
Das Display 59 umfasst ein Display wie z. B. ein LCD oder ein organisches EL-Display. Auf dem Display 59 werden beispielsweise unter der Steuerung des Informationsverarbeitungsservers 2 verschiedene Arten von Informationen dargestellt.
Die Speichereinheit 60 enthält einen nichtflüchtigen Speicher und dergleichen. Die Speichereinheit 60 speichert verschiedene Arten von Daten, wie z. B. ein von der CPU 51 ausgeführtes Programm.
Die Kommunikationseinheit 61 sendet und empfängt verschiedene Arten von Informationen zu und von einem externen Gerät wie dem Informationsverarbeitungsserver 2 über drahtlose oder drahtgebundene Kommunikation. Die Kommunikationseinheit 61 überträgt an den Informationsverarbeitungsserver 2 die vom Mikrofon 55 erfassten Sprachdaten, die von der Kamera 56 aufgenommenen Bilddaten und die vom Sensor 57 erfassten Sensordaten.
Außerdem empfängt die Kommunikationseinheit 61 die vom Informationsverarbeitungsserver 2 übertragenen Sprachdaten, gibt die Sprachdaten an den Lautsprecher 58 aus und veranlasst den Lautsprecher 58 zur Ausgabe der synthetischen Stimme.
<Konfigurationsbeispiel des Informationsverarbeitungsservers>
8 ist ein Blockdiagramm, das ein Hardware-Konfigurationsbeispiel des Informationsverarbeitungsservers 2 darstellt.
Eine CPU 101, ein ROM 102 und ein RAM 103 sind über einen Bus 104 miteinander verbunden.
Ferner ist eine Ein-/Ausgangsschnittstelle 105 mit dem Bus 104 verbunden. Eine Eingabeeinheit 106 mit einer Tastatur, einer Maus und dergleichen und eine Ausgabeeinheit 107 mit einem Display, einem Lautsprecher und dergleichen sind mit der Ein-/Ausgangsschnittstelle 105 verbunden.
Darüber hinaus sind an der Ein-/Ausgangsschnittstelle 105 eine Speichereinheit 108 mit einer Festplatte, einem nichtflüchtigen Speicher und dergleichen, eine Kommunikationseinheit 109 mit einer Netzwerkschnittstelle und dergleichen sowie ein Laufwerk 110 zur Ansteuerung eines Wechselmediums 111 angeschlossen.
Der Informationsverarbeitungsserver 2 wird von einem Computer mit einer solchen Konfiguration konfiguriert. Der Informationsverarbeitungsserver 2 kann von einer Vielzahl von Computern anstelle von einem Computer konfiguriert werden.
9 ist ein Blockdiagramm, das ein funktionales Konfigurationsbeispiel des Informationsverarbeitungsservers 2 darstellt.
Zumindest ein Teil der in 9 dargestellten Konfiguration wird von der CPU 101 aus 8, die ein vorgegebenes Programm ausführt, realisiert.
Wie in 9 dargestellt, ist im Informationsverarbeitungsserver 2 eine Sprachverarbeitungseinheit 151 implementiert. Die Sprachverarbeitungseinheit 151 umfasst eine Spracherfassungseinheit 161, eine Spracherkennungseinheit 162, eine Sprachanalyseeinheit 163, eine Dialogverwaltungseinheit 164 und eine Sprachsyntheseeinheit 165. Die vom Informationsverarbeitungs-Endgerät 1 übertragenen und von der Kommunikationseinheit 109 empfangenen Sprachdaten der Anforderungsäußerung werden in die Spracherfassungseinheit 161 eingegeben.
Die Spracherfassungseinheit 161 erfasst die Sprachdaten der Anforderungsäußerung. Die von der Spracherfassungseinheit 161 erfassten Sprachdaten werden der Spracherkennungseinheit 162 zugeführt.
Die Spracherkennungseinheit 162 führt die Spracherkennung an den von der Spracherfassungseinheit 161 gelieferten Sprachdaten der Anforderungsäußerung durch und gibt den Äußerungstext und die Ausspracheinformationen aus. Wie oben beschrieben, umfassen die Ausspracheinformationen die Informationen, die die Lesart jeder Zeichenkette angeben, wenn der Benutzer die Anforderungsäußerung vornimmt, sowie die Informationen, die die Prosodie angeben. Der von der Spracherkennungseinheit 162 ausgegebene Äußerungstext und die Ausspracheinformationen werden der Sprachanalyseeinheit 163 und der Dialogverwaltungseinheit 164 zugeführt.
Die Sprachanalyseeinheit 163 führt die Sprachanalyse des Äußerungstextes durch und schätzt die Absicht des Benutzers. Darüber hinaus extrahiert die Sprachanalyseeinheit 163 die im Äußerungstext enthaltene Zeichenkette. Informationen, die die durch die durchgeführte Sprachanalyse geschätzte Absicht des Benutzers angeben, und Informationen bezüglich der aus dem Äußerungstext extrahierten Zeichenkette werden an die Dialogverwaltungseinheit 164 geliefert.
Die Dialogverwaltungseinheit 164 erzeugt den Antworttext auf der Basis der Ergebnisse der Sprachanalyse durch die Sprachanalyseeinheit 163.
Darüber hinaus fügt die Dialogverwaltungseinheit 164 dem Antworttext die Ausspracheinformationen hinzu. Die Ausspracheinformationen werden gegebenenfalls unter Bezugnahme auf die Ergebnisse der Spracherkennung durch die Spracherkennungseinheit 162, im Voraus in einer Datenbank registrierte Informationen und eine Historie des Hinzufügens der Ausspracheinformationen hinzugefügt. Der Antworttext, dem die Dialogverwaltungseinheit 164 die Ausspracheinformationen hinzufügt, wird an die Sprachsyntheseeinheit 165 geliefert.
Beachten Sie, dass die Ausspracheinformationen nicht zu allen Zeichenketten, die den Antworttext bilden, hinzugefügt werden müssen, sondern dass die Ausspracheinformationen zu einem Teil der Zeichenketten hinzugefügt werden können. Das heißt, das Hinzufügen der Ausspracheinformationen durch die Dialogverwaltungseinheit 164 erfolgt für mindestens einen Teil der Zeichenketten, aus denen der Antworttext besteht. Nicht nur die Informationen, die die Lesart der Zeichenkette angeben, sondern auch die Informationen, die die Prosodie angeben, können in den Ausspracheinformationen enthalten sein.
Die Sprachsyntheseeinheit 165 führt die Sprachsynthese auf der Basis des Antworttextes durch und erzeugt die Antwortstimme mit einer Aussprache, die durch die Ausspracheinformationen angegeben wird. Durch die Sprachsynthese wird die durch die Ausspracheinformationen angegebene Lesart als Lesart der im Antworttext enthaltenen Zeichenkette eingestellt.
Darüber hinaus wird die durch die Ausspracheinformationen angegebene Prosodie als Prosodie des Antworttextes eingestellt. Die Prosodie des gesamten Antworttextes kann auf der Basis der Ausspracheinformationen eingestellt werden, oder die Prosodie eines Teils der Zeichenketten kann auf der Basis der Ausspracheinformationen eingestellt werden.
Die von der Sprachsyntheseeinheit 165, die die Sprachsynthese durchführt, erhaltenen Antwort-Sprachdaten werden von der Kommunikationseinheit 109 an das Informationsverarbeitungs-Endgerät 1 übertragen.
Die Sprachverarbeitungseinheit 151 ist entsprechend mit einer Konfiguration zur Implementierung jeder Funktion der Sprachassistenzfunktion ausgestattet, wie z. B. einer Funktion zur Verwaltung eines durch die Anforderungsäußerung eingegebenen Zeitplans und einer Funktion zur Suche gemäß der Anforderungsäußerung.
10 ist ein Blockdiagramm, das ein Konfigurationsbeispiel der Dialogverwaltungseinheit 164 aus 9 darstellt.
Wie in 10 dargestellt, umfasst die Dialogverwaltungseinheit 164 eine Dialogverarbeitungseinheit 181, eine Antwortdatenbank 182, eine Dialoghistorien-Speichereinheit 183, eine Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184, eine vordefinierte Ausspracheinformationen-Datenbank 185 und eine Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186.
Der von der Spracherkennungseinheit 162 als Ergebnis der Spracherkennung ausgegebene Äußerungstext und die Ausspracheinformationen werden in die Dialogverarbeitungseinheit 181 und die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 eingegeben. Darüber hinaus werden die Informationen, die die Absicht des Benutzers angeben, und die Informationen bezüglich der aus dem Äußerungstext extrahierten Zeichenkette, die von der Sprachanalyseeinheit 163 als Ergebnisse der Sprachanalyse ausgegeben werden, in die Dialogverarbeitungseinheit 181 eingegeben.
Die Antwortdatenbank 182 und die vordefinierte Ausspracheinformationen-Datenbank 185 können außerhalb der Dialogverwaltungseinheit 164 bereitgestellt werden. Darüber hinaus können die Antwortdatenbank 182 und die vordefinierte Ausspracheinformationen-Datenbank 185 in einem anderen Gerät bereitgestellt werden, das über das Netzwerk 11 angeschlossen ist.
Die Dialogverarbeitungseinheit 181 greift auf die Antwortdatenbank 182 zu und erzeugt den Antworttext als entsprechende Antwort auf den Äußerungstext. Der von der Dialogverarbeitungseinheit 181 erzeugte Antworttext wird der Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 zugeführt.
Darüber hinaus assoziiert die Dialogverarbeitungseinheit 181 den Äußerungstext mit dem Antworttext und gibt die Korrespondenz an die Dialoghistorien-Speichereinheit 183 aus, und die Dialoghistorien-Speichereinheit 183 speichert die Korrespondenz als eine Dialoghistorie. Der Antworttext wird von der Dialogverarbeitungseinheit 181 gegebenenfalls unter Bezugnahme auf die in der Dialoghistorien-Speichereinheit 183 gespeicherte Dialoghistorie erzeugt.
Die Antwortdatenbank 182 ist eine Datenbank mit Antworttexten, die zu verschiedenen Äußerungstexten gehören. Beispielsweise enthält die Antwortdatenbank 182 Informationen zur Durchführung einer allgemeinen Konversation, wie die Ausgabe der Antwortstimme „Willkommen zurück“ in einem Fall, in dem der Benutzer „Ich bin zu Hause“ äußert. Außerdem enthält die Antwortdatenbank 182 Informationen zur Ausgabe eines Antworttextes für die Benachrichtigung des Benutzers über einen Tagesplan des Benutzers oder die Benachrichtigung des Benutzers über das Wetter des Tages für den Fall, dass der Benutzer „Guten Morgen“ sagt.
Die Dialoghistorien-Speichereinheit 183 speichert die Dialoghistorie auf der Basis der von der Dialogverarbeitungseinheit 181 gelieferten Informationen. Die Dialoghistorie kann Informationen über eine Anwendung enthalten, die zum Zeitpunkt der Anforderungsäußerung vom Benutzer ausgeführt wird.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 analysiert den von der Dialogverarbeitungseinheit 181 gelieferten Antworttext und fügt dem Antworttext die Ausspracheinformationen hinzu, die die Lesart und die Prosodie der im Antworttext enthaltenen Zeichenkette angeben. Die Ausspracheinformationen können nur die Informationen enthalten, die die Lesart der im Antworttext enthaltenen Zeichenkette angeben.
Beispielsweise fügt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 die Ausspracheinformationen hinzu, die als Lesart einer vorbestimmten Zeichenkette, die im Antworttext enthalten ist, dieselbe Lesart angeben wie eine Lesart, die vom Benutzer auf der Basis der Ergebnisse der Spracherkennung durch die Spracherkennungseinheit 162 ausgesprochen wurde.
Darüber hinaus bezieht sich die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 auf Informationen, die in der vordefinierten Ausspracheinformationen-Datenbank 185 gespeichert sind, und fügt die Ausspracheinformationen hinzu, die als Lesart der vorbestimmten Zeichenkette dieselbe Lesart angeben wie eine im Voraus in der vordefinierten Ausspracheinformationen-Datenbank 185 definierte Lesart.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 bezieht sich auf eine Historie, die in der Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 gespeichert ist, und fügt die Ausspracheinformationen hinzu, die als Lesart der vorbestimmten Zeichenkette die gleiche Lesart angeben wie eine in der Vergangenheit hinzugefügte Lesart.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 ordnet die im Antworttext enthaltene Zeichenkette den Ausspracheinformationen zu und gibt die Entsprechung an die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 aus, und die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 speichert die Entsprechung als eine Ausspracheinformationen-Hinzufügungshistorie.
Die vordefinierte Ausspracheinformationen-Datenbank 185 ist eine Datenbank, die die Lesart der einzelnen Zeichenketten definiert. Beispielsweise wird eine Vielzahl von Lesarten für eine Zeichenkette mit der gleichen Notation definiert.
Die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 speichert die Ausspracheinformationen-Hinzufügungshistorie, die eine Historie der Ausspracheinformationen ist, die dem Antworttext hinzugefügt wurden.
«Konkrete Beispiele der Hinzufügung von Ausspracheinformationen»
Hier werden konkrete Beispiele für das Hinzufügen der Ausspracheinformationen beschrieben.
<Hinzufügungsverfahren unter Verwendung von Spracherkennungsergebnissen>
Das oben beschriebene Verfahren zum Hinzufügen der Ausspracheinformationen, die die Lesart von „Sanda“ als die Lesart der Zeichenkette von „Sanda/Mita“ angeben, die im Antworttext enthalten ist, in einem Fall, in dem die Anforderungsäußerung „Wie ist das Wetter in Sanda heute?“ gemacht wird, entspricht einem Hinzufügungsverfahren unter Verwendung der Ergebnisse der Spracherkennung.
Das heißt, die Dialogverarbeitungseinheit 181 erzeugt den Antworttext „Das Wetter in Sanda/Mita ist heute sonnig“ als Antwort auf den Äußerungstext „Wie ist das Wetter in Sanda/Mita heute?“, der ein Ergebnis der Spracherkennung ist, und die Eingabe von Ergebnissen der Sprachanalyse.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 analysiert den Antworttext von „Das heutige Wetter in Sanda/Mita ist sonnig“ und vergleicht den Antworttext mit dem Äußerungstext, um festzulegen, dass der Äußerungstext dieselbe Zeichenfolge enthält wie die im Antworttext enthaltene Zeichenfolge von „Sanda/Mita“.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 fügt als Lesart der Zeichenkette von „Sanda/Mita“, die im Antworttext enthalten ist, „Sanda“ hinzu, was der Lesart von „Sanda/Mita“ entspricht, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochen hat. Die Lesart von „Sanda/Mita“, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausspricht, wird durch die in den Ergebnissen der Spracherkennung enthaltenen Ausspracheinformationen angegeben.
Dadurch kann der Informationsverarbeitungsserver 2 das Informationsverarbeitungs-Endgerät 1 veranlassen, die Antwortstimme mit der gleichen Lesart wie „Sanda“ auszugeben, nämlich der Lesart von „Sanda/Mita“, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochen hat.
• Beispiel für den Fall, dass die Anforderungsäußerung auf Englisch erfolgt
Die Hinzufügung der Ausspracheinformationen, wie oben beschrieben, kann nicht nur in dem Fall angewendet werden, in dem die Äußerung des Benutzers auf Japanisch erfolgt, sondern auch in einem Fall, in dem die Äußerung des Benutzers in einer anderen Sprache, wie z. B. Englisch, erfolgt.
Beispielsweise wird ein Fall beschrieben, in dem eine Anforderungsäußerung „Add 25 W LED to my shopping list“ auf Englisch gemacht wird, um eine LED-Lampe mit einer Leistungsaufnahme von 25 W in einer Einkaufsliste zu registrieren. Die Einkaufsliste ist eine Funktion zur Verwaltung der zu kaufenden Artikel.
Hier wird davon ausgegangen, dass der Benutzer für eine in der Anforderungsäußerung enthaltene Zeichenkette „25 W“ „fünfundzwanzig Watt“ ausspricht.
In diesem Fall generiert die Dialogverarbeitungseinheit 181 auf der Basis der Ergebnisse der Spracherkennung und der Sprachanalyse für die Anforderungsäußerung einen Antworttext von beispielsweise „25-W-LED wurde zu meiner Einkaufsliste hinzugefügt“, um dem Benutzer mitzuteilen, dass die Eintragung in die Einkaufsliste abgeschlossen ist.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 fügt als Lesart der im Antworttext enthaltenen Zeichenkette von „25 W“ „fünfundzwanzig Watt“ hinzu, was der Lesart von „25 W“ entspricht, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausspricht. Die Lesart von „25 W“, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausspricht, wird durch die in den Ergebnissen der Spracherkennung enthaltenen Ausspracheinformationen angegeben.
Dadurch kann der Informationsverarbeitungsserver 2 eine solche Sprachsynthese verhindern, dass beispielsweise das im Antworttext enthaltene „25 W“ als „zwei fünf Doppel-U“ oder dergleichen ausgesprochen wird, was vom Benutzer nicht beabsichtigt ist. Der Informationsverarbeitungsserver 2 kann das Informationsverarbeitungs-Endgerät 1 veranlassen, die Antwortstimme mit der gleichen Lesart wie „fünfundzwanzig Watt“ auszugeben, also mit der Lesart von „25 W“, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochen hat.
• Andere Beispiele
Beispielsweise hat eine Zeichenkette für „Lehre/Professor“ im Chinesischen die Lesarten „jiao1 shou4“ und „juao4 shou4“. Die Bedeutung von „Lehre/Professor“ ist je nach Lesart unterschiedlich, z. B. „Lehre“ oder „Professor als Hochschullehrer“.
In einem Fall, in dem ein Antworttext in Chinesisch eine solche Zeichenkette mit einer Vielzahl von Lesarten enthält, wird, wenn der Äußerungstext dieselbe Zeichenkette enthält, dieselbe Lesart wie eine vom Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochene Lesart als Lesart der im Antworttext enthaltenen Zeichenkette festgelegt.
Bei einem Eigennamen können sich die Lesart als Abkürzung und die Lesart als allgemeines Substantiv unterscheiden. Beispielsweise hat „BOT“ eine Lesart von „bot“ als Abkürzung und eine Lesart von „BOT“ als allgemeines Substantiv. Außerdem hat „Todai/Azuma Hiroshi“ eine Lesart von „Todai“ als Abkürzung von „Die Universität Tokio“ und eine Lesart von „Azuma Hiroshi“ als allgemeines Substantiv (Personenname).
In ähnlicher Weise wird in einem Fall, in dem der Antworttext eine Zeichenkette mit einer Vielzahl von Lesarten enthält, wie z. B. eine Lesart als Abkürzung und eine Lesart als allgemeines Substantiv, die gleiche Lesart wie eine vom Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochene Lesart eingestellt.
Die Lesart eines Personennamens mit gleicher Schreibweise kann je nach Herkunftsort und Muttersprache unterschiedlich sein. Beispielsweise wird „Michael“, was einen Personennamen angibt, im Englischen als „Michael“ und im Französischen als „Michel“ gelesen. Darüber hinaus wird „Michael“ im Deutschen als „Michael“ gelesen.
Auch in diesem Fall wird für eine im Antworttext enthaltene Zeichenkette „Michael“ die gleiche Lesart wie eine vom Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochene Lesart von „Michael“ eingestellt.
<Hinzufügungsverfahren unter Bezugnahme auf die vordefinierte Ausspracheinformationen-Datenbank>
11 ist ein Diagramm, das ein Beispiel für die Beschreibung der vordefinierten Ausspracheinformationen-Datenbank 185 darstellt.
Die in 11 dargestellten Informationen sind Informationen, die Lesarten einer Zeichenkette von „zehn Minuten/ausreichend“ definieren. Im Beispiel von 11 sind zwei Lesarten von „zehn Minuten“ und „ausreichend“ als die Lesarten der Zeichenkette von „zehn Minuten/ausreichend“ definiert. Für die Lesart „zehn Minuten“ ist eine Zeitkategorie eingestellt, während für die Lesart „ausreichend“ eine Kategorie „Menge“ eingestellt ist.
Wie oben beschrieben, werden in der vordefinierten Ausspracheinformationen-Datenbank 185 Informationen beschrieben, die eine Vielzahl von Lesarten für eine Zeichenkette mit der gleichen Notation definieren. Für jede Lesart wird eine Kategorie entsprechend der Verwendung eingestellt.
12 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
Wie in Sprechblase #31 dargestellt, wird ein Fall beschrieben, in dem der Benutzer „Wann ist das nächste Meeting?“ äußert. Eine solche Äußerung ist eine Anforderungsäußerung, in der der Benutzer darum bittet, einen Zeitplan für das „nächste Meeting“ zu prüfen. Es wird davon ausgegangen, dass der Benutzer den Zeitplan des Meetings registriert hat, bevor er die in 12 dargestellte Anforderungsäußerung macht.
In diesem Fall erzeugt die Dialogverarbeitungseinheit 181 als Antwort auf einen Äußerungstext „Wann ist das nächste Meeting?“, der ein Ergebnis der Spracherkennung ist, und die Eingabe von Ergebnissen der Sprachanalyse einen Antworttext von „Es ist zehn Minuten nach drei“.
Beispielsweise schätzt die Sprachanalyse durch die Sprachanalyseeinheit 163 die Absicht des Benutzers ein, „sich nach dem Zeitpunkt des Meetings zu erkundigen“. Die Dialogverarbeitungseinheit 181 gibt an, dass der Zeitpunkt des Meetings beispielsweise „zehn Minuten nach drei“ ist, indem sie auf die Antwortdatenbank 182 verweist, und erzeugt den Antworttext „Es ist zehn Minuten nach drei“.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 analysiert den Antworttext von „Es ist zehn Minuten nach drei“ und legt fest, dass die beiden Lesarten von „zehn Minuten“ und „ausreichend“ als die Lesarten der Zeichenkette von „zehn Minuten/ausreichend“ in der vordefinierten Ausspracheinformationen-Datenbank 185 definiert werden.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 fügt als Lesart der im Antworttext enthaltenen Zeichenkette von „zehn Minuten/ausreichend“ die Lesart von „zehn Minuten“ hinzu, die mit der Lesart in der Kategorie Zeit gemäß der Absicht des Benutzers identisch ist.
Folglich kann der Informationsverarbeitungsserver 2 das Informationsverarbeitungs-Endgerät 1 veranlassen, die Antwortstimme durch den Gebrauch von „zehn Minuten“ auszugeben, was eine auf die Zeit bezogene Lesart ist, wie in einer Sprechblase #32 von 12 dargestellt.
Wie oben beschrieben, ist es möglich, die Ausspracheinformationen zu der im Antworttext enthaltenen Zeichenkette mit Bezug auf den Inhalt der vordefinierten Ausspracheinformationen-Datenbank 185 hinzuzufügen.
In diesem Beispiel wird eine bevorzugte Lesart auf der Basis der Kategorie gemäß der Verwendung ausgewählt, kann aber auch auf der Basis anderer Informationen ausgewählt werden.
Beispielsweise kann die Lesart auf der Basis der Anwendung ausgewählt werden, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausführt. In diesem Fall wird das Informationsverarbeitungs-Endgerät 1, das die UI-Funktion übernimmt, nicht, wie oben beschrieben, durch den intelligenten Lautsprecher realisiert, sondern durch ein Smartphone oder ein Tablet-Endgerät, das verschiedene Anwendungen ausführt.
Beispielsweise wird angenommen, dass in einem Fall, in dem der Benutzer eine Telefonbuchanwendung ausführt, eine Anforderungsäußerung wie „Wie lautet Yumikos Telefonnummer?“ erfolgt.
In diesem Fall erzeugt die Dialogverarbeitungseinheit 181 beispielsweise auf der Basis von Ergebnissen der Spracherkennung und der Sprachanalyse für die Anforderungsäußerung einen Antworttext „Es ist 08012345678“, der eine Zeichenkette enthält, die eine Telefonnummer angibt, die mit einem Personennamen „Yumiko“ verbunden ist.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 fügt auf der Basis der Beschreibung in der vordefinierten Ausspracheinformationen-Datenbank 185 als Lesarten der im Antworttext enthaltenen Zeichenfolgen „080“, „1234“ und „5678“ „null-acht-null“, „eins-zwei-drei-vier“ und „fünfsechs-sieben-acht“ hinzu.
Beispielsweise definiert die vordefinierte Ausspracheinformationen-Datenbank 185, dass „null-acht-null“ als Lesart der Zeichenkette von „080“ in einer Antwort auf die Anforderungsäußerung verwendet wird, während die Telefonbuchanwendung läuft. Darüber hinaus definiert die vordefinierte Ausspracheinformationen-Datenbank 185, dass „eins-zwei-drei-vier“ als Lesart der Zeichenkette von „1234“ und „fünf-sechs-sieben-acht“ als Lesart der Zeichenkette von „5678“ verwendet wird.
Das heißt, die vordefinierte Ausspracheinformationen-Datenbank 185 legt fest, dass die Lesart, in der die Nummern nacheinander gelesen werden, in der Antwort auf die Anforderungsäußerung priorisiert wird, während die Telefonbuchanwendung läuft.
Dadurch kann der Informationsverarbeitungsserver 2 eine solche Sprachsynthese verhindern, dass beispielsweise die im Antworttext enthaltene „1234“ als „eintausendzweihundertvierunddreißig“ und dergleichen ausgesprochen wird, was vom Benutzer nicht beabsichtigt ist.
In einem Fall, in dem eine Vielzahl von Benutzern ein Informationsverarbeitungs-Endgerät 1 benutzt, kann die vordefinierte Ausspracheinformationen-Datenbank 185 für jeden Benutzer bereitgestellt werden.
In diesem Fall wird ein Äußerer auf der Basis einer Äußerungsstimme oder auf der Basis eines von der im Informationsverarbeitungs-Endgerät 1 vorgesehenen Kamera 56 erfassten Bildes identifiziert, und eine Lesart wird unter Verwendung der vordefinierten Ausspracheinformationen-Datenbank 185 für einen als Äußerer identifizierten Benutzer hinzugefügt.
Es kann eine Konfiguration übernommen werden, bei der der Inhalt der für jeden Benutzer vordefinierten Ausspracheinformationen-Datenbank 185 vom Benutzer selbst bearbeitet werden kann.
Darüber hinaus kann ein persönliches Attribut des Äußerers in der vordefinierten Ausspracheinformationen-Datenbank 185 wiedergegeben werden. Zu den persönlichen Attributen gehören der Herkunftsort, der Wohnort, das Alter, das Geschlecht, Hobbys, Vorlieben und dergleichen.
In diesem Fall wird in der vordefinierten Ausspracheinformationen-Datenbank 185 das Personenattribut mit jeder einer Vielzahl von Lesarten mit der gleichen Notation verknüpft. Die Ausspracheinformationen werden hinzugefügt, um eine Lesart nach dem Attribut des Äußerers, der die Anforderungsäußerung macht, zu priorisieren.
Dadurch kann der Informationsverarbeitungsserver 2 das Informationsverarbeitungs-Endgerät 1 veranlassen, mit der synthetischen Stimme unter Verwendung der Lesart gemäß dem Attribut des Äußerers zu antworten.
<Hinzufügungsverfahren unter Bezugnahme auf die Ausspracheinformationen-Hinzufügungshistorie>
13 ist ein Diagramm, das ein Beispiel der Äußerung darstellt.
Wie in der Sprechblase #41 dargestellt, wird ein Fall beschrieben, in dem der Benutzer „Einen Fußballspielplan in Sanda registrieren“ äußert. Eine solche Äußerung ist eine Anforderungsäußerung, in der der Benutzer darum bittet, einen Zeitplan zu registrieren, z. B. „Fußball spielen in Sanda“.
In diesem Fall schätzt die Sprachanalyse durch die Sprachanalyseeinheit 163 die Absicht des Benutzers ein, „den Fußballspielplan zu registrieren“. Darüber hinaus registriert eine nicht dargestellte Verarbeitungseinheit den Zeitplan „Fußball spielen in Sanda“ auf der Basis der geschätzten Absicht des Benutzers.
Die Dialogverarbeitungseinheit 181 erzeugt einen Antworttext „Der Fußballspielplan in Sanda/Mita wurde registriert“ als Reaktion auf einen Äußerungstext „Registriere einen Fußballspielplan in Sanda/Mita“, der ein Ergebnis der Spracherkennung ist, und die Eingabe von Ergebnissen der Sprachanalyse.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 fügt als Lesart der Zeichenkette von „Sanda/Mita“, die im Antworttext enthalten ist, „Sanda“ hinzu, was der Lesart von „Sanda/Mita“ entspricht, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochen hat. Die Lesart von „Sanda/Mita“, die der Benutzer zum Zeitpunkt der Anforderungsäußerung ausspricht, wird durch die in den Ergebnissen der Spracherkennung enthaltenen Ausspracheinformationen angegeben. Dieses Verfahren zum Hinzufügen der Ausspracheinformationen ist das Hinzufügungsverfahren unter Verwendung der Spracherkennungsergebnisse wie oben beschrieben.
Dadurch kann der Informationsverarbeitungsserver 2 das Informationsverarbeitungs-Endgerät 1 veranlassen, eine Antwortstimme von „Der Fußballspielplan in Sanda wurde registriert“ auszugeben, die „Sanda“ als Lesart der Zeichenkette von „Sanda/Mita“ verwendet, wie in einer Sprechblase #42 in 13 dargestellt.
In einem Fall, in dem eine solche Lesart hinzugefügt wird, veranlasst die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186, Informationen zu speichern, die angeben, dass „Sanda“ als Lesart der Zeichenkette von „Sanda/Mita“ hinzugefügt wurde. Die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 speichert eine Historie der Zeichenkette, zu der die Lesart hinzugefügt wird.
14 ist ein Diagramm, das ein Beispiel für Äußerungen in der Woche darstellt, die auf die Woche folgt, in der die in 13 dargestellten ausgetauschten Äußerungen stattgefunden haben.
Der in 14 dargestellte Äußerungsaustausch ist eine Konversation in einem Zustand, in dem in der Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 die Informationen gespeichert sind, die angeben, dass „Sanda“ als Lesart der Zeichenkette von „Sanda/Mita“ hinzugefügt wurde.
Wie in Sprechblase #43 dargestellt, wird ein Fall beschrieben, in dem der Benutzer „Was habe ich letztes Wochenende gemacht?“ äußert. Eine solche Äußerung ist eine Anforderungsäußerung, in der der Benutzer darum bittet, einen „Zeitplan am letzten Wochenende“ zu überprüfen.
In diesem Fall erzeugt die Dialogverarbeitungseinheit 181 einen Antworttext von „Du hast in Sanda/Mita Fußball gespielt“ als Antwort auf einen Äußerungstext von „Was habe ich letztes Wochenende gemacht“, der ein Ergebnis der Spracherkennung ist, und eine Eingabe von Ergebnissen der Sprachanalyse.
Beispielsweise schätzt die Sprachanalyse durch die Sprachanalyseeinheit 163 die Absicht des Benutzers ein, „sich nach dem Zeitplan des letzten Wochenendes zu erkundigen“. Die Dialogverarbeitungseinheit 181 gibt an, dass der Benutzer beispielsweise am vergangenen Wochenende „in Sanda/Mita Fußball gespielt“ hat, indem sie auf die Antwortdatenbank 182 und die Dialoghistorien-Speichereinheit 183 verweist, und erzeugt den Antworttext „Du hast in Sanda/Mita Fußball gespielt“.
Die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 bezieht sich auf die in der Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 gespeicherte Historie und fügt als Lesart der Zeichenkette „Sanda/Mita“, die im Antworttext enthalten ist, „Sanda“ hinzu, was die gleiche Lesart ist wie die in der Vergangenheit hinzugefügte Lesart.
Dadurch kann der Informationsverarbeitungsserver 2 das Informationsverarbeitungs-Endgerät 1 veranlassen, eine Antwortstimme von „Du hast in Sanda Fußball gespielt“ auszugeben, die „Sanda“ als Lesart der Zeichenkette von „Sanda/Mita“ verwendet, wie in einer Sprechblase #44 in 14 dargestellt.
Wie oben beschrieben, ist es möglich, die Ausspracheinformationen zu der im Antworttext enthaltenen Zeichenkette mit Bezug auf die in der Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 gespeicherte Historie hinzuzufügen.
In einem Fall, in dem eine Vielzahl von Benutzern das Informationsverarbeitungs-Endgerät 1 benutzt, kann die Historie des Hinzufügens der Ausspracheinformationen für jeden Benutzer verwaltet werden.
In diesem Fall wird ein Äußerer auf der Basis einer Äußerungsstimme oder auf der Basis eines von der im Informationsverarbeitungs-Endgerät 1 vorgesehenen Kamera 56 erfassten Bildes identifiziert, und die Historie der Hinzufügung der Ausspracheinformationen wird für jeden als Äußerer identifizierten Benutzer verwaltet. Darüber hinaus werden die Ausspracheinformationen zu der im Antworttext enthaltenen Zeichenkette mit Bezug auf die Historie für jeden als Äußerer identifizierten Benutzer hinzugefügt.
Dadurch ist es beispielsweise möglich, einen Zeitplan eines Benutzers A „Fußball spielen in Sanda“ und einen Zeitplan eines Benutzers B „Meeting in Mita“ jeweils korrekt zu kommunizieren.
Das heißt, die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 kann die Lesart von „Sanda“ zu der Zeichenkette „Sanda/Mita“ hinzufügen, die in dem Antworttext enthalten ist, der auf der Basis einer Anforderungsäußerung des Benutzers A erzeugt wurde. Darüber hinaus kann die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 die Lesart von „Mita“ zu der Zeichenkette „Sanda/Mita“ hinzufügen, die in dem Antworttext enthalten ist, der auf der Basis einer Anforderungsäußerung des Benutzers B. erzeugt wurde.
«Betrieb des Informationsverarbeitungssystems»
Hier wird der Betrieb des Informationsverarbeitungsservers 2 beschrieben, der die oben beschriebene Konfiguration aufweist.
Zunächst wird die Antwortverarbeitung des Informationsverarbeitungsservers 2 anhand eines Flussdiagramms aus 15 beschrieben.
In Schritt S1 erfasst die Spracherfassungseinheit 161 die vom Informationsverarbeitungs-Endgerät 1 übertragenen Sprachdaten der Anforderungsäußerung.
In Schritt S2 führt die Spracherkennungseinheit 162 die Spracherkennung an den Sprachdaten der Anforderungsäußerung durch. Der Äußerungstext und die durch die Spracherkennung erhaltenen Ausspracheinformationen werden an die Sprachanalyseeinheit 163 und die Dialogverwaltungseinheit 164 ausgegeben.
In Schritt S3 führt die Sprachanalyseeinheit 163 die Sprachanalyse für den Äußerungstext durch. Die durch die Sprachanalyse geschätzten Informationen, die die Absicht des Benutzers angeben, und die Informationen bezüglich der aus dem Äußerungstext extrahierten Zeichenkette werden an die Dialogverwaltungseinheit 164 geliefert.
In Schritt S4 führt die Dialogverwaltungseinheit 164 die Ausspracheinformationen-Hinzufügungsverarbeitung durch. Die Ausspracheinformationen-Hinzufügungsverarbeitung erzeugt den Antworttext, und die Ausspracheinformationen werden zu der im Antworttext enthaltenen Zeichenkette hinzugefügt. Die Details der Ausspracheinformationen-Hinzufügungsverarbeitung werden später mit Bezug auf ein Flussdiagramm in 16 beschrieben.
in Schritt S5 führt die Sprachsyntheseeinheit 165 die Sprachsynthese auf der Basis des Antworttextes durch und erzeugt die Antwortstimme mit einer Aussprache, die durch die Ausspracheinformationen angegeben wird.
In Schritt S6 überträgt die Sprachsyntheseeinheit 165 die Antwortsprachdaten, die durch die Durchführung der Sprachsynthese erhalten wurden, an das Informationsverarbeitungs-Endgerät 1 und veranlasst das Informationsverarbeitungs-Endgerät 1, die Antwortsprache auszugeben.
Die obige Verarbeitung wird jedes Mal durchgeführt, wenn die Sprachdaten der Anforderungsäußerung vom Informationsverarbeitungs-Endgerät 1 übertragen werden.
Als Nächstes wird die Ausspracheinformationen-Hinzufügungsverarbeitung, die in Schritt S4 von 15 durchgeführt wird, mit Bezug auf das Flussdiagramm von 16 beschrieben.
In Schritt S21 erzeugt die Dialogverarbeitungseinheit 181 den Antworttext, beispielsweise durch Rückgriff auf die Antwortdatenbank 182.
In Schritt S22 analysiert die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 den von der Dialogverarbeitungseinheit 181 gelieferten Antworttext.
Eine Reihe von Verarbeitungen in den Schritten S23, S24 und S25 wird parallel durchgeführt, beispielsweise auf der Basis eines Analyseergebnisses des Antworttextes.
In Schritt S23 bestimmt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184, ob die vordefinierte Ausspracheinformationen-Datenbank 185 die gleiche Zeichenkette wie die im Antworttext enthaltene Zeichenkette speichert oder nicht.
In einem Fall, in dem in Schritt S23 festgestellt wird, dass die vordefinierte Ausspracheinformationen-Datenbank 185 die gleiche Zeichenkette speichert wie die im Antworttext enthaltene Zeichenkette, fährt die Verarbeitung mit Schritt S24 fort.
In Schritt S24 fügt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 zu der im Antworttext enthaltenen Zeichenkette die Ausspracheinformationen hinzu, die eine in der vordefinierten Ausspracheinformationen-Datenbank 185 definierte Lesart angeben.
In einem Fall, in dem in Schritt S23 festgestellt wird, dass die vordefinierte Ausspracheinformationen-Datenbank 185 nicht die gleiche Zeichenkette speichert wie die im Antworttext enthaltene Zeichenkette, wird die Verarbeitung in Schritt S24 übersprungen.
In der Zwischenzeit bestimmt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 in Schritt S25, ob die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 die gleiche Zeichenkette wie die im Antworttext enthaltene Zeichenkette speichert oder nicht.
In einem Fall, in dem in Schritt S25 festgestellt wird, dass die Ausspracheinformationen-Hinzufügungshistorie-Speichereinheit 186 die gleiche Zeichenkette speichert wie die im Antworttext enthaltene Zeichenkette, fährt die Verarbeitung mit Schritt S26 fort.
In Schritt S26 fügt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 zu der im Antworttext enthaltenen Zeichenkette die Ausspracheinformationen hinzu, die dieselbe Lesart angeben wie eine in der Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 gespeicherte Lesart.
In einem Fall, in dem in Schritt S25 festgestellt wird, dass die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 nicht die gleiche Zeichenkette speichert wie die im Antworttext enthaltene Zeichenkette, wird die Verarbeitung in Schritt S26 übersprungen.
In der Zwischenzeit bestimmt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 in Schritt S27, ob der Äußerungstext dieselbe Zeichenkette wie die im Antworttext enthaltene Zeichenkette enthält oder nicht.
In einem Fall, in dem in Schritt S27 festgestellt wird, dass der Äußerungstext die gleiche Zeichenkette wie die im Antworttext enthaltene Zeichenkette enthält, fährt die Verarbeitung mit Schritt S28 fort.
In Schritt S28 fügt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 zu der im Antworttext enthaltenen Zeichenkette die Ausspracheinformationen hinzu, die dieselbe Lesart angeben wie eine Lesart, die vom Benutzer zum Zeitpunkt der Anforderungsäußerung ausgesprochen wurde.
In einem Fall, in dem in Schritt S27 festgestellt wird, dass der Äußerungstext nicht die gleiche Zeichenkette wie die im Antworttext enthaltene Zeichenkette enthält, wird die Verarbeitung in Schritt S28 übersprungen.
In Schritt S29 integriert die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 die Stücke der Ausspracheinformationen, die zu der im Antworttext enthaltenen Zeichenkette hinzugefügt wurden. Das heißt, das Stück der Ausspracheinformationen, das die in der vordefinierten Ausspracheinformationen-Datenbank 185 definierte Lesart angibt (erstes Stück der Ausspracheinformationen), das Stück der Ausspracheinformationen, das die in der Vergangenheit hinzugefügte Lesart angibt (zweites Stück der Ausspracheinformationen), und das Stück der Ausspracheinformationen, das die gleiche Lesart wie die vom Benutzer ausgesprochene Lesart angibt (drittes Stück der Ausspracheinformationen), werden entsprechend integriert.
Beispielsweise werden in einem Fall, in dem die ersten bis dritten Stücke von Ausspracheinformationen zu einer Zeichenkette hinzugefügt werden, die im Antworttext enthalten ist, die ersten bis dritten Stücke von Ausspracheinformationen in ein Stück von Ausspracheinformationen integriert, das entsprechend der Priorität ausgewählt wird.
Darüber hinaus werden in einem Fall, in dem das erste Stück von Ausspracheinformationen und das zweite Stück von Ausspracheinformationen dieselbe Lesart angeben und das dritte Stück von Ausspracheinformationen eine andere Lesart angibt, die ersten bis dritten Stücke von Ausspracheinformationen in Informationen integriert, die die Lesart angeben, die durch das erste Stück von Ausspracheinformationen und das zweite Stück von Ausspracheinformationen angegeben wird, sozusagen durch Mehrheitsentscheidung.
Wie obig beschrieben, ist das Verfahren zur Integration der Stücke der Ausspracheinformationen, die durch die Verwendung der drei Verfahren hinzugefügt wurden, willkürlich.
In Schritt S30 gibt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 den Antworttext aus, dem die Ausspracheinformationen hinzugefügt werden. Danach kehrt die Verarbeitung zu Schritt S4 von 15 zurück, und die weitere Verarbeitung wird durchgeführt.
Als nächstes wird die Ausspracheinformationen-Hinzufügungshistorie-Speicherverarbeitung mit Bezug auf ein Flussdiagramm in 17 beschrieben.
Die Verarbeitung von 17 wird von der Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 auf der Basis des Analyseergebnisses des Antworttextes durchgeführt, beispielsweise bei jeder Hinzufügung der Ausspracheinformationen.
In Schritt S31 bestimmt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184, ob der Äußerungstext dieselbe Zeichenkette wie die im Antworttext enthaltene Zeichenkette enthält oder nicht.
In einem Fall, in dem in Schritt S31 festgestellt wird, dass der Äußerungstext dieselbe Zeichenkette wie die im Antworttext enthaltene Zeichenkette enthält, bestimmt die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 in Schritt S32, ob die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 dieselbe Zeichenkette wie die im Antworttext enthaltene Zeichenkette speichert oder nicht.
In einem Fall, in dem in Schritt S32 festgestellt wird, dass die gleiche Zeichenkette wie die im Antworttext enthaltene Zeichenkette nicht gespeichert ist, veranlasst die Ausspracheinformationen-Hinzufügungsverarbeitungseinheit 184 in Schritt S33 die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186, die im Antworttext enthaltene Zeichenkette und die zur Zeichenkette hinzugefügten Ausspracheinformationen zu speichern.
Nachdem die Zeichenkette und die Ausspracheinformationen als Historie in der Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 gespeichert worden sind, endet die Verarbeitung. In einem Fall, in dem in Schritt S31 festgestellt wird, dass der Äußerungstext nicht die gleiche Zeichenkette wie die im Antworttext enthaltene Zeichenkette enthält, oder in einem Fall, in dem festgestellt wird, dass die Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit 186 nicht die gleiche Zeichenkette speichert, endet die Verarbeitung auf ähnliche Weise.
Wenn die obige Verarbeitung wiederholt wird, wird die Lesart jeder Zeichenkette auf der Basis der vom Benutzer ausgesprochenen Lesart akkumuliert und als Historie verwaltet. Durch die Verwaltung der Historie der Zeichenkette, zu der die Ausspracheinformationen hinzugefügt werden, kann der Informationsverarbeitungsserver 2 auf die Anforderungsäußerung des Benutzers mit einer korrekten Aussprache antworten.
«Modifiziertes Beispiel»
Obwohl davon ausgegangen wird, dass die gesamte Verarbeitung der Spracherkennung, der Sprachanalyse, der Antwortgenerierung und der Sprachsynthese vom Informationsverarbeitungsserver 2 durchgeführt wird, kann mindestens eine der vier Arten der Verarbeitung vom Informationsverarbeitungs-Endgerät 1 durchgeführt werden. Es ist auch möglich, das Informationsverarbeitungs-Endgerät 1 die gesamte Verarbeitung der Spracherkennung, die Sprachanalyse, die Antwortgenerierung und die Sprachsynthese durchführen zu lassen.
Darüber hinaus kann die obige Technologie nicht nur auf den intelligenten Lautsprecher, sondern auch auf verschiedene Geräte angewendet werden, die den Sprachdialog nutzen. Als Informationsverarbeitungs-Endgerät 1 können beispielsweise verschiedene Geräte wie ein Smartphone, ein Tablet-Endgerät, ein Personal Computer, ein Autonavigationsgerät und ein Fernsehempfänger verwendet werden.
Die Verarbeitung der Dialogverwaltungseinheit 164, die als Eingabe die Anforderungsäußerung des Benutzers empfängt und den Antworttext ausgibt, zu dem die Ausspracheinformationen hinzugefügt werden, kann durch die Verwendung eines Neuronalnetzwerks erfolgen.
18 ist ein Diagramm, das ein Konzept der weiteren Verarbeitung des Informationsverarbeitungsservers 2 darstellt.
Ein in der Dialogverwaltungseinheit 164 von 18 enthaltenes Neuronalnetzwerk empfängt als Eingabe die Anforderungsäußerung des Benutzers und gibt den Antworttext aus, zu dem die Ausspracheinformationen hinzugefügt werden. Das durch den Gebrauch verschiedener Anforderungsäußerungen als Lerndaten gewonnene Neuronalnetzwerk wird für die Dialogverwaltungseinheit 164 aufbereitet.
<Konfigurationsbeispiel des Computers>
Die oben beschriebene Reihe von Verarbeitungen kann durch Hardware oder Software ausgeführt werden. In einem Fall, in dem die Verarbeitungsreihe durch Software ausgeführt wird, wird ein Programm, das die Software bildet, von einem Programmaufzeichnungsmedium auf einem in dedizierter Hardware eingebetteten Computer, einem Allzweck-Personalcomputer oder dergleichen installiert.
Das zu installierende Programm wird bereitgestellt, indem es auf dem in 8 dargestellten Wechselmedium 111 aufgezeichnet wird, das eine optische Platte (Compact-Disc-Read-Only-Memory (CD-ROM), Digital Versatile Disc (DVD) oder dergleichen), einen Halbleiterspeicher und dergleichen enthält. Darüber hinaus kann das zu installierende Programm auch über ein drahtgebundenes oder drahtloses Übertragungsmedium wie z. B. ein lokales Netzwerk, das Internet oder digitalen Rundfunk bereitgestellt werden. Das Programm kann im ROM 102 oder in der Speichereinheit 108 vorinstalliert sein.
Bei dem vom Computer ausgeführten Programm kann es sich um ein Programm handeln, in dem die Verarbeitung in der in der vorliegenden Spezifikation beschriebenen Reihenfolge zeitlich nacheinander durchgeführt wird, oder um ein Programm, in dem die Verarbeitung parallel oder zu einem notwendigen Zeitpunkt, z. B. bei einem Anruf, durchgeführt wird.
Beachten Sie, dass in der vorliegenden Spezifikation ein System einen Satz einer Vielzahl von Komponenten (Vorrichtungen, Modulen (Teilen) und dergleichen) darstellt, und dass es keine Rolle spielt, ob alle der Komponenten in demselben Gehäuse untergebracht sind oder nicht. Daher stellen eine Vielzahl von Vorrichtungen, die in getrennten Gehäusen untergebracht und über ein Netzwerk verbunden sind, sowie eine einzelne Vorrichtung mit einer Vielzahl von Modulen, die in einem Gehäuse untergebracht sind, beides Systeme dar.
Die in der vorliegenden Spezifikation beschriebenen Effekte sind lediglich Beispiele und sind nicht begrenzt, und es können auch andere Effekte erhalten werden.
Ausführungsformen der vorliegenden Technologie sind nicht auf die oben beschriebene Ausführungsform beschränkt, und es können verschiedene Modifikationen vorgenommen werden, ohne von der Grundidee der vorliegenden Technologie abzuweichen.
Beispielsweise kann die vorliegende Technologie eine Konfiguration des Cloud-Computings übernehmen, bei der eine Funktion von einer Vielzahl von Vorrichtungen über ein Netzwerk gemeinsam genutzt und verarbeitet wird.
Außerdem kann jeder Schritt, der in dem oben beschriebenen Flussdiagramm beschrieben wird, durch eine einzelne Vorrichtung ausgeführt oder durch eine Vielzahl von Vorrichtungen gemeinsam genutzt und ausgeführt werden.
Darüber hinaus kann in einem Fall, in dem ein Schritt eine Vielzahl von Verarbeitungssätzen umfasst, die Vielzahl von Verarbeitungssätzen, die in dem einen Schritt enthalten sind, von einer Vorrichtung ausgeführt werden oder von einer Vielzahl von Vorrichtungen gemeinsam genutzt und ausgeführt werden.
<Kombinationsbeispiele von Konfigurationen>
Die vorliegende Technologie kann die folgenden Konfigurationen haben.

(1) Informationsverarbeitungsvorrichtung, die Folgendes umfasst:
- eine Dialogverwaltungseinheit, die einen Antworttext erzeugt, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers auf der Basis eines Äußerungstextes angibt, der den Inhalt der Äußerung des Benutzers angibt, und die den Antworttext ausgibt, zu dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer in dem Antworttext enthaltenen Zeichenkette angeben.
(2) Informationsverarbeitungsvorrichtung gemäß (1), wobei die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Lesart von mindestens einem Teil der im Antworttext enthaltenen Zeichenketten angeben.
(3) Informationsverarbeitungsvorrichtung gemäß (1) oder (2), wobei die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Prosodie des Antworttextes angeben.
(4) Informationsverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (3), die ferner Folgendes umfasst:
- eine Spracherkennungseinheit, die eine Spracherkennung an Sprachdaten durchführt, die durch Erkennen der Äußerung des Benutzers erhalten wurden, und den Äußerungstext erzeugt.
(5) Informationsverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (4), die ferner Folgendes umfasst:
- eine Sprachsyntheseeinheit, die eine Sprachsynthese auf der Basis des Antworttextes durchführt, um eine Stimme mit der durch die Ausspracheinformationen angegebenen Lesart auszugeben.
(6) Informationsverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (5), wobei in einem Fall, in dem der Antworttext eine vorbestimmte Zeichenkette enthält, die dieselbe ist wie eine Zeichenkette, die in dem Äußerungstext enthalten ist, die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die als eine Lesart der vorbestimmten Zeichenkette, die in dem Antworttext enthalten ist, eine Lesart angeben, die dieselbe ist wie eine Lesart, die von dem Benutzer ausgesprochen wird.
(7) Informationsverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (5), wobei die Dialogverwaltungseinheit auf eine Datenbank verweist, die eine Lesart jeder Zeichenkette definiert, und die Ausspracheinformationen hinzufügt, die eine in der Datenbank definierte Lesart als eine Lesart einer vorbestimmten Zeichenkette angeben, die in dem Antworttext enthalten ist.
(8) Die Informationsverarbeitungsvorrichtung gemäß (7), die ferner Folgendes umfasst:
- eine Analyseeinheit, die den Äußerungstext analysiert und eine Absicht der Äußerung des Benutzers schätzt, wobei
- in einem Fall, in dem eine Vielzahl von Lesarten in der Datenbank als die Lesart der vorbestimmten Zeichenfolge definiert ist, die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Lesart entsprechend der Absicht der Äußerung des Benutzers angeben.
(9) Informationsverarbeitungsvorrichtung gemäß (7), wobei in einem Fall, in dem eine Vielzahl von Lesarten in der Datenbank als die Lesart der vorbestimmten Zeichenkette, die in dem Antworttext enthalten ist, definiert ist, die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Lesart gemäß einer laufenden Anwendung angeben.
(10) Informationsverarbeitungsvorrichtung gemäß einem der Punkte (1) bis (5), die ferner Folgendes umfasst:
- eine Historienspeichereinheit, die eine auf die Hinzufügung der Ausspracheinformationen bezogene Historie speichert, wobei
- die Dialogverwaltungseinheit sich auf die Historie bezieht und die Ausspracheinformationen hinzufügt, die als eine Lesart einer vorbestimmten Zeichenkette, die in dem Antworttext enthalten ist, eine Lesart angeben, die mit einer in der Vergangenheit hinzugefügten Lesart übereinstimmt.
(11) Informationsverarbeitungsvorrichtung gemäß (1), wobei die Dialogverwaltungseinheit den Antworttext ausgibt, dem die Ausspracheinformationen hinzugefügt werden, die von einem Neuronalnetzwerk als Reaktion auf die Eingabe des Äußerungstextes ausgegeben werden.
(12) Informationsverarbeitungsverfahren, das von einer Informationsverarbeitungsvorrichtung durchgeführt wird, wobei das Informationsverarbeitungsverfahren Folgendes umfasst:
- Erzeugen eines Antworttextes, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers angibt, auf der Basis eines Äußerungstextes, der den Inhalt der Äußerung des Benutzers angibt; und
- Ausgeben des Antworttextes, dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer im Antworttext enthaltenen Zeichenkette angeben.
(13) Programm, das einen Computer veranlasst, Folgendes auszuführen:
- Erzeugen eines Antworttextes, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers angibt, auf der Basis eines Äußerungstextes, der den Inhalt der Äußerung des Benutzers angibt; und
- Ausgeben des Antworttextes, dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer im Antworttext enthaltenen Zeichenkette angeben.

Bezugszeichenliste

1: Informationsverarbeitungs-Endgerät
2: Informationsverarbeitungsserver
151: Sprachverarbeitungseinheit
161: Spracherfassungseinheit
162: Spracherkennungseinheit
163: Sprachanalyseeinheit
164: Dialogverwaltungseinheit
165: Sprachsyntheseeinheit
181: Dialogverarbeitungseinheit
182: Antwortdatenbank
183: Dialoghistorie-Speichereinheit
184: Ausspracheinformationen-Hinzufügungsverarbeitungseinheit
185: Vordefinierte Ausspracheinformationen-Datenbank
186: Ausspracheinformationen-Hinzufügungshistorien-Speichereinheit

Claims

Informationsverarbeitungsvorrichtung, die Folgendes umfasst: eine Dialogverwaltungseinheit, die einen Antworttext erzeugt, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers auf einer Basis eines Äußerungstextes angibt, der den Inhalt der Äußerung des Benutzers angibt, und die den Antworttext ausgibt, zu dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer in dem Antworttext enthaltenen Zeichenkette angeben.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Lesart von mindestens einem Teil der im Antworttext enthaltenen Zeichenketten angeben.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Prosodie des Antworttextes angeben.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, die ferner Folgendes umfasst: eine Spracherkennungseinheit, die eine Spracherkennung an Sprachdaten durchführt, die durch Erkennen der Äußerung des Benutzers erhalten wurden, und den Äußerungstext erzeugt.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, die ferner Folgendes umfasst: eine Sprachsyntheseeinheit, die eine Sprachsynthese auf einer Basis des Antworttextes durchführt, um eine Stimme mit der durch die Ausspracheinformationen angegebenen Lesart auszugeben.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei in einem Fall, in dem der Antworttext eine vorbestimmte Zeichenkette enthält, die dieselbe ist wie eine Zeichenkette, die in dem Äußerungstext enthalten ist, die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die als eine Lesart der vorbestimmten Zeichenkette, die in dem Antworttext enthalten ist, eine Lesart angeben, die dieselbe ist wie eine Lesart, die von dem Benutzer ausgesprochen wird.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Dialogverwaltungseinheit auf eine Datenbank verweist, die eine Lesart jeder Zeichenkette definiert, und die Ausspracheinformationen hinzufügt, die eine in der Datenbank definierte Lesart als eine Lesart einer vorbestimmten Zeichenkette angeben, die in dem Antworttext enthalten ist.
Informationsverarbeitungsvorrichtung gemäß Anspruch 7, die ferner Folgendes umfasst: eine Analyseeinheit, die den Äußerungstext analysiert und eine Absicht der Äußerung des Benutzers schätzt, wobei in einem Fall, in dem eine Vielzahl von Lesarten in der Datenbank als die Lesart der vorbestimmten Zeichenfolge definiert ist, die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Lesart entsprechend der Absicht der Äußerung des Benutzers angeben.
Informationsverarbeitungsvorrichtung gemäß Anspruch 7, wobei in einem Fall, in dem eine Vielzahl von Lesarten in der Datenbank als die Lesart der vorbestimmten Zeichenkette, die in dem Antworttext enthalten ist, definiert ist, die Dialogverwaltungseinheit die Ausspracheinformationen hinzufügt, die eine Lesart gemäß einer laufenden Anwendung angeben.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, die ferner Folgendes umfasst: eine Historienspeichereinheit, die eine auf die Hinzufügung der Ausspracheinformationen bezogene Historie speichert, wobei die Dialogverwaltungseinheit sich auf die Historie bezieht und die Ausspracheinformationen hinzufügt, die als eine Lesart einer vorbestimmten Zeichenkette, die in dem Antworttext enthalten ist, eine Lesart angeben, die mit einer in der Vergangenheit hinzugefügten Lesart übereinstimmt.
Informationsverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Dialogverwaltungseinheit den Antworttext ausgibt, dem die Ausspracheinformationen hinzugefügt werden, die von einem Neuronalnetzwerk als Reaktion auf die Eingabe des Äußerungstextes ausgegeben werden.
Informationsverarbeitungsverfahren, das von einer Informationsverarbeitungsvorrichtung durchgeführt wird, wobei das Informationsverarbeitungsverfahren Folgendes umfasst: Erzeugen eines Antworttextes, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers angibt, auf einer Basis eines Äußerungstextes, der den Inhalt der Äußerung des Benutzers angibt; und Ausgeben des Antworttextes, dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer im Antworttext enthaltenen Zeichenkette angeben.
Programm, das einen Computer veranlasst, Folgendes auszuführen: Erzeugen eines Antworttextes, der den Inhalt einer Antwort auf eine Äußerung eines Benutzers angibt, auf einer Basis eines Äußerungstextes, der den Inhalt der Äußerung des Benutzers angibt; und Ausgeben des Antworttextes, dem Ausspracheinformationen hinzugefügt werden, die eine Lesart einer im Antworttext enthaltenen Zeichenkette angeben.