DE112019003210T5 - Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium - Google Patents

Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium Download PDF

Info

Publication number
DE112019003210T5
DE112019003210T5 DE112019003210.0T DE112019003210T DE112019003210T5 DE 112019003210 T5 DE112019003210 T5 DE 112019003210T5 DE 112019003210 T DE112019003210 T DE 112019003210T DE 112019003210 T5 DE112019003210 T5 DE 112019003210T5
Authority
DE
Germany
Prior art keywords
user
unit
trigger
language
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112019003210.0T
Other languages
English (en)
Inventor
Chie Kamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE112019003210T5 publication Critical patent/DE112019003210T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Die vorliegende Erfindung schlägt eine Audioverarbeitungsvorrichtung, ein Audioverarbeitungsverfahren und ein Aufzeichnungsmedium vor, die eine Verbesserung der Nutzbarkeit in Bezug auf Audioerkennung ermöglichen. Eine Audioverarbeitungsvorrichtung (1) umfasst Folgendes:
eine Tonsammeleinheit (12), die Audio sammelt und das gesammelte Audio in einer Audiospeichereinheit (20) speichert;
eine Detektionseinheit (13), die eine Gelegenheit erkennt, den Start einer vorgeschriebenen Funktion, die dem Audio entspricht, zu veranlassen; und
eine Ausführungseinheit (14), die, falls eine Gelegenheit von der Detektionseinheit (13) erkannt wurde, die vorgeschriebene Funktion auf der Basis des Audios ausführt, das vor der Zeit, als die Gelegenheit erkannt wurde, gesammelt wurde.

Description

  • Gebiet
  • Die vorliegende Offenbarung betrifft eine Sprachverarbeitungsvorrichtung, ein Sprachverarbeitungsverfahren und ein Aufzeichnungsmedium. Insbesondere betrifft die vorliegende Offenbarung Spracherkennungsverarbeitung für eine von einem Benutzer empfangene Äußerung.
  • Hintergrund
  • Mit weit verbreiteter Nutzung von Smartphones und intelligenten Lautsprechern sind Spracherkennungstechniken für die Reaktion auf eine von einem Benutzer empfangene Äußerung weit verbreitet. Bei solchen Spracherkennungstechniken wird ein Aktivierungswort als Auslöser zum Starten von Spracherkennung im Voraus festgelegt, und in einem Fall, in dem bestimmt wird, dass der Benutzer das Aktivierungswort äußert, wird die Spracherkennung gestartet.
  • Als eine auf Spracherkennung bezogene Technik ist eine Technik zum dynamischen Festlegen eines Aktivierungswortes bekannt, das im Einklang mit einer Bewegung eines Benutzers zu äußern ist, um zu verhindern, dass die Benutzererfahrung aufgrund der Äußerung des Aktivierungswortes beeinträchtigt wird.
  • Anführungsliste
  • Patentdokumente
  • Patentdokument 1: Japanische offengelegte Patentveröffentlichungsnummer 2016-218852
  • Kurzdarstellung
  • Technisches Problem
  • Bei der oben beschriebenen konventionellen Technik gibt es jedoch Raum für Verbesserungen. Beispielsweise, in einem Fall der Durchführung von Spracherkennungsverarbeitung unter Verwendung des Aktivierungswortes, spricht der Benutzer zu einer Vorrichtung, welche die Spracherkennung in der Annahme steuert, dass der Benutzer das Aktivierungswort zuerst äußert. Somit, zum Beispiel in einem Fall, in dem der Benutzer eine bestimmte Äußerung eingibt, während er vergisst, das Aktivierungswort zu sagen, wird die Spracherkennung nicht gestartet, so dass der Benutzer das Aktivierungswort und den Inhalt der Äußerung erneut sagen müsste. Diese Tatsache bewirkt, dass der Benutzer Zeit und Aufwand vergeudet, wodurch die Nutzbarkeit verschlechtert werden kann.
  • Demgemäß stellt die vorliegende Offenbarung eine Sprachverarbeitungsvorrichtung, ein Sprachverarbeitungsverfahren und ein Aufzeichnungsmedium bereit, welche die auf Spracherkennung bezogene Nutzbarkeit verbessern können.
  • Lösung des Problems
  • Um das oben beschriebene Problem zu lösen, umfasst eine Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung Folgendes: eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Sprachspeichereinheit zu speichern; eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; und eine Ausführungseinheit, die dazu ausgelegt ist, in einem Fall, in dem ein Auslöser von der Detektionseinheit erkannt wird, die Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, zu steuern.
  • Vorteilhafte Effekte der Erfindung
  • Mit der Sprachverarbeitungsvorrichtung, dem Sprachverarbeitungsverfahren und dem Aufzeichnungsmedium gemäß der vorliegenden Offenbarung kann die auf die Spracherkennung bezogene Nutzbarkeit verbessert werden. Die hierin beschriebenen Effekte sind keine Einschränkungen, und jeder der hierin beschriebenen Effekte kann eingesetzt werden.
  • Figurenliste
    • 1 ist ein Diagramm, das einen Umriss der Informationsverarbeitung gemäß einer ersten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 2 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 3 ist ein Flussdiagramm, das ein Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 4 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems gemäß einer zweiten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 5 ist ein Diagramm, das einen Beispiel von extrahierten Äußerungsdaten gemäß der zweiten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 6 ist ein Flussdiagramm, das ein Verarbeitungsverfahren gemäß der zweiten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 7 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems gemäß einer dritten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 8 ist ein Diagramm, das ein Konfigurationsbeispiel einer Sprachverarbeitungsvorrichtung gemäß einer vierten Ausführungsform der vorliegenden Offenbarung darstellt.
    • 9 ist ein Hardware-Konfigurationsdiagramm, das ein Beispiel eines Computers darstellt, der eine Funktion eines intelligenten Lautsprechers implementiert. Beschreibung der Ausführungsformen
  • Im Folgenden werden Ausführungsformen der vorliegenden Offenbarung auf der Basis der Zeichnungen ausführlich beschrieben. In den folgenden Ausführungsformen werden gleiche Teile durch gleiche Referenznummern gekennzeichnet, und redundante Beschreibungen werden nicht wiederholt.
  • Erste Ausführungsform
  • 1-1. Umriss der Informationsverarbeitung gemäß der ersten Ausführungsform
  • 1 ist ein Diagramm, das einen Umriss der Informationsverarbeitung gemäß einer ersten Ausführungsform der vorliegenden Offenbarung darstellt. Die Informationsverarbeitung gemäß der ersten Ausführungsform der vorliegenden Offenbarung wird durch ein in 1 dargestelltes Sprachverarbeitungssystem 1 durchgeführt. Wie in 1 dargestellt, weist das Sprachverarbeitungssystem 1 einen intelligenten Lautsprecher 10 und einen Informationsverarbeitungsserver 100 auf.
  • Der intelligente Lautsprecher 10 ist ein Beispiel einer Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung. Der intelligente Lautsprecher 10 ist das, was man ein Gerät des Internet der Dinge (IoT) nennt, und führt verschiedene Arten von Informationsverarbeitung in Kooperation mit dem Informationsverarbeitungsserver 100 durch. Der intelligente Lautsprecher 10 kann in manchen Fällen zum Beispiel ein Agentengerät genannt werden. Spracherkennung, Antwortverarbeitung unter Verwendung einer Sprache und dergleichen, durchgeführt von dem intelligenten Lautsprecher 10, können in manchen Fällen eine Agentenfunktion genannt werden. Das Agentengerät, das die Agentenfunktion aufweist, ist nicht auf den intelligenten Lautsprecher 10 beschränkt und kann ein Smartphone, ein Tablet-Terminal und dergleichen sein. In diesem Fall führen das Smartphone und das Tablet-Terminal ein Computerprogramm (Anwendung) aus, das die gleiche Funktion wie die des intelligenten Lautsprechers 10 hat, um die oben beschriebene Agentenfunktion zu zeigen.
  • In der ersten Ausführungsform führt der intelligente Lautsprecher 10 eine Antwortverarbeitung für gesammelte Sprachen durch. Beispielsweise erkennt der intelligente Lautsprecher 10 eine Frage von dem Benutzer und gibt eine Antwort auf die Frage per Sprache aus. In dem Beispiel von 1 wird angenommen, dass der intelligente Lautsprecher 10 in einem Haus installiert ist, in dem ein Benutzer U01, ein Benutzer U02 und ein Benutzer U03 wohnen, als Beispiele eines Benutzers, der den intelligenten Lautsprecher 10 benutzt. In der folgenden Beschreibung, in einem Fall, in dem es nicht notwendig ist, den Benutzer U01, den Benutzer U02 und den Benutzer U03 voneinander zu unterscheiden, werden die Benutzer einfach und kollektiv als „Benutzer“ bezeichnet.
  • Beispielsweise kann der intelligente Lautsprecher 10 verschiedene Sensoren aufweisen, nicht nur zum Sammeln von in dem Haus erzeugten Sounds, sondern auch zum Beschaffen verschiedener anderer Arten von Informationen. Beispielsweise kann der intelligente Lautsprecher 10 zusätzlich zu einem Mikrofon eine Kamera zum Erfassen von Raum, einen Beleuchtungsstärkesensor, der eine Beleuchtungsstärke erkennt, einen Gyrosensor, der eine Neigung erkennt, einen Infrarotsensor, der ein Objekt erkennt, und dergleichen aufweisen.
  • Der in 1 dargestellte Informationsverarbeitungsserver 100 ist das, was man einen Cloud-Server nennt, was eine Servervorrichtung ist, die Informationsverarbeitung in Kooperation mit dem intelligenten Lautsprecher 10 durchführt. Der Informationsverarbeitungsserver 100 erfasst die von dem intelligenten Lautsprecher 10 gesammelte Sprache, analysiert die erfasste Sprache und erzeugt eine Antwort, die der analysierten Sprache entspricht. Der Informationsverarbeitungsserver 100 überträgt dann die erzeugte Antwort zu dem intelligenten Lautsprecher 10. Beispielsweise erzeugt der Informationsverarbeitungsserver 100 eine Antwort auf eine von dem Benutzer geäußerte Frage, oder er führt eine Steuerungsverarbeitung zum Abrufen einer von dem Benutzer gewünschten Melodie durch und veranlasst den intelligenten Lautsprecher 10, eine abgerufene Sprache auszugeben. Verschiedene bekannte Techniken können für die von dem Informationsverarbeitungsserver 100 durchgeführte Antwortverarbeitung verwendet werden.
  • In einem Fall des Veranlassens des Agentengerätes, wie z. B. des intelligenten Lautsprechers 10, die Spracherkennung und die Antwortverarbeitung durchzuführen, wie oben beschrieben, muss der Benutzer dem Agentengerät einen bestimmten Auslöser geben. Beispielsweise, bevor er eine Anfrage oder eine Frage äußert, muss der Benutzer einen bestimmten Auslöser betätigen, z. B. durch Äußern eines bestimmten Wortes zum Starten der Agentenfunktion (im Folgenden als „Aktivierungswort“ bezeichnet), oder durch Anblicken einer Kamera des Agentengerätes. Beispielsweise, wenn er eine Frage von dem Benutzer empfängt, nachdem der Benutzer das Aktivierungswort geäußert hat, gibt der intelligente Lautsprecher 10 eine Antwort auf die Frage per Sprache aus. Aufgrund dessen muss der intelligente Lautsprecher 10 nicht immer Sprachen zu dem Informationsverarbeitungsserver 100 übertragen oder eine arithmetische Verarbeitung durchführen, so dass eine Verarbeitungslast reduziert werden kann. Außerdem kann verhindert werden, dass der Benutzer in eine Situation gerät, in der eine unnötige Antwort von dem intelligenten Lautsprecher 10 ausgegeben wird, wenn der Benutzer keine Antwort benötigt.
  • In manchen Fällen kann die oben beschriebene konventionelle Verarbeitung jedoch die Nutzbarkeit verschlechtern. Beispielsweise, in einem Fall, in dem eine bestimmte Anfrage an das Agentengerät gestellt wird, sollte der Benutzer einen Vorgang des Unterbrechens eines laufenden Gesprächs mit umstehenden Personen ausführen, indem er das Aktivierungswort äußert und danach eine Frage stellt. In einem Fall, in dem der Benutzer vergaß, das Aktivierungswort zu sagen, sollte der Benutzer das Aktivierungswort und den ganzen Satz der Anfrage erneut sagen. Auf diese Weise kann bei der konventionellen Verarbeitung die Agentenfunktion nicht flexibel verwendet werden, und die Nutzbarkeit kann verschlechtert werden.
  • Somit löst der intelligente Lautsprecher 10 gemäß der vorliegenden Offenbarung das Problem des einschlägigen Stands der Technik durch die nachstehend beschriebene Informationsverarbeitung. Insbesondere, selbst in einem Fall, in dem der Benutzer das Aktivierungswort äußert, nachdem er eine Äußerung einer Anfrage oder einer Frage gemacht hat, ist der intelligente Lautsprecher 10 fähig, die Frage oder die Anfrage zu bewältigen, indem er zu einer Sprache zurückgeht, die von dem Benutzer vor dem Aktivierungswort geäußert worden ist. Aufgrund dessen muss der Benutzer das Aktivierungswort nicht noch einmal sagen, selbst in einem Fall, in dem der Benutzer vergaß, das Aktivierungswort zu sagen, so dass der Benutzer die durch den intelligenten Lautsprecher 10 durchgeführte Antwortverarbeitung ohne Stress benutzen kann. Im Folgenden wird ein Umriss der Sprachverarbeitung gemäß der vorliegenden Offenbarung neben einem Vorgang unter Bezugnahme auf 1 beschrieben.
  • Wie in 1 dargestellt, sammelt der intelligente Lautsprecher 10 tägliche Gespräche des Benutzers U01, des Benutzers U02 und des Benutzers U03. An diesem Punkt speichert der intelligente Lautsprecher 10 die gesammelten Sprachen vorübergehend für eine vorbestimmte Zeitlänge (zum Beispiel 1 Minute). Das heißt, der intelligente Lautsprecher 10 puffert die gesammelten Sprachen und akkumuliert und löscht wiederholt die Sprachen, die der vorbestimmten Zeit entsprechen.
  • Zusätzlich führt der intelligente Lautsprecher 10 eine Verarbeitung des Erkennens eines Auslösers zum Starten einer der Sprache entsprechenden vorbestimmten Funktion durch, während er mit der Verarbeitung des Sammelns der Sprachen fortfährt. Insbesondere bestimmt der intelligente Lautsprecher 10, ob die gesammelten Sprachen das Aktivierungswort enthalten, und in einem Fall, in dem der bestimmt, dass die gesammelten Sprachen das Aktivierungswort enthalten, erkennt der intelligente Lautsprecher 10 das Aktivierungswort. In dem Beispiel von 1 wird angenommen, dass das für den intelligenten Lautsprecher 10 festgelegte Aktivierungswort „Computer“ ist.
  • In dem in 1 dargestellten Beispiel sammelt der intelligente Lautsprecher 10 eine Äußerung A01 des Benutzers U01, wie z. B. „Wie ist dieser Ort?“, und eine Äußerung A02 des Benutzers U02, wie z. B. „Was für ein Ort ist das Aquarium XX?“, und puffert die gesammelten Sprachen (Schritt S01). Danach erkennt der intelligente Lautsprecher 10 das Aktivierungswort „Computer“ von einer Äußerung A03 „Hallo, Computer?“, die im Anschluss an die Äußerung A02 von dem Benutzer U02 gemacht wird (Schritt S02) .
  • Der intelligente Lautsprecher 10 führt eine Steuerung zum Ausführen der vorbestimmten Funktion durch, die durch die Erkennung des Aktivierungswortes „Computer“ ausgelöst wird. In dem Beispiel von 1 überträgt der intelligente Lautsprecher 10 die Äußerung A01 und die Äußerung A02 als Sprachen, die vor der Erkennung des Aktivierungswortes gesammelt werden, zu dem Informationsverarbeitungsserver 100 (Schritt S03).
  • Der Informationsverarbeitungsserver 100 erzeugt eine Antwort auf der Basis der übertragenen Sprachen (Schritt S04). Insbesondere führt der Informationsverarbeitungsserver 100 eine Spracherkennung an der übertragenen Äußerung A01 und der Äußerung A02 durch und führt eine Semantikanalyse auf der Basis von Text durch, der den einzelnen Äußerungen entspricht. Der Informationsverarbeitungsserver 100 erzeugt dann eine für die analysierte Bedeutung geeignete Antwort. In dem Beispiel von 1 erkennt der Informationsverarbeitungsserver 100, dass die Äußerung A02 „Was für ein Ort ist das Aquarium XX?“ eine Anfrage ist, die bewirkt, dass ein Inhalt (Attribut) von „Aquarium XX“ abgerufen wird, und führt einen Web-Abruf für „Aquarium XX“ durch. Der Informationsverarbeitungsserver 100 erzeugt dann eine Antwort auf der Basis des abgerufenen Inhalts. Insbesondere erzeugt der Informationsverarbeitungsserver 100 als Antwort Sprachdaten zum Ausgeben des abgerufenen Inhalts als Sprache. Der Informationsverarbeitungsserver 100 überträgt dann dem Inhalt der erzeugten Antwort zu dem intelligenten Lautsprecher 10 (Schritt S05).
  • Der intelligente Lautsprecher 10 gibt den von dem Informationsverarbeitungsserver 100 empfangenen Inhalt als Sprache aus. Insbesondere gibt der intelligente Lautsprecher 10 eine Antwortsprache R01 aus, die Inhalt, wie z. B. „Auf der Basis des Web-Abrufs ist das Aquarium XX...“, enthält.
  • Auf diese Weise sammelt der intelligente Lautsprecher 10 gemäß der ersten Ausführungsform die Sprachen und speichert (puffert) die gesammelten Sprachen in einer Sprachspeichereinheit. Der intelligente Lautsprecher 10 erkennt auch den Auslöser (Aktivierungswort) zum Starten der vorbestimmten Funktion, die der Sprache entspricht. In einem Fall, in dem der Auslöser erkannt wird, steuert der intelligente Lautsprecher 10 die Ausführung der vorbestimmten Funktion auf der Basis der Sprache, die vor der Erkennung des Auslösers gesammelt wird. Beispielsweise steuert der intelligente Lautsprecher 10 die Ausführung der vorbestimmten Funktion, die der Sprache entspricht (in dem Beispiel von 1, eine Abruffunktion zum Abrufen eines in der Sprache enthaltenen Objekts), durch Übertragen der Sprache, die vor der Erkennung des Auslösers gesammelt wird, zu dem Informationsverarbeitungsserver 100.
  • Das heißt, in einem Fall, in dem eine Spracherkennungsfunktion durch das Aktivierungswort gestartet wird, kann der intelligente Lautsprecher 10 eine Antwort erzeugen, die der dem Aktivierungswort vorausgehenden Sprache entspricht, indem er die Sprachen kontinuierlich puffert. Mit anderen Worten, der intelligente Lautsprecher 10 benötigt nach der Erkennung des Aktivierungswortes keine Spracheingabe von dem Benutzer U01 und anderen und kann eine Antwortverarbeitung durch Rückverfolgung der gepufferten Sprachen durchführen. Aufgrund dessen kann der intelligente Lautsprecher 10 eine entsprechende Antwort auf eine beiläufige Frage und dergleichen geben, die von dem Benutzer U01 und anderen während eines Gesprächs geäußert wird, ohne den Benutzer U01 und andere zu veranlassen, die Frage zu wiederholen, so dass die auf die Agentenfunktion bezogene Nutzbarkeit verbessert werden kann.
  • 1-2. Konfiguration des Sprachverarbeitungssystems gemäß der ersten Ausführungsform
  • Als Nächstes wird im Folgenden eine Konfiguration des Sprachverarbeitungssystems 1, das den Informationsverarbeitungsserver 100 und den intelligenten Lautsprechers 10 aufweist, als ein Beispiel der Sprachverarbeitungsvorrichtung beschrieben, die Informationsverarbeitung gemäß der ersten Ausführungsform durchführt. 2 ist ein Diagramm, das ein Konfigurationsbeispiel des Sprachverarbeitungssystems 1 gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. Wie in 2 dargestellt, weist das Sprachverarbeitungssystem 1 den intelligenten Lautsprecher 10 und den Informationsverarbeitungsserver 100 auf.
  • Wie in 2 dargestellt, weist der intelligente Lautsprecher 10 Verarbeitungseinheiten auf, die eine Tonsammeleinheit 12, eine Detektionseinheit 13 und eine Ausführungseinheit 14 einschließen. Die Ausführungseinheit 14 enthält eine Übertragungseinheit 15, eine Empfangseinheit und eine Antwortwiedergabeeinheit 17. Jede der Verarbeitungseinheiten wird zum Beispiel implementiert, wenn ein in dem intelligenten Lautsprecher 10 gespeichertes Computerprogramm (zum Beispiel ein auf dem Aufzeichnungsmedium aufgezeichnetes Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung) durch eine zentrale Verarbeitungseinheit (CPU), eine Mikroprozessoreinheit (MPU) und dergleichen unter Verwendung eines Direktzugriffsspeichers (RAM) und dergleichen als Arbeitsbereich ausgeführt wird. Jede der Verarbeitungseinheiten kann zum Beispiel durch eine integrierte Schaltung, wie z. B. eine anwendungsspezifische integrierte Schaltung (ASIC) und ein feldprogrammierbares Gate-Array (FPGA), implementiert werden.
  • Die Tonsammeleinheit 12 sammelt die Sprachen durch Steuern eines in dem intelligenten Lautsprecher 10 enthaltenen Sensors 11. Der Sensor 11 ist zum Beispiel ein Mikrofon. Der Sensor 11 kann eine Funktion des Erkennens verschiedener Arten von Informationen haben, die auf eine Bewegung des Benutzers bezogen sind, wie z. B. Orientierung, Neigung, Bewegung, Bewegungsgeschwindigkeit und dergleichen des Körpers eines Benutzers. Das heißt, der Sensor 11 kann eine Kamera sein, die den Benutzer oder eine periphere Umgebung abbildet, ein Infrarotsensor, der die Anwesenheit des Benutzers erfasst, und dergleichen.
  • Die Tonsammeleinheit 12 sammelt die Sprachen und speichert die gesammelten Sprachen in der Sprachspeichereinheit. Insbesondere speichert die Tonsammeleinheit 12 die gesammelten Sprachen vorübergehend in einer Sprachpuffereinheit 20 als ein Beispiel der Sprachspeichereinheit. Die Sprachpuffereinheit 40 wird zum Beispiel durch ein Halbleiterspeicherelement, wie z. B. ein RAM und einen Flash-Speicher, eine Speichervorrichtung, wie z. B. eine Festplatte und eine optische Disc und dergleichen, implementiert.
  • Die Tonsammeleinheit 12 kann vorher eine Einstellung über einen Informationsbetrag der in der Sprachpuffereinheit 20 zu speichernden Sprachen empfangen. Beispielsweise empfängt die Tonsammeleinheit 12 von dem Benutzer eine Einstellung des Speicherns der Sprachen, die einer bestimmten Zeit entsprechen, als Puffer. Die Tonsammeleinheit 12 empfängt dann den Informationsbetrag der in der Sprachpuffereinheit 20 zu speichernden Sprachen und speichert die in einem Bereich der empfangenen Einstellung gesammelten Sprachen in der Sprachpuffereinheit 20. Aufgrund dessen kann die Tonsammeleinheit 12 die Sprachen in einem von dem Benutzer gewünschten Bereich der Speicherkapazität puffern.
  • In einem Fall des Empfangens einer Anfrage zum Löschen der in der Sprachpuffereinheit 20 gespeicherten Sprache kann die Tonsammeleinheit 12 die in der Sprachpuffereinheit 20 gespeicherte Sprache löschen. Beispielsweise mag der Benutzer wünschen, angesichts des Datenschutzes in manchen Fällen, die Speicherung vergangener Sprachen in dem intelligenten Lautsprecher 10 zu verhindern. In diesem Fall löscht der intelligente Lautsprecher 10 die gepufferte Sprache, nachdem er eine auf die Löschung der gepufferten Sprache bezogene Bedienung von dem Benutzer empfangen hat.
  • Die Detektionseinheit 13 erkennt den Auslöser zum Starten der vorbestimmten Funktion, die der Sprache entspricht. Insbesondere führt die Detektionseinheit 13 Spracherkennung an den Sprachen durch, die von der Tonsammeleinheit 12 als Auslöser gesammelt werden, und erkennt das gesprochene Aktivierungswort als den Auslöser zum Starten der vorbestimmten Funktion. Die vorbestimmte Funktion umfasst verschiedene Funktionen, wie z. B. Spracherkennungsverarbeitung, durchgeführt durch den intelligenten Lautsprecher 10, Antworterzeugungsverarbeitung, durchgeführt durch den Informationsverarbeitungsserver 100, und Sprachausgabeverarbeitung, durchgeführt durch den intelligenten Lautsprecher 10.
  • In einem Fall, in dem der Auslöser durch die Detektionseinheit 13 erkannt wird, steuert die Ausführungseinheit 14 die Ausführung der vorbestimmten Funktion auf der Basis der Sprache, die vor der Erkennung des Auslösers gesammelt wird. Wie in 2 dargestellt, steuert die Ausführungseinheit 14 die Ausführung der vorbestimmten Funktion auf der Basis einer Verarbeitung, die durch die einzelnen Verarbeitungseinheiten, einschließlich der Übertragungseinheit 15, der Empfangseinheit 16 und der Antwortwiedergabeeinheit 17, durchgeführt wird.
  • Die Übertragungseinheit 15 überträgt verschiedene Arten von Informationen über ein verdrahtetes oder drahtloses Netzwerk und dergleichen. Beispielsweise, in einem Fall, in dem das Aktivierungswort erkannt wird, überträgt die Übertragungseinheit 15, zu dem Informationsverarbeitungsserver 100, die Sprachen, die gesammelt werden, bevor das Aktivierungswort erkannt wird, das heißt die in der Sprachpuffereinheit 20 gepufferten Sprachen. Die Übertragungseinheit 15 kann nicht nur die gepufferten Sprachen, sondern auch Sprachen, die gesammelt werden, nachdem das Aktivierungswort erkannt worden ist, zu dem Informationsverarbeitungsserver 100 übertragen.
  • Die Empfangseinheit 16 empfängt die durch den Informationsverarbeitungsserver 100 erzeugte Antwort. Beispielsweise, in einem Fall, in dem die durch die Übertragungseinheit 15 übertragene Sprache auf die Frage bezogen ist, empfängt die Empfangseinheit 16 eine durch den Informationsverarbeitungsserver 100 erzeugte Antwort als Reaktion. Die Empfangseinheit 16 kann entweder Sprachdaten oder Textdaten als Antwort empfangen.
  • Die Antwortwiedergabeeinheit 17 führt eine Steuerung zum Wiedergeben der durch die Empfangseinheit 16 empfangenen Antwort durch. Beispielsweise führt die Antwortwiedergabeeinheit 17 eine Steuerung durch, um eine Ausgabeeinheit 18 (zum Beispiel einen Lautsprecher) mit einer Sprachausgabefunktion zu veranlassen, die Antwort per Sprache auszugeben. In einem Fall, in dem die Ausgabeeinheit 18 ein Display ist, kann die Antwortwiedergabeeinheit 17 eine Steuerungsverarbeitung durchführen, die bewirkt, dass die empfangene Antwort als Textdaten auf dem Display angezeigt wird.
  • In einem Fall, in dem der Auslöser durch die Detektionseinheit 13 erkannt wird, kann die Ausführungseinheit 14 die Ausführung der vorbestimmten Funktion unter Verwendung der Sprachen, die vor der Erkennung des Auslösers gesammelt werden, zusammen mit den Sprachen, die nach der Erkennung des Auslösers gesammelt werden, steuern.
  • Anschließend wird im Folgenden der Informationsverarbeitungsserver 100 beschrieben. Wie in 2 dargestellt, weist der Informationsverarbeitungsserver 100 Verarbeitungseinheiten, einschließlich einer Speichereinheit 120, einer Erfassungseinheit 131, einer Spracherkennungseinheit 132, einer Semantik-Analyseeinheit 133, einer Antworterzeugungseinheit 134 und einer Übertragungseinheit 135, auf.
  • Die Speichereinheit 120 wird zum Beispiel durch ein Halbleiterspeicherelement, wie z. B. ein RAM und einen Flash-Speicher, eine Speichervorrichtung, wie z. B. eine Festplatte und eine optische Disc oder dergleichen, implementiert. Die Speichereinheit 120 speichert Definitionsinformationen und dergleichen zum Antworten auf die von dem intelligenten Lautsprecher 10 erfassten Sprache. Beispielsweise speichert die Speichereinheit 120 verschiedene Arten von Informationen, wie z. B. ein Bestimmungsmodell zum Bestimmen, ob die Sprache auf die Frage bezogen ist, eine Adresse des Abrufservers als ein Ziel, an dem eine Antwort zum Reagieren auf die Frage abgerufen wird, und dergleichen.
  • Jede der Verarbeitungseinheiten, wie z. B. die Erfassungseinheit 131, wird zum Beispiel implementiert, wenn ein in dem Informationsverarbeitungsserver 100 gespeichertes Computerprogramm durch eine CPU, eine MPU und dergleichen unter Verwendung eines RAM und dergleichen als Arbeitsbereich ausgeführt wird. Jede der Verarbeitungseinheiten kann zum Beispiel auch durch eine integrierte Schaltung, wie z. B. eine ASIC und ein FPGA, implementiert werden.
  • Die Erfassungseinheit 131 erfasst die von dem intelligenten Lautsprecher 10 übertragenen Sprachen. Beispielsweise, in einem Fall, in dem das Aktivierungswort durch den intelligenten Lautsprecher 10 erkannt wird, erfasst die Erfassungseinheit 131 von dem intelligenten Lautsprecher 10 die Sprachen, die vor der Erkennung des Aktivierungswortes gepuffert werden. Die Erfassungseinheit 131 kann auch von dem intelligenten Lautsprecher 10 die Sprachen erfassen, die von dem Benutzer in Echtzeit geäußert werden, nachdem das Aktivierungswort erkannt worden ist.
  • Die Spracherkennungseinheit 132 wandelt die durch die Erfassungseinheit 131 erfassten Sprachen in Zeichenfolgen um. Die Spracherkennungseinheit 132 kann auch die Sprachen, die vor der Erkennung des Aktivierungswortes gepuffert werden, und die Sprachen, die nach der Erkennung des Aktivierungswortes erfasst werden, parallel verarbeiten.
  • Die Semantik-Analyseeinheit 133 analysiert den Inhalt einer Anfrage oder einer Frage von dem Benutzer auf der Basis der Zeichenfolge, die von der Spracherkennungseinheit 132 erkannt wird. Beispielsweise nimmt die Semantik-Analyseeinheit 133 Bezug auf die Speichereinheit 120 und analysiert den Inhalt der Anfrage oder der Frage, gemeint durch die Zeichenfolge, auf der Basis der in der Speichereinheit 120 gespeicherten Definitionsinformationen und dergleichen. Insbesondere gibt die Semantik-Analyseeinheit 133 auf der Basis der Zeichenfolge den Inhalt der Anfrage von dem Benutzer an, wie z. B. „Bitte sage mir, was ein bestimmtes Objekt ist“, „Bitte registriere einen Terminplan in einer Kalenderanwendung“ und „Bitte spiele eine Melodie eines bestimmten Interpreten ab“. Die Semantik-Analyseeinheit 133 leitet dann den angegebenen Inhalt an die Antworterzeugungseinheit 134 weiter.
  • Beispielsweise analysiert die Semantik-Analyseeinheit 133 in dem Beispiel von 1 eine Absicht des Benutzers U02, z. B. „Ich möchte wissen, was das Aquarium XX ist“, im Einklang mit einer Zeichenfolge, die der Sprache von „Was für ein Ort ist das Aquarium XX?“ entspricht, die von dem Benutzer U02 vor dem Aktivierungswort geäußert wird. Das heißt, die Semantik-Analyseeinheit 133 führt ein Semantikanalyse durch, die der Äußerung entspricht, bevor der Benutzer U02 das Aktivierungswort äußert. Aufgrund dessen kann die Semantik-Analyseeinheit 133 eine Antwort gemäß der Absicht des Benutzers U02 erzeugen, ohne den Benutzer U02 zu veranlassen, die gleiche Frage noch einmal zu stellen, nachdem der Benutzer U02 „Computer“ als das Aktivierungswort geäußert hat.
  • In einem Fall, in dem die Absicht des Benutzers nicht auf der Basis der Zeichenfolge analysiert werden kann, kann die Semantik-Analyseeinheit 133 diese Tatsache an die Antworterzeugungseinheit 134 weiterleiten. Beispielsweise, in einem Fall, in dem Informationen, die anhand der Äußerung des Benutzers nicht eingeschätzt werden können, als Resultat der Analyse enthalten sind, leitet die Semantik-Analyseeinheit 133 diesen Inhalt an die Antworterzeugungseinheit 134 weiter. In diesem Fall kann die Antworterzeugungseinheit 134 eine Antwort erzeugen, um den Benutzer zu ersuchen, unklare Informationen noch einmal genau zu äußern.
  • Die Antworterzeugungseinheit 134 erzeugt eine Antwort an den Benutzer im Einklang mit dem durch die Semantik-Analyseeinheit 133 analysierten Inhalt. Beispielsweise erfasst die Antworterzeugungseinheit 134 Informationen, die dem analysierten Inhalt der Anfrage entsprechen, und erzeugt den Inhalt einer Antwort, wie z. B. den Wortlaut der Antwort. Die Antworterzeugungseinheit 134 kann je nach dem Inhalt einer Frage oder einer Anfrage eine Antwort von „nichts tun“ auf die Äußerung des Benutzers erzeugen. Die Antworterzeugungseinheit 134 leitet die erzeugte Antwort zu der Übertragungseinheit 135 weiter.
  • Die Übertragungseinheit 135 überträgt die von der Antworterzeugungseinheit 134 erzeugte Antwort zu dem intelligenten Lautsprecher 10. Beispielsweise überträgt die Übertragungseinheit 135 zu dem intelligenten Lautsprecher 10 eine von der Antworterzeugungseinheit 134 erzeugte Zeichenfolge (Textdaten) und Sprachdaten.
  • 1-3. Informationsverarbeitungsverfahren gemäß der ersten Ausführungsform
  • Als Nächstes wird im Folgenden ein Informationsverarbeitungsverfahren gemäß der ersten Ausführungsform unter Bezugnahme auf 3 beschrieben. 3 ist ein Flussdiagramm, welches das Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. Insbesondere wird im Folgenden unter Bezugnahme auf 3 das von dem intelligenten Lautsprecher 10 durchgeführte Verarbeitungsverfahren gemäß der ersten Ausführungsform beschrieben.
  • Wie in 3 dargestellt, sammelt der intelligente Lautsprecher 10 Sprachen aus der Umgebung (Schritt S101). Der intelligente Lautsprecher 10 speichert dann die gesammelten Sprachen in der Sprachspeichereinheit (Sprachpuffereinheit 20) (Schritt S102). Das heißt, der intelligente Lautsprecher 10 puffert die Sprachen.
  • Danach bestimmt der intelligente Lautsprecher 10, ob das Aktivierungswort in den gesammelten Sprachen erkannt wird (Schritt S103). Wird das Aktivierungswort nicht erkannt (Nein bei Schritt S103), setzt der intelligente Lautsprecher 10 das Sammeln der Sprachen aus der Umgebung fort. Wird dagegen das Aktivierungswort erkannt (Ja bei Schritt S103), überträgt der intelligente Lautsprecher 10 die vor dem Aktivierungswort gepufferten Sprachen zu dem Informationsverarbeitungsserver 100 (Schritt S104). Der intelligente Lautsprecher 10 kann auch die Übertragung der Sprachen, die gesammelt werden, nachdem die gepufferten Sprachen zu dem Informationsverarbeitungsserver 100 übertragen worden sind, zu dem Informationsverarbeitungsserver 100 fortsetzen.
  • Danach bestimmt der intelligente Lautsprecher 10, ob die Antwort von dem Informationsverarbeitungsserver 100 empfangen wird (Schritt S105). Wird die Antwort nicht empfangen (Nein bei Schritt S105), wartet der intelligente Lautsprecher 10 im Bereitschaftszustand, bis die Antwort empfangen wird.
  • Wird dagegen die Antwort empfangen (Ja bei Schritt S105), gibt der intelligente Lautsprecher 10 die empfangene Antwort per Sprache und dergleichen aus (Schritt S106) .
  • 1-4. Modifikation gemäß der ersten Ausführungsform
  • In der oben beschriebenen ersten Ausführungsform wird einen Beispiel beschrieben, in dem der intelligente Lautsprecher 10 das von dem Benutzer geäußerte Aktivierungswort als den Auslöser erkennt. Der Auslöser ist jedoch nicht auf das Aktivierungswort beschränkt.
  • Beispielsweise, in einem Fall, in dem der intelligente Lautsprecher 10 eine Kamera als Sensor 11 aufweist, kann der intelligente Lautsprecher 10 eine Bilderkennung an einem Bild durchführen, das durch Abbilden des Benutzers erhalten wird, und den Auslöser von den erkannten Informationen erkennen. Beispielsweise kann der intelligente Lautsprecher 10 eine Sichtlinie des Benutzers erkennen, der auf den intelligenten Lautsprecher 10 blickt. In diesem Fall kann der intelligente Lautsprecher 10 anhand verschiedener bekannter Techniken, die auf die Erkennung einer Sichtlinie bezogen sind, bestimmen, ob der Benutzer auf den intelligenten Lautsprecher 10 blickt.
  • In einem Fall des Bestimmens, dass der Benutzer auf den intelligenten Lautsprecher 10 blickt, bestimmt der intelligente Lautsprecher 10, dass der Benutzer eine Antwort von dem intelligenten Lautsprecher 10 wünscht, und überträgt die gepufferten Sprachen zu dem Informationsverarbeitungsserver 100. Durch eine solche Verarbeitung kann der intelligente Lautsprecher 10 auf der Basis der Sprache, die von dem Benutzer geäußert wird, bevor der Benutzer seine Augen dorthin wendet, eine Antwort erzeugen. Auf diese Weise kann der intelligente Lautsprecher 10 eine Verarbeitung durchführen, während er die Absicht des Benutzers erfasst, bevor der Benutzer das Aktivierungswort äußert, indem er eine Antwortverarbeitung im Einklang mit der Sichtlinie des Benutzers durchführt, so dass die Nutzbarkeit weiter verbessert werden kann.
  • In einem Fall, in dem der intelligente Lautsprecher 10 einen Infrarotsensor und dergleichen als den Sensor 11 aufweist, kann der intelligente Lautsprecher 10 Informationen, die durch Erfassen einer vorbestimmten Bewegung des Benutzers oder eines Abstands zu dem Benutzer erhalten werden, als den Auslöser erkennen. Beispielsweise kann der intelligente Lautsprecher 10 erfassen, dass der Benutzer sich einem Bereich eines vorbestimmten Abstands von dem intelligenten Lautsprecher 10 nähert (zum Beispiel 1 Meter), und kann eine Annäherungsbewegung als den Auslöser für Sprachantwortverarbeitung erkennen. Alternativ dazu kann der intelligente Lautsprecher 10 die Tatsache erkennen, dass der Benutzer sich dem intelligenten Lautsprecher 10 von außerhalb des Bereichs des vorbestimmten Abstands nähert und zum Beispiel dem intelligenten Lautsprecher 10 gegenübersteht. In diesem Fall kann der intelligente Lautsprecher 10 anhand verschiedener bekannter Techniken, die auf die Erkennung der Bewegung des Benutzers bezogen sind, bestimmen, dass der Benutzer sich dem intelligenten Lautsprecher 10 nähert, oder dass der Benutzer dem intelligenten Lautsprecher 10 gegenübersteht.
  • Der intelligente Lautsprecher 10 erfasst dann eine vorbestimmte Bewegung des Benutzers oder einen Abstand zu dem Benutzer, und in einem Fall, in dem die erfassten Informationen eine vorbestimmte Bedingung erfüllen, bestimmt er, dass der Benutzer eine Antwort von dem intelligenten Lautsprecher 10 wünscht, und überträgt die gepufferten Sprachen zu dem Informationsverarbeitungsserver 100. Durch eine solche Verarbeitung kann der intelligente Lautsprecher 10 auf der Basis der Sprache, die geäußert wird, bevor der Benutzer die vorbestimmte Bewegung und dergleichen ausführt, eine Antwort erzeugen. Auf diese Weise kann der intelligente Lautsprecher 10 die Nutzbarkeit weiter verbessern, indem er eine Antwortverarbeitung durchführt, während er auf der Basis der Bewegung des Benutzers abschätzt, dass der Benutzer eine Antwort wünscht.
  • Zweite Ausführungsform
  • 2-1. Konfiguration des Sprachverarbeitungssystems gemäß der zweiten Ausführungsform
  • Als Nächstes wird im Folgenden eine zweite Ausführungsform beschrieben. Insbesondere wird im Folgenden die Verarbeitung des Extrahierens nur der Äußerungen beschrieben, die zu der Zeit zu puffern sind, wenn ein intelligenter Lautsprecher 10A gemäß der zweiten Ausführungsform die gesammelten Sprachen puffert.
  • 4 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems 2 gemäß der zweiten Ausführungsform der vorliegenden Offenbarung darstellt. Wie in 4 dargestellt, umfasst der intelligente Lautsprecher 10A gemäß der zweiten Ausführungsform ferner extrahierte Äußerungsdaten 21, im Vergleich zu der ersten Ausführungsform. Eine Beschreibung der gleichen Konfiguration wie die des intelligenten Lautsprechers 10 gemäß der ersten Ausführungsform wird nicht wiederholt.
  • Die extrahierten Äußerungsdaten 21 sind eine Datenbank, die durch Extrahieren nur von Sprachen erhalten wird, die unter den in der Sprachpuffereinheit 20 gepufferten Sprachen schätzungsweise die auf die Äußerungen des Benutzers bezogenen Sprachen sind. Das heißt, die Tonsammeleinheit 12 gemäß der zweiten Ausführungsform sammelt die Sprachen, extrahiert die Äußerungen von den gesammelten Sprachen, und speichert die extrahierten Äußerungen in den extrahierten Äußerungsdaten 21 in der Sprachpuffereinheit 20. Die Tonsammeleinheit 12 kann die Äußerungen von den gesammelten Sprachen unter Verwendung verschiedener bekannter Techniken, wie z. B. Sprachabschnittserkennung, Sprecherangabeverarbeitung und dergleichen, extrahieren.
  • 5 stellt ein Beispiel der extrahierten Äußerungsdaten 21 gemäß der zweiten Ausführungsform dar. 5 ist ein Diagramm, das ein Beispiel der extrahierten Äußerungsdaten gemäß der zweiten Ausführungsform der vorliegenden Offenbarung darstellt. In dem in 5 dargestellten Beispiel enthalten die extrahierten Äußerungsdaten 21 solche Posten wie „Sprachdatei-ID“, „Puffereinstellungszeit“, „Äußerungsextraktionsinformationen“, „Sprach-ID“, „erfasste Datums- und Uhrzeitwerte“, „Benutzer-ID“ und „Äußerung“.
  • „Sprachdatei-ID“ gibt Identifikationsinformationen zum Identifizieren einer Sprachdatei der gepufferten Sprache an. „Puffereinstellungszeit“ gibt eine Zeitlänge der zu puffernden Sprache an. „Äußerungsextraktionsinformationen“ gibt Informationen über die von der gepufferten Sprache extrahierte Äußerung an. „Sprach-ID“ gibt Identifikationsinformationen zum Identifizieren der Sprache (Äußerung) an. „Erfasste Datums- und Uhrzeitwerte“ gibt das Datum und die Uhrzeit der Erfassung der Sprache an. „Benutzer-ID“ gibt Identifikationsinformationen zum Identifizieren des Benutzers an, der die Äußerung gemacht hat. In einem Fall, in dem der Benutzer, der die Äußerung gemacht hat, nicht angegeben werden kann, registriert der intelligente Lautsprecher 10A nicht unbedingt die Informationen über die Benutzer-ID. „Äußerung“ gibt den bestimmten Inhalt der Äußerung an. 5 stellt ein Beispiel dar, in dem eine bestimmte Zeichenfolge als Posten der Äußerung zur Erläuterung gespeichert wird, doch auf die Äußerung bezogene Sprachdaten oder Zeitdaten zum Angeben der Äußerung (Informationen, die einen Anfangspunkt und einen Endpunkt der Äußerung angeben) können als Posten der Äußerung gespeichert werden.
  • Auf diese Weise kann der intelligente Lautsprecher 10A gemäß der zweiten Ausführungsform nur die Äußerungen von den gepufferten Sprachen extrahieren und speichern. Aufgrund dessen kann der intelligente Lautsprecher 10A nur die für Antwortverarbeitung erforderlichen Sprachen puffern und kann die anderen Sprachen löschen oder die Übertragung der Sprachen zu dem Informationsverarbeitungsserver 100 auslassen, so dass eine Verarbeitungslast reduziert werden kann. Durch vorheriges Extrahieren der Äußerung und Übertragen der Sprache zu dem Informationsverarbeitungsserver 100 kann der intelligente Lautsprecher 10A eine Last auf die durch den Informationsverarbeitungsserver 100 durchgeführte Verarbeitung reduzieren.
  • Durch Speichern der Informationen, die durch Identifizieren des Benutzers, der die Äußerung gemacht hat, erhalten wurden, kann der intelligente Lautsprecher 10A auch bestimmen, ob die gepufferte Äußerung mit dem Benutzer übereinstimmt, der das Aktivierungswort gemacht hat.
  • In diesem Fall, in einem Fall, in dem das Aktivierungswort durch die Detektionseinheit 13 erkannt wird, kann die Ausführungseinheit 14 die Äußerung eines Benutzers, der dem Benutzer entspricht, der das Aktivierungswort geäußert hat, von den in den extrahierten Äußerungsdaten 21 gespeicherten Äußerungen extrahieren und die Ausführung der vorbestimmten Funktion auf der Basis der extrahierten Äußerung steuern. Beispielsweise kann die Ausführungseinheit 14 nur die Äußerungen des Benutzers, der das Aktivierungswort geäußert hat, von den gepufferten Sprachen extrahieren und die Äußerungen zu dem Informationsverarbeitungsserver 100 übertragen.
  • Beispielsweise, in einem Fall des Erzeugens einer Antwort unter Verwendung der gepufferten Sprache, wenn eine andere Äußerung als die des Benutzers, der das Aktivierungswort geäußert hat, verwendet wird, kann eine Antwort erzeugt werden, die von dem Benutzer, der das Aktivierungswort geäußert hat, nicht beabsichtigt ist. Somit, indem sie unter den gepufferten Sprachen nur die Äußerungen des Benutzers, der das Aktivierungswort geäußert hat, zu dem Informationsverarbeitungsserver 100 überträgt, kann die Ausführungseinheit 14 die Erzeugung einer von dem Benutzer gewünschten entsprechenden Antwort veranlassen.
  • Die Ausführungseinheit 14 muss nicht unbedingt nur die Äußerungen des Benutzers, der auch das Aktivierungswort geäußert hat, übertragen. Das heißt, in einem Fall, in dem das Aktivierungswort durch die Detektionseinheit 13 erkannt wird, kann die Ausführungseinheit 14 die Äußerung eines Benutzers, der dem Benutzer entspricht, der das Aktivierungswort geäußert hat, und eine Äußerung eines vorbestimmten Benutzers, der im Voraus registriert worden ist, von den in den extrahierten Äußerungsdaten 21 gespeicherten Äußerungen extrahieren und die Ausführung der vorbestimmten Funktion auf der Basis der extrahierten Äußerung steuern.
  • Beispielsweise hat das Agentengerät, wie z. B. der intelligente Lautsprecher 10A, eine Funktion, um in manchen Fällen Benutzer, wie z. B. Familienangehörige, vorher zu registrieren. In einem Fall, dass eine solche Funktion vorhanden ist, kann der intelligente Lautsprecher 10A die Äußerung zu der Zeit des Erkennens des Aktivierungswortes zu dem Informationsverarbeitungsserver 100 übertragen, selbst wenn die Äußerung von einem Benutzer gemacht wird, der von dem Benutzer, der das Aktivierungswort geäußert hat, verschieden ist, solange die Äußerung von einem im Voraus registrierten Benutzer gemacht wird. In dem Beispiel von 5, wenn der Benutzer U01 ein im Voraus registrierter Benutzer ist, in einem Fall, in dem der Benutzer U02 das Aktivierungswort „Computer“ äußert, kann der intelligente Lautsprecher 10A nicht nur die Äußerung des Benutzers U02, sondern auch die Äußerung des Benutzers U01 zu dem Informationsverarbeitungsserver 100 übertragen.
  • 2-2. Informationsverarbeitungsverfahren gemäß der zweiten Ausführungsform
  • Als Nächstes wird im Folgenden ein Informationsverarbeitungsverfahren gemäß der Sekunden Ausführungsform unter Bezugnahme auf 6 beschrieben. 6 ist ein Flussdiagramm, welches das Verarbeitungsverfahren gemäß der ersten Ausführungsform der vorliegenden Offenbarung darstellt. Insbesondere wird im Folgenden unter Bezugnahme auf 6 das von dem intelligenten Lautsprecher 10A durchgeführte Verarbeitungsverfahren gemäß der ersten Ausführungsform beschrieben.
  • Wie in 6 dargestellt, sammelt der intelligente Lautsprecher 10A Sprachen aus der Umgebung (Schritt S201). Der intelligente Lautsprecher 10A speichert dann die gesammelten Sprachen in der Sprachspeichereinheit (Sprachpuffereinheit 20) (Schritt S202) .
  • Außerdem extrahiert der intelligente Lautsprecher 10A Äußerungen von den gepufferten Sprachen (Schritt S203). Der intelligente Lautsprecher 10A löscht dann die Sprachen außer den extrahierten Äußerungen (Schritt S204). Aufgrund dessen kann der intelligente Lautsprecher 10A entsprechend Speicherkapazität für Pufferung sichern.
  • Darüber hinaus bestimmt der intelligente Lautsprecher 10A, ob der Benutzer, der die Äußerung gemacht hat, erkannt werden kann (Schritt S205). Beispielsweise identifiziert der intelligente Lautsprecher 10A den Benutzer, der die Sprachäußerung gemacht hat, auf der Basis eines Benutzererkennungsmodells, das zum Zeitpunkt der Registrierung des Benutzers erzeugt wurde, um den Benutzer, der die Äußerung gemacht hat, zu erkennen.
  • Wenn der Benutzer, der die Äußerung gemacht hat, erkannt werden kann (Ja bei Schritt S205), registriert der intelligente Lautsprecher 10A die Benutzer-ID für die Äußerung in den extrahierten Äußerungsdaten 21 (Schritt S206). Falls dagegen der Benutzer, der die Äußerung gemacht hat, nicht erkannt werden kann (Nein bei Schritt S205), registriert der intelligente Lautsprecher 10A nicht die Benutzer-ID für die Äußerung in den extrahierten Äußerungsdaten 21 (Schritt S207).
  • Danach bestimmt der intelligente Lautsprecher 10A, ob das Aktivierungswort in den gesammelten Sprachen erkannt wird (Schritt S208). Wird das Aktivierungswort nicht erkannt (Nein bei Schritt S208), setzt der intelligente Lautsprecher 10A das Sammeln der Sprachen aus der Umgebung fort.
  • Wird dagegen das Aktivierungswort erkannt (Ja bei Schritt S208), bestimmt der intelligente Lautsprecher 10A, ob die Äußerung des Benutzers, der das Aktivierungswort geäußert hat (oder die Äußerung des in dem intelligenten Lautsprecher 10A registrierten Benutzers) gepuffert wird (Schritt S209). Wird die Äußerung des Benutzers, der das Aktivierungswort geäußert hat, gepuffert (Ja bei Schritt S209), überträgt der intelligente Lautsprecher 10A zu dem Informationsverarbeitungsserver 100 die Äußerung des Benutzers, die vor dem Aktivierungswort gepuffert wird (Schritt S210).
  • Wird dagegen die Äußerung des Benutzers, der das Aktivierungswort geäußert hat, nicht gepuffert (Nein bei Schritt S210), überträgt der intelligente Lautsprecher 10A die vor dem Aktivierungswort gepufferte Sprache nicht und überträgt die nach dem Aktivierungswort gesammelte Sprache zu dem Informationsverarbeitungsserver 100 (Schritt S211). Aufgrund dessen kann der intelligente Lautsprecher 10A auf der Basis einer Sprache, die in der Vergangenheit von einem anderen Benutzer als dem Benutzer, der das Aktivierungswort geäußert hat, geäußert wurde, die Erzeugung einer Antwort verhindern.
  • Danach bestimmt der intelligente Lautsprecher 10A, ob die Antwort von dem Informationsverarbeitungsserver 100 empfangen wird (Schritt S212). Wird die Antwort nicht empfangen (Nein bei Schritt S212), wartet der intelligente Lautsprecher 10A im Bereitschaftszustand, bis die Antwort empfangen wird.
  • Wird dagegen die Antwort empfangen (Ja bei Schritt S212), gibt der intelligente Lautsprecher 10A die empfangene Antwort per Sprache und dergleichen aus (Schritt S213) .
  • Dritte Ausführungsform
  • Als Nächstes wird im Folgenden eine dritte Ausführungsform beschrieben. Insbesondere wird im Folgenden die Verarbeitung der Erzeugung einer vorbestimmten Benachrichtigung an den Benutzer, durchgeführt von einem intelligenten Lautsprecher 10B, gemäß der dritten Ausführungsform beschrieben.
  • 7 ist ein Diagramm, das ein Konfigurationsbeispiel eines Sprachverarbeitungssystems 3 gemäß der dritten Ausführungsform der vorliegenden Offenbarung darstellt. Wie in 7 dargestellt, umfasst der intelligente Lautsprecher 10B gemäß der dritten Ausführungsform ferner eine Benachrichtigungseinheit 19 im Vergleich zu der ersten Ausführungsform. Eine Beschreibung der gleichen Komponenten wie die des intelligenten Lautsprechers 10 gemäß der ersten Ausführungsform und die des intelligenten Lautsprechers 10A gemäß der zweiten Ausführungsform wird nicht wiederholt.
  • In einem Fall, in dem die Ausführungseinheit 14 die Ausführung der vorbestimmten Funktion unter Verwendung der Sprache steuert, die vor der Erkennung des Auslösers gesammelt wird, macht die Benachrichtigungseinheit 19 eine Benachrichtigung an den Benutzer.
  • Wie oben beschrieben, führen der intelligente Lautsprecher 10B und der Informationsverarbeitungsserver 100 gemäß der vorliegenden Offenbarung eine Antwortverarbeitung auf der Basis der gepufferten Sprachen durch. Eine solche Verarbeitung wird auf der Basis der vor dem Aktivierungswort geäußerten Sprache durchgeführt, so dass der Benutzer daran gehindert werden kann, überflüssige Zeit und Mühe aufzuwenden. Der Benutzer kann jedoch besorgt darüber werden, wie lange es her ist, dass die Sprache, auf deren Basis die Verarbeitung durchgeführt wird, geäußert wurde. Das heißt, die Sprachantwortverarbeitung unter Verwendung des Puffers kann den Benutzer besorgt darüber machen, ob die Privatsphäre verletzt wird, weil lebendige Klänge ständig gesammelt werden. Das heißt, eine solche Technik bringt das Problem mit sich, dass die Besorgnis des Benutzers verringert werden sollte. Andererseits kann der intelligente Lautsprecher 10B dem Benutzer ein Gefühl der Sicherheit geben, indem er durch eine von der Benachrichtigungseinheit 19 durchgeführte Benachrichtigungsverarbeitung eine vorbestimmte Benachrichtigung an den Benutzer macht.
  • Beispielsweise, zu der Zeit, da die vorbestimmte Funktion ausgeführt wird, erzeugt die Benachrichtigungseinheit 19 eine Benachrichtigung in unterschiedlichen Modi zwischen einem Fall der Verwendung der vor der Erkennung des Auslösers gesammelten Sprache und einem Fall der Verwendung der nach der Erkennung des Auslösers gesammelten Sprache. Zum Beispiel führt die Benachrichtigungseinheit 19 in einem Fall, in dem die Antwortverarbeitung durch Verwendung der gepufferten Sprache durchgeführt wird, eine Steuerung durch, so dass rotes Licht von einer Außenfläche des intelligenten Lautsprechers 10B emittiert wird. In einem Fall, in dem die Antwortverarbeitung durch Verwendung der Sprache nach dem Aktivierungswort durchgeführt wird, führt die Benachrichtigungseinheit 19 eine Steuerung durch, so dass blaues Licht von der Außenfläche des intelligenten Lautsprechers 10B emittiert wird. Aufgrund dessen kann der Benutzer erkennen, ob die Antwort an ihn auf der Basis der gepufferten Sprache oder auf der Basis der Sprache, die von ihm nach dem Aktivierungswort geäußert wird, gemacht wird.
  • Die Benachrichtigungseinheit 19 kann eine Benachrichtigung in noch einem anderen unterschiedlichen Modus erzeugen. Insbesondere in einem Fall, in dem die vor der Erkennung des Auslösers gesammelte Sprache zu der Zeit verwendet wird, da die vorbestimmte Funktion ausgeführt wird, kann die Benachrichtigungseinheit 19 den Benutzer von einem Log benachrichtigen, welcher der verwendeten Sprache entspricht. Beispielsweise kann die Benachrichtigungseinheit 19 die Sprache, die tatsächlich für eine Antwort verwendet wird, in eine Zeichenfolge umwandeln, die auf einem in dem intelligenten Lautsprecher 10B enthaltenen externen Display anzuzeigen ist. Unter Bezugnahme auf 1 als Beispiel zeigt die Benachrichtigungseinheit 19 eine Zeichenfolge „Wo ist das Aquarium XX?“ auf dem externen Display an und gibt die Antwortsprache R01 zusammen mit dem Display aus. Aufgrund dessen kann der Benutzer genau erkennen, welche Äußerung für die Verarbeitung verwendet wird, so dass der Benutzer hinsichtlich des Schutzes der Privatsphäre ein Gefühl der Sicherheit gewinnen kann.
  • Die Benachrichtigungseinheit 19 kann die für die Antwort verwendete Zeichenfolge über eine vorbestimmte Vorrichtung anzeigen, anstatt die Zeichenfolge auf dem intelligenten Lautsprecher 10B anzuzeigen. Beispielsweise, in einem Fall, in dem die gepufferte Sprache für die Verarbeitung verwendet wird, kann die Benachrichtigungseinheit 19 eine Zeichenfolge, die der für die Verarbeitung verwendeten Sprache entspricht, zu einem im Voraus registrierten Endgerät, wie z. B. einem Smartphone, übertragen. Aufgrund dessen kann der Benutzer genau erfassen, welche Sprache für die Verarbeitung verwendet wird, und welche Zeichenfolge nicht für die Verarbeitung verwendet wird.
  • Die Benachrichtigungseinheit 19 kann auch eine Benachrichtigung machen, die angibt, ob die gepufferte Sprache übertragen wird. Beispielsweise, in einem Fall, in dem der Auslöser nicht erkannt wird und die Sprache nicht übertragen wird, führt die Benachrichtigungseinheit 19 eine Steuerung durch, um eine Anzeige auszugeben, die diese Tatsache angibt (zum Beispiel Ausgabe eines Lichts von blauer Farbe). Dagegen wird in einem Fall, in dem der Auslöser erkannt wird, die gepufferte Sprache übertragen, und die darauf folgende Sprache wird zum Ausführen der vorbestimmten Funktion verwendet, so dass die Benachrichtigungseinheit 19 eine Steuerung durchführt, um eine Anzeige auszugeben, die diese Tatsache angibt (zum Beispiel Ausgabe eines Lichts von roter Farbe).
  • Die Benachrichtigungseinheit 19 kann auch eine Rückmeldung von dem Benutzer empfangen, der die Benachrichtigung empfängt. Beispielsweise, nachdem sie die Benachrichtigung gemacht hat, dass die gepufferte Sprache verwendet wird, empfängt die Benachrichtigungseinheit 19 von dem Benutzer eine Sprache, die vorschlägt, eine weitere vorherige Äußerung wie „Nein, verwende eine ältere Äußerung“ zu verwenden. In diesem Fall kann die Ausführungseinheit 14 zum Beispiel eine vorbestimmte Lernverarbeitung, wie etwa eine Verlängerung einer Pufferzeit, oder eine Erhöhung der Anzahl von Äußerungen, die zu dem Informationsverarbeitungsserver 100 zu übertragen sind, durchführen. Das heißt, die Ausführungseinheit 14 kann eine Informationsmenge der Sprache, die vor der Erkennung des Auslösers gesammelt und zum Ausführen der vorbestimmten Funktion verwendet wird, basierend auf einer Reaktion des Benutzers auf die Ausführung der vorbestimmten Funktion, einstellen. Aufgrund dessen kann der intelligente Lautsprecher 10B eine Antwortverarbeitung durchführen, die besser an einen Benutzungsmodus des Benutzers angepasst ist.
  • Vierte Ausführungsform
  • Als Nächstes wird im Folgenden eine vierte Ausführungsform beschrieben. Von der ersten Ausführungsform bis zur dritten Ausführungsform erzeugt der Informationsverarbeitungsserver 100 die Antwort. Als Beispiel der Sprachverarbeitungsvorrichtung gemäß der vierten Ausführungsform erzeugt jedoch ein intelligenter Lautsprecher 10C selbst eine Antwort.
  • 8 ist ein Diagramm, das ein Konfigurationsbeispiel der Sprachverarbeitungsvorrichtung gemäß der vierten Ausführungsform der vorliegenden Offenbarung darstellt. Wie in 8 dargestellt, weist der intelligente Lautsprecher 10C als Beispiel der Sprachverarbeitungsvorrichtung gemäß der vierten Ausführungsform eine Ausführungseinheit 30 und eine Antwortinformations-Speichereinheit 22 auf.
  • Die Ausführungseinheit 30 weist eine Spracherkennungseinheit 31, eine Semantik-Analyseeinheit 32, eine Antworterzeugungseinheit 33 und die Antwortwiedergabeeinheit 17 auf. Die Spracherkennungseinheit 31 entspricht der in der ersten Ausführungsform beschriebenen Spracherkennungseinheit 132. Die Semantik-Analyseeinheit 32 entspricht der in der ersten Ausführungsform beschriebenen Semantik-Analyseeinheit 133. Die Antworterzeugungseinheit 33 entspricht der in der ersten Ausführungsform beschriebenen Antworterzeugungseinheit 134. Die Antwortinformations-Speichereinheit 22 entspricht der Speichereinheit 120.
  • Der intelligente Lautsprecher 10C führt eine Antworterzeugungsverarbeitung, die von dem Informationsverarbeitungsserver 100 gemäß der ersten Ausführungsform durchgeführt wird, selbst durch. Das heißt, der intelligente Lautsprecher 10C führt eine Informationsverarbeitung gemäß der vorliegenden Offenbarung auf eigenständiger Basis durch, ohne eine externe Servervorrichtung und dergleichen zu benutzen. Aufgrund dessen kann der intelligente Lautsprecher 10C gemäß der vierten Ausführungsform eine Informationsverarbeitung gemäß der vorliegenden Offenbarung mit einer einfachen Systemkonfiguration implementieren.
  • Andere Ausführungsformen
  • Die oben beschriebene Verarbeitung gemäß den jeweiligen Ausführungsform kann in zahlreichen unterschiedlichen Formen außer den oben beschriebenen Ausführungsformen durchgeführt werden.
  • Beispielsweise kann die Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung als eine Funktion eines Smartphones und dergleichen anstelle eines Einzelgerätes, wie z. B. dem intelligenten Lautsprecher 10, implementiert werden. Die Sprachverarbeitungsvorrichtung gemäß der vorliegenden Offenbarung kann auch in einem Modus eines IC-Chips und dergleichen, montiert in einem Informationsverarbeitungsterminal, implementiert werden.
  • Unter den Stücken der oben in den jeweiligen Ausführungsformen beschriebenen Verarbeitung können alle oder ein Teil der Stücke der beschriebenen Verarbeitung, die automatisch durchzuführen ist, auch manuell durchgeführt werden, oder alle oder ein Teil der Stücke der beschriebenen Verarbeitung, die manuell durchzuführen ist, können auch unter Verwendung eines bekannten Verfahrens automatisch durchgeführt werden. Zusätzlich können Informationen, einschließlich Verarbeitungsverfahren, spezieller Namen, verschiedener Arten von Daten und Parametern, die hierin beschrieben und in den Zeichnungen dargestellt sind, optional geändert werden, wenn nicht ausdrücklich anders angegeben. Beispielsweise sind verschiedene Arten von in den Zeichnungen dargestellten Informationen nicht auf die darin dargestellten Informationen beschränkt.
  • Die Komponenten der in den Zeichnungen dargestellten Vorrichtungen sind lediglich konzeptionell, und es ist nicht erforderlich, dass die Komponenten unbedingt physikalisch konfiguriert sind, wie dargestellt. Das heißt, spezifische Formen der Verteilung und Integration der Vorrichtungen sind nicht auf die in den Zeichnungen dargestellten beschränkt. Alle oder Teile davon können abhängig von verschiedenen Belastungen oder Gebrauchszuständen in beliebigen Einheiten funktional oder physikalisch verteilt/integriert sein. Beispielsweise können die in 2 dargestellte Empfangseinheit 16 und die Antwortwiedergabeeinheit 17 miteinander integriert sein.
  • Die oben beschriebenen Ausführungsformen und Modifikationen können gegebenenfalls ohne Widerspruch des Verarbeitungsinhalts kombiniert werden.
  • Die hierin beschriebenen Effekte sind lediglich Beispiele, und die Effekte sind nicht darauf beschränkt. Andere Effekte können gezeigt werden.
  • Hardware-Konfiguration
  • Die Informationsvorrichtung, wie z. B. der Informationsverarbeitungsserver 100 oder der intelligente Lautsprecher 10 gemäß den oben beschriebenen Ausführungsformen, wird durch einen Computer 1000 implementiert, der zum Beispiel eine in 9 dargestellte Konfiguration hat. Das Folgende veranschaulicht den intelligenten Lautsprecher 10 gemäß der ersten Ausführungsform. 9 ist ein Hardware-Konfigurationsdiagramm, das ein Beispiel des Computers 1000 darstellt, der die Funktion des intelligenten Lautsprechers 10 implementiert. Der Computer 1000 umfasst eine CPU 1100, ein RAM 1200, einen Nur-Lese-Speicher (ROM) 1300, ein Festplattenlaufwerk (HDD) 1400, eine Kommunikationsschnittstelle 1500 und eine Eingabe/Ausgabe-Schnittstelle 1600. Die jeweiligen Teile des Computers 1000 sind über einen Bus 1050 miteinander verbunden.
  • Die CPU 1100 operiert auf der Basis eines Computerprogramms, das in dem ROM 1300 oder auf dem HDD 1400 gespeichert ist, und steuert die jeweiligen Teile. Beispielsweise lädt die CPU 1100 das in dem ROM 1300 oder auf dem HDD 1400 gespeicherte Computerprogramm in das RAM 1200 und führt eine verschiedenen Computerprogrammen entsprechende Verarbeitung durch.
  • Das ROM 1300 speichert ein Boot-Programm, wie z. B. ein Basic Input Output System (BIOS), das beim Starten des Computers 1000 durch die CPU 1100 ausgeführt wird, ein Computerprogramm, abhängig von der Hardware des Computers 1000 und dergleichen.
  • Das HDD 1400 ist ein computerlesbares Aufzeichnungsmedium, das ein durch die CPU 1100 ausgeführtes Computerprogramm, von dem Computerprogramm verwendete Daten und dergleichen, nicht-temporär aufzeichnet. Insbesondere das HDD 1400 ist ein Aufzeichnungsmedium, welches das Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung als ein Beispiel von Programmdaten 1450 aufzeichnet.
  • Die Kommunikationsschnittstelle 1500 ist eine Schnittstelle zum Verbinden des Computers 1000 mit einem externen Netzwerk 1550 (zum Beispiel dem Internet). Beispielsweise empfängt die CPU 1100 Daten von einem anderen Gerät, oder überträgt von der CPU 1100 erzeugte Daten über die Kommunikationsschnittstelle 1500 zu einem anderen Gerät.
  • Die Eingabe/Ausgabe-Schnittstelle 1600 ist eine Schnittstelle zum Verbinden einer Eingabe/AusgabeVorrichtung 1650 mit dem Computer 1000. Beispielsweise empfängt die CPU 1100 Daten von einer Eingabevorrichtung, wie z. B. einer Tastatur und einer Maus, über die Eingabe/Ausgabe-Schnittstelle 1600. Die CPU 1100 überträgt Daten über die Eingabe/Ausgabe-Schnittstelle 1600 zu einer Ausgabevorrichtung, wie z. B. einem Display, einem Lautsprecher und einem Drucker. Die Eingabe/Ausgabe-Schnittstelle 1600 kann als eine Medienschnittstelle funktionieren, die ein in einem vorbestimmten Aufzeichnungsmedium (Medium) aufgezeichnetes Computerprogramm und dergleichen liest. Beispiele des Mediums umfassen ein optisches Aufzeichnungsmedium, wie z. B. eine Digital Versatile Disc (DVD) und eine wiederbeschreibbare Phasenwechsel-Disk (PD), ein magnetooptisches Aufzeichnungsmedium, wie z. B. eine magnetooptische Disk (MO), ein Bandmedium, ein magnetisches Aufzeichnungsmedium, einen Halbleiterspeicher oder dergleichen.
  • Beispielsweise, in einem Fall, in dem der Computer 1000 als der intelligente Lautsprecher 10 gemäß der ersten Ausführungsform funktioniert, führt die CPU 1100 des Computers 1000 das in das RAM 1200 geladene Sprachverarbeitungsprogramm aus, um die Funktion der Tonsammeleinheit 12 und dergleichen zu implementieren. Das HDD 1400 speichert das Sprachverarbeitungsprogramm gemäß der vorliegenden Offenbarung und die in der Sprachpuffereinheit 20 enthaltenen Daten. Die CPU 1100 liest die auszuführenden Programmdaten 1450 von dem HDD 1400. Alternativ dazu, als ein weiteres Beispiel, kann die CPU 1100 diese Computerprogramme über das externe Netzwerk 1550 von einer anderen Vorrichtung erfassen.
  • Die vorliegende Technik kann die folgenden Konfigurationen anwenden.
    • (1) Sprachverarbeitungsvorrichtung, Folgendes umfassend:
      • eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Sprachspeichereinheit zu speichern;
      • eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; und
      • eine Ausführungseinheit, die dazu ausgelegt ist, in einem Fall, in dem ein Auslöser von der Detektionseinheit erkannt wird, die Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, zu steuern.
    • (2) Sprachverarbeitungsvorrichtung gemäß (1), wobei die Detektionseinheit eine Spracherkennung an den Sprachen durchführt, die von der Tonsammeleinheit als Auslöser gesammelt werden, und eine Aktivierungswort als Sprache als den Auslöser zum Starten der vorbestimmten Funktion erkennt.
    • (3) Sprachverarbeitungsvorrichtung gemäß (1) oder (2), wobei die Tonsammeleinheit Äußerungen von den gesammelten Sprachen extrahiert und die extrahierten Äußerungen in der Sprachspeichereinheit speichert.
    • (4) Sprachverarbeitungsvorrichtung gemäß (3), wobei die Ausführungseinheit in einem Fall, in dem das Aktivierungswort durch die Detektionseinheit erkannt wird, eine Äußerung eines Benutzers, der dem Benutzer entspricht, der das Aktivierungswort geäußert hat, von den in der Sprachspeichereinheit gespeicherten Äußerungen extrahiert und die Ausführung der vorbestimmten Funktion auf der Basis der extrahierten Äußerung steuert.
    • (5) Sprachverarbeitungsvorrichtung gemäß (4), wobei die Ausführungseinheit in einem Fall, in dem das Aktivierungswort durch die Detektionseinheit erkannt wird, die Äußerung des Benutzers, der dem Benutzer entspricht, der das Aktivierungswort geäußert hat, und eine Äußerung eines vorbestimmten Benutzers, der im Voraus registriert worden ist, von den in der Sprachspeichereinheit gespeicherten Äußerungen extrahiert und die Ausführung der vorbestimmten Funktion auf der Basis der extrahierten Äußerung steuert.
    • (6) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (5), wobei die Tonsammeleinheit eine Einstellung über einen Informationsbetrag der in der Sprachspeichereinheit zu speichernden Sprachen empfängt und in einem Bereich der empfangenen Einstellung gesammelte Sprachen in der Sprachpuffereinheit speichert.
    • (7) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (6), wobei die Tonsammeleinheit die in der Sprachspeichereinheit gespeicherte Sprache in einem Fall des Empfangens einer Anfrage zum Löschen der in der Sprachspeichereinheit gespeicherten Sprache löscht.
    • (8) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (7), ferner Folgendes umfassend:
      • eine Benachrichtigungseinheit, die dazu ausgelegt ist, eine Benachrichtigung an einen Benutzer zu machen in einem Fall, in dem die Ausführung der vorbestimmten Funktion unter Verwendung einer vor der Erkennung des Auslösers gesammelten Sprache durch die Ausführungseinheit gesteuert wird.
    • (9) Sprachverarbeitungsvorrichtung gemäß (8), wobei die Benachrichtigungseinheit eine Benachrichtigung in unterschiedlichen Modi zwischen einem Fall der Verwendung einer vor der Erkennung des Auslösers gesammelten Sprache und einem Fall der Verwendung einer nach der Erkennung des Auslösers gesammelten Sprache macht.
    • (10) Sprachverarbeitungsvorrichtung gemäß (8) oder (9), wobei in einem Fall, in dem eine vor der Erkennung des Auslösers gesammelte Sprache verwendet wird, die Benachrichtigungseinheit den Benutzer über ein Log benachrichtigt, welches der verwendeten Sprache entspricht.
    • (11) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (10), wobei in einem Fall, in dem ein Auslöser durch die Detektionseinheit erkannt wird, die Ausführungseinheit die Ausführung der vorbestimmten Funktion unter Verwendung einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, und einer Sprache, die nach der Erkennung des Auslösers gesammelt wird, steuert.
    • (12) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (11), wobei die Ausführungseinheit eine Informationsmenge der Sprache, die vor der Erkennung des Auslösers gesammelt und zum Ausführen der vorbestimmten Funktion verwendet wird, basierend auf einer Reaktion des Benutzers auf die Ausführung der vorbestimmten Funktion einstellt.
    • (13) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (12), wobei die Detektionseinheit eine Bilderkennung an einem Bild, das durch Abbilden eines Benutzers erhalten wird, als Auslöser durchführt und eine Blickrichtung des Benutzers erkennt.
    • (14) Sprachverarbeitungsvorrichtung gemäß einem der Posten (1) bis (13), wobei die Detektionseinheit durch Erfassen einer vorbestimmten Bewegung eines Benutzers oder eines Abstands zu dem Benutzer erhaltene Informationen als den Auslöser erkennt.
    • (15) Sprachverarbeitungsverfahren, durchgeführt von einem Computer, wobei das Sprachverarbeitungsverfahren Folgendes umfasst:
      • Sammeln von Sprachen und Speichern der gesammelten Sprachen in einer Sprachspeichereinheit;
      • Erkennen eines Auslösers zum Starten einer der Sprache entsprechenden vorbestimmten Funktion; und
      • Steuern, in einem Fall, in dem der Auslöser erkannt wird, der Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird.
    • (16) Computerlesbares nicht transitorisches Aufzeichnungsmedium, das ein Sprachverarbeitungsprogramm aufzeichnet, um einen Computer zu veranlassen, als Folgendes zu funktionieren:
      • eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Sprachspeichereinheit zu speichern;
      • eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; und
      • eine Ausführungseinheit, die dazu ausgelegt ist, in einem Fall, in dem ein Auslöser von der Detektionseinheit erkannt wird, die Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, zu steuern.
  • Bezugszeichenliste
  • 1, 2, 3
    SPRACHVERARBEITUNGSSYSTEM
    10, 10A, 10B, 10C
    INTELLIGENTER LAUTSPRECHER
    100
    INFORMATIONSVERARBEITUNGSSERVER
    12
    TONSAMMELEINHEIT
    13
    DETEKTIONSEINHEIT
    14, 30
    AUSFÜHRUNGSEINHEIT
    15
    SENDEEINHEIT
    16
    EMPFANGSEINHEIT
    17
    ANTWORTWIEDERGABEEINHEIT
    18
    AUSGABEEINHEIT
    19
    BENACHRICHTIGUNGSEINHEIT
    20
    SPRACHPUFFEREINHEIT
    21
    EXTRAHIERTE ÄUSSERUNGSDATEN
    22
    ANTWORTINFORMATIONS-SPEICHEREINHEIT

Claims (16)

  1. Sprachverarbeitungsvorrichtung, Folgendes umfassend: eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Sprachspeichereinheit zu speichern; eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; und eine Ausführungseinheit, die dazu ausgelegt ist, in einem Fall, in dem ein Auslöser von der Detektionseinheit erkannt wird, die Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, zu steuern.
  2. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Detektionseinheit eine Spracherkennung an den Sprachen durchführt, die von der Tonsammeleinheit als Auslöser gesammelt werden, und ein Aktivierungswort als Sprache als den Auslöser zum Starten der vorbestimmten Funktion erkennt.
  3. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Tonsammeleinheit Äußerungen von den gesammelten Sprachen extrahiert und die extrahierten Äußerungen in der Sprachspeichereinheit speichert.
  4. Sprachverarbeitungsvorrichtung gemäß Anspruch 3, wobei die Ausführungseinheit in einem Fall, in dem das Aktivierungswort durch die Detektionseinheit erkannt wird, eine Äußerung eines Benutzers, der dem Benutzer entspricht, der das Aktivierungswort geäußert hat, von den in der Sprachspeichereinheit gespeicherten Äußerungen extrahiert und die Ausführung der vorbestimmten Funktion auf der Basis der extrahierten Äußerung steuert.
  5. Sprachverarbeitungsvorrichtung gemäß Anspruch 4, wobei die Ausführungseinheit in einem Fall, in dem das Aktivierungswort durch die Detektionseinheit erkannt wird, die Äußerung des Benutzers, der dem Benutzer entspricht, der das Aktivierungswort geäußert hat, und eine Äußerung eines vorbestimmten Benutzers, der im Voraus registriert worden ist, von den in der Sprachspeichereinheit gespeicherten Äußerungen extrahiert und die Ausführung der vorbestimmten Funktion auf der Basis der extrahierten Äußerung steuert.
  6. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Tonsammeleinheit eine Einstellung über einen Informationsbetrag der in der Sprachspeichereinheit zu speichernden Sprachen empfängt und in einem Bereich der empfangenen Einstellung gesammelte Sprachen in der Sprachpuffereinheit speichert.
  7. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Tonsammeleinheit die in der Sprachspeichereinheit gespeicherte Sprache in einem Fall des Empfangens einer Anfrage zum Löschen der in der Sprachspeichereinheit gespeicherten Sprache löscht.
  8. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, ferner Folgendes umfassend: eine Benachrichtigungseinheit, die dazu ausgelegt ist, eine Benachrichtigung an einen Benutzer zu machen in einem Fall, in dem die Ausführung der vorbestimmten Funktion unter Verwendung einer vor der Erkennung des Auslösers gesammelten Sprache durch die Ausführungseinheit gesteuert wird.
  9. Sprachverarbeitungsvorrichtung gemäß Anspruch 8, wobei die Benachrichtigungseinheit eine Benachrichtigung in unterschiedlichen Modi zwischen einem Fall der Verwendung einer vor der Erkennung des Auslösers gesammelten Sprache und einem Fall der Verwendung einer nach der Erkennung des Auslösers gesammelten Sprache macht.
  10. Sprachverarbeitungsvorrichtung gemäß Anspruch 8, wobei in einem Fall, in dem eine vor der Erkennung des Auslösers gesammelte Sprache verwendet wird, die Benachrichtigungseinheit den Benutzer über ein Log benachrichtigt, welches der verwendeten Sprache entspricht.
  11. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei in einem Fall, in dem ein Auslöser durch die Detektionseinheit erkannt wird, die Ausführungseinheit die Ausführung der vorbestimmten Funktion unter Verwendung einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, und einer Sprache, die nach der Erkennung des Auslösers gesammelt wird, steuert.
  12. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Ausführungseinheit eine Informationsmenge der Sprache, die vor der Erkennung des Auslösers gesammelt und zum Ausführen der vorbestimmten Funktion verwendet wird, basierend auf einer Reaktion des Benutzers auf die Ausführung der vorbestimmten Funktion einstellt.
  13. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Detektionseinheit eine Bilderkennung an einem Bild, das durch Abbilden eines Benutzers erhalten wird, als Auslöser durchführt und eine Blickrichtung des Benutzers erkennt.
  14. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Detektionseinheit durch Erfassen einer vorbestimmten Bewegung eines Benutzers oder eines Abstands zu dem Benutzer erhaltene Informationen als den Auslöser erkennt.
  15. Sprachverarbeitungsverfahren, durchgeführt von einem Computer, wobei das Sprachverarbeitungsverfahren Folgendes umfasst: Sammeln von Sprachen und Speichern der gesammelten Sprachen in einer Sprachspeichereinheit; Erkennen eines Auslösers zum Starten einer der Sprache entsprechenden vorbestimmten Funktion; und Steuern, in einem Fall, in dem der Auslöser erkannt wird, der Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird.
  16. Computerlesbares nicht transitorisches Aufzeichnungsmedium, das ein Sprachverarbeitungsprogramm aufzeichnet, um einen Computer zu veranlassen, als Folgendes zu funktionieren: eine Tonsammeleinheit, die dazu ausgelegt ist, Sprachen zu sammeln und die gesammelten Sprachen in einer Sprachspeichereinheit zu speichern; eine Detektionseinheit, die dazu ausgelegt ist, einen Auslöser zum Starten einer der Sprache entsprechenden vorbestimmten Funktion zu erkennen; und eine Ausführungseinheit, die dazu ausgelegt ist, in einem Fall, in dem ein Auslöser von der Detektionseinheit erkannt wird, die Ausführung der vorbestimmten Funktion auf der Basis einer Sprache, die vor der Erkennung des Auslösers gesammelt wird, zu steuern.
DE112019003210.0T 2018-06-25 2019-05-15 Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium Withdrawn DE112019003210T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018120264 2018-06-25
JP2018-120264 2018-06-25
PCT/JP2019/019356 WO2020003785A1 (ja) 2018-06-25 2019-05-15 音声処理装置、音声処理方法及び記録媒体

Publications (1)

Publication Number Publication Date
DE112019003210T5 true DE112019003210T5 (de) 2021-03-11

Family

ID=68986339

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019003210.0T Withdrawn DE112019003210T5 (de) 2018-06-25 2019-05-15 Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium

Country Status (5)

Country Link
US (1) US20210272564A1 (de)
JP (1) JPWO2020003785A1 (de)
CN (1) CN112262432A (de)
DE (1) DE112019003210T5 (de)
WO (1) WO2020003785A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908318A (zh) * 2019-11-18 2021-06-04 百度在线网络技术(北京)有限公司 智能音箱的唤醒方法、装置、智能音箱及存储介质
CN111968631B (zh) * 2020-06-29 2023-10-10 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
JP6937484B1 (ja) * 2021-02-10 2021-09-22 株式会社エクサウィザーズ 業務支援方法、システム、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4237713B2 (ja) * 2005-02-07 2009-03-11 東芝テック株式会社 音声処理装置
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Also Published As

Publication number Publication date
JPWO2020003785A1 (ja) 2021-08-02
WO2020003785A1 (ja) 2020-01-02
CN112262432A (zh) 2021-01-22
US20210272564A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE112016000292B4 (de) Verfahren und Vorrichtung zur die Privatsphäre bewahrenden Trainingskorpusauswahl
DE112019003210T5 (de) Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE202017106606U1 (de) Hotword-Erkennung auf der Server-Seite
DE102012212185B4 (de) Pflegen und Bereitstellen von Sprachmodellen
DE202017106466U1 (de) Streaming-Dialogmanagement in Echtzeit
DE112014004951T5 (de) VAD-Detektions-Vorrichtung und Verfahren zum Betreiben derselben
DE102006042583A1 (de) Spracherkennungsverfahren, -system und -vorrichtung
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE102018126041B4 (de) Vorrichtung, verfahren und system zum verstehen gesprochener sprache unter nutzung eines dynamischen vokabulars
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE102018131935A1 (de) Time-Capsule-basierte Sprechhilfe
DE112019003234T5 (de) Audioverarbeitungsvorrichtung, audioverarbeitungsverfahren und aufzeichnungsmedium
DE112015006325T5 (de) Informations-Bereitstellsystem
DE112015003523T5 (de) Speichern und Abrufen der Standorte von Objekten
KR102476099B1 (ko) 회의록 열람 문서 생성 방법 및 그 장치
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
DE102015121098A1 (de) Multimodale Antwort auf eine Multimodale Suche
DE102022003003A1 (de) Automatische Fotobearbeitung mittels sprachlicher Anweisung
CN110232924A (zh) 车载语音管理方法、装置、车辆及存储介质
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
DE112020002743T5 (de) Informationsverarbeitungsvorrichtung
DE102017104094A1 (de) Sprachverarbeitungssystem und sprachverarbeitungsverfahren

Legal Events

Date Code Title Description
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee