DE112019006199T5 - Datenverarbeitungsvorrichtung, Datenverarbeitungssystem und Datenverarbeitungsverfahren und Programm - Google Patents

Datenverarbeitungsvorrichtung, Datenverarbeitungssystem und Datenverarbeitungsverfahren und Programm Download PDF

Info

Publication number
DE112019006199T5
DE112019006199T5 DE112019006199.2T DE112019006199T DE112019006199T5 DE 112019006199 T5 DE112019006199 T5 DE 112019006199T5 DE 112019006199 T DE112019006199 T DE 112019006199T DE 112019006199 T5 DE112019006199 T5 DE 112019006199T5
Authority
DE
Germany
Prior art keywords
utterance
user
type
user utterance
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112019006199.2T
Other languages
English (en)
Inventor
Chiaki Miyazaki
Juri YAEDA
Saki Yokoyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of DE112019006199T5 publication Critical patent/DE112019006199T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Es werden eine Vorrichtung und ein Verfahren zum Feststellen des Äußerungstyps einer Anwenderäußerung und Erzeugen einer Systemantwort gemäß Feststellungsergebnis realisiert. Die vorliegende Erfindung weist eine Anwenderäußerungstypfeststellungseinheit, die einen Äußerungstyp einer Anwenderäußerung feststellt, und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem durch die Anwenderäußerungstypfeststellungseinheit bestimmten Typfeststellungsergebnis erzeugt, auf. Die Anwenderäußerungstypfeststellungseinheit stellt fest, ob die Anwenderäußerung ein Typ A ist, der eine Äußerungswiederholung aller Systemäußerungen unmittelbar vor der Anwenderäußerung anfordert, oder ein Typ B ist, der eine Äußerungswiederholung einiger der Systemäußerungen unmittelbar vor der Anwenderäußerung anfordert. Die Systemantworterzeugungseinheit erzeugt eine Systemantwort zum erneuten Äußern aller Systemäußerungen unmittelbar vor der Anwenderäußerung, wenn die Anwenderäußerung vom Typ A ist, und erzeugt eine Systemantwort zum erneuten Äußern einiger der Systemäußerungen unmittelbar vor der Anwenderäußerung, wenn die Anwenderäußerung vom Typ B ist.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung bezieht sich auf eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungssystem und ein Datenverarbeitungsverfahren und ein Programm. Insbesondere bezieht sich die vorliegende Offenbarung auf eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungssystem und ein Datenverarbeitungsverfahren und ein Programm, die eine Anwenderäußerung einer Äußerungswiederholungsanforderung oder dergleichen von einem Anwender für eine Systemäußerung, die durch ein System, das zur Interaktion mit dem Anwender fähig ist, ausgegeben wird, analysieren und eine optimale Verarbeitung gemäß einem Analyseergebnis ausführen.
  • STAND DER TECHNIK
  • In den letzten Jahren hat die Verwendung von Spracherkennungssystemen, die Spracherkennung von Anwenderäußerungen ausführen und verschiedene Prozesse und Reaktionen basierend auf Erkennungsergebnissen ausführen, zugenommen.
    Ein Spracherkennungssystem analysiert eine Anwenderäußerung, die über ein Mikrofon eingegeben wird, und führt eine Verarbeitung gemäß einem Analyseergebnis aus.
  • Beispielsweise in einem Fall, in dem der Anwender äußert „Sage mir das Wetter von morgen“, werden Wetterinformationen von einem Wetterinformationsbereitstellungsserver erfasst, eine Systemantwort basierend auf den erfassten Informationen wird erzeugt und die erzeugte Antwort wird aus einem Lautsprecher ausgegeben. Insbesondere beispielsweise
    Systemäußerung = „Das Wetter von morgen wird schön sein, es können jedoch am Abend Gewitter auftreten“
    Eine solche Systemäußerung wird ausgegeben.
  • Der Anwender kann jedoch die Systemäußerung, die aus dem Spracherkennungssystem ausgegeben wird, verpassen, und in einem solchen Fall kann der Anwender eine Anwenderäußerung wie z. B. „sage es noch einmal“ zu dem System machen.
  • Nach einer langen Äußerung des Systems kann der Anwender jedoch wünschen, nur einen Teil der Äußerung noch einmal zu hören. In einem solchen Fall muss der Anwender, falls das System eine lange Äußerung noch einmal vom Anfang an macht, wiederholt unnötige Informationen hören, was zu Zeitverschwendung führt.
    Als Stand der Technik, der ein Sprachdialogsystem, das ein solches Problem löst, offenbart, sind beispielsweise Patentdokument 1 ( japanische Offenlegungsschrift Nr. 2003-228389 ) und Patentdokument 2 ( japanische Offenlegungsschrift Nr. 2007-121577 ) vorhanden.
  • Das Patentdokument 1 offenbart eine Antwortlesevorrichtung, die dem Anwender ermöglicht, nur notwendige Informationen zu hören in einem Fall, in dem der Anwender einen Teil in einer Szene wiederholt hören möchte, wo das System eine lange Äußerung macht, wie z. B. Nachrichteninformationen oder E-Mail-Text.
    Die Konfiguration von Patentdokument 1 kann jedoch eine Anwenderäußerung nur dann verarbeiten, wenn spezifische vordefinierte Wörter wie z. B. „wann“, „was“ und „wie“ in der Anwenderäußerung enthalten sind, und kann nicht auf einen Fall antworten, in dem diese spezifischen Wörter nicht enthalten sind.
  • Das Patentdokument 2 offenbart ebenfalls einen Mechanismus, wobei dann, wenn ein Anwender beispielsweise „Wie ist das Wetter von morgen?“ fragt, während die Systemäußerung ausgeführt wird, das System von der bereits geäußerten Systemäußerung zu einer Position springt, die mit „Wetter von morgen“ übereinstimmt, und nach diesem Punkt wieder laut vorliest.
    Diese Konfiguration weist jedoch ein Problem auf, dass sie nicht auf einen Fall antworten kann, in dem kein übereinstimmender Abschnitt zwischen der Anwenderäußerung und der Systemäußerung gefunden werden kann.
  • Außerdem offenbart das Patentdokument 3 ( japanische Offenlegungsschrift Nr. 2002-132811 ) eine Konfiguration zum Beantworten von Fragen zwischen einem Anwender und einem System.
    In Bezug auf eine Anwenderfrage extrahiert das System eine Antwort auf die Anwenderfrage aus einer Dokumenten- (Artikel-) Gruppe und antwortet auf der Basis des Extraktionsergebnisses.
  • Wenn jedoch die Antwortverarbeitung eine allgemeine Dokumenten- (Artikel-) Gruppe verwendet, die sich nicht notwendigerweise auf solche Systemäußerungen bezieht, kann das folgende Problem auftreten.
    • (1) Systemäußerung: „In der Präfektur Nagano produzierte Äpfel werden als Shinshu-Apfel bezeichnet“
    • (2) Anwenderäußerung (Frage): „Wo werden die Äpfel produziert“
    • (3) Systemäußerung (Antwort): „Es ist die Präfektur Aomori“
  • In dem vorstehend beschriebenen Beispiel wird, obwohl die Anwenderäußerung (Frage) in (2) vorstehend beschrieben als „Wo werden die Äpfel produziert“ die Absicht des Anwenders aufweist, nach dem Produktionsgebiet des Shinshu-Apfels zu fragen, wenn das System die Systemäußerung (Antwort) von (3) macht, eine Verarbeitung unter Berücksichtigung nur dieser Anwenderäußerung ausgeführt:
    • (2) Anwenderäußerung (Frage): „Wo werden die Äpfel produziert“, und eine Antwort, die von der Antwort, die der Anwender hören wollte, verschieden ist, wird ausgegeben.
  • Auf diese Weise verursacht das einfache Beantworten einer Frage ein Problem, dass der Anwender nicht die Antwort erhalten kann, die er oder sie wirklich hören möchte.
  • ENTGEGENHALTUNGSLISTE
  • PATENTDOKUMENT
    • Patentdokument 1: Japanische Offenlegungsschrift Nr. 2003-228389
    • Patentdokument 2: Japanische Offenlegungsschrift Nr. 2007-121577
    • Patentdokument 3: Japanische Offenlegungsschrift Nr. 2002-132811
  • KURZDARSTELLUNG DER ERFINDUNG
  • AUFGABEN, DIE DURCH DIE ERFINDUNG ZU LÖSEN SIND
  • Die vorliegende Offenbarung ist im Hinblick auf das obige Problem gemacht worden und es ist ihre Aufgabe, beispielsweise eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungssystem und ein Datenverarbeitungsverfahren und ein Programm bereitzustellen, die zum Analysieren einer Anwenderäußerung wie z. B. einer Äußerungswiederholungsanforderung von der der Anwender für eine Systemäußerung und Ausführen optimaler Verarbeitung gemäß einem Analyseergebnis fähig sind.
  • LÖSUNGEN DER AUFGABEN
  • Ein erster Aspekt der vorliegenden Offenbarung ist eine Datenverarbeitungsvorrichtung, die Folgendes aufweist:
    • eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp einer Anwenderäußerung bestimmt; und
    • und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt,
    • wobei die Anwenderäußerungstypbestimmungseinheit bestimmt, welcher aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
    • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • wobei die Systemantworterzeugungseinheit
    • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
    • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  • Außerdem ist ein zweiter Aspekt der vorliegenden Offenbarung ein Datenverarbeitungssystem, das ein Anwenderendgerät und einen Datenverarbeitungsserver enthält,
    wobei das Anwenderendgerät aufweist:
    • eine Spracheingabeeinheit, die eine Anwenderäußerung eingibt; und
    • eine Kommunikationseinheit, die die eingegebene Anwenderäußerung zu dem Datenverarbeitungsserver sendet,
    wobei der Datenverarbeitungsserver aufweist:
    • eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp der von dem Anwenderendgerät empfangenen Anwenderäußerung bestimmt; und
    • eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, und
    • wobei die Anwenderäußerungstypbestimmungseinheit bestimmt, welcher aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
    • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    wobei die Systemantworterzeugungseinheit
    • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
    • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  • Außerdem ist ein dritter Aspekt der vorliegenden Offenbarung ein Datenverarbeitungsverfahren, das in einer Datenverarbeitungsvorrichtung ausgeführt wird, wobei das Verfahren aufweist:
    • einen Anwenderäußerungstypbestimmungsschritt, in dem eine Anwenderäußerungstypbestimmungseinheit einen Äußerungstyp einer Anwenderäußerung bestimmt; und
    • einen Systemantworterzeugungsschritt, in dem eine Systemantworterzeugungseinheit eine Systemantwort gemäß einem Typbestimmungsergebnis in dem Anwenderäußerungstypbestimmungsschritt erzeugt,
    • wobei der Anwenderäußerungstypbestimmungsschritt bestimmt, welcher aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
    • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    wobei der Systemantworterzeugungsschritt
    • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
    • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  • Außerdem ist der vierte Aspekt der vorliegenden Offenbarung ein Datenverarbeitungsverfahren, das in einem Datenverarbeitungssystem, das ein Anwenderendgerät und einen Datenverarbeitungsserver aufweist, ausgeführt wird,
    • wobei das Anwenderendgerät
    • eine Anwenderäußerung über eine Spracheingabeeinheit eingibt und die Anwenderäußerung zu dem Datenverarbeitungsserver sendet,
    • der Datenverarbeitungsserver
    • einen Anwenderäußerungstypbestimmungsprozess, der einen Äußerungstyp der von dem Anwenderendgerät empfangenen Anwenderäußerung bestimmt, und
    • einen Systemantworterzeugungsprozess, der eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, ausführt
    • wobei der Anwenderäußerungstypbestimmungsprozess bestimmt, welcher aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
    • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • wobei der Systemantworterzeugungsprozess
    • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
    • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  • Außerdem ist ein fünfter Aspekt der vorliegenden Offenbarung ein Programm, das eine Datenverarbeitungsvorrichtung veranlasst, Datenverarbeitung auszuführen, die aufweist:
    • einen Anwenderäußerungstypbestimmungsschritt zum Veranlassen einer Anwenderäußerungstypbestimmungseinheit, einen Äußerungstyp einer Anwenderäußerung zu bestimmen; und
    • einen Systemantworterzeugungsschritt zum Veranlassen einer Systemantworterzeugungseinheit, eine Systemantwort gemäß einem Typbestimmungsergebnis in dem Anwenderäußerungstypbestimmungsschritt zu erzeugen,
    • wobei der Anwenderäußerungstypbestimmungsschritt einen Prozess ausführt, um zu bestimmen, welcher aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
    • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
    • der Systemantworterzeugungsschritt einen Prozess ausführt zum:
      • Erzeugen einer Systemantwort, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
      • Erzeugen einer Systemantwort, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  • Es wird darauf hingewiesen, dass ein Programm der vorliegenden Offenbarung ein Programm ist, das beispielsweise durch ein Speichermedium oder ein Kommunikationsmedium, das in einem computerlesbaren Format bereitgestellt ist, für eine Datenverarbeitungsvorrichtung oder ein Computersystem, das verschiedene Programmcodes ausführen kann, bereitgestellt werden kann. Durch Bereitstellen eines solchen Programms in einem computerlesbaren Format wird eine Verarbeitung, die dem Programm entspricht, auf der Datenverarbeitungsvorrichtung oder dem Computersystem implementiert.
  • Andere Ziele, Merkmale und Vorteile der vorliegenden Offenbarung werden aus einer genaueren Beschreibung basierend auf Ausführungsformen der vorliegenden Offenbarung, die nachstehend beschrieben sind, und den begleitenden Zeichnungen offensichtlich. Es wird darauf hingewiesen, dass ein System in der vorliegenden Beschreibung eine logische Gruppenkonfiguration aus mehreren Vorrichtungen ist und nicht auf eines beschränkt ist, in dem Vorrichtungen mit entsprechenden Konfigurationen in demselben Gehäuse sind.
  • EFFEKTE DER ERFINDUNG
  • Gemäß einer Konfiguration einer Ausführungsform der vorliegenden Offenbarung sind eine Vorrichtung und ein Verfahren, die einen Äußerungstyp einer Anwenderäußerung bestimmen und eine Systemantwort gemäß einem Bestimmungsergebnis erzeugen, erreicht.
    Insbesondere weist sie beispielsweise eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp einer Anwenderäußerung bestimmt, und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem durch die Anwenderäußerungstypbestimmungseinheit bestimmten Typbestimmungsergebnis erzeugt, auf. Die Anwenderäußerungstypbestimmungseinheit bestimmt, ob die Anwenderäußerung vom Typ A ist, der alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, oder vom Typ B ist, der eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert. Die Systemantworterzeugungseinheit erzeugt eine Systemantwort, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und erzeugt eine Systemantwort, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
    Mit dieser Konfiguration werden eine Vorrichtung und ein Verfahren, die einen Äußerungstyp einer Anwenderäußerung bestimmen und eine Systemantwort gemäß einem Bestimmungsergebnis erzeugen, erreicht.
    Es wird darauf hingewiesen, dass Effekte, die in der vorliegenden Beschreibung beschrieben sind, lediglich Beispiele sind und nicht eingeschränkt sind und zusätzliche Effekte bereitgestellt sein können.
  • Figurenliste
    • 1 ist ein Diagramm, das ein Beispiel einer Datenverarbeitungsvorrichtung, die eine Reaktion oder Verarbeitung basierend auf einer Anwenderäußerung ausführt, beschreibt.
    • 2 ist ein Diagramm, das ein Konfigurationsbeispiel und Verwendungsbeispiel der Datenverarbeitungsvorrichtung beschreibt.
    • 3 ist ein Diagramm, das ein spezifisches Beispiel der durch die Datenverarbeitungsvorrichtung ausgeführten Verarbeitung beschreibt.
    • 4 ist ein Diagramm, das ein spezifisches Beispiel der durch die Datenverarbeitungsvorrichtung ausgeführten Verarbeitung beschreibt.
    • 5 ist ein Diagramm, das ein spezifisches Beispiel der durch die Datenverarbeitungsvorrichtung ausgeführten Verarbeitung beschreibt.
    • 6 ist ein Diagramm, das ein spezifisches Konfigurationsbeispiel der Datenverarbeitungsvorrichtung beschreibt.
    • 7 ist ein Diagramm, das einen Ablaufplan darstellt, der eine Abfolge von Prozessen, die durch die Datenverarbeitungsvorrichtung ausgeführt werden, beschreibt.
    • 8 ist ein Diagramm, das ein Konfigurationsbeispiel eines Lerndaten- & Schätzungsmodells in einer Speichereinheit der Datenverarbeitungsvorrichtung beschreibt.
    • 9 ist ein Diagramm, das ein Datenkonfigurationsbeispiel von Typschätzungslerndaten beschreibt.
    • 10 ist ein Diagramm, das einen Ablaufplan darstellt, der eine Abfolge eines Lernprozesses beschreibt.
    • 11 ist ein Diagramm, das einen Ablaufplan darstellt, der eine Abfolge eines Typbestimmungsprozesses einer Anwenderäußerung, der durch die Datenverarbeitungsvorrichtung ausgeführt wird, beschreibt.
    • 12 ist ein Diagramm, das ein Konfigurationsbeispiel einer Systemantworterzeugungseinheit der Datenverarbeitungsvorrichtung beschreibt.
    • 13 ist ein Diagramm, das einen Ablaufplan darstellt, der eine Verarbeitungsabfolge, die durch eine Teiläußerungswiederholungseinheit für eine spezifizierte Position der Datenverarbeitungsvorrichtung ausgeführt wird, beschreibt.
    • 14 ist ein Diagramm, das Markierungseinstellungsdaten, die Morphemen entsprechen, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position der Datenverarbeitungsvorrichtung erzeugt wurden, beschreibt.
    • 15 ist ein Diagramm, das ein Konfigurationsbeispiel eines Lerndaten- & Schätzungsmodells in einer Speichereinheit der Datenverarbeitungsvorrichtung beschreibt.
    • 16 ist ein Diagramm, das ein Datenkonfigurationsbeispiel einer Datenquelle, die durch eine Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe der Datenverarbeitungsvorrichtung verwendet wird, beschreibt.
    • 17 ist ein Diagramm, das einen Ablaufplan darstellt, der eine Verarbeitungsabfolge, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe der Datenverarbeitungsvorrichtung ausgeführt wird, beschreibt.
    • 18 ist ein Diagramm, das einen Ablaufplan darstellt, der eine Verarbeitungsabfolge, die durch eine Aufgabenverarbeitungseinheit der Datenverarbeitungsvorrichtung ausgeführt wird, beschreibt.
    • 19 ist ein Diagramm, das ein Konfigurationsbeispiel des Datenverarbeitungssystems beschreibt.
    • 20 ist ein Diagramm, das ein Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung beschreibt.
  • ART UND WEISE ZUM AUSFÜHREN DER ERFINDUNG
  • Nachstehend werden Einzelheiten einer Datenverarbeitungsvorrichtung, eines Datenverarbeitungssystems und eines Datenverarbeitungsverfahrens und eines Programms der vorliegenden Offenbarung mit Bezug auf die Zeichnungen beschrieben. Es wird darauf hingewiesen, dass die Beschreibung gemäß den folgenden Punkten vorgenommen wird.
    • 1. Überblick über die durch die Datenverarbeitungsvorrichtung ausgeführte Verarbeitung
    • 2. Konfigurationsbeispiel der Datenverarbeitungsvorrichtung
    • 3. Gesamtabfolge der durch die Datenverarbeitungsvorrichtung ausgeführten Prozesse
    • 4. Anwenderäußerungstypbestimmungsprozess, der durch die Anwenderäußerungstypbestimmungseinheit ausgeführt wird
    • 5. Verarbeitung, die durch die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) ausgeführt wird
      • 5-1. Verarbeitung, die durch die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ A ist, erzeugt, ausgeführt wird
      • 5-2. Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ B1 ist, erzeugt, ausgeführt wird
      • 5-3. Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ B2 ist, erzeugt, ausgeführt wird
      • 5-4. Verarbeitung, die durch die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ B3 ist, erzeugt, ausgeführt wird
    • 6. Verarbeitung, die durch die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ C ist, erzeugt, ausgeführt wird
    • 7. Verarbeitung, die durch die Aufgabenverarbeitungseinheit, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung keiner der Typen A bis C ist, ausgeführt wird
    • 8. Konfigurationsbeispiele der Datenverarbeitungsvorrichtung und des Datenverarbeitungssystems
    • 9. Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung
    • 10. Zusammenfassung der Konfiguration der vorliegenden Offenbarung
  • [Überblick über die durch die Datenverarbeitungsvorrichtung ausgeführte Verarbeitung]
  • Zuerst wird mit Bezug auf 1 und so weiter ein Überblick über eine Konfiguration und Verarbeitung einer Datenverarbeitungsvorrichtung 10, die eine Anwenderäußerung erkennt und auf sie antwortet, beschrieben.
  • 1 ist ein Diagramm, das ein Verarbeitungsbeispiel der Datenverarbeitungsvorrichtung 10 darstellt.
    Die Datenverarbeitungsvorrichtung 10 führt einen Spracherkennungsprozess einer Anwenderäußerung aus, beispielsweise
    Anwenderäußerung = „Sage mir das Wetter in Osaka morgen Nachmittag“.
  • Außerdem führt die Datenverarbeitungsvorrichtung 10 Verarbeitung basierend auf einem Spracherkennungsergebnis der Anwenderäußerung aus.
    In dem in 1 dargestellten Beispiel werden Daten zum Antworten auf die Anwenderäußerung = „Sage mir das Wetter in Osaka morgen Nachmittag“ erfasst, eine Antwort wird auf der Basis der erfassten Daten erzeugt, und die erzeugte Antwort wird über einen Lautsprecher 14 ausgegeben.
    In dem in 1 dargestellten Beispiel erstellt die Datenverarbeitungsvorrichtung 10 die folgenden Systemäußerungen.
    Systemäußerung = „Morgen wird das Wetter in Osaka am Nachmittag schön sein, es kann jedoch am Abend einen Schauer geben‟
    Die Datenverarbeitungsvorrichtung 10 führt einen Sprachsyntheseprozess (Text-zu-Sprache (TTS)) aus, um die vorstehend beschriebene Systemäußerung zu erzeugen und auszugeben.
  • Die Datenverarbeitungsvorrichtung 10 erzeugt eine Antwort unter Verwendung der Wissensdaten, die aus einer Speichereinheit in der Vorrichtung erfasst werden, oder Wissensdaten, die über das Netz erfasst werden, und gibt sie aus.
    Die in 1 dargestellte Datenverarbeitungsvorrichtung 10 enthält ein Mikrofon 12, eine Anzeigeeinheit 13 und einen Lautsprecher 14 und weist eine Konfiguration auf, die zum Ausführen von Spracheingabe und -ausgabe und Bildausgabe fähig ist.
  • Die in 1 dargestellte Datenverarbeitungsvorrichtung 10 wird beispielsweise als ein intelligenter Lautsprecher oder eine Agentenvorrichtung bezeichnet.
    Es wird darauf hingewiesen, dass der Spracherkennungsprozess und ein Semantikanalyseprozess für eine Anwenderäußerung in der Datenverarbeitungsvorrichtung 10 ausgeführt werden können oder in einem Datenverarbeitungsserver, der einer der Server 20 auf der Cloud-Seite ist, ausgeführt werden können.
  • Wie in 2 dargestellt ist die Datenverarbeitungsvorrichtung 10 der vorliegenden Offenbarung nicht auf eine Agentenvorrichtung 10a beschränkt und kann in verschiedenen Formen von Vorrichtungen wie z. B. ein Smartphone 10b oder ein PC 10c sein.
  • Die Datenverarbeitungsvorrichtung 10 erkennt die Äußerung des Anwenders 1 und führt eine Antwort basierend auf der Äußerung der Anwenders aus, und außerdem führt die Datenverarbeitungsvorrichtung 10 beispielsweise die Steuerung einer externen Vorrichtung 30 wie z. B. eines Fernsehgeräts oder einer Klimaanlage, die in 2 dargestellt sind, in Reaktion auf eine Anwenderäußerung aus.
    Beispielsweise in einem Fall, wenn die Anwenderäußerung eine Anforderung ist wie z. B. „Ändere den TV-Kanal auf 1“ oder „Stelle die Temperatur der Klimaanlage auf 20 Grad ein“, gibt die Datenverarbeitungsvorrichtung 10 ein Steuersignal (Wi-Fi, Infrarotlicht oder dergleichen) zu der externen Vorrichtung 30 auf der Basis eines Spracherkennungsergebnisses der Anwenderäußerung aus, um Steuerung gemäß der Anwenderäußerung auszuführen.
  • Es wird darauf hingewiesen, dass die Datenverarbeitungsvorrichtung 10 mit dem Server 20 über ein Netz verbunden ist und Daten, die zum Erzeugen einer Antwort auf eine Anwenderäußerung notwendig sind, von dem Server 20 erfassen kann. Darüber hinaus kann, wie vorstehend beschrieben, der Server konfiguriert sein, den Spracherkennungsprozess oder den Semantikanalyseprozess auszuführen.
  • Als Nächstes wird mit Bezug auf 3 ein Überblick über die durch die Datenverarbeitungsvorrichtung 10 der vorliegenden Offenbarung ausgeführte Verarbeitung beschrieben.
    In einem Fall, in dem der Anwender eine Anwenderäußerung vom Fragentyp in die Datenverarbeitungsvorrichtung 10 (das System) eingibt, analysiert die Datenverarbeitungsvorrichtung 10 der vorliegenden Offenbarung die eingegebene Anwenderäußerung und führt optimale Verarbeitung gemäß dem Analyseergebnis aus.
  • Äußerungen vom Fragentyp, die durch Anwender gemacht werden, können allgemein in die folgenden drei Typen klassifiziert werden.
    • (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    • (B) Anwenderäußerung, die eine Teiläußerungswiederholung eines Teils der Systemäußerung anfordert
    • (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
  • Darüber hinaus kann (B) in die folgenden drei Typen gemäß einem Verfahren zum Spezifizieren eines Äußerungswiederholungsanforderungsteils klassifiziert werden.
    • (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    • (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    • (B3) Andere Anwenderäußerung, die eine teilweise Äußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
  • Äußerungen vom Fragentyp, die durch den Anwender zu der Datenverarbeitungsvorrichtung 10 gemacht werden, können als (A), (B1 bis B3) und (C), die vorstehend beschrieben sind, klassifiziert werden.
    Ein spezifisches beispielhaft für sie wird mit Bezug auf 3 und so weiter beschrieben.
  • In dem in 3 dargestellten Beispiel ist ein spezifisches Beispiel vom Typ (A), das heißt
    (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    dargestellt.
    3 stellt ein Beispiel für einen Dialog zwischen dem Anwender 1 und der Datenverarbeitungsvorrichtung 10 der vorliegenden Offenbarung dar.
    Zuerst macht die Datenverarbeitungsvorrichtung 10 die folgende Systemäußerung in Schritt S01.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
    Diese Systemäußerung ist beispielsweise eine Situation, in der die Datenverarbeitungsvorrichtung 10 Rezeptinformationen, die von einem Rezeptinformationsbereitstellungsserver erfasst werden, für den Anwender 1 erläutert und den Anwender das Zubereiten lehrt.
  • In Reaktion auf diese Systemäußerung in Schritt S01 macht der Anwender 1 die folgende Anwenderäußerung in Schritt S02.
    Anwenderäußerung = Was hast du jetzt gesagt
  • Die Datenverarbeitungsvorrichtung 10, in die diese Anwenderäußerung eingegeben wird, führt die folgende Systemäußerung als eine Antwort auf die Anwenderäußerung in Schritt S03 aus.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
  • Dieses in 3 dargestellte Beispiel ist ein Verarbeitungsbeispiel, in dem die Datenverarbeitungsvorrichtung 10 die Anwenderäußerung in Schritt S02, das heißt
    Anwenderäußerung = Was hast du jetzt gesagt,
    als Typ (A) bestimmt, das heißt „(A) Anwenderäußerung, die Äußerungswiederholungen aller Systemäußerungen anfordert“, und auf der Basis dieses Bestimmungsergebnisses wird in Schritt S03 die gesamte Systemäußerung von Schritt S01, die der Anwenderäußerung in Schritt S02 vorausgeht, erneut geäußert.
  • In dem in 4 dargestellten Beispiel ist ein spezifisches Beispiel vom Typ (B), das heißt
    (B) Anwenderäußerung, die eine Teiläußerungswiederholung eines Teils der Systemäußerung anfordert
    dargestellt.
  • 4 stellt drei Typen von Beispielen wie folgt dar.
    (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
  • Zuerst wird ein spezifisches Beispiel vom Typ (B1), das heißt
    (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    beschrieben.
  • Zuerst macht die Datenverarbeitungsvorrichtung 10 die folgende Systemäußerung in Schritt S11.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
    In Reaktion auf die Systemäußerung in Schritt S11 macht der Anwender 1 die folgende Anwenderäußerung in Schritt S12.
    Anwenderäußerung = Was hast du nach schlage das Ei gesagt
  • Die Datenverarbeitungsvorrichtung 10, die die Anwenderäußerung eingegeben hat, bestimmt, dass die Anwenderäußerung in Schritt S12 vom Typ (B) ist, das heißt „(B) Anwenderäußerung, die eine Teiläußerungswiederholung eines Teils der Systemäußerung anfordert“. Außerdem wird sie als vom Typ (B1) bestimmt, das heißt „(B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)“.
  • Die Datenverarbeitungsvorrichtung 10 spezifiziert einen Äußerungswiederholungsanforderungsteil des Anwenders aus der Systemäußerung in Schritt S11 auf der Basis einer Phrase (einer Zeichenkette), die in der Anwenderäußerung in Schritt S12 enthalten ist, auf der Basis des Bestimmungsergebnisses, dass die Anwenderäußerung vom Typ (B1) ist, und führt die folgende Systemäußerung in Schritt S13 unter Verwendung des spezifizierten Systemäußerungsteils aus.
    Systemäußerung = Streue Salz und Pfeffer
  • Als Nächstes wird ein spezifisches Beispiel vom Typ (B2), das heißt,
    (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    beschrieben.
  • Zuerst macht die Datenverarbeitungsvorrichtung 10 die folgende Systemäußerung in Schritt S21.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
    In Reaktion auf die Systemäußerung in Schritt S21 macht der Anwender 1 die folgende Anwenderäußerung in Schritt S22.
    Anwenderäußerung = Was ist nach dem Schlagen des Eis zu tun
  • Die Datenverarbeitungsvorrichtung 10 die die Anwenderäußerung eingegeben hat, bestimmt, dass die Anwenderäußerung in Schritt S22 vom Typ (B) ist, das heißt „(B) Anwenderäußerung, die eine Teiläußerungswiederholung eines Teils der Systemäußerung anfordert“. Außerdem wird sie als Typ (B2) bestimmt, das heißt „(B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)“.
  • Die Datenverarbeitungsvorrichtung 10 spezifiziert einen Äußerungswiederholungsanforderungsteil des Anwenders aus der Systemäußerung in Schritt S21 auf der Basis von Zeitspezifikationsinformationen, die in der Anwenderäußerung in Schritt S22 enthalten sind, auf der Basis des Bestimmungsergebnisses, dass die Anwenderäußerung vom Typ (B2) ist, und führt die folgende Systemäußerung in Schritt S23 unter Verwendung des spezifizierten Systemäußerungsteils aus.
    Systemäußerung = Streue Salz und Pfeffer.
  • Als Nächstes ist Typ (B3), das heißt
    (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
    dieser Typ (B3) eine Anwenderäußerung, die keine Äußerungspositionsspezifikation wie Typ (B1) oder Zeitreihenspezifikation wie Typ (B2) aufweist, sondern eine Äußerungswiederholung eines Teils von Phrasen, die in der vorhergehenden Systemäußerung bereits geäußert worden sind, anfordert.
    Ein spezifisches Beispiel für diesen Typ (B3) wird beschrieben.
  • Zuerst macht die Datenverarbeitungsvorrichtung 10 die folgende Systemäußerung in Schritt S31.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
    In Reaktion auf die Systemäußerung in Schritt S31 macht der Anwender 1 die folgende Anwenderäußerung in Schritt S32.
    Anwenderäußerung = Was ist zu rühren
  • Die Datenverarbeitungsvorrichtung 10 die die Anwenderäußerung eingegeben hat, bestimmt, dass die Anwenderäußerung in Schritt S32 vom Typ (B) ist, das heißt „(B) Anwenderäußerung, die eine Teiläußerungswiederholung eines Teils der Systemäußerung anfordert“. Außerdem wird sie als vom Typ (B3) bestimmt, das heißt „(B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)“.
  • Die Datenverarbeitungsvorrichtung 10 spezifiziert einen Äußerungswiederholungsanforderungsteil des Anwenders aus der Systemäußerung in Schritt S31 auf der Basis von Analyseinformationen der Anwenderäußerung in Schritt S32, auf der Basis des Bestimmungsergebnisses, dass die Anwenderäußerung vom Typ (B3) ist, und führt die folgende Systemäußerung in Schritt S33 unter Verwendung des spezifizierten Systemäußerungsteils aus.
    Systemäußerung = Die Eimischung
  • Als Nächstes wird mit Bezug auf 5 ein spezifisches Beispiel von Typ (C), das heißt
    (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
    beschrieben.
  • Zuerst macht die Datenverarbeitungsvorrichtung 10 die folgende Systemäußerung in Schritt S41.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
    In Reaktion auf die Systemäußerung in Schritt S41 macht der Anwender 1 die folgende Anwenderäußerung in Schritt S42.
    Anwenderäußerung = Was ist die Eimischung
  • Die Datenverarbeitungsvorrichtung 10, die die Anwenderäußerung eingegeben hat, bestimmt, dass die Anwenderäußerung in Schritt S42 vom Typ (C) ist, das heißt „(C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)“. Die Datenverarbeitungsvorrichtung 10 führt die folgende Systemäußerung in Schritt S43 auf der Basis des Bestimmungsergebnisses, dass die Anwenderäußerung vom Typ (C) ist, aus.
    Systemäußerung = Es ist Ei, das aus der Schale genommen ist, so dass es nur den Inhalt aufweist
  • Wie mit Bezug auf die 3 bis 5 beschrieben ist, analysiert die Datenverarbeitungsvorrichtung 10 der vorliegenden Offenbarung eine Anwenderäußerung vom Fragentyp von dem Anwender und bestimmt, welcher aus den folgenden Typen die Anwenderäußerung ist.
    • (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    • (B) Anwenderäußerung, die eine Teiläußerungswiederholung eines Teils der Systemäußerung anfordert
    • (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
  • Ferner ist der Typ (B) in die folgenden Typen klassifiziert.
    (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
  • Die Datenverarbeitungsvorrichtung 10 erzeugt die optimale Systemantwort, die durch den Anwender angefordert wird, auf der Basis dieser Klassifizierungsergebnisse und gibt sie aus.
  • [Konfigurationsbeispiel der Datenverarbeitungsvorrichtung]
  • Als Nächstes wird ein spezifisches Konfigurationsbeispiel der Datenverarbeitungsvorrichtung 10 mit Bezug auf 6 beschrieben.
    Es wird darauf hingewiesen, dass die spezifische Verarbeitung jeder Komponente später genauer beschrieben wird.
  • 6 ist ein Diagramm, das ein Konfigurationsbeispiel der Datenverarbeitungsvorrichtung 10, die eine Anwenderäußerung erkennt und Verarbeitung und eine Antwort, die der Anwenderäußerung entspricht, ausführt, darstellt.
    Wie in 6 dargestellt weist die Datenverarbeitungsvorrichtung 10 eine Spracheingabeeinheit 101, eine Sprachausgabeeinheit 102, eine Bildausgabeeinheit 103, eine Datenverarbeitungseinheit 120, eine Speichereinheit 160 und eine Kommunikationseinheit 170 auf.
    Es wird darauf hingewiesen, dass, obwohl die Datenverarbeitungseinheit 120 und die Speichereinheit 160 in der Datenverarbeitungsvorrichtung 10 konfiguriert sein können, eine Datenverarbeitungseinheit eines externen Servers verwendet sein kann, anstatt dass sie in der Datenverarbeitungsvorrichtung 10 konfiguriert ist. In einem Fall der Konfiguration unter Verwendung eines Servers sendet die Datenverarbeitungsvorrichtung 10 Eingabedaten, die von der Spracheingabeeinheit 101 eingegeben werden, über das Netz zu einem Server, empfängt ein Verarbeitungsergebnis der Datenverarbeitungseinheit 120 des Servers und gibt das Verarbeitungsergebnis über die Ausgabeeinheit (Sprachausgabeeinheit 102, Bildausgabeeinheit 103) aus.
  • Als Nächstes werden Komponenten der in 6 dargestellten Datenverarbeitungsvorrichtung 10 beschrieben.
    Die Spracheingabeeinheit 101 ist beispielsweise ein Mikrofon und entspricht dem Mikrofon 12 der in 1 dargestellten Datenverarbeitungsvorrichtung 10.
    Die Sprachausgabeeinheit 102 entspricht dem Lautsprecher 14 der in 1 dargestellten Datenverarbeitungsvorrichtung 10.
    Die Bildausgabeeinheit 103 entspricht der Anzeigeeinheit 13 der in 1 dargestellten Datenverarbeitungsvorrichtung 10.
    Es wird darauf hingewiesen, dass die Bildausgabeeinheit 103 beispielsweise durch einen Projektor oder dergleichen konfiguriert sein kann oder durch Verwenden einer Anzeigeeinheit eines Fernsehgeräts als eine externe Vorrichtung konfiguriert sein kann.
  • Wie vorstehend beschrieben ist die Datenverarbeitungseinheit 120 in entweder der Datenverarbeitungsvorrichtung 10 oder einem Server, der zum Kommunizieren mit der Datenverarbeitungsvorrichtung 10 fähig ist, konfiguriert.
    Die Datenverarbeitungseinheit 120 weist eine Spracherkennungseinheit 121, eine Anwenderäußerungstypbestimmungseinheit 122, eine Lernverarbeitungseinheit 130, eine Systemantworterzeugungseinheit 140, eine Sprachsyntheseeinheit 151 und eine Anzeigebilderzeugungseinheit 152 auf.
    Die Systemantworterzeugungseinheit 140 weist eine Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141, eine Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 und eine Aufgabenverarbeitungseinheit 143 auf.
  • Darüber hinaus speichert die Speichereinheit 160 eine Systemäußerung 161, ein Lerndaten- & Schätzungsmodell 162, ein Morphologieanalysewörterbuch 163 und dergleichen. Es wird darauf hingewiesen, dass das Morphologieanalysewörterbuch 163 konfiguriert sein kann, beispielsweise existierende Open-Source-Software zu verwenden, und es in diesem Fall nicht notwendig ist, dass ein besonderes Morphologieanalysewörterbuch in der Vorrichtung vorhanden ist.
    Es wird darauf hingewiesen, dass zusätzlich zu diesen Daten die Speichereinheit 160 Programme, die auf die Ausführung der Verarbeitung in der Datenverarbeitungseinheit angewandt werden, und verschiedene Daten wie z. B. Parameter, die zur Verarbeitung verwendet werden, Planungsinformationen, die im Voraus durch den Anwender eingetragen sind, im Voraus von einem Server heruntergeladene Informationen und dergleichen speichert.
  • Eine Sprachäußerung des Anwenders wird in die Spracheingabeeinheit 101 wie z. B. ein Mikrofon eingegeben.
    Die Spracheingabeeinheit (das Mikrofon) 101 gibt eine eingegebene Anwendersprachäußerung in die Spracherkennungseinheit 121 der Datenverarbeitungseinheit 120 ein.
    Die Spracherkennungseinheit 121 weist beispielsweise eine Funktion zur automatischen Spracherkennung (ASR) auf und setzt Sprachdaten in Textdaten, die mehrere Wörter aufweisen, um.
  • Ein Spracherkennungsergebnis, das der Anwenderäußerung entspricht und das durch die Spracherkennungseinheit 121 erzeugt ist, wird in die Anwenderäußerungstypbestimmungseinheit 122 eingegeben.
    Die Anwenderäußerungstypbestimmungseinheit 122 gibt Textdaten einer Anwenderäußerung und eine Systemäußerung, die durch die Datenverarbeitungsvorrichtung 10 unmittelbar vor der Anwenderäußerung ausgeführt wird, ein und bestimmt den Äußerungstyp der Anwenderäußerung auf der Basis dieser Äußerungsgruppen.
    Es wird darauf hingewiesen, dass die Systemäußerung, die durch die Datenverarbeitungsvorrichtung 10 unmittelbar vor der Anwenderäußerung ausgeführt wird, als die Systemäußerung 161 in der Speichereinheit 160 aufgezeichnet wird.
  • Die Anwenderäußerungstypbestimmungseinheit 122 bestimmt, welcher aus den folgenden Typen von Äußerungen die Anwenderäußerung ist.
    • (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    • (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    • (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    • (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
    • (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
  • Es wird darauf hingewiesen, dass die Anwenderäußerungstypbestimmungseinheit 122 den Äußerungstyp der Anwenderäußerung unter Verwendung eines Typschätzungsmodells, das durch einen Lernprozess erzeugt wird, der im Voraus durch die Lernverarbeitungseinheit 130 ausgeführt wird, bestimmt. Das Typschätzungsmodell ist als ein Typschätzungsmodell in dem Lerndaten- & Schätzungsmodell 162 in der Speichereinheit 160 gespeichert.
  • Bestimmungsinformationen der Anwenderäußerungstypbestimmungseinheit 122 werden in die Systemantworterzeugungseinheit 140 eingegeben.
    Die Systemantworterzeugungseinheit 140 weist eine Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141, eine Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 und eine Aufgabenverarbeitungseinheit 143 auf.
  • In einem Fall, in dem ein Bestimmungsergebnis des Anwenderäußerungstyps in der Anwenderäußerungstypbestimmungseinheit 122 entweder Typ A oder B ist, erzeugt die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 eine Systemäußerung als eine Antwort auf die Anwenderäußerung.
    Darüber hinaus erzeugt in einem Fall, in dem das Bestimmungsergebnis des Anwenderäußerungstyps in der Anwenderäußerungstypbestimmungseinheit 122 Typ C ist, die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 eine Systemäußerung als eine Antwort auf die Anwenderäußerung.
    Außerdem führt in einem Fall, in dem das Bestimmungsergebnis des Anwenderäußerungstyps in der Anwenderäußerungstypbestimmungseinheit 122 keines aus A bis C ist, die Aufgabenverarbeitungseinheit 143 eine Aufgabe als eine Antwort auf die Anwenderäußerung aus und erzeugt eine Systemäußerung.
  • Die Systemantworterzeugungseinheit 140 erzeugt eine Systemantwort gemäß dem Anwenderäußerungstyp.
    Die Systemantwort weist wenigstens entweder Sprache oder Bild auf.
    Die Sprachsyntheseeinheit 151 erzeugt Sprachdaten basierend auf Sprachinformationen, die in der durch die Systemantworterzeugungseinheit 140 erzeugten Antwort enthalten sind, und die erzeugten Antwortsprachdaten werden über die Sprachsyntheseeinheit 102 wie z. B. einen Lautsprecher ausgegeben.
  • Die Anzeigebilderzeugungseinheit 152 erzeugt Bilddaten basierend auf Bildinformationen, die in der durch die Systemantworterzeugungseinheit 140 erzeugten Antwort enthalten sind, und gibt die Bilddaten über die Bildausgabeeinheit 103 wie z. B. die Anzeigeeinheit aus.
    Die Anzeigebilderzeugungseinheit 152 zeigt Textinformationen der Systemäußerung für den Anwender und andere Präsentationsinformationen an.
    Beispielsweise wird in einem Fall, wenn der Anwender eine Anwenderäußerung macht, um zu sagen zeige die Weltkarte, eine Weltkarte angezeigt.
    Die Weltkarte kann beispielsweise von einem Dienstbereitstellungsserver erhalten werden.
  • Es wird darauf hingewiesen, dass die Datenverarbeitungsvorrichtung 10 außerdem eine Aufgabenverarbeitungsausführungsfunktion für Anwenderäußerungen aufweist.
    Beispielsweise im Fall von Äußerungen wie z. B. Anwenderäußerung = Spiele Musik
    Anwenderäußerung = Zeige ein interessantes Video führt die Datenverarbeitungsvorrichtung 10 Verarbeitung für die Anwenderäußerung aus, das heißt Ausführungsverarbeitung für Aufgaben wie z. B. Musikwiedergabeverarbeitung und Bewegtbildwiedergabeverarbeitung.
    Diese Aufgabenverarbeitung kann beispielsweise als ein Prozess ausgeführt werden, in dem die Aufgabenverarbeitungseinheit 143 der Systemäußerungserzeugungseinheit 140 Informationen ausgibt, die von einem externen Server über die Kommunikationseinheit 170 erfasst werden. Beispielsweise gibt es einen Prozess, in dem die Aufgabenverarbeitungseinheit 143 Musikinformationen, die von einem Musikbereitstellungsserver erfasst werden, oder dergleichen ausgibt.
  • [Gesamtabfolge der durch die Datenverarbeitungsvorrichtung ausgeführten Prozesse]
  • Als Nächstes wird eine Gesamtabfolge von Prozessen, die durch die Datenverarbeitungsvorrichtung 10 ausgeführt werden, mit Bezug auf einen in 7 dargestellten Ablaufplan beschrieben.
    7 ist ein Ablaufplan, der die Gesamtabfolge von Prozessen, die in der in 6 dargestellten Datenverarbeitungsvorrichtung 10 ausgeführt werden, beschreibt. Es wird darauf hingewiesen, dass die Prozesse gemäß den in den 7 und so weiter dargestellten Ablaufplänen beispielsweise gemäß einem in der Speichereinheit der Datenverarbeitungsvorrichtung 10 gespeicherten Programm ausgeführt werden können. Beispielsweise können sie als ein Programmausführungsprozess durch einen Prozessor wie z.B. eine CPU, die eine Programmausführungsfunktion aufweist, ausgeführt werden.
    Nachstehend werden der Reihe nach Prozesse entsprechender Schritte von Abläufen, die in 7 dargestellt sind, beschrieben.
  • (Schritt S101)
  • Zuerst führt die Datenverarbeitungsvorrichtung 10 einen Spracherkennungsprozess der eingegebenen Anwenderäußerung in Schritt S101 aus.
    Dieser Prozess ist ein Prozess, der durch die Spracherkennungseinheit 121 der Datenverarbeitungsvorrichtung 10, die in 6 dargestellt ist, ausgeführt wird.
    Die Spracherkennungseinheit 121 setzt Sprachdaten in Textdaten um, die mehrere Wörter aufweisen, beispielsweise unter Verwendung von der ASR-(automatischen Spracherkennungs-) Funktion.
    Ein Spracherkennungsergebnis, das der Anwenderäußerung entspricht und das durch die Spracherkennungseinheit 121 erzeugt ist, wird in die Anwenderäußerungstypbestimmungseinheit 122 eingegeben.
  • (Schritte S102 bis S103)
  • Als Nächstes wird in den Schritten S102 bis S103 der Äußerungstyp der Anwenderäußerung auf der Basis von Textdaten der Anwenderäußerung und einer Gruppe von Äußerungen von Systemäußerungen, die durch die Datenverarbeitungsvorrichtung 10 unmittelbar vor der Anwenderäußerung ausgeführt wurden, bestimmt.
    Dieser Prozess ist ein Prozess, der durch die Anwenderäußerungstypbestimmungseinheit 122 der Datenverarbeitungseinheit 120, die in 6 dargestellt ist, ausgeführt wird.
  • Die Anwenderäußerungstypbestimmungseinheit 122 bestimmt, welcher aus den folgenden Typen von Äußerungen die Anwenderäußerung ist.
    • (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    • (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    • (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    • (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
    • (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
    • (Andere) Andere Anwenderäußerungen, die nicht in den vorstehenden A bis C enthalten sind (Aufgabenausführungsanforderung)
    • Bestimmungsinformationen der Anwenderäußerungstypbestimmungseinheit 122 werden in die Systemantworterzeugungseinheit 140 eingegeben.
  • Es wird darauf hingewiesen, dass, wie vorstehend beschrieben, die Anwenderäußerungstypbestimmungseinheit 122 den Äußerungstyp der Anwenderäußerung unter Verwendung des Typschätzungsmodells, das durch den Lernprozess, der im Voraus durch die Lernverarbeitungseinheit 130 ausgeführt wird, erzeugt wird, bestimmt.
  • (Schritte S104 bis S106)
  • Die Prozesse der Schritte S104 bis S106 sind Erzeugungsprozesse für eine Systemantwort auf die Anwenderäußerung, für die die Typbestimmung ausgeführt worden ist.
    Dieser Prozess ist ein Prozess, der durch die Systemantworterzeugungseinheit 140 der Datenverarbeitungseinheit 120, die in 6 dargestellt ist, ausgeführt wird.
  • Die Systemantworterzeugungseinheit 140 erzeugt eine Systemantwort gemäß dem Anwenderäußerungstyp.
    In einem Fall, in dem das Bestimmungsergebnis des Anwenderäußerungstyps in den Schritten S102 bis S103 einer der Typen A und B ist, erzeugt die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 in Schritt S104 eine Systemäußerung als eine Antwort auf die Anwenderäußerung.
    Darüber hinaus erzeugt in einem Fall, in dem das Bestimmungsergebnis des Anwenderäußerungstyps der Typ C ist, die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 in Schritt S105 die Systemäußerung als eine Antwort auf die Anwenderäußerung.
    Darüber hinaus erzeugt in einem Fall, in dem das Bestimmungsergebnis des Anwenderäußerungstyps keines aus A bis C ist, die Aufgabenverarbeitungseinheit 143 eine Systemäußerung als eine Antwort auf die Anwenderäußerung in Schritt S106.
  • (Schritt S107)
  • Schließlich wird wenigstens entweder eine Systemantwortsprache oder ein Bild, die/das aus der Datenverarbeitungsvorrichtung 10 ausgegeben werden soll, erzeugt und auf der Basis der durch einen Systemantworterzeugungsprozess in einem der Schritte S104 bis S106 erzeugten Systemantwort ausgegeben.
    Dieser Prozess ist ein Prozess, der durch die Sprachsyntheseeinheit 151 und die Anzeigebilderzeugungseinheit 152, die in 6 dargestellt sind, ausgeführt wird.
  • Die Sprachsyntheseeinheit 151 erzeugt Sprachdaten basierend auf Sprachinformationen, die in der durch die Systemantworterzeugungseinheit 140 erzeugten Antwort enthalten sind, und die erzeugten Antwortsprachdaten werden über die Sprachsyntheseeinheit 102 wie z. B. einen Lautsprecher ausgegeben.
    Die Anzeigebilderzeugungseinheit 152 erzeugt Bilddaten basierend auf Bildinformationen, die in der durch die Systemantworterzeugungseinheit 140 erzeugten Antwort enthalten sind, und gibt die Bilddaten über die Bildausgabeeinheit 103 wie z. B. die Anzeigeeinheit aus.
    Die Anzeigebilderzeugungseinheit 152 zeigt Textinformationen der Systemäußerung für den Anwender und andere Präsentationsinformationen an.
  • [Anwenderäußerungstypbestimmungsprozess, der durch die Anwenderäußerungstypbestimmungseinheit ausgeführt wird]
  • Als Nächstes wird ein Anwenderäußerungstypbestimmungsprozess, der durch die Anwenderäußerungstypbestimmungseinheit 122 ausgeführt wird, beschrieben.
  • Wie vorstehend beschrieben gibt die Anwenderäußerungstypbestimmungseinheit 122 Textdaten einer Anwenderäußerung und eine Systemäußerung, die durch die Datenverarbeitungsvorrichtung 10 unmittelbar vor der Anwenderäußerung ausgeführt wird, ein und bestimmt den Äußerungstyp der Anwenderäußerung unter Verwendung des Typschätzungsmodells.
  • Die Anwenderäußerungstypbestimmungseinheit 122 bestimmt, welcher aus den folgenden Typen von Äußerungen die Anwenderäußerung ist.
    • (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    • (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    • (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    • (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
    • (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
  • Nachstehend wird der durch die Anwenderäußerungstypbestimmungseinheit 122 ausgeführte Anwenderäußerungstypbestimmungsprozess auf der Basis eines spezifischen Beispiels beschrieben.
    Die Datenverarbeitungsvorrichtung 10 erfasst eine Systemäußerung, die unmittelbar vor der Anwenderäußerung ausgeführt wurde, als ein Äußerungstypanalyseziel aus der Speichereinheit 160 und führt den Typbestimmungsprozess unter Verwendung der erfassten Systemäußerung und Gruppendaten der Anwenderäußerung danach aus.
  • Eingabedaten der Anwenderäußerungstypbestimmungseinheit 122 sind eine Anwenderäußerung als ein Äußerungstypanalyseziel und eine Systemäußerung, die unmittelbar vor der Anwenderäußerung ausgeführt wurde, und Ausgabedaten sind Äußerungstypinformationen.
  • Ein Beispiel für Eingabe- und Ausgabedaten wird nachstehend beschrieben.
    • (1) Eingabedaten Systemäußerung = „In der Präfektur Nagano produzierte Äpfel werden als Shinshu-Apfel bezeichnet“ Anwenderäußerung = „Wo werden die Äpfel produziert“
    • (2) Ausgabedaten Äußerungstyp = B3 Es wird darauf hingewiesen, dass der Äußerungstyp (B3) der folgende Typ ist.
    • (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert
  • Auf diese Weise gibt die Anwenderäußerungstypbestimmungseinheit 122 die Anwenderäußerung als ein Äußerungstypanalyseziel und die Systemäußerung, die unmittelbar bevor der Anwenderäußerung ausgeführt wurde, ein, analysiert die Gruppe dieser Äußerungen und bestimmt, ob die Anwenderäußerung von einem der Typen (A) bis (C) oder einem anderen ist.
  • Es wird darauf hingewiesen, dass die Anwenderäußerungstypbestimmungseinheit 122 den Äußerungstyp der Anwenderäußerung unter Verwendung des Typschätzungsmodells, das durch die Lernverarbeitungseinheit 130 im Voraus durch den Lernprozess erzeugt wurde, bestimmt. Das durch den Lernprozess erzeugte Typschätzungsmodell ist als ein Typschätzungsmodell in dem Lerndaten- & Schätzungsmodell 162 der Speichereinheit 160 gespeichert.
  • 8 ist ein Diagramm, das ein Beispiel von Daten, die in dem in der Speichereinheit 160 gespeicherten Lerndaten- & Schätzungsmodell 162 enthalten sind.
    Wie in 8 dargestellt ist, weist das Lerndaten- & Schätzungsmodell 162 Typschätzungslerndaten 162a und ein Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b auf.
  • Die Typschätzungslerndaten 162a werden für einen Lernprozess, der durch die Lernverarbeitungseinheit 130 ausgeführt wird, verwendet. Durch Ausführen des Lernprozesses unter Verwendung dieser Typschätzungslerndaten 162a wird das Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b erzeugt und aktualisiert.
  • 9 stellt ein Datenbeispiel der Typschätzungslerndaten 162a dar.
    Wie in 9 dargestellt enthalten die Typschätzungslerndaten 162a entsprechende Daten wie folgt.
    • (A) Systemäußerung unmittelbar vor der Anwenderäußerung
    • (B) Anwenderäußerung
    • (C) Kennzeichen (= Äußerungstyp (A, B1, B2, B3, C))
    Als diese Daten können Lerndaten, die im Voraus vorbereitet sind, verwendet werden, oder Daten, die auf der Basis eines Dialogs zwischen der Datenverarbeitungsvorrichtung 10 und dem Anwender 1 neu erzeugt werden, können verwendet werden.
  • Als die im Voraus vorbereiteten Lerndaten können beispielsweise Äußerungsgruppendaten typischer Systemäußerung und Anwenderäußerungen und Daten, in denen Äußerungstypen (A, B1, B2, B3, C) von Anwenderäußerungen der Äußerungsgruppendaten als Kennzeichen gesetzt sind, verwendet werden.
  • Es wird darauf hingewiesen, dass die Lernverarbeitungseinheit 130 den Lernprozess unter Verwendung neuer Dialogdaten zwischen der Datenverarbeitungsvorrichtung 10 und dem Anwender 1 und dem Kennzeichen (Anwenderäußerungstyp), das durch die Anwenderäußerungstypbestimmungseinheit 122 auf der Basis der Daten davon eingestellt ist, kontinuierlich ausführt und die Aktualisierung des in der Speichereinheit 160 gespeicherten Typschätzungsmodells 162b auf der Basis eines Lernprozessergebnisses ausführt.
  • Die Lernverarbeitungseinheit 130 führt den Lernprozess beispielsweise unter Verwendung der Typschätzungslerndaten 162a, die eine Datenkonfiguration wie in 9 dargestellt aufweisen, aus, und das Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b wird erzeugt und aktualisiert.
  • Eine Abfolge des Lernprozesses unter Verwendung der Typschätzungslerndaten 162a, die die in 9 dargestellte Datenkonfiguration aufweisen, wird mit Bezug auf einen in 10 dargestellten Ablaufplan beschrieben.
    Nachstehend werden der Reihe nach Prozesse entsprechender Schritte des in 10 dargestellten Ablaufs beschrieben.
  • (Schritt S121)
  • Zuerst werden die Typschätzungslerndaten 162a der Speichereinheit 160 eingegeben. Das heißt, eine Anwenderäußerung, eine Systemäußerung unmittelbar vor der Anwenderäußerung, ein Kennzeichen, das einen Äußerungstyp (A, B1, B2, B3, C) der Anwenderäußerung angibt, und Daten davon werden eingegeben.
  • (Schritt S122)
  • Als Nächstes werden auf der Basis der Daten, die in Schritt S121 eingegeben werden, Merkmalsgrößen der Anwenderäußerung und der Systemäußerung unmittelbar davor extrahiert. Die zu extrahierenden Merkmalsgrößen sind beispielsweise die folgenden Merkmalsgrößen.
    • (1) Zeichen-N-Gramm, das in dem Spracherkennungstext der Anwenderäußerung und der Systemäußerung unmittelbar davor enthalten ist
    • (2) N-Gramm von Wörtern und Teile der Sprache, die in dem Spracherkennungstext der Anwenderäußerung und der Systemäußerung unmittelbar davor enthalten sind
    • (3) Prosodische Informationen der Äußerungssprache des Anwenders (Sprachmelodie mit ansteigendem oder abfallendem Ton oder dergleichen)
  • (Schritt S123)
  • Als Nächstes werden in Schritt S123 die Erzeugung und Aktualisierung eines Kennzeichen- (= Anwenderäußerungstyp) Schätzungsmodells basierend auf der in Schritt S122 extrahierten Merkmalsgröße ausgeführt.
    Als ein Ergebnis dieser Verarbeitung werden der Erzeugungsprozess und der Aktualisierungsprozess des Typschätzungsmodells [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b, das in der Speichereinheit 160 gespeichert ist, ausgeführt.
  • Es wird darauf hingewiesen, dass es bei Extrahieren der Merkmalsgröße in Schritt S122 notwendig ist, Wörter, die in einem Text einer Anwenderäußerung oder einer Systemäußerung enthalten sind, und ihre Teile der Sprache zu analysieren, und dieser Prozess kann durch einen Morphologieanalyseprozess ausgeführt werden.
  • Darüber hinaus können verschiedene Algorithmen als ein Maschinenlernalgorithmus, der durch die Lernverarbeitungseinheit 130 ausgeführt wird, verwendet werden. Beispielsweise können eine Stützvektormaschine (SVM), Logistikregression oder dergleichen verwendet werden.
  • Darüber hinaus muss, obwohl prosodische Informationen (ob es eine Sprachmelodie mit ansteigendem oder abfallendem Ton ist oder dergleichen) der Äußerungssprache des Anwenders als die in Schritt S122 extrahierte Merkmalsgröße beschrieben ist, diese Merkmalsgröße nicht notwendigerweise verwendet werden.
    Sie ist jedoch eine effektive Merkmalsgröße in einem Fall, in dem sie ergänzend als ein Merkmal verwendet wird, um eine Fragewahrscheinlichkeit, die aus dem Text allein schwierig zu unterscheiden ist, auszudrücken.
  • Beispielsweise Anwenderäußerung = „Wo werden die Äpfel produziert‟
    Wenn man den Text der Anwenderäußerung betrachtet, ist es nicht möglich zu verstehen, ob es eine Frage ist, falls jedoch die Sprachmelodie ansteigt, kann sie mit hoher Wahrscheinlichkeit als eine Frage betrachtet werden.
  • Darüber hinaus kann es so konfiguriert sein, dass die Systemäußerung unmittelbar vor der Anwenderäußerung nicht als ein Extraktionsziel der Merkmalsgröße verwendet wird.
    Durch Analysieren von Wortduplizierung zwischen Anwenderäußerungen und Systemäußerungen können jedoch die folgenden beiden Typen unterschieden werden.
    Äußerungstyp (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
    Äußerungstyp (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert(Lokalfragenteiläußerungswiederholungsanforderung)
  • Ein Fall zum Bestimmen des Anwenderäußerungstyps basierend auf der folgenden Systemäußerung und der Anwenderäußerung wird beschrieben.
    Systemäußerung = In der Präfektur Nagano produzierte Äpfel werden als Shinshu-Apfel bezeichnet
    Anwenderäußerung = Wo werden die Äpfel produziert
  • Der Anwenderäußerungstyp wird basierend auf der Systemäußerung und der Anwenderäußerung, die vorstehend beschrieben sind, bestimmt.
    Trenne jede Äußerung nach anderen Wörtern.
    Anwenderäußerung = „Wo/werden/die/Äpfel/produziert“ („/“ ist ein Beispiel für Wortgrenzen)
    Diese Anwenderäußerung beinhaltet viele Wörter, die in der Systemäußerung unmittelbar davor „In/der/Präfektur/Nagano/produzierte/Äpfel/werden/als/Shi nshu-Äpfel/bezeichnet“ enthalten sind (drei von fünf Wörtern oder zwei aus drei Wörtern, wenn ohne Partikel gezählt wird).
  • In einem Fall, in dem viele Wörter, die in der Anwenderäußerung enthalten sind, mit Wörtern, die in der Systemäußerung unmittelbar davor enthalten sind, überlappen, kann bestimmt werden, dass es sehr wahrscheinlich ist, dass die Anwenderäußerung die Äußerungswiederholung des Systemäußerungsinhalts anfordert, das heißt, der Typ „(B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)“.
  • Darüber hinaus ist die in Schritt S122 extrahierte Merkmalsgröße nicht auf das vorstehend beschriebene Beispiel beschränkt. Beispielsweise kann ein Unterschied (verstrichene Zeit) zwischen der Ausgabezeit der Systemäußerung unmittelbar vor der Anwenderäußerung und der Eingabezeit der Anwenderäußerung als eine Merkmalsgröße hinzugefügt werden.
  • Es wird darauf hingewiesen, dass die Merkmalsgröße eine Merkmalsgröße ist, die in dem Lernprozess, der gemäß dem in 10 dargestellten Ablauf ausgeführt wird, extrahiert wird, und die folgenden Merkmalsgrößen vorhanden sind.
    • (1) Zeichen-N-Gramm, das in dem Spracherkennungstext der Anwenderäußerung und der Systemäußerung unmittelbar davor enthalten ist
    • (2) N-Gramm von Wörtern und Teile der Sprache, die in dem Spracherkennungstext der Anwenderäußerung und der Systemäußerung unmittelbar davor enthalten sind
    • (3) Prosodische Informationen der Äußerungssprache des Anwenders (Sprachmelodie mit ansteigendem oder abfallendem Ton oder dergleichen)
  • Das heißt beispielsweise, falls eine spezifische Merkmalsgröße aus einer Gruppe aus Systemäußerung und Anwenderäußerung erhalten werden kann, kann ein Kennzeichen (= Äußerungstyp) aus der Merkmalsgröße geschätzt werden.
    Das Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b ist ein Modell, das diese Schätzung ermöglicht.
  • In einem Fall, in dem eine neue Kombination aus Systemäußerung und Anwenderäußerung eingegeben wird, kann die Anwenderäußerungstypbestimmungseinheit 122 der Datenverarbeitungseinheit 120, die in 6 dargestellt ist, den Typ einer Anwenderäußerung unter Verwendung dieses Modells schätzen.
  • Es wird darauf hingewiesen, dass der Lernprozess gemäß dem in 10 dargestellten Ablauf unter Verwendung der Daten auch in dem Fall ausgeführt wird, wenn eine neue Kombination aus Systemäußerung und Anwenderäußerung in die Lernverarbeitungseinheit 130 eingegeben wird, und auf der Basis eines Ergebnisses dieses Lernprozesses das Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b, das in der Speichereinheit 160 gespeichert ist, sequenziell aktualisiert wird.
  • Als Nächstes wird eine Verarbeitungsabfolge eines Anwenderäußerungstypbestimmungsprozesses, der durch die Anwenderäußerungstypbestimmungseinheit 122 der Datenverarbeitungseinheit 120, die in 6 dargestellt ist, ausgeführt wird, mit Bezug auf einen in 11 dargestellten Ablauf beschrieben.
  • Die Anwenderäußerungstypbestimmungseinheit 122 führt den Anwenderäußerungstypbestimmungsprozess mit Bezug auf das Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b, das in der Speichereinheit 160 gespeichert ist, aus.
    Prozesse der entsprechenden Schritte des in 11 dargestellten Ablaufs werden beschrieben.
  • (Schritt S141)
  • Zuerst gibt in Schritt S141 die Anwenderäußerungstypbestimmungseinheit 122 Textdaten einer neuen Anwenderäußerung als ein Typbestimmungsprozessziel und eine Systemäußerung, die durch die Datenverarbeitungsvorrichtung 10 unmittelbar vor der Anwenderäußerung ausgeführt wurde, ein.
    Die Textdaten der neuen Anwenderäußerung als ein Typbestimmungsprozessziel sind Textdaten, die durch die Spracherkennungseinheit 121 auf der Basis der Anwenderäußerung erzeugt werden. Die Systemäußerung, die durch die Datenverarbeitungsvorrichtung 10 unmittelbar vor der Anwenderäußerung ausgeführt wird, ist Daten, die als die Systemäußerung 161 in der Speichereinheit 160 aufgezeichnet sind.
  • (Schritt S142)
  • Als Nächstes extrahiert in Schritt S142 die Anwenderäußerungstypbestimmungseinheit 122 Merkmalsgrößen der Anwenderäußerung und der Systemäußerung unmittelbar davor auf der Basis der in Schritt S141 eingegebenen Daten. Die zu extrahierenden Merkmalsgrößen sind beispielsweise die folgenden Merkmalsgrößen.
    • (1) Zeichen-N-Gramm, das in dem Spracherkennungstext der Anwenderäußerung und der Systemäußerung unmittelbar davor enthalten ist
    • (2) N-Gramm von Wörtern und Teile der Sprache, die in dem Spracherkennungstext der Anwenderäußerung und der Systemäußerung unmittelbar davor enthalten sind
    • (3) Prosodische Informationen der Äußerungssprache des Anwenders (Sprachmelodie mit ansteigendem oder abfallendem Ton oder dergleichen)
  • (Schritt S143)
  • Als Nächstes referenziert in Schritt S143 die Anwenderäußerungstypbestimmungseinheit 122 das Typschätzungsmodell [Daten, in denen Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet sind] 162b, das in der Speichereinheit 160 gespeichert ist, und führt den Bestimmungsprozess des Anwenderäußerungstyps (A, B1, B2, B3, C) (= Kennzeichen) auf der Basis der in Schritt S142 extrahierten Merkmalsgrößen aus.
  • Die Anwenderäußerungstypbestimmungseinheit 122 bestimmt den Äußerungstyp der in Schritt S141 eingegebenen Anwenderäußerung durch ein Maschinenlernverfahren unter Verwendung des Typschätzungsmodells [Daten , wobei Äußerungstypen (Kennzeichen) und Merkmalsgrößen statistisch zugeordnet] 162b und den in Schritt S142 extrahierten Merkmalsgrößen.
  • Auf diese Weise bestimmt die Anwenderäußerungstypbestimmungseinheit 122, welcher Äußerungstyp (A, B1, B2, B3, C) der Anwenderäußerung ausgeführt wird, auf der Basis der Merkmalsgrößen des Spracherkennungstexts der Anwenderäußerung und der unmittelbar vorhergehenden Systemäußerung, das heißt der Merkmalsgrößen von Zeichen-N-Gramm, N-Gramm des Worts und Teil der Sprache des Worts und prosodischen Informationen der Anwenderäußerungssprache (ob die Sprachmelodie der ansteigende/abfallende Ton ist, oder dergleichen) und dergleichen.
  • Es wird darauf hingewiesen, dass in einem Fall, in dem die Zuverlässigkeit eines Bestimmungsergebnisses des Äußerungstyps der Anwenderäußerung, der durch den Prozess gemäß dem in 11 dargestellten Ablauf bestimmt ist, gering ist, die Datenverarbeitungsvorrichtung 10 eine Äußerung an den Anwender 1 zurückgeben kann, um die Absicht des Anwenders zu überprüfen.
  • Beispielsweise kann eine Konfiguration eingesetzt werden, in der einem Fall mit
    Anwenderäußerung = Wo werden die Äpfel produziert
    in dem für diese Anwenderäußerung schwierig zu bestimmen ist, von welchem Typ aus
    Typ (B) Anwenderäußerung, die eine teilweise Äußerungswiederholung eines Teils der Systemäußerung anfordert, und
    Typ (C) Anwenderäußerung, die nach allgemeinem Wissen fragt
    sie ist, eine Systemäußerung wie z. B. „Möchtest du allgemeines Wissen erhalten?“ oder „Ist das eine Frage zu dem, was ich sagte?“ zum Überprüfen ausgeführt wird.
  • [Verarbeitung, die durch die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) ausgeführt wird)]
  • Als Nächstes wird die Verarbeitung, die durch die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 der Antwortverarbeitungseinheit 140 der Datenverarbeitungseinheit 120, die in 6 dargestellt ist, beschrieben.
  • Die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 der Antwortverarbeitungseinheit 140 erzeugt eine Systemäußerung als eine Antwort auf die Anwenderäußerung in einem Fall, in dem ein Bestimmungsergebnis des Anwenderäußerungstyps in der Anwenderäußerungstypbestimmungseinheit 122 entweder Typ A oder B ist.
  • Das heißt, die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 erzeugt eine Systemäußerung als eine Antwort auf die Anwenderäußerung in einem Fall, in dem ein Bestimmungsergebnis des Anwenderäußerungstyps eines aus Folgenden ist:
    • (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert;
    • (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position);
    • (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe); und
    • (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfrageteiläußerungswiederholungsanforderung) .
  • Ein Beispiel für Eingabe-Ausgabe-Daten der Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 wird nachstehend beschrieben.
  • Eingabedaten
  • Systemäußerung unmittelbar vor der Anwenderäußerung = „In der Präfektur Nagano produzierte Äpfel werden als Shinshu-Apfel bezeichnet“
    Anwenderäußerung (Spracherkennungstext) = „Wo werden die Äpfel produziert“
    Typbestimmungsergebnis der Anwenderäußerungstypbestimmungseinheit 122 = B3
  • Ausgabedaten
  • Systemäußerung = „Es ist die Präfektur Nagano“
  • Das vorstehend beschriebene Beispiel für die Eingabe-Ausgabe-Daten ist ein Beispiel in einem Fall, in dem das Typbestimmungsergebnis = B3 der Anwenderäußerungstypbestimmungseinheit 122 eingegeben wird.
  • Die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 der Antwortverarbeitungseinheit 140 führt unterschiedliche Verarbeitung aus, abhängig davon, welcher aus den Typen A und B1 bis B3 das Anwenderäußerungstypbestimmungsergebnis in der Anwenderäußerungstypbestimmungseinheit 122 ist.
  • Wie in 12 dargestellt weist die Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit) 141 vier Verarbeitungseinheiten auf, die entsprechende Verarbeitung gemäß den Typen aus den Äußerungstypen (A, B1, B2, B3) der Anwenderäußerung ausführen.
    • (1) Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung der Typ A ist
    • (2) Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung der Typ B1 ist
    • (3) Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung der Typ B2 ist
    • (4) Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit) 141b3, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung der Typ B3 ist
    Nachstehend werden Verarbeitungsbeispiele für jede dieser Verarbeitungseinheiten beschrieben.
  • [Verarbeitung, die durch die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ A ist, erzeugt, ausgeführt wird]
  • Zuerst wird die Verarbeitung, die durch die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung der Typ A ist, ausgeführt wird, beschrieben.
  • In der Anwenderäußerungstypbestimmungseinheit 122 in einem Fall, in dem die Anwenderäußerung vom Äußerungstyp A ist, das heißt
    (A) Anwenderäußerung, die die Äußerungswiederholung aller Systemäußerungen anfordert
    erzeugt in einem Fall, in dem die Anwenderäußerung als vom Typ A wie vorstehend beschrieben bestimmt wird, die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a, die eine Systemäußerung (Antwort) erzeugt, alle Systemäußerungen, die unmittelbar vor der Anwenderäußerung ausgeführt wurden, als Äußerungswiederholungsdaten.
  • Ein Beispiel für Eingabe-Ausgabe-Daten der Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a wird nachstehend als ein Beispiel für eine Verarbeitung, die durch die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a ausgeführt wird, beschrieben.
  • Eingabedaten
  • Die Eingabedaten sind eine Systemäußerung unmittelbar vor der Anwenderäußerung. Beispielsweise sind sie die folgende Systemäußerung.
    Systemäußerung = „In der Präfektur Nagano produzierte Äpfel werden als Shinshu-Apfel bezeichnet‟
    Es wird darauf hingewiesen, dass diese Eingabedaten aus der in der Speichereinheit 160 gespeicherten Systemäußerung 161 erfasst werden.
  • Ausgabedaten
  • Die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a verwendet die vorstehend beschriebenen Eingabedaten unverändert als Ausgabedaten. Das heißt, die folgende Systemäußerung wird als Ausgabedaten verwendet.
    Systemäußerung = „In der Präfektur Nagano produzierte Äpfel werden als Shinshu-Apfel bezeichnet“
  • Wie vorstehend beschrieben erzeugt in einem Fall, in dem die Anwenderäußerung vom Typ A ist, die Äußerungswiederholungseinheit (Typ-A-Verarbeitungseinheit) 141a alle Systemäußerungen, die unmittelbar vor der Anwenderäußerung ausgeführt wurden, als Äußerungswiederholungsdaten.
  • [Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ B1 ist, erzeugt, ausgeführt wird]
  • Als Nächstes wird die Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 ausgeführt wird, die die Systemäußerung (Antwort) in einem Fall, in dem der Äußerungstyp der Anwenderäußerung der Typ B1 ist, erzeugt, beschrieben.
  • In der Anwenderäußerungstypbestimmungseinheit 122 in einem Fall, in dem die Anwenderäußerung vom Äußerungstyp B1 ist, das heißt
    (B1) Anwenderäußerung, die eine Position eines Systemäußerungsteils als ein Äußerungswiederholungsanforderungsziel unter Verwendung einer Phrase, die in der Systemäußerung enthalten ist, spezifiziert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    in einem Fall, in dem die Anwenderäußerung als vom vorstehend beschriebenen Typ B1 bestimmt ist, erzeugt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 eine Systemantwort.
  • Die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1, die eine Systemäußerung (Antwort) erzeugt, spezifiziert einen Äußerungswiederholungsausführungsteil gemäß einer Phrase, die in der Anwenderäußerung enthalten ist, aus der Systemäußerung, die unmittelbar vor der Systemäußerung ausgeführt wurde, und erzeugt Systemäußerungswiederholungsdaten durch Auswählen des spezifizierten Äußerungswiederholungsausführungsteils.
  • Ein Beispiel für Eingabe-Ausgabe-Daten der Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 wird nachstehend als ein Beispiel für eine Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 ausgeführt wird, beschrieben.
  • (Verarbeitungsbeispiel 1)
  • Eingabedaten
  • Die Eingabedaten sind eine Systemäußerung unmittelbar vor einer Anwenderäußerung und die Anwenderäußerung. Beispielsweise sind es die folgende Systemäußerung und Anwenderäußerung.
    Systemäußerung = Schlage das das Ei und streue Salz und Pfeffer
    Anwenderäußerung = Was hast du nach schlage das Ei gesagt
    In diesen Dateneinheiten wird die Systemäußerung aus der Speichereinheit 160 erfasst, und die Anwenderäußerung wird aus der Spracherkennungseinheit 121 erfasst.
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 einen Äußerungswiederholungsausführungsteil gemäß einer Phrase, die in der Anwenderäußerung enthalten ist, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Streue Salz und Pfeffer
  • Ein weiteres Verarbeitungsbeispiel, das durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 ausgeführt wird, wird nachstehend beschrieben.
  • (Verarbeitungsbeispiel 2)
  • Eingabedaten
  • Systemäußerung = Schlage das Ei und streue Salz und Pfeffer
    Anwenderäußerung = Was hast du vor streue Salz und Pfeffer gesagt
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 einen Äußerungswiederholungsausführungsteil gemäß einer Phrase, die in der Anwenderäußerung enthalten ist, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Schlage das Ei
  • Die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 extrahiert eine Phrase, die die Startposition oder Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, aus einem Spracherkennungstext der Anwenderäußerung.
  • In dem Fall des vorstehend beschriebenen (Verarbeitungsbeispiel 1)
    Anwenderäußerung = Was hast du nach schlage das Ei gesagt
    entspricht das „Schlage das Ei“ in dieser Anwenderäußerung der Phrase, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt.
  • Darüber hinaus entspricht in dem Fall von (Verarbeitungsbeispiel 2)
    Anwenderäußerung = Was hast du vor streue Salz und Pfeffer gesagt
    das „Streue Salz und Pfeffer“ in dieser Anwenderäußerung der Phrase, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt.
  • Als Nächstes führt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 einen der folgenden Prozesse aus.
    • (1) In einem Fall, in dem die Phrase, die aus dem Spracherkennungstext der Anwenderäußerung extrahiert ist, eine Phrase ist, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, wird eine Zeichenkette eines Teils nach der gleichen Phrase wie die ausgewählte Phrase in der Systemäußerung extrahiert.
    • (2) In einem Fall, in dem die Phrase, die aus dem Spracherkennungstext der Anwenderäußerung extrahiert ist, eine Phrase ist, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, wird eine Zeichenkette eines Teils vor der gleichen Phrase wie die ausgewählte Phrase in der Systemäußerung extrahiert.
  • In dem Fall des vorstehend beschriebenen (Verarbeitungsbeispiel 1) ist „Schlage das Ei“ eine Phrase, die die Startposition der Teiläußerungswiederholung angibt.
    In diesem Fall wird die Teilkette „Streue Salz und Pfeffer“ nach dem „Schlage das Ei“ in der Systemäußerung extrahiert, und eine Systemäußerung basierend auf diesen extrahierten Daten wird erzeugt und ausgegeben.
  • Andererseits ist in dem Fall des (Verarbeitungsbeispiel 2) das „Streue Salz und Pfeffer“ eine Phrase, die die Endposition der Teiläußerungswiederholung angibt.
    In diesem Fall wird die Teilkette „Schlage das Ei“ vor der Systemäußerung „Streue Salz und Pfeffer“ extrahiert, und eine Systemäußerung basierend auf diesen extrahierten Daten wird erzeugt und ausgegeben.
  • 13 ist ein Ablaufplan, der eine Verarbeitungsabfolge, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 ausgeführt wird, beschreibt.
    Nachstehend werden der Reihe nach Prozesse entsprechender Schritte des in 13 dargestellten Ablaufs beschrieben.
  • (Schritt S201)
  • Zuerst führt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 eine morphologische Analyse eines zu analysierenden Anwenderäußerungstexts, der aus der Spracherkennungseinheit 121 eingegeben wurde, in Schritt S201 aus und unterteilt den Anwenderäußerungstext in Morphem- (Notation/Teil der Sprache) Einheiten.
  • (Schritt S202)
  • Als Nächstes wird in Schritt S202 ein Phrasenextraktionskennzeichen für jedes der Morpheme des Anwenderäußerungstexts, die in Schritt S201 klassifiziert wurden, eingestellt.
  • 14 stellt ein Beispiel für Anwenderäußerungstextdaten, die in den Schritten S201 und S202 verarbeitet werden, dar.
    14 stellt die folgenden beiden Beispiele dar.
    • (Beispiel 1) Anwenderäußerung = Was hast du nach schlage das Ei gesagt
    • (Beispiel 2) Anwenderäußerung = Sage noch einmal vor streue Salz und Pfeffer
  • 14 stellt Ergebnisse des Unterteilens dieser beiden Anwenderäußerungen in Morphem- (Notation, Teil der Sprache) Einheiten in Schritt S201 und Einstellen von Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen) für jedes Morphem in Schritt S202 dar.
  • Das in 14 dargestellte Beispiel ist ein Beispiel, in dem IOB2-Identifizierungskennzeichen als Phrasenextraktionskennzeichen eingestellt sind.
    Das IOB2-Identifizierungskennzeichen bestimmt, ob jedes Element, wie z. B. ein korrektes Substantiv, in einem „Block“, der eine Dateneinheit wie z. B. eine semantische Gruppe ist, enthalten ist oder nicht, und ferner sind sie Identifizierungskennzeichen, die ermöglichen,
    „B] für das Anfangselement des Blocks,
    [I] für etwas anderes als den Anfang des Blocks und
    [O] für Elemente, die nicht in dem Block enthalten sind,
    zu identifizieren.
  • Außerdem werden in der Verarbeitung der vorliegenden Offenbarung in einem Fall, in dem es ein Blockelement ist, das eine Phrase bildet, die die Startposition einer Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, die folgenden Identifizierungskennzeichen
    [B-START] für den Anfang des Blocks, und
    [I-START] für etwas anderes als den Anfang des Blockelements
    eingestellt.
  • Andererseits werden in einem Fall, in dem es ein Blockelement ist, das eine Phrase bildet, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, die folgenden Identifizierungskennzeichen
    [B-END] für den Anfang des Blocks, und
    [I-END] für etwas anderes als den Anfang des Blocks,
    eingestellt.
  • Ein Ergebnis des Einstellens dieses Identifizierungskennzeichens ist in 14 dargestellt.
    In (Beispiel 1), das in 14 dargestellt ist,
    Anwenderäußerung = Was hast du nach schlage das Ei gesagt,
    entspricht das „schlage das Ei“ in dieser Anwenderäußerung einer Phrase, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, und das folgende Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen) ist in einer Elementeinheit dieses „schlage das Ei“ eingestellt.
    [B-START] für das Anfangselement des Blocks = „Ei“, und
    [I-START] für ein Element, das nicht der Anfang des Blocks ist = „wo, schlage, te“
    Diese Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen) werden eingestellt.
  • Darüber hinaus stellt 14 (Beispiel 2) dar, dass
    Anwenderäußerung = Was hast du vor streue Salz und Pfeffer gesagt
    das „streue Salz und Pfeffer“ in dieser Anwenderäußerung der Phrase entspricht, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, und das folgende Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen) wird mit der Elementeinheit dieses „streue Salz und Pfeffer“ eingestellt.
    [B-END] für das Anfangselement des Blocks = „Salz“, und
    [I-END] für ein Element, das nicht der Anfang des Blocks ist = „Pfeffer, wo, streue, masu‟
    Diese Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen) werden eingestellt.
  • In Schritt S202 des in 13 dargestellten Ablaufs wird ein Phrasenextraktionskennzeichen (Identifizierungskennzeichen) für jedes Morphem (Notation, Teil der Sprache) des Anwenderäußerungstexts, das in Schritt S201 klassifiziert ist, auf diese Weise eingestellt.
  • Es wird darauf hingewiesen, dass der Phrasenextraktionskennzeichen-(Identifizierungskennzeichen-) Einstellprozess in Bezug auf jedes Morphem des Anwenderäußerungstexts, der in Schritt S202 ausgeführt wird, unter Verwendung der im Voraus erzeugten Lerndaten ausgeführt wird.
  • Morphem-Notationen und Teil der Sprache können als Merkmalsgrößen zum Lernen verwendet werden. Darüber hinaus können verschiedene Algorithmen wie z. B. bedingtes Zufallsfeld (CRF) und langes Kurzzeitgedächtnis (LSTM) als der Lernverarbeitungsalgorithmus angewandt werden.
  • Dieser Lernprozess wird durch die in 6 dargestellte Lernverarbeitungseinheit 130 ausgeführt. Es wird darauf hingewiesen, dass die
  • Lernverarbeitungseinheit 130 die folgenden beiden Prozesse ausführt:
    • (i) Lernprozess des Phrasenextraktionskennzeichens und
    • (ii) Lernprozess des Anwenderäußerungstyps.
    15 ist ein Diagramm, das ein Beispiel für Daten, die in dem in der Speichereinheit 160 gespeicherten Lerndaten- & Schätzungsmodell 162 enthalten sind, beschreibt.
    Wie in 15 dargestellt weist das Lerndaten- & Schätzungsmodell 162 Phrasenextraktionskennzeichen-(IOB2-Identifizierungskennzeichen-) Schätzungslerndaten 162c und ein Phrasenextraktionskennzeichen- (IOB2-Identifizierungskennzeichen-) Schätzungsmodell [Daten, die Morpheme (Notation, Teil der Sprache) und Kennzeichen (IOB2-Identifizierungskennzeichen) statistisch zuordnen] 162d auf.
  • Die Phrasenextraktionskennzeichen- (IOB2-Identifizierungskennzeichen-) Schätzungslerndaten 162c sind Daten, die zur Lernverarbeitung, die durch die Lernverarbeitungseinheit 130 ausgeführt wird, verwendet werden. Durch Ausführen des Lernprozesses unter Verwendung dieser Phrasenextraktionskennzeichen- (IOB2-Identifizierungskennzeichen-) Schätzungslerndaten 162c wird das Phrasenextraktionskennzeichen- (IOB2-Identifizierungskennzeichen-) Schätzungsmodell [Daten, die Morpheme (Notation, Teil der Sprache) und Kennzeichen (IOB2-Identifizierungskennzeichen) statistisch zuordnen] 162d erzeugt und aktualisiert.
  • Es wird darauf hingewiesen, dass dieser Lernprozess im Voraus unter Verwendung der im Voraus vorbereiteten Lerndaten ausgeführt werden kann, es ferner möglich ist, neue Lernverarbeitung durch Anwenden von Daten, die auf der Basis des neuen Prozesses, der in der Datenverarbeitungsvorrichtung 10 ausgeführt wird, auszuführen, und auf der Basis eines Lernergebnisses davon das Phrasenextraktionskennzeichen- (IOB2-Identifizierungskennzeichen-) Schätzungsmodell [Daten, die Morpheme (Notation, Teil der Sprache) und Kennzeichen (IOB2-Identifizierungskennzeichen) statistisch zuordnen] 162d, das in der Speichereinheit 160 gespeichert ist, der Reihe nach aktualisiert wird.
  • (Schritt S203)
  • Zurück zu dem in 13 dargestellten Ablauf wird die Beschreibung der Verarbeitungsabfolge, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (B1-Verarbeitungseinheit) 141b1 ausgeführt wird, fortgesetzt.
  • In Schritt S202 wird, wenn das Einstellen des Phrasenextraktionskennzeichens (IOB2-Identifizierungskennzeichens) für jedes Morphem (Notation, Teil der Sprache) des Anwenderäußerungstexts, das in Schritt S201 klassifiziert ist, fertiggestellt ist, als Nächstes ein Prozess des Schritts S203 ausgeführt.
  • In Schritt S203 extrahiert die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 eine Phrase, die die Startposition oder Endposition der Teiläußerungswiederholung angibt, aus der Anwenderäußerung unter Verwendung von in Schritt S202 erzeugten Daten, das heißt eines Schätzergebnisses des Phrasenextraktionskennzeichens (IOB2-Identifizierungskennzeichens) für jedes Morphem des Anwenderäußerungstexts.
  • In dem mit Bezug auf 14 beschriebenen Fall (Beispiel 1) werden in Reaktion auf diese Anwenderäußerung
    Anwenderäußerung = Was hast du nach schlage das Ei gesagt
    in dem Kennzeichen- (IOB2-Identifizierungskennzeichen-) Einstellprozess für jedes Morphem in Schritt S202 die Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen)
    Morphem = „Ei“, Kennzeichen (IOB2-Identifizierungskennzeichen) = [B-START],
    Morphem = „wo, schlage, te“, Kennzeichen (IOB2-Identifizierungskennzeichen) = [I-START],
    eingestellt.
    In Schritt S203 wird gemäß dieser Kennzeicheneinstellung
    Phrase = „Schlage das Ei“ als eine Phrase extrahiert, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt.
  • Darüber hinaus werden in dem Fall von (Beispiel 2), der mit Bezug auf 14 beschrieben ist,
    in Reaktion auf diese Anwenderäußerung
    Anwenderäußerung = Was hast du vor streue Salz und Pfeffer gesagt
    in dem Kennzeichen- (IOB2-Identifizierungskennzeichen-) Einstellprozess für jedes Morphem in Schritt S202 die Phrasenextraktionskennzeichen (IOB2-Identifizierungskennzeichen)
    Morphem = „Salz“, Kennzeichen (IOB2-Identifizierungskennzeichen) = [B-END]
    Morphem = „streue, Salz, und, Pfeffer“, Kennzeichen (IOB2-Identifizierungskennzeichen) = [I-END]
    eingestellt.
    In Schritt S203 wird gemäß dieser Kennzeicheneinstellung wird
    Phrase = „streue Salz und Pfeffer“ als eine Phrase extrahiert, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt.
  • (Schritt S204)
  • In Schritt S203, wenn der Prozess zum Extrahieren der Phrase aus der Anwenderäußerung, die die Startposition oder Endposition der Teiläußerungswiederholungseinheit, die aus der Systemäußerung zu extrahieren ist, angibt, fertiggestellt ist, führt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1 einen Prozess des Schritts S204 aus.
  • In Schritt S204 bestimmt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit)141b1, ob die aus der Anwenderäußerung extrahierte Phrase, die in Schritt S203 extrahiert wurde, eine Phrase ist, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, oder eine Phrase ist, die die Endposition davon angibt.
  • In einem Fall, in dem die Phrase, die aus der Anwenderäußerung extrahiert ist, eine Phrase ist, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, fährt der Prozess zu Schritt S205 fort.
    Andererseits fährt der Prozess in einem Fall, in dem die Phrase, die aus der Anwenderäußerung extrahiert ist, eine Phrase ist, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, zu Schritt S206 fort.
  • (Schritt S205)
  • In einem Fall, in dem in Schritt S204 bestimmt wird, dass die Phrase, die aus der Anwenderäußerung extrahiert ist, eine Phrase ist, die die Startposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, wird ein Prozess von Schritt S205 ausgeführt.
  • In Schritt S205 wählt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit)141b1 eine Zeichenkette in einem hinteren Abschnitt der gleichen Phrase wie der ausgewählten Phrase aus der Systemäußerung unmittelbar vor der Anwenderäußerung aus und extrahiert ihn und erzeugt eine Systemantwort.
  • (Schritt S206)
  • Andererseits wird in Schritt S204 in einem Fall, in dem bestimmt wird, dass die Phrase, die aus der Anwenderäußerung extrahiert ist, eine Phrase ist, die die Endposition der Teiläußerungswiederholung, die aus der Systemäußerung auszuwählen ist, angibt, ein Prozess von Schritt S206 ausgeführt.
  • In Schritt S206 wählt die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit)141b1 eine Zeichenkette in einem vorderen Abschnitt der gleichen Phrase wie der ausgewählten Phrase aus der Systemäußerung unmittelbar vor der Anwenderäußerung aus und extrahiert ihn und erzeugt eine Systemantwort.
  • Es wird darauf hingewiesen, dass es in dem Systemantworterzeugungsprozess der Schritte S205, S206 vorzuziehen ist, einen Prozess zum Formatieren der extrahierten Wörter und Phrasen als einen Satz auszuführen. Beispielsweise wird „desu“ oder „masu“ zum Ende der Phrase hinzugefügt. Es ist vorzuziehen, einen Prozess so auszuführen, dass in einem Fall, in das Wort am Ende der Phrase eine Adjektivkonjugation oder ein Substantiv ist, „desu“ hinzugefügt wird, und in einem Fall, in dem es eine Verbkonjugation ist, „masu“ nach dem Modifizieren des Verbs in eine Verlaufsform hinzugefügt wird.
  • Wie vorstehend beschrieben erzeugt in der Anwenderäußerungstypbestimmungseinheit 122 in einem Fall, in dem die Anwenderäußerung vom Äußerungstyp B1 ist, das heißt
    (B1) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer Äußerungsposition der Systemäußerung anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Position)
    in einem Fall, in dem die Anwenderäußerung als vom vorstehend beschriebenen Typ B1 bestimmt ist, die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit)141b1 eine Systemantwort.
  • Die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1, die eine Systemäußerung (Antwort) erzeugt, spezifiziert einen Äußerungswiederholungsausführungsteil gemäß einer Phrase, die in der Anwenderäußerung enthalten ist, aus der Systemäußerung, die unmittelbar vor der Systemäußerung ausgeführt wurde, und erzeugt Systemäußerungswiederholungsdaten durch Auswählen des spezifizierten Äußerungswiederholungsausführungsteils.
  • Es wird darauf hingewiesen, dass in einem Fall, in dem die Systemäußerung unmittelbar vor der Anwenderäußerung wie folgt ist
    Systemäußerung = „Schlage 3 Eier auf und gib sie in eine Schüssel. Schlage die Eier und bestreue sie mit Salz und Pfeffer. Erhitze die Butter über einem Feuer. ‟
    In einem Fall, der wie vorstehend beschrieben mehrere Sätze enthält, kann die Äußerung dadurch in Sätze unterteilt werden, dass sie durch ein Satzzeichen „.“ getrennt werden, und vom Anfang des Satzes bis vor die Phrase, die die Endposition angibt, oder von dem Ende der Phrase, die die Startposition angibt, zum Ende des Satzes kann ausgegeben werden. Auf diese Weise ist es möglich, die Ausgabe einer langen Kette über Sätze wie z. B. „Schlage 3 Eier auf und gibt sie in eine Schüssel. Schlage die Eier“ oder „Streue Salz und Pfeffer. Erhitze die Butter über einem Feuer.“ zu verhindern
  • Darüber kann hinaus in einem Fall, in dem keine Zeichenkette, die mit der Phrase, die aus der Anwenderäußerung extrahiert wird, die die Startposition oder Endposition der Teiläußerungswiederholung angibt, genau übereinstimmt, in der Systemäußerung unmittelbar vor der Anwenderäußerung gefunden wird, eine andere Phrase, die konzeptionell ähnlich der aus der Anwenderäußerung extrahierten Phrase ist, als eine entsprechende Phrase aus der Systemäußerung ausgewählt werden.
  • Beispielsweise ist angenommen, dass die folgenden Systemäußerungen und Anwenderäußerung ausgeführt werden.
    Systemäußerung = Zuerst schlage das Ei und streue Salz und Pfeffer. Als Nächstes erhitze die Eimischung über einem Feuer unter Rühren.
    Anwenderäußerung = Was hast du nach mische das Ei gesagt
  • Zu dieser Zeit wird eine Phrase, die aus der Anwenderäußerung extrahiert wird, das heißt „mische das Ei“ als eine Phrase, die die Startposition der Teiläußerungswiederholung angibt, extrahiert.
    Jedoch sind keine Phrasen, die mit dieser Phrase übereinstimmen, in der Systemäußerung enthalten. In einem solchen Fall wird der Ausdruck „mische das Ei“, der konzeptionell ähnlich zu „schlage das Ei“ ist, aus der Systemäußerung als entsprechende Phrase ausgewählt.
    Danach wird die Teilkette „streue Salz und Pfeffer“ nach „schlage das Ei“ in der Systemäußerung extrahiert, und die Systemäußerung basierend auf diesen extrahierten Daten wird erzeugt und ausgegeben.
  • Als der Bestimmungsprozess dafür, ob Ausdrücke konzeptionell ähnlich sind oder nicht, kann beispielsweise ein Verfahren unter Verwendung eines Wörterbuchs, das ähnliche Ausdrücke zusammenfasst, ein Verfahren basierend auf Wortverteilungsähnlichkeit (ein Verfahren, das annimmt, das Ausdrücke, die ähnliche Verteilungen peripherer Wörter aufweisen, einander paraphrasieren können) oder dergleichen angewandt werden.
  • [Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ B2 ist, erzeugt, ausgeführt wird]
  • Als Nächstes wird der Prozess, der durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2, die die Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung der Typ B2 ist, ausgeführt wird, beschrieben.
  • In der Anwenderäußerungstypbestimmungseinheit 122 in einem Fall, in dem die Anwenderäußerung vom Äußerungstyp B2 ist, das heißt
    (B2) Anwenderäußerung, die einen Systemäußerungsteil als ein Äußerungswiederholungsanforderungsziel durch Spezifizieren einer zeitlichen Vor-nach-Beziehung des Systemäußerungsinhalts anfordert (Teiläußerungswiederholungsanforderung für eine spezifizierte Zeitreihe)
    erzeugt in einem Fall, in dem die Anwenderäußerung als vom vorstehend beschriebenen Typ B2 bestimmt ist, die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 eine Systemantwort.
  • Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2, die die Systemäußerung (Antwort) erzeugt, spezifiziert einen Äußerungswiederholungsausführungsteil gemäß Zeitreihenspezifikationsinformationen, die in der Anwenderäußerung enthalten sind, aus der Systemäußerung, die unmittelbar vor der Systemäußerung ausgeführt wurde, und erzeugt Systemäußerungswiederholungsdaten durch Auswählen des identifizierten
    Äußerungswiederholungsausführungsteils.
    Es wird darauf hingewiesen, dass sich die Zeitreihenspezifikationsinformationen auf zwei Informationseinheiten beziehen, ein Ereignis als eine Zeitreihenreferenz (hier nachstehend ein Referenzereignis) und ob eine Sache, die der Anwender wissen möchte, in der Vergangenheit oder der Zukunft des Referenzereignisses ist (hier nachstehend die Zeitreihenrichtung). Darüber hinaus bezieht sich das Ereignis auf einen Vorgang, und eine Gruppe aus einem Prädikat (Prädikatteil ist ebenfalls möglich) und seinem Satz (Subjekt, Objekt oder dergleichen), wie z. B. „Der Premierminister aß zu Abend“, wird als eine Einheit betrachtet.
  • Ein Beispiel der Eingabe-Ausgabe-Daten der Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 wird nachstehend als ein Beispiel für eine Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ausgeführt wird, beschrieben.
  • (Verarbeitungsbeispiel 1)
  • Eingabedaten
  • Die Eingabedaten sind eine Systemäußerung unmittelbar vor einer Anwenderäußerung und die Anwenderäußerung. Beispielsweise sind es die folgende Systemäußerung und Anwenderäußerung.
    Systemäußerung = Schlage das Ei und streue Salz und Pfeffer
    Anwenderäußerung = Was ist nach dem Schlagen des Eis zu tun
    In diesen Dateneinheiten wird die Systemäußerung aus der Speichereinheit 160 erfasst, und die Anwenderäußerung wird aus der Spracherkennungseinheit 121 erfasst.
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 einen Äußerungswiederholungsausführungsteil gemäß den Zeitreihenspezifikationsinformationen, die in der Anwenderäußerung enthalten sind, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Bitte streue Salz und Pfeffer
  • Ein weiteres Beispiel für die Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ausgeführt wird, wird nachstehend beschrieben.
  • (Verarbeitungsbeispiel 2)
  • Eingabedaten
  • Systemäußerung = Es findet eine Sitzung um 13:00 und ein geselliges Beisammensein um 19:00 statt
    Anwenderäußerung = Was ist vor dem geselligen Beisammensein
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 einen Äußerungswiederholungsausführungsteil gemäß den Zeitreihenspezifikationsinformationen, die in der Anwenderäußerung enthalten sind, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Es findet eine Sitzung um 13:00 statt
  • Ein weiteres Beispiel für die Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ausgeführt wird, wird nachstehend beschrieben.
  • (Verarbeitungsbeispiel 3)
  • Eingabedaten
  • Systemäußerung = Der Premierminister wird an der Sitzung teilnehmen und dann mit dem Vorstand zu Abend essen
    Anwenderäußerung = Was macht der Premierminister vor dem Abendessen
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 einen Äußerungswiederholungsausführungsteil gemäß den Zeitreihenspezifikationsinformationen, die in der Anwenderäußerung enthalten sind, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Der Premierminister wird an der Sitzung teilnehmen
  • Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 spezifiziert einen Äußerungswiederholungsausführungsteil gemäß den Zeitreihenspezifikationsinformationen, die in der Anwenderäußerung enthalten sind, wählt einen spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten.
  • Insbesondere werden ein Prozess zum Extrahieren eines Ereignisses als eine Zeitreihenreferenz (nachstehend ein Referenzereignis) aus einem Spracherkennungstext einer Anwenderäußerung und ob eine Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis) in der Vergangenheit oder der Zukunft des Referenzereignisses ist (nachstehend eine Zeitreihenrichtung) analysiert, ein Äußerungswiederholungsanforderungsereignis wird aus der Systemäußerung auf der Basis eines Analyseergebnisses davon ausgewählt, und Systemäußerungswiederholungsdaten, die das ausgewählte Äußerungswiederholungsanforderungsereignis aufweisen, werden erzeugt.
  • Für jedes des vorstehenden (Verarbeitungsbeispiele 1 bis 3) werden Analyseverarbeitung des Referenzereignisses und Zeitreihenrichtung (Vergangenheit/Zukunft), die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ausgeführt wird, und ein Auswahlverarbeitungsbeispiel eines Äußerungswiederholungsanforderungsereignisses basierend auf einem Analyseergebnis beschrieben.
  • (Verarbeitungsbeispiel 1)
  • Systemäußerung = Schlage das Ei und streue Salz und Pfeffer
    Anwenderäußerung = Was ist nach dem Schlagen des Eis zu tun
    Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 erfasst das folgende Referenzereignis und die Zeitreihenrichtung (Vergangenheit/Zukunft) durch Analysieren der Systemäußerung und der Anwenderäußerung.
    Referenzereignis = „Schlagen des Eis“
    Zeitreihenrichtung = „Zukunft“
  • Außerdem wählt die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ein Ereignis in der Zukunft ab dem Referenzereignis, das in der Systemäußerung enthalten ist, als ein Äußerungswiederholungsanforderungsereignis auf der Basis des Referenzereignisses und der Zeitreihenrichtung (Zukunft), die vorstehend beschrieben sind, aus.
    Äußerungswiederholungsanforderungsereignis = Streue Salz und Pfeffer
    Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 erzeugt Systemäußerungswiederholungsdaten, die das vorstehend beschriebene Äußerungswiederholungsanforderungsereignis aufweisen.
  • (Verarbeitungsbeispiel 2)
  • Systemäußerung = Es findet eine Sitzung um 13:00 und ein geselliges Beisammensein um 19:00 statt
    Anwenderäußerung = Was ist vor dem geselligen Beisammensein
    Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 erfasst das folgende Referenzereignis und die Zeitreihenrichtung (Vergangenheit/Zukunft) durch Analysieren der Systemäußerung und der Anwenderäußerung.
    Referenzereignis = „geselliges Beisammensein“
    Zeitreihenrichtung = „Vergangenheit“
  • Außerdem wählt die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ein Ereignis in der Vergangenheit des Referenzereignisses, das in der Systemäußerung enthalten ist, als ein Äußerungswiederholungsanforderungsereignis auf der Basis des Referenzereignisses und der Zeitreihenrichtung (Vergangenheit), die vorstehend beschrieben sind, aus.
    Äußerungswiederholungsanforderungsereignis = Sitzung um 13:00
    Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 erzeugt Systemäußerungswiederholungsdaten, die das vorstehend beschriebene Äußerungswiederholungsanforderungsereignis aufweisen.
  • (Verarbeitungsbeispiel 3)
  • Systemäußerung = Der Premierminister wird an der Sitzung teilnehmen und dann mit dem Vorstand zu Abend essen
    Anwenderäußerung = Was macht der Premierminister vor dem Abendessen
    Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 erfasst das folgende Referenzereignis und die Zeitreihenrichtung (Vergangenheit/Zukunft) durch Analysieren der Systemäußerung und der Anwenderäußerung.
    Referenzereignis = „Der Premierminister isst zu Abend‟
    Zeitreihenrichtung = „Vergangenheit“
  • Außerdem wählt die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ein Ereignis in der Vergangenheit des Referenzereignisses, das in der Systemäußerung enthalten ist, als ein Äußerungswiederholungsanforderungsereignis auf der Basis des Referenzereignisses und der Zeitreihenrichtung (Vergangenheit), die vorstehend beschrieben sind, aus.
    Äußerungswiederholungsanforderungsereignis = Der Premierminister wird an der Sitzung teilnehmen
    Die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 erzeugt Systemäußerungswiederholungsdaten, die das vorstehend beschriebene Äußerungswiederholungsanforderungsereignis aufweisen.
  • Wie vorstehend beschrieben erfasst die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 einen Prozess zum Extrahieren eines Referenzereignisses als eine Zeitreihenreferenz aus dem Anwenderäußerungstext und eine Zeitreihenrichtung, die angibt, ob eine Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis) in der Vergangenheit oder der Zukunft des Referenzereignisses ist. Außerdem wird das Äußerungswiederholungsanforderungsereignis aus der Systemäußerung ausgewählt, und Systemäußerungswiederholungsdaten, die das ausgewählte Äußerungswiederholungsanforderungsereignis aufweisen, werden erzeugt.
  • Es wird darauf hingewiesen, dass ein Phrasenextraktionsprozess, der das Referenzereignis aus der Anwenderäußerung angibt, durch einen Prozess ähnlich dem Phrasenextraktionsprozess, der die Startposition oder Endposition einer Teiläußerungswiederholung angibt, der durch die Teiläußerungswiederholungseinheit für eine spezifizierte Position (Typ-B1-Verarbeitungseinheit) 141b1, die vorher beschrieben ist, ausgeführt werden kann.
  • Das heißt, es ist möglich, den Phrasenextraktionsprozess, der ein Kennzeichen (IOB2-Identifizierungskennzeichen) für jedes Morphem (Notation, Teil der Sprache) unter Verwendung des Schätzungsmodells, das im Voraus erzeugt ist, schätzt und das Referenzereignis angibt, auszuführen.
    Es wird darauf hingewiesen, das in einem Fall, in dem ein Konjugationswort, das nicht in einer Grundform ist, wie z. B. „schlagend“, in der Phrase enthalten ist, die das Referenzereignis angibt, dieses in eine Grundform (in diesem Fall „schlagen“) umgesetzt werden kann.
  • Aus der Zeitreihenrichtung sind zwei Wahlmöglichkeiten vorhanden, „Vergangenheit“ oder „Zukunft“. Das Schätzen in der Zeitreihenrichtung kann auf der Basis eines manuell erzeugten Wörterbuchs (Daten, die Wörter der Unterscheidung von Vergangenheit oder Zukunft zuordnen, wie z. B. Vergangenheit für „vor“ und Zukunft für „nach“) ausgeführt werden, oder es kann irgendeine Maschinenlerntechnik verwendet werden.
  • Ein Verfahren zum Extrahieren des Äußerungswiederholungsanforderungsereignisses, das sich in der Vergangenheit oder der Zukunft des Referenzereignisses befindet, aus der Systemäußerung hängt von der Struktur einer Informationsquelle ab, die zur Erzeugung der Systemäußerung angewandt wird.
    Das heißt, der Prozess unterscheidet zwischen einem Fall, in dem die Informationsquelle, die auf die Erzeugung der Systemäußerung angewandt wird, von einer Struktur ist, die klare Zeitreihenereignisse aufweist, und einem Fall einer Struktur, in der es unklar ist.
  • Ein Beispiel einer Datenstruktur der Informationsquelle, die auf die Erzeugung der Systemäußerung angewandt wird, wird mit Bezug auf 16 beschrieben.
    Die Informationsquelle ist ein Rezeptinformationsbereitstellungsserver, ein Nachrichteninformationsbereitstellungsserver oder dergleichen, der durch die Datenverarbeitungsvorrichtung 10 erfasst wird. Verschiedene Informationen sind in einer Datenbank in diesen Informationsbereitstellungsservern aufgezeichnet. In der Datenbank aufgezeichnete Daten weisen verschiedene unterschiedliche Strukturen in jedem Server auf. Beispielsweise gibt es die folgenden drei Typen von Datenstrukturen (A) bis (C), wie in 16 dargestellt.
    • (A) Struktur, in der die zeitliche Reihenfolge, in der Ereignisse stattfinden (oder stattgefunden haben) definiert ist.
    • (B) Struktur, in der nur ein Teil der zeitlichen Reihenfolge, in der Ereignisse stattfinden (oder stattgefunden haben) definiert ist.
    • (C) Struktur, in der die zeitliche Reihenfolge, in der Ereignisse stattfinden (oder stattgefunden haben) nicht definiert ist.
  • In einem Fall, in dem die Informationsquellendaten Daten sind, deren zeitliche Reihenfolge für jedes Ereignis definiert ist, wie in 16(A) dargestellt, ist die zeitliche Reihenfolge zwischen einem Referenzereignis und anderen Ereignissen klar, und es ist möglich, ein Ereignis auszuwählen, das in der Vergangenheit oder in der Zukunft des Referenzereignisses ist.
  • Es wird darauf hingewiesen, dass in einem Fall, in dem keine Phrase, die mit einer Phrase, die dem Referenzereignis entspricht, die aus der Anwenderäußerung extrahiert ist, genau übereinstimmt, in der Systemäußerung (= Informationsquellendaten) gefunden wird, ein Prozess zum Auswählen einer Phrase, die einen anderen Ausdruck, der konzeptionell ähnlich der Phrase des Referenzereignisses ist, aufweist, ausgeführt wird.
    Als der Bestimmungsprozess dafür, ob Ausdrücke konzeptionell ähnlich sind oder nicht, kann beispielsweise ein Verfahren unter Verwendung eines Wörterbuchs, das ähnliche Ausdrücke zusammenfasst, ein Verfahren basierend auf Wortverteilungsähnlichkeit (ein Verfahren, das annimmt, das Ausdrücke, die ähnliche Verteilungen peripherer Wörter aufweisen, einander paraphrasieren können) oder dergleichen angewandt werden.
  • Außerdem analysiert in einem Fall, in dem die Informationsquellendaten Ereignisse beinhalten, deren chronologische Reihenfolge unklar ist, wie in den 16(B) und 16(C) dargestellt, die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 die Informationsquellendaten und unterteilt sie in individuelle Ereignisse und schätzt die zeitliche Reihenfolge jedes Ereignisses.
    Beispielsweise unterteilt die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 mehrere Phrasen, deren zeitliche Reihenfolge unklar ist, auf der Basis des Satzzeichens „.“ und des Konjunktionspartikels „te“ oder dergleichen und führt einen Prozess zum Einstellen der zeitlichen Reihenfolge ab einer vorhergehenden Phrase in der Reihenfolge aus. Ein Ergebnis davon wird verwendet, um vergangene oder zukünftige Ereignisse des Referenzereignisses auszuwählen.
  • Die Abfolge der Verarbeitung, die durch die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ausgeführt wird, wird mit Bezug auf einen in 17 dargestellten Ablaufplan beschrieben.
    Nachstehend werden der Reihe nach Prozesse entsprechender Schritte des in 17 dargestellten Ablaufs beschrieben.
  • (Schritt S301)
  • Zuerst führt in Schritt S301 die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 eine morphologische Analyse eines zu analysierenden Anwenderäußerungstext, der aus der Spracherkennungseinheit 121 eingegeben wurde, aus und unterteilt den Anwenderäußerungstext in Morphem-(Notation/Teil der Sprache) Einheiten.
  • (Schritt S302)
  • Als Nächstes wird in Schritt S302 ein Phrasenextraktionskennzeichen für jedes der Morpheme des Anwenderäußerungstexts, die in Schritt S301 klassifiziert wurden, eingestellt.
    Dieser Prozess ist der vorstehend mit Bezug auf 14 beschriebene Prozess. Das heißt, es wird beispielsweise ein IOB2-Identifizierungskennzeichen als ein Phrasenextraktionskennzeichen eingestellt.
  • (Schritt S303)
  • In Schritt S302 wird, wenn das Einstellen des Phrasenextraktionskennzeichens (IOB2-Identifizierungskennzeichens) für jedes der Morpheme des Anwenderäußerungstexts, der in Schritt S301 aufgeteilt wurde, fertiggestellt ist, als Nächstes ein Prozess von Schritt S303 ausgeführt.
  • In Schritt S303 extrahiert die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 ein Ereignis als eine Zeitreihenreferenz (Referenzereignis) aus der Anwenderäußerung unter Verwendung von Daten, die in Schritt S302 erzeugt wurden, das heißt eines Schätzergebnisses des Phrasenextraktionskennzeichens (IOB2-Identifizierungskennzeichens) für jedes Morphem des Anwenderäußerungstexts.
  • (Schritte S304 bis S305)
  • In Schritt S303 bestimmt nach dem Extrahieren eines Ereignisses als eine Zeitreihenreferenz (Referenzereignis) aus der Anwenderäußerung die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2, ob eine Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis) in der Vergangenheit oder der Zukunft des Referenzereignisses ist, in den Schritten S304 bis S305.
  • In einem Fall, in dem bestimmt wird, dass die Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis), in der Vergangenheit des Referenzereignisses ist, fährt der Prozess zu Schritt S306 fort.
    Andererseits fährt der Prozess in einem Fall, in dem bestimmt wird, dass die Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis), in der Vergangenheit des Referenzereignisses ist, zu Schritt S307 fort.
  • (Schritt S306)
  • In einem Fall, in dem in den Schritten S304 bis S305 bestimmt wird, dass die Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis), in der Vergangenheit des Referenzereignisses ist, fährt der Prozess zu Schritt S306 fort.
    In Schritt S306 extrahiert die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 aus der Systemäußerung eine Zeichenkette (Phrase), die mit einer Phrase, die dem aus der Anwenderäußerung extrahierten Referenzereignis entspricht, übereinstimmt, und wählt ferner ein Ereignis aus, das sich in der Vergangenheit eines (unmittelbar vorhergehenden) Ereignisses, das der Phrase entspricht, als das Äußerungswiederholungsanforderungsereignis aus.
  • (Schritt S307)
  • Andererseits fährt der Prozess in einem Fall, in dem in den Schritten S304 bis S305 bestimmt wird, dass die Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis), in der Vergangenheit des Referenzereignisses ist, zu Schritt S307 fort.
    In Schritt S307 extrahiert die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 aus der Systemäußerung eine Zeichenkette (Phrase), die mit der Phrase, die dem aus der Anwenderäußerung extrahierten Referenzereignis entspricht, übereinstimmt, und wählt ferner ein Ereignis aus, das sich in der Zukunft des (unmittelbar nach dem) Ereignisses, das der Phrase entspricht, als das Äußerungswiederholungsanforderungsereignis aus.
  • (Schritt S308)
  • Schließlich erzeugt die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 eine Systemantwort in Schritt S308 unter Verwendung des in Schritt S306 oder Schritt S307 ausgewählten Äußerungswiederholungsanforderungsereignisses.
  • Es wird darauf hingewiesen, dass es in dem Systemantworterzeugungsprozess vorzuziehen ist, einen Prozess zum Formatieren der extrahierten Wörter und Phrasen als einen Satz auszuführen. Beispielsweise wird „desu“ oder „masu“ zum Ende der Phrase hinzugefügt. Es ist vorzuziehen, einen Prozess so auszuführen, dass in einem Fall, in das Wort am Ende der Phrase eine Adjektivkonjugation oder ein Substantiv ist, „desu“ hinzugefügt wird, und in einem Fall, in dem es eine Verbkonjugation ist, „masu“ nach dem Modifizieren des Verbs in eine Verlaufsform hinzugefügt wird.
  • Auf diese Weise erfasst die Teiläußerungswiederholungseinheit für eine spezifizierte Zeitreihe (Typ-B2-Verarbeitungseinheit) 141b2 einen Prozess zum Extrahieren eines Referenzereignisses, das als eine Zeitreihenreferenz dient, aus dem Anwenderäußerungstext und eine Zeitreihenrichtung, die angibt, ob eine Sache, die der Anwender wissen möchte (Äußerungswiederholungsanforderungsereignis) in der Vergangenheit oder der Zukunft des Referenzereignisses ist. Außerdem wird das Äußerungswiederholungsanforderungsereignis aus der Systemäußerung ausgewählt, und
    Systemäußerungswiederholungsdaten, die das ausgewählte Äußerungswiederholungsanforderungsereignis aufweisen, werden erzeugt.
  • [Verarbeitung, die durch die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ B3 ist, erzeugt, ausgeführt wird]
  • Als Nächstes wird die Verarbeitung, die durch die Lokalfragenteiläußerungswiederholungseinheit(Typ-B3-Verarbeitungseinheit) 141b3 ausgeführt wird, die eine Systemäußerung (Antwort) in einem Fall, in dem der Äußerungstyp der Anwenderäußerung der Typ B3 ist, erzeugt, beschrieben.
  • In der Anwenderäußerungstypbestimmungseinheit 122 erzeugt in einem Fall, in dem die Anwenderäußerung vom Äußerungstyp B3 ist, das heißt
    (B3) Andere Anwenderäußerung, die eine Teiläußerungswiederholung anfordert (Lokalfragenteiläußerungswiederholungsanforderung)
    in einem Fall, in dem die Anwenderäußerung als vom vorstehend beschriebenen Typ B3 bestimmt ist, die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit) 141b3 eine Systemantwort.
  • Dieser Typ (B3) ist eine Anwenderäußerung, die die Äußerungspositionsspezifikation wie Typ (B1) oder Zeitreihenspezifikation wie Typ (B2) nicht aufweist, sondern eine Anwenderäußerung ist, die eine Äußerungswiederholung eines Teils von Phrasen, die in der vorhergehenden Systemäußerung bereits geäußert worden sind, anfordert.
  • Die Lokalfragenteiläußerungswiederholungseinheit(Typ-B3-Verarbeitungseinheit) 141b3, die die Systemäußerung (Antwort) erzeugt, spezifiziert einen Äußerungswiederholungsausführungsteil gemäß Informationen, die in einer Anwenderäußerung enthalten sind, aus einer Systemäußerung, die unmittelbar vor der Systemäußerung ausgeführt wurde, und erzeugt Systemäußerungswiederholungsdaten durch Auswählen des spezifizierten Äußerungswiederholungsausführungsteils.
  • Ein Beispiel für Eingabe-Ausgabe-Daten der Lokalfragenteiläußerungswiederholungseinheit(Typ-B3-Verarbeitungseinheit) 141b3 wird nachstehend als ein Beispiel für eine Verarbeitung, die durch die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit) 141b3 ausgeführt wird, beschrieben.
  • (Verarbeitungsbeispiel 1)
  • Eingabedaten
  • Die Eingabedaten sind eine Systemäußerung unmittelbar vor einer Anwenderäußerung und die Anwenderäußerung. Beispielsweise sind es die folgende Systemäußerung und Anwenderäußerung.
    Systemäußerung = Für dich sind Treffen mit Hr. Suzuki in dieser Woche und Hr. Sato in der nächsten Woche geplant
    Anwenderäußerung = Wen werde ich in der nächsten Woche treffen
    In diesen Dateneinheiten wird die Systemäußerung aus der Speichereinheit 160 erfasst, und die Anwenderäußerung wird aus der Spracherkennungseinheit 121 erfasst.
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit) 141b3 einen Äußerungswiederholungsausführungsteil gemäß Informationen, die in einer Anwenderäußerung enthalten sind, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Es ist Hr. Sato
  • Ein weiteres Beispiel der Verarbeitung, die durch die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit) 141b3 ausgeführt wird, wird nachstehend beschrieben.
  • (Verarbeitungsbeispiel 2)
  • Eingabedaten
  • Systemäußerung = Erhitze die Eimischung über einem Feuer unter Rühren
    Anwenderäußerung = Was ist zu rühren
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten spezifiziert die Lokalfragenteiläußerungswiederholungseinheit (Typ-B3-Verarbeitungseinheit) 141b3 einen Äußerungswiederholungsausführungsteil gemäß Informationen, die in einer Anwenderäußerung enthalten sind, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Die Eimischung
  • Die Lokalfragenteiläußerungswiederholungsanforderung (Typ-B3-Verarbeitungseinheit) 141b3 spezifiziert einen Äußerungswiederholungsausführungsteil gemäß Informationen, die in der Anwenderäußerung enthalten sind, wählt den spezifizierten Äußerungswiederholungsausführungsteil aus und erzeugt Systemäußerungswiederholungsdaten.
  • Insbesondere wird als Erstes eine Phrase, die eine Antwort auf die Anwenderäußerung ist, aus der Systemäußerung unmittelbar vor der Anwenderäußerung extrahiert.
    Als Nächstes wird die extrahierte Phrase formatiert und als ein Satz ausgegeben.
  • Beispielsweise in dem vorstehenden (Verarbeitungsbeispiel 1)
  • Systemäußerung = Für dich sind Treffen mit Hr. Suzuki in dieser Woche und Hr. Sato in der nächsten Woche geplant
    Anwenderäußerung = Wen werde ich in der nächsten Woche treffen
    Als ein Verfahren zum Erhalten einer Phrase, die eine Antwort auf diese Anwenderäußerung ist, ist es nur erforderlich, ein Wort oder eine Wortkette, die als eine Antwort geeignet ist, aus der Systemäußerung gemäß dem Fragentyp (wer, wo, wann) zu extrahieren.
  • In dem Fall des vorstehend beschriebenen (Verarbeitungsbeispiel 1) gibt es jedoch mehrere Antwortkandidaten (Personennamen) für „wer“ in der Systemäußerung unmittelbar davor (Hr. Suzuki, Hr. Sato). In einem Fall, in dem mehrere Antwortkandidaten auf diese Weise vorhanden sind, wird beispielsweise der Abstand zu einem Wort, das in der Anwenderäußerung enthalten ist, (wie viele Worte getrennt sind) analysiert, und eine Bewertung, die höher wird, wenn der Abstand kleiner wird, wird berechnet. Außerdem wird der Kandidat mit der höchsten Bewertung ausgewählt.
    In dem vorstehend beschriebenen (Verarbeitungsbeispiel 1) ist in der Systemäußerung unmittelbar vor der Anwenderäußerung „Hr. Sato“ an einer Position näher an dem Wort „nächsten Woche“, das in der Anwenderäußerung enthalten ist, als „Hr. Suzuki“, und somit wird „Hr. Sato“ als ein in der Wiederholung zu äußerndes Wort ausgewählt.
  • Darüber hinaus ist es in dem vorstehend beschriebenen (Verarbeitungsbeispiels 2)
    Systemäußerung = Erhitze die Eimischung über einem Feuer unter Rühren
    Anwenderäußerung = Was ist zu rühren
    notwendig, eine Phrase zu erfassen, die eine Antwort auf „was“ in der vorstehend beschriebenen Anwenderäußerung ist.
  • In diesem Fall ist es nur erforderlich, Wörter, die keine Antwort durch andere Fragentypen (wer, wo, wann) (beispielsweise Substantive, die keine Personennamen, Ortsnamen und Daten und Zeiten sind) als Antwortkandidaten anzunehmen.
    In dem Fall des vorstehend beschriebenen (Verarbeitungsbeispiel 2) sind mehrere Antwortkandidaten (Substantive, die keine Personennamen, Ortsnamen, Daten und Zeiten sind) für „was“ in der Systemäußerung unmittelbar vor der Anwenderäußerung vorhanden (Eimischung, Feuer).
  • In einem Fall, in dem mehrere Antwortkandidaten auf diese Weise vorhanden sind, wie in der Beschreibung des (Verarbeitungsbeispiel 1) dargestellt, wird die Bewertung basierend auf dem Abstand von einem Wort, das in der Anwenderäußerung enthalten ist, berechnet, und ein Wort mit einer hohen Bewertung wird ausgewählt.
  • Alternativ kann eine Modifikationsbeziehungsanalyse der Systemäußerung unmittelbar vor der Anwenderäußerung ausgeführt werden, und ein Wort, das in einer Phrase enthalten ist, die in der Systemäußerung enthalten ist, die eine Modifikationsbeziehung mit einer Phrase, die ein Wort enthält, das in der Anwenderäußerung enthalten ist, aufweist, kann als ein Wort des Äußerungswiederholungskandidaten ausgewählt werden.
  • Beispielsweise weist die Phrase „Eimischung“ in einer Systemäußerung, die „Eimischung“ aufweist, eine Modifikationsbeziehung mit der Phrase „unter Rühren“, die das Wort „rühren“ aufweist, das in der Anwenderäußerung enthalten ist, auf, da jedoch für die Phrase „über einem Feuer“, die „Feuer“ aufweist, das nicht so ist, ist es möglich, eine Auswahl zu treffen, die der „Eimischung“ Priorität vor „Feuer“ als eine Antwortphrase für „was ist zu rühren“ erteilt.
  • [Verarbeitung, die durch die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit), die eine Systemäußerung (Antwort) in dem Fall, wenn der Äußerungstyp der Anwenderäußerung Typ C ist, erzeugt, ausgeführt wird]
  • Als Nächstes wird die Verarbeitung, die durch die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142, die eine Systemäußerung (Antwort) in dem Fall, in dem der Äußerungstyp der Anwenderäußerung der Typ C ist, erzeugt, ausgeführt wird, beschrieben.
  • In der Anwenderäußerungstypbestimmungseinheit 122 erzeugt in einem Fall, in dem die Anwenderäußerung vom Äußerungstyp C ist, das heißt
    (C) Anwenderäußerung, die nach allgemeinem Wissen fragt (globale Frage)
    in einem Fall, in dem die Anwenderäußerung als vom vorstehend beschriebenen Typ C bestimmt ist, die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 eine Systemantwort.
  • Dieser Typ C ist ein Typ der Anwenderäußerung, der eine allgemeine Frage aufweist, die keine Äußerungswiederholung einer Phrase, die bereits in der Systemäußerung unmittelbar vor der Anwenderäußerung geäußert wurde, erfordert.
  • Ein Beispiel für Eingabe-Ausgabe-Daten der Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 wird nachstehend als ein Beispiel für eine Verarbeitung, die durch die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 ausgeführt wird, beschrieben.
  • (Verarbeitungsbeispiel 1)
  • Eingabedaten
  • Die Eingabedaten sind eine Systemäußerung unmittelbar vor einer Anwenderäußerung und die Anwenderäußerung. Beispielsweise sind es die folgende Systemäußerung und Anwenderäußerung.
    Systemäußerung = Erhitze die Eimischung über einem Feuer unter Rühren
    Anwenderäußerung = Wo ist die Produktion von Eiern hoch?
    In diesen Dateneinheiten wird die Systemäußerung aus der Speichereinheit 160 erfasst, und die Anwenderäußerung wird aus der Spracherkennungseinheit 121 erfasst.
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten erfasst die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 eine Antwort, die der Frage, die in der Anwenderäußerung enthalten ist, entspricht und erzeugt Systemäußerungsdaten unter Verwendung der erfassten Antwort. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Das ist die Präfektur Ibaraki
  • Ein weiteres Beispiel der Verarbeitung, die durch die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 ausgeführt wird, wird nachstehend beschrieben.
  • (Verarbeitungsbeispiel 2)
  • Eingabedaten
  • Systemäußerung = Erhitze die Eimischung über einem Feuer unter Rühren
    Anwenderäußerung = Was ist Eimischung
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten erfasst die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 eine Antwort, die der Frage, die in der Anwenderäußerung enthalten ist, entspricht und erzeugt Systemäußerungsdaten unter Verwendung der erfassten Antwort. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Es ist Ei, das aus der Schale genommen ist, so dass es nur den Inhalt aufweist
  • Die Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit) 142 erfasst eine Antwort, die der Frage, die in der Anwenderäußerung enthalten ist, entspricht, und erzeugt Systemäußerungsdaten unter Verwendung der erfassten Antwort.
  • Beispielsweise werden als ein Verfahren zum Erfassen einer Phrase, die eine Antwort für das vorstehend beschriebene (Verarbeitungsbeispiel 1) ist, verschiedene externe Dokumentdatenbanken durchsucht, und ein Dokument (Artikel), das sich auf die Anwenderäußerung bezieht, wird extrahiert. Außerdem wird aus dem extrahierten Dokument gemäß dem Fragentyp (wer, wo, wann) ein passendes Wort als eine Antwort (ein Wort, das einen Personennamen für „wer“, einen Ort für „wo“ und ein Datum und Zeit für „wann“ angibt) extrahiert, und eine Systemantwort wird unter Verwendung der extrahierten Wörter erzeugt.
  • Darüber hinaus wird in einem Fall einer Frage, die nach der Definition eines Worts in einem Format wie z. B. „was ist <wort>“ fragt, wie in dem vorstehend beschriebenen (Verarbeitungsbeispiel 2), ein japanisches Wörterbuch durchsucht, um einen Definitionssatz für das <wort> zu finden, und eine Systemantwort wird unter Verwendung des erfassten Satzes erzeugt. Als das japanische Wörterbuch werden gespeicherte Wörterbuchdaten der Speichereinheit 160 oder gespeicherte Wörterbuchdaten eines externen Servers verwendet.
  • Es wird darauf hingewiesen, dass dann, wenn die extrahierten Wörter und Phrasen als ein Satz formatiert und ausgegeben werden, es beispielsweise nur erforderlich ist, „desu“ oder „masu“ am Ende der Phrase hinzuzufügen. In einem Fall, in dem das Wort am Ende der Phrase eine Adjektivkonjugation oder ein Substantiv ist, ist es nur erforderlich, „desu“ hinzuzufügen, und in einem Fall, in dem es eine Verbkonjugation ist, ist es nur erforderlich, nach dem Modifizieren des Verbs in eine Verlaufsform „masu“ hinzuzufügen.
  • [Verarbeitung, die durch die Aufgabenverarbeitungseinheit, die eine Systemäußerung (Antwort) in einem Fall erzeugt, in dem der Äußerungstyp der Anwenderäußerung keiner der Typen A bis C ist, ausgeführt wird]
  • Als Nächstes wird eine Verarbeitung, die durch die Aufgabenverarbeitungseinheit 143, die eine Systemäußerung (Antwort) in einem Fall, in dem der Äußerungstyp der Anwenderäußerung keiner aus den Typen A bis C ist, erzeugt, ausgeführt wird, beschrieben.
  • In der Anwenderäußerungstypbestimmungseinheit 122 erzeugt in einem Fall, in dem bestimmt wird, dass die Anwenderäußerung keiner der Äußerungstypen A bis C ist, die Aufgabenverarbeitungseinheit 143 eine Systemantwort.
    Das Erzeugen der Systemantwort durch die Aufgabenverarbeitungseinheit 143 ist ein Prozess in einem Fall, in dem die Äußerung keine Äußerungswiederholung der Systemäußerung, die unmittelbar vorher ausgeführt wird, erfordert, und insbesondere in einem Fall, in dem die Anwenderäußerung die Ausführung einer Aufgabe anfordert.
  • Beispielsweise Anwenderäußerungen wie z. B. „Sage mir die Wettervorhersage“ und „Sage mir den Plan für heute“. Diese sind keine Äußerungen, um eine Äußerungswiederholung der unmittelbar vor der Anwenderäußerung ausgeführten Systemäußerung anzufordern, sondern sind Äußerungen, in denen der Anwender die Datenverarbeitungsvorrichtung 10 auffordert, eine Aufgabe auszuführen.
  • Ein Beispiel für Eingabe-Ausgabe-Daten der Aufgabenverarbeitungseinheit 143 wird nachstehend als ein Beispiel für die Verarbeitung, die durch die Aufgabenverarbeitungseinheit 143 ausgeführt wird, beschrieben.
  • (Verarbeitungsbeispiel 1)
  • Eingabedaten
  • Die Eingabedaten sind eine Anwenderäußerung. Beispielsweise sind sie eine Anwenderäußerung wie folgt.
    Anwenderäußerung = Sage mir den Plan für heute
    Die Anwenderäußerung wird von der Spracherkennungseinheit 121 erfasst.
  • Ausgabedaten
  • Auf der Basis der vorstehend beschriebenen Eingabedaten analysiert die Aufgabenverarbeitungseinheit 143 die Anwenderäußerung und erzeugt Systemäußerungsdaten gemäß der Anforderung des Anwenders. Beispielsweise wird die folgende Systemäußerung als Ausgabedaten erzeugt.
    Systemäußerung = Es findet eine Sitzung um 13:00 und ein geselliges Beisammensein um 19:00 statt
  • Die Aufgabenverarbeitungseinheit 143 analysiert die Anwenderäußerung, führt eine Verarbeitung gemäß einer Anforderung (Aufgabe) des Anwenders aus, das heißt, führt eine Aufgabe aus, und erzeugt, falls erforderlich, Systemäußerungsdaten, die die Ausführung der Aufgabe begleiten.
  • 18 ist ein Ablaufplan, der eine Verarbeitungsabfolge, die durch die Aufgabenverarbeitungseinheit 143 ausgeführt wird, beschreibt. Prozesse der entsprechenden Schritte des in 18 dargestellten Ablaufs werden beschrieben.
  • (Schritt S321)
  • Zuerst gibt in Schritt S321 die Aufgabenverarbeitungseinheit 143 einen Anwenderäußerungstext aus der Spracherkennungseinheit 121 ein und bestimmt den Inhalt einer angeforderten Aufgabe des Anwenders auf der Basis des eingegebenen Anwenderäußerungstexts.
  • Beispielsweise wird der Typ der Aufgabe, die durch den Anwender angefordert ist, (Rezeptsuche, Überprüfung der Planung, Suche nach Nachrichten oder dergleichen) bestimmt.
  • (Schritt S322)
  • Als Nächstes führt in Schritt S322 die Aufgabenverarbeitungseinheit 143 eine Aufgabe gemäß dem Inhalt der Aufgabe, die in Schritt S321 analysiert wurde, aus.
  • Beispielsweise wird Rezeptsuche, Überprüfung der Planung, Suche nach Nachrichten oder dergleichen ausgeführt. Diese werden durch Bezugnahme auf Informationen, die von einem Rezeptbereitstellungsserver oder einem Nachrichtenbereitstellungsserver, der über die Kommunikationseinheit 170 verbunden ist, oder Planungsdaten, die im Voraus in der Speichereinheit 160 der Datenübertragungseinheit 10 aufgezeichnet sind, oder dergleichen ausgeführt.
  • Es wird darauf hingewiesen, dass die eingegebenen Informationen, die in dem Aufgabenbestimmungsprozess in Schritt S201 verwendet werden, nicht nur auf die Anwenderäußerung beschränkt sind, sondern eine Systemäußerung unmittelbar vor der Anwenderäußerung, einen vergangenen Dialogverlauf (Anwenderäußerung, Systemäußerung, Ausführungsergebnis einer aufgerufenen Anwendung und dergleichen) aufweisen können.
  • [Konfigurationsbeispiele der Datenverarbeitungsvorrichtung und des Datenverarbeitungssystems]
  • Obwohl die durch die Datenverarbeitungsvorrichtung 10 der vorliegenden Offenbarung ausgeführte Verarbeitung beschrieben worden ist, wie vorstehend mit Bezug auf 6 beschrieben, ist es möglich, alle Verarbeitungsfunktionen entsprechender Komponenten der Datenverarbeitungsvorrichtung 10, die in 6 dargestellt ist, in beispielsweise einer Agentenvorrichtung, die im Besitz eines Anwenders ist, oder einer Vorrichtung wie z. B. einem Smartphone, einem PC oder dergleichen zu konfigurieren, es ist jedoch auch möglich, einen Teil davon so zu konfigurieren, dass er in einem Server oder dergleichen ausgeführt wird.
  • 19 stellt ein Systemkonfigurationsbeispiel dar.
    (1) Das Datenverarbeitungssystemkonfigurationsbeispiel 1 von 19 ist ein Beispiel, in dem beinahe alle Funktionen der Datenverarbeitungsvorrichtung, die in 6 dargestellt ist, in einer Vorrichtung konfiguriert sind, beispielsweise in einer Datenverarbeitungsvorrichtung 410, die ein Anwenderendgerät ist, wie z. B. ein Smartphone, ein PC, oder einer Agentenvorrichtung, das Sprach-Eingabe-Ausgabe- und Bild-Eingabe-Ausgabe-Funktionen aufweist, oder dergleichen, das im Besitz des Anwenders ist.
    Die Datenverarbeitungsvorrichtung 410, die dem Anwenderendgerät entspricht, führt Kommunikation mit einem Dienstbereitstellungsserver 420 nur in einem Fall aus, in dem beispielsweise ein externer Dienst verwendet wird, wenn ein Antwortsatz erzeugt wird.
  • Der Dienstbereitstellungsserver 420 ist beispielsweise ein Musikbereitstellungsserver, ein Inhaltsbereitstellungsserver für Filme und dergleichen, ein Spieleserver, ein Wetterinformationsbereitstellungsserver, ein Verkehrsinformationsbereitstellungsserver, ein Medizininformationsbereitstellungsserver, ein Touristeninformationsbereitstellungsserver und dergleichen und enthält eine Gruppe von Servern, die Informationen bereitstellen können, die zur Ausführung der Verarbeitung für die Anwenderäußerung und Antworterzeugung notwendig sind.
  • Andererseits (2) ist das Datenverarbeitungssystemkonfigurationsbeispiel 2 von 19 eine Systemkonfiguration, in der ein Teil der Funktionen der in 6 dargestellten Datenverarbeitungsvorrichtung in der Datenverarbeitungsvorrichtung 410 konfiguriert sind, die ein Anwenderendgerät ist wie z. B. ein Smartphone, ein PC, oder eine Agentenvorrichtung, die im Besitz des Anwenders ist, und konfiguriert ist, teilweise durch einen Datenverarbeitungsserver 460, der zum Kommunizieren mit der Datenverarbeitungsvorrichtung fähig ist, ausgeführt zu werden.
  • Beispielsweise ist eine Konfiguration oder dergleichen möglich, so dass nur die Spracheingabeeinheit 101, die Sprachausgabeeinheit 102 und die Bildausgabeeinheit 103 in der Vorrichtung, die in 6 dargestellt ist, auf der Seite der Datenverarbeitungsvorrichtung 410 des Anwenderendgeräts vorgesehen sind und alle anderen Funktionen auf der Seite des Servers ausgeführt werden.
    Es wird darauf hingewiesen, dass eine Funktionsaufteilungsbetriebsart für die Funktionen auf der Seite des Anwenderendgeräts und die Funktionen auf der Seite des Servers auf verschiedene unterschiedliche Arten eingestellt sein kann, und eine Konfiguration, um eine Funktion durch beide auszuführen, ebenfalls möglich ist.
  • [Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung]
  • Als Nächstes wird ein Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung mit Bezug auf 20 beschrieben.
    Die mit Bezug auf 20 beschriebene Hardware ist ein Hardwarekonfigurationsbeispiel der Datenverarbeitungsvorrichtung, die im Voraus mit Bezug auf 6 beschrieben ist, und ist ein Beispiel für die Hardwarekonfiguration der Datenverarbeitungsvorrichtung, die den mit Bezug auf 19 beschriebenen Datenverarbeitungsserver 460 bildet.
  • Eine zentrale Verarbeitungseinheit (CPU) 501 funktioniert als eine Steuereinheit oder eine Datenverarbeitungseinheit, die verschiedene Verarbeitung gemäß einem Programm, das in einem Festwertspeicher (ROM) 502 oder einer Speichereinheit 508 gespeichert ist, ausführt. Beispielsweise werden Prozesse gemäß der in der vorstehend beschriebenen Ausführungsform beschriebenen Abfolge ausgeführt. Ein Direktzugriffsspeicher (RAM) 503 speichert Programme, Daten und dergleichen, die durch die CPU 501 auszuführen sind. Die CPU 501, der ROM 502 und der RAM 503 sind durch einen Bus 504 miteinander verbunden.
  • Die CPU 501 ist mit einer Eingabe-Ausgabe-Schnittstelle 505 über den Bus 504 verbunden, und mit der Eingabe-Ausgabe-Schnittstelle 505 sind eine Eingabeeinheit 506, die verschiedene Schalter, eine Tastatur, eine Maus, ein Mikrofon, einen Sensor oder dergleichen enthält, und eine Ausgabeeinheit 507, die eine Anzeigevorrichtung, einen Lautsprecher und dergleichen enthält, verbunden. Die CPU 501 führt verschiedene Prozesse, die einem Befehl, der von der Eingabeeinheit 506 eingegeben wird, entsprechen, aus und gibt beispielsweise ein Verarbeitungsergebnis zu der Ausgabeeinheit 507 aus.
  • Die Speichereinheit 508, die mit der Eingabe-Ausgabe-Schnittstelle 505 verbunden ist, enthält beispielsweise eine Festplatte und dergleichen und speichert Programme, die durch die CPU 501 ausgeführt werden, und verschiedene Daten. Die Kommunikationseinheit 509 funktioniert als eine Sende-Empfangs-Einheit für Wi-Fi-Kommunikation, Bluetooth- (eingetragenes Warenzeichen) (BT-) Kommunikation und andere Datenkommunikation über ein Netz wie z. B. das Internet oder ein lokales Netz und kommuniziert mit einer externen Vorrichtung.
  • Ein Laufwerk 510, das mit der Eingabe-Ausgabe-Schnittstelle 505 verbunden ist, treibt ein herausnehmbares Medium 511 wie z. B. eine Magnetplatte, eine optische Platte, eine magneto-optische Platte oder einen Halbleiterspeicher wie z. B. eine Speicherkarte an und führt das Aufzeichnen oder Lesen von Daten aus.
  • [Zusammenfassung der Konfiguration der vorliegenden Offenbarung]
  • Wie vorstehend beschrieben ist die Ausführungsform der vorliegenden Offenbarung mit Bezug auf eine spezielle Ausführungsform genau beschrieben worden. Es ist jedoch offensichtlich, dass Fachleute Modifikationen und Ersetzungen der Ausführungsform vornehmen können, ohne von der Kernaussage der vorliegenden Offenbarung abzuweichen. Mit anderen Worten ist die vorliegende Erfindung in der Form beispielhafter Erläuterung offenbart worden und sollte nicht auf eine eingeschränkte Weise interpretiert werden. Um die Kernaussage der vorliegenden Offenbarung zu bestimmen, sollten die Ansprüche berücksichtigt werden.
  • Es wird darauf hingewiesen, dass die in der vorliegenden Beschreibung offenbarte Technologie die folgenden Konfigurationen annehmen kann.
    • (1) Eine Datenverarbeitungsvorrichtung, die Folgendes enthält:
      • eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp einer Anwenderäußerung bestimmt; und
      • eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt,
      • wobei die Anwenderäußerungstypbestimmungseinheit bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
      • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • wobei die Systemantworterzeugungseinheit
      • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
      • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
    • (2) Datenverarbeitungsvorrichtung nach (1), wobei die Anwenderäußerungstypbestimmungseinheit ferner bestimmt, ob die Anwenderäußerung Folgendes ist oder nicht:
      • (Typ C) Anwenderäußerung, die nach allgemeinem Wissen fragt, und
      • die Systemantworterzeugungseinheit eine Systemantwort, die eine Antwort auf eine Frage der Anwenderäußerung enthält, in einem Fall, in dem die Anwenderäußerung vom Typ C ist, erzeugt.
    • (3) Datenverarbeitungsvorrichtung nach (1) oder (2), wobei die Anwenderäußerungstypbestimmungseinheit ferner bestimmt, ob die Anwenderäußerung Folgendes ist oder nicht:
      • (Anderer Typ) Anwenderäußerung vom Aufgabenanforderungstyp,
      • wobei die Systemantworterzeugungseinheit
      • eine Systemantwort als ein Ergebnis der Ausführung einer angeforderten Aufgabe der Anwenderäußerung in einem Fall, in dem die Anwenderäußerung von dem anderen Typ ist, erzeugt.
    • (4) Datenverarbeitungsvorrichtung nach einem aus (1) bis (3), wobei die Anwenderäußerungstypbestimmungseinheit, in einem Fall, in dem die Anwenderäußerung bestimmt wird als (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, ferner bestimmt, welcher Typ aus dem nachstehenden Typ B1, B2 oder B3 die Anwenderäußerung ist,
    • (Typ B1) Anwenderäußerung, die eine Äußerungswiederholung eines Teils an einer spezifizierten Position der Systemäußerung anfordert,
    • (Typ B2) Anwenderäußerung, die eine Äußerungswiederholung eines Teils in einer spezifizierten Zeitreihe der Systemäußerung anfordert, oder
    • (Typ B3) Anwenderäußerung, die eine teilweise Äußerungswiederholung, die nicht die der vorstehend beschriebenen B1 und B2 ist, anfordert.
    • (5) Datenverarbeitungsvorrichtung nach (4), wobei die Systemantworterzeugungseinheit, in einem Fall, in dem die Anwenderäußerung vom Typ B1 ist, einen Anwenderäußerungstext, der ein Spracherkennungsergebnis der Anwenderäußerung ist, analysiert und einen Anwenderäußerungsteil der Systemäußerung auswählt.
    • (6) Datenverarbeitungsvorrichtung nach (5), wobei das Kennzeichen ein Kennzeichen ist, das ermöglicht, eine Phrase unmittelbar vor oder unmittelbar nach dem Äußerungswiederholungsteil, der aus der Systemäußerung auszuwählen ist, zu identifizieren.
    • (7) Datenverarbeitungsvorrichtung nach (4), wobei die Systemantworterzeugungseinheit, in einem Fall, in dem die Anwenderäußerung vom Typ B2 ist, einen Anwenderäußerungstext, der ein Spracherkennungsergebnis der Anwenderäußerung ist, analysiert, ein Referenzereignis als eine Zeitreihenreferenz auswählt, ferner eine Zeitreihenrichtung dafür, ob das Äußerungswiederholungsanforderungsereignis in der Vergangenheit oder der Zukunft des Referenzereignisses ist, bestimmt, und einen Äußerungswiederholungsteil der Systemäußerung auf der Basis des Referenzereignisses und der Zeitreihenrichtung auswählt.
    • (8) Datenverarbeitungsvorrichtung nach (7), wobei die Systemantworterzeugungseinheit in einem Fall, in dem bestimmt wird, dass das Äußerungswiederholungsanforderungsereignis in der Vergangenheit des Referenzereignisses ist, als den Äußerungswiederholungsteil eine Phrase, die ein Ereignis enthält, das vor dem Referenzereignis stattfindet oder stattgefunden hat, aus der Systemäußerung auswählt.
    • (9) Datenverarbeitungsvorrichtung nach (7), wobei die Systemantworterzeugungseinheit in einem Fall, in dem bestimmt wird, dass das Äußerungswiederholungsanforderungsereignis die Zukunft des Referenzereignisses ist, als den Äußerungswiederholungsteil eine Phrase, die ein Ereignis enthält, das nach dem Referenzereignis stattfindet oder stattgefunden hat, aus der Systemäußerung auswählt.
    • (10) Datenverarbeitungssystem, das ein Anwenderendgerät und einen Datenverarbeitungsserver enthält, wobei das Anwenderendgerät aufweist:
      • eine Spracheingabeeinheit, die eine Anwenderäußerung eingibt; und
      • eine Kommunikationseinheit, die die eingegebene Anwenderäußerung zu dem Datenverarbeitungsserver sendet,
      wobei der Datenverarbeitungsserver aufweist:
      • eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp der von dem Anwenderendgerät empfangenen Anwenderäußerung bestimmt; und
      • und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, und
      • wobei die Anwenderäußerungstypbestimmungseinheit bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
      • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • wobei die Systemantworterzeugungseinheit
      • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
      • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
    • (11) Datenverarbeitungsverfahren, das in einer Datenverarbeitungsvorrichtung ausgeführt wird, wobei das Verfahren Folgendes aufweist:
      • einen Anwenderäußerungstypbestimmungsschritt, in dem eine Anwenderäußerungstypbestimmungseinheit einen Äußerungstyp einer Anwenderäußerung bestimmt; und
      • einen Systemantworterzeugungsschritt, in dem eine Systemantworterzeugungseinheit eine Systemantwort gemäß einem Typbestimmungsergebnis in dem Anwenderäußerungstypbestimmungsschritt erzeugt,
      • wobei der Anwenderäußerungstypbestimmungsschritt bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
      • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • wobei der Systemantworterzeugungsschritt
      • eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
      • eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
    • (12) Datenverarbeitungsverfahren, das in einem Datenverarbeitungssystem, das ein Anwenderendgerät und einen Datenverarbeitungsserver aufweist, ausgeführt wird, wobei das Anwenderendgerät eine Anwenderäußerung über eine Spracheingabeeinheit eingibt und die Anwenderäußerung zu dem Datenverarbeitungsserver sendet, wobei der Datenverarbeitungsserver ausführt einen Anwenderäußerungstypbestimmungsprozess, der einen Äußerungstyp der von dem Anwenderendgerät empfangenen Anwenderäußerung bestimmt, und einen Systemantworterzeugungsprozess, der eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, wobei der Anwenderäußerungstypbestimmungsprozess bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist, (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, wobei der Systemantworterzeugungsprozess eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
    • (13) Programm, das eine Datenverarbeitungsvorrichtung veranlasst, Datenverarbeitung auszuführen, die Folgendes aufweist:
      • einen Anwenderäußerungstypbestimmungsschritt zum Veranlassen einer Anwenderäußerungstypbestimmungseinheit, einen Äußerungstyp einer Anwenderäußerung zu bestimmen; und
      • einen Systemantworterzeugungsschritt zum Veranlassen einer Systemantworterzeugungseinheit, eine Systemantwort gemäß einem Typbestimmungsergebnis in dem Anwenderäußerungstypbestimmungsschritt zu erzeugen,
      • wobei der Anwenderäußerungstypbestimmungsschritt einen Prozess ausführt, um zu bestimmen, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist,
      • (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert,
      • wobei der Systemantworterzeugungsschritt einen Prozess ausführt zum:
        • Erzeugen einer Systemantwort, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und
        • Erzeugen einer Systemantwort, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  • Darüber hinaus kann eine Reihe von Prozessen, die in der Beschreibung beschrieben sind, durch Hardware, Software oder eine kombinierte Konfiguration aus beiden ausgeführt werden. In einem Fall des Ausführens von Prozessen durch Software kann ein Programm, das eine Verarbeitungsabfolge aufzeichnet, auf einem Speicher in einem Computer, der in dedizierte Hardware integriert ist, installiert und zum Ablauf gebracht werden, oder das Programm kann auf einem Allzweckcomputer, der zum Ausführen verschiedener Prozesse fähig ist, installiert und zum Ablauf gebracht werden. Beispielsweise kann das Programm im Voraus auf einem Aufzeichnungsmedium aufgezeichnet sein. Zusätzlich dazu, dass es aus einem Aufzeichnungsmedium auf einem Computer installiert wird, kann das Programm über ein Netz wie z. B. ein lokales Netz (LAN) der das Internet empfangen und auf einem Aufzeichnungsmedium wie z. B. einer internen Festplatte installiert werden.
  • Es wird darauf hingewiesen, dass die verschiedenen Prozesse, die in der Beschreibung beschrieben sind, nicht nur in zeitlicher Reihenfolge gemäß der Beschreibung ausgeführt werden, sondern parallel oder individuell gemäß der Verarbeitungsfähigkeit der Vorrichtung, die die Prozesse ausführt, oder wie erforderlich ausgeführt werden können. Darüber hinaus ist ein System in der vorliegenden Beschreibung eine logische Gruppenkonfiguration aus mehreren Vorrichtungen und ist nicht auf eines beschränkt, in dem Vorrichtungen mit entsprechenden Konfigurationen in demselben Gehäuse sind.
  • GEWERBLICHE ANWENDBARKEIT
  • Wie vorstehend beschrieben sind gemäß einer Konfiguration einer Ausführungsform der vorliegenden Offenbarung eine Vorrichtung und ein Verfahren, die einen Äußerungstyp einer Anwenderäußerung bestimmen und eine Systemantwort gemäß einem Bestimmungsergebnis erzeugen, erreicht.
    Insbesondere weist sie beispielsweise eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp einer Anwenderäußerung bestimmt, und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem durch die Anwenderäußerungstypbestimmungseinheit bestimmten Typbestimmungsergebnis erzeugt, auf. Die Anwenderäußerungstypbestimmungseinheit bestimmt, ob die Anwenderäußerung vom Typ A ist, der alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, oder vom Typ B ist, der eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert. Die Systemantworterzeugungseinheit erzeugt eine Systemantwort, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und erzeugt eine Systemantwort, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
    Mit dieser Konfiguration sind eine Vorrichtung und ein Verfahren, die einen Äußerungstyp einer Anwenderäußerung bestimmen und eine Systemantwort gemäß einem Bestimmungsergebnis erzeugen, erreicht.
  • Bezugszeichenliste
  • 10
    Datenverarbeitungsvorrichtung
    12
    Mikrofon
    13
    Anzeigeeinheit
    14
    Lautsprecher
    20
    Server
    30
    externe Vorrichtung
    101
    Spracheingabeeinheit
    102
    Sprachausgabeeinheit
    103
    Bildausgabeeinheit
    120
    Datenverarbeitungseinheit
    121
    Spracherkennungseinheit
    122
    Anwenderäußerungstypbestimmungseinheit
    130
    Lernverarbeitungseinheit
    140
    Systemantworterzeugungseinheit
    141
    Äußerungswiederholungsverarbeitungseinheit (Typ-A,B-Verarbeitungseinheit)
    142
    Allgemeinfragenverarbeitungseinheit (Typ-C-Verarbeitungseinheit)
    143
    Aufgabenverarbeitungseinheit
    151
    Sprachsyntheseeinheit
    152
    Anzeigebilderzeugungseinheit
    160
    Speichereinheit
    161
    Systemäußerung
    162
    Lerndaten- & Schätzungsmodell
    163
    Morphologieanalysewörterbuch
    170
    Kommunikationseinheit
    410
    Datenverarbeitungsvorrichtung
    420
    Dienstbereitstellungsserver
    460
    Datenverarbeitungsserver
    501
    CPU
    502
    ROM
    503
    RAM
    504
    Bus
    505
    Eingabe-Ausgabe-Schnittstelle
    506
    Eingabeeinheit
    507
    Ausgabeeinheit
    508
    Speichereinheit
    509
    Kommunikationseinheit
    510
    Laufwerk
    511
    Herausnehmbares Medium
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2003228389 [0005, 0011]
    • JP 2007121577 [0005, 0011]
    • JP 2002132811 [0008, 0011]

Claims (13)

  1. Datenverarbeitungsvorrichtung, die Folgendes umfasst: eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp einer Anwenderäußerung bestimmt; und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, wobei die Anwenderäußerungstypbestimmungseinheit bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist, (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, wobei die Systemantworterzeugungseinheit eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  2. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Anwenderäußerungstypbestimmungseinheit ferner bestimmt, ob die Anwenderäußerung Folgendes ist oder nicht: (Typ (C) Anwenderäußerung, die nach allgemeinem Wissen fragt, und die Systemantworterzeugungseinheit eine Systemantwort erzeugt, die eine Antwort auf eine Frage der Anwenderäußerung aufweist, in einem Fall, in dem die Anwenderäußerung vom Typ C ist.
  3. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Anwenderäußerungstypbestimmungseinheit ferner bestimmt, ob die Anwenderäußerung Folgendes ist oder nicht (Anderer Typ) Anwenderäußerung vom Aufgabenanforderungstyp, wobei die Systemantworterzeugungseinheit eine Systemantwort als ein Ergebnis der Ausführung einer angeforderten Aufgabe der Anwenderäußerung in einem Fall, in dem die Anwenderäußerung von dem anderen Typ ist erzeugt.
  4. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Anwenderäußerungstypbestimmungseinheit, in einem Fall, in dem die Anwenderäußerung bestimmt wird als (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, ferner bestimmt, welcher Typ aus dem nachstehenden Typ B1, B2 oder B3 die Anwenderäußerung ist, (Typ B1) Anwenderäußerung, die eine Äußerungswiederholung eines Teils an einer spezifizierten Position der Systemäußerung anfordert, (Typ B2) Anwenderäußerung, die eine Äußerungswiederholung eines Teils in einer spezifizierten Zeitreihe der Systemäußerung anfordert, oder (Typ B3) Anwenderäußerung, die eine teilweise Äußerungswiederholung, die nicht die der vorstehend beschriebenen B1 und B2 ist, anfordert.
  5. Datenverarbeitungsvorrichtung nach Anspruch 4, wobei die Systemantworterzeugungseinheit in einem Fall, in dem die Anwenderäußerung vom Typ B1 ist, einen Anwenderäußerungstext, der ein Spracherkennungsergebnis der Anwenderäußerung ist, analysiert und einen Anwenderäußerungsteil der Systemäußerung auswählt.
  6. Datenverarbeitungsvorrichtung nach Anspruch 5, wobei das Kennzeichen ein Kennzeichen ist, das ermöglicht, eine Phrase unmittelbar vor oder unmittelbar nach dem Äußerungswiederholungsteil, der aus der Systemäußerung auszuwählen ist, zu identifizieren.
  7. Datenverarbeitungsvorrichtung nach Anspruch 4, wobei die Systemantworterzeugungseinheit in einem Fall, in dem die Anwenderäußerung vom Typ B2 ist, einen Anwenderäußerungstext, der ein Spracherkennungsergebnis der Anwenderäußerung ist, analysiert, ein Referenzereignis als eine Zeitreihenreferenz auswählt, ferner eine Zeitreihenrichtung dafür, ob das Äußerungswiederholungsanforderungsereignis in der Vergangenheit oder der Zukunft des Referenzereignisses ist, bestimmt, und einen Äußerungswiederholungsteil der Systemäußerung auf einer Basis des Referenzereignisses und der Zeitreihenrichtung auswählt.
  8. Datenverarbeitungsvorrichtung nach Anspruch 7, wobei die Systemantworterzeugungseinheit in einem Fall, in dem bestimmt wird, dass das Äußerungswiederholungsanforderungsereignis in der Vergangenheit des Referenzereignisses ist, als den Äußerungswiederholungsteil eine Phrase, die ein Ereignis aufweist, das vor dem Referenzereignis stattfindet oder stattgefunden hat, aus der Systemäußerung auswählt.
  9. Datenverarbeitungsvorrichtung nach Anspruch 7, wobei die Systemantworterzeugungseinheit in einem Fall, in dem bestimmt wird, dass das Äußerungswiederholungsanforderungsereignis die Zukunft des Referenzereignisses ist, als den Äußerungswiederholungsteil eine Phrase, die ein Ereignis aufweist, das nach dem Referenzereignis stattfindet oder stattgefunden hat, aus der Systemäußerung auswählt.
  10. Datenverarbeitungssystem, das ein Anwenderendgerät und einen Datenverarbeitungsserver umfasst, wobei das Anwenderendgerät Folgendes aufweist: eine Spracheingabeeinheit, die eine Anwenderäußerung eingibt; und eine Kommunikationseinheit, die die eingegebene Anwenderäußerung zu dem Datenverarbeitungsserver sendet, wobei der Datenverarbeitungsserver aufweist: eine Anwenderäußerungstypbestimmungseinheit, die einen Äußerungstyp der von dem Anwenderendgerät empfangenen Anwenderäußerung bestimmt; und und eine Systemantworterzeugungseinheit, die eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, und wobei die Anwenderäußerungstypbestimmungseinheit bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist, (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, wobei die Systemantworterzeugungseinheit eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  11. Datenverarbeitungsverfahren, das in einer Datenverarbeitungsvorrichtung ausgeführt wird, wobei das Verfahren Folgendes umfasst: einen Anwenderäußerungstypbestimmungsschritt, in dem eine Anwenderäußerungstypbestimmungseinheit einen Äußerungstyp einer Anwenderäußerung bestimmt; und einen Systemantworterzeugungsschritt, in dem eine Systemantworterzeugungseinheit eine Systemantwort gemäß einem Typbestimmungsergebnis in dem Anwenderäußerungstypbestimmungsschritt erzeugt, wobei der Anwenderäußerungstypbestimmungsschritt bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist, (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, wobei der Systemantworterzeugungsschritt eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  12. Datenverarbeitungsverfahren, das in einem Datenverarbeitungssystem, das ein Anwenderendgerät und einen Datenverarbeitungsserver aufweist, ausgeführt wird, wobei das Anwenderendgerät eine Anwenderäußerung über eine Spracheingabeeinheit eingibt und die Anwenderäußerung zu dem Datenverarbeitungsserver sendet, wobei der Datenverarbeitungsserver ausführt einen Anwenderäußerungstypbestimmungsprozess, der einen Äußerungstyp der von dem Anwenderendgerät empfangenen Anwenderäußerung bestimmt, und einen Systemantworterzeugungsprozess, der eine Systemantwort gemäß einem Typbestimmungsergebnis, das durch die Anwenderäußerungstypbestimmungseinheit bestimmt ist, erzeugt, wobei der Anwenderäußerungstypbestimmungsprozess bestimmt, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist, (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, wobei der Systemantworterzeugungsprozess eine Systemantwort erzeugt, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und eine Systemantwort erzeugt, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
  13. Programm, das eine Datenverarbeitungsvorrichtung veranlasst, Datenverarbeitung auszuführen, die Folgendes umfasst: einen Anwenderäußerungstypbestimmungsschritt zum Veranlassen einer Anwenderäußerungstypbestimmungseinheit, einen Äußerungstyp einer Anwenderäußerung zu bestimmen; und einen Systemantworterzeugungsschritt zum Veranlassen einer Systemantworterzeugungseinheit, eine Systemantwort gemäß einem Typbestimmungsergebnis in dem Anwenderäußerungstypbestimmungsschritt zu erzeugen, wobei der Anwenderäußerungstypbestimmungsschritt einen Prozess ausführt, um zu bestimmen, welcher Typ aus dem nachstehenden Typ A oder Typ B die Anwenderäußerung ist, (Typ A) Anwenderäußerung, die alle Äußerungswiederholungen einer Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, (Typ B) Anwenderäußerung, die eine Äußerungswiederholung eines Teils der Systemäußerung unmittelbar vor der Anwenderäußerung anfordert, wobei der Systemantworterzeugungsschritt einen Prozess ausführt zum: Erzeugen einer Systemantwort, um alle Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ A ist, und Erzeugen einer Systemantwort, um einen Teil der Systemäußerungen unmittelbar vor der Anwenderäußerung erneut zu äußern, in einem Fall, in dem die Anwenderäußerung vom Typ B ist.
DE112019006199.2T 2018-12-13 2019-10-10 Datenverarbeitungsvorrichtung, Datenverarbeitungssystem und Datenverarbeitungsverfahren und Programm Pending DE112019006199T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-233645 2018-12-13
JP2018233645 2018-12-13
PCT/JP2019/039978 WO2020121638A1 (ja) 2018-12-13 2019-10-10 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
DE112019006199T5 true DE112019006199T5 (de) 2021-09-23

Family

ID=71077195

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019006199.2T Pending DE112019006199T5 (de) 2018-12-13 2019-10-10 Datenverarbeitungsvorrichtung, Datenverarbeitungssystem und Datenverarbeitungsverfahren und Programm

Country Status (3)

Country Link
US (1) US12002460B2 (de)
DE (1) DE112019006199T5 (de)
WO (1) WO2020121638A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220148574A1 (en) * 2019-02-25 2022-05-12 Faurecia Clarion Electronics Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030754A (ja) * 2020-08-07 2022-02-18 株式会社東芝 入力支援システム、入力支援方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2003228389A (ja) 2002-02-01 2003-08-15 Hitachi Ltd 応答読み上げ装置
JP2007121577A (ja) 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声再生装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62233830A (ja) 1986-04-03 1987-10-14 Canon Inc 音声処理装置
JPH10326176A (ja) * 1997-05-23 1998-12-08 Oki Hokuriku Syst Kaihatsu:Kk 音声対話制御方法
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
JP2010197858A (ja) 2009-02-26 2010-09-09 Gifu Univ 音声対話システム
JP2013072887A (ja) 2011-09-26 2013-04-22 Toshiba Corp 対話装置
JP2016061970A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
JP6741387B2 (ja) 2016-11-28 2020-08-19 アルパイン株式会社 音声出力装置
US11361168B2 (en) * 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2003228389A (ja) 2002-02-01 2003-08-15 Hitachi Ltd 応答読み上げ装置
JP2007121577A (ja) 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声再生装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220148574A1 (en) * 2019-02-25 2022-05-12 Faurecia Clarion Electronics Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method

Also Published As

Publication number Publication date
US12002460B2 (en) 2024-06-04
US20220020369A1 (en) 2022-01-20
WO2020121638A1 (ja) 2020-06-18

Similar Documents

Publication Publication Date Title
DE102016125508B4 (de) Auffindbarkeitssystem für Sprachaktionen
DE60317130T2 (de) Vorrichtung und Verfahren zur Bereitstellung von Informationen mittels einer Sprachdialogschnittstelle
DE60201262T2 (de) Hierarchische sprachmodelle
DE102017122515A1 (de) Aufgaben-Initiierung unter Verwendung von langen Sprachbefehlen
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE102013212215A1 (de) System und Verfahren zum Feststellen von Fachkenntnissen durch Sprachanalyse
CN110874716A (zh) 面试测评方法、装置、电子设备及存储介质
US20090210411A1 (en) Information Retrieving System
DE102016125812A1 (de) Erlernen von Aussprachen einer personalisierten Entität
DE112019006199T5 (de) Datenverarbeitungsvorrichtung, Datenverarbeitungssystem und Datenverarbeitungsverfahren und Programm
Cordero et al. Automated speech recognition in controller communications applied to workload measurement
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
DE102019122937A1 (de) Verfahren und vorrichtungen zum hinzufügen von vernünftigem denken zu künstlicher intelligenz im kontext von mensch-maschine-schnittstellen
Qu et al. Orthographic effects in Mandarin spoken language production
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
EP2962296A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
JP2023027749A (ja) 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体
CN104504104A (zh) 用于搜索引擎的图片物料处理方法、装置和搜索引擎
DE102019218918A1 (de) Dialogsystem, elektronisches gerät und verfahren zur steuerung des dialogsystems
DE112020002743T5 (de) Informationsverarbeitungsvorrichtung
DE112017007900T5 (de) Systeme und verfahren zur erzeugung von daten natürlicher sprache
KR102350359B1 (ko) 음성 인식 알고리즘을 이용한 영상 편집 방법
CN114462376A (zh) 基于rpa和ai的庭审笔录生成方法、装置、设备及介质
KR101757314B1 (ko) 학습 서비스 제공 방법 및 장치