DE112017007562B4 - Spracherkennungsvorrichtung und Spracherkennungsverfahren - Google Patents

Spracherkennungsvorrichtung und Spracherkennungsverfahren Download PDF

Info

Publication number
DE112017007562B4
DE112017007562B4 DE112017007562.9T DE112017007562T DE112017007562B4 DE 112017007562 B4 DE112017007562 B4 DE 112017007562B4 DE 112017007562 T DE112017007562 T DE 112017007562T DE 112017007562 B4 DE112017007562 B4 DE 112017007562B4
Authority
DE
Germany
Prior art keywords
vocabulary
unit
recognition
speech recognition
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE112017007562.9T
Other languages
English (en)
Other versions
DE112017007562T5 (de
Inventor
Wataru Yamazaki
Shin Kato
Masanobu Osawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112017007562T5 publication Critical patent/DE112017007562T5/de
Application granted granted Critical
Publication of DE112017007562B4 publication Critical patent/DE112017007562B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Eine clientseitige Spracherkennungsvorrichtung (100) in einem Spracherkennungssystem vom Server-Client-Typ zum Ausführen der Spracherkennung nach der Äußerung eines Benutzers unter Verwendung der clientseitigen Spracherkennungsvorrichtung (100) und einer serverseitigen Spracherkennungsvorrichtung (202), wobei die clientseitige Spracherkennungsvorrichtung umfasst:eine Spracherkennungseinheit (102) zum Erkennen der Äußerung des Benutzers;eine Kommunikationszustandserfassungseinheit (104) zum Erfassen eines Kommunikationszustandes mit einer Servervorrichtung (200), die die serverseitige Spracherkennungsvorrichtung beinhaltet; undeine Vokabularänderungseinheit (105) zum Ändern eines Erkennungszielvokabulars der Spracherkennungseinheit auf der Grundlage des von der Kommunikationszustandserfassungseinheit erfassten Kommunikationszustands, wobei die Spracherkennungseinheit ein Befehlsvokabular und ein großes Vokabular als Erkennungszielvokabular festlegt, undwenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass eine Kommunikation mit der Servervorrichtung durchgeführt werden kann, die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular ändert, undwenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung nicht durchgeführt werden kann, die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular und das große Vokabular ändert.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft die Spracherkennungstechnologie, insbesondere die Spracherkennung vom Server-Client-Typ.
  • STAND DER TECHNIK
  • Im Stand der Technik wird eine Spracherkennungstechnologie vom Server-Client-Typ verwendet, die die Spracherkennungsverarbeitung der Äußerung des Benutzers durch Verknüpfung der Spracherkennung durch eine serverseitige Spracherkennungsvorrichtung mit einer clientseitigen Spracherkennungsvorrichtung durchführt.
  • So offenbart beispielsweise die Patentliteratur 1 ein Spracherkennungssystem, in dem eine clientseitige Spracherkennungsvorrichtung zunächst eine Erkennungsverarbeitung der Äußerung des Benutzers durchführt, und in einem Fall, in dem die Erkennung fehlschlägt, eine serverseitige Spracherkennungsvorrichtung eine Erkennungsverarbeitung der Äußerung des Benutzers vornimmt.
  • Patentliteratur2 offenbart ein hybrides Spracherkennungssystem, das eine clientseitige Spracherkennungsmaschine und eine serverseitige
    Spracherkennungsmaschine zur Erzeugung von Spracherkennungsergebnissen der gleichen Rede verwendet; eine Entscheidungsmaschine erzeugt eine Spracherkennungsausgabe auf der Grundlage der client- oder der serverseitigen oder beider Spracherkennungsergebnisse.
  • Patentliteratur 3 offenbart ein Kraftfahrzeug mit einer Funkeinrichtung zum Aufbauen einer Kommunikationsverbindung, einer Steuereinrichtung, die dazu ausgelegt ist, eine erste Funktion ausschließlich mit fahrzeugeigenen Geräten und eine zweite Funktionen mittels eines fahrzeugexternen Servers über die Kommunikationsverbindung bereitzustellen, und mit einer Ausgabeeinheit zum Ausgeben eines Informationsinhalts an den Benutzer und hierbei Ausgeben des Informationsinhalts in einem Gestaltungsformat, welches unabhängig von dem ausgegebenen Informationsinhalt eine Gestaltung des ausgegebenen Informationsinhalts festlegt. Die Verfügbarkeit der zweiten Funktion soll dem Benutzer ablenkungsarm vermittelt werden. Die Ausgabeeinheit weist hierzu zwei Darstellungsmodi auf, die sich in dem Gestaltungsformat unterscheiden, und die Steuereinrichtung ist dazu ausgelegt, in Abhängigkeit von einem aktuellen Zustand der Kommunikationsverbindung bei der Ausgabeeinheit einen der Darstellungsmodi einzustellen.
  • ZITIERLISTE
  • PATENTLITERATUR
    • Patentliteratur 1: JP 2007-33901 A
    • Patentliteratur 2: US 2010 / 0 057 450 A1
    • Patentliteratur 3: DE 10 2014 019 192 A1
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • TECHNISCHES PROBLEM
  • In dem in der vorstehend beschriebenen Patentliteratur 1 beschriebenen Spracherkennungssystem besteht der Nachteil, dass es Zeit braucht, um ein Erkennungsergebnis von der serverseitigen Spracherkennungsvorrichtung zu erhalten, wenn die clientseitige Spracherkennungsvorrichtung es nicht erkennt, was eine Reaktion auf die Äußerung des Benutzers verzögert.
  • Die vorliegende Erfindung wurde gemacht, um Nachteile wie die oben genannten zu lösen, und ein Ziel der vorliegenden Erfindung ist es, sowohl eine schnelle Reaktionsgeschwindigkeit auf die Äußerung eines Benutzers als auch eine hohe Erkennungsrate der Äußerung des Benutzers in der Spracherkennungsverarbeitung vom Server-Client-Typ zu erreichen.
  • PROBLEMLÖSUNG
  • Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung ist eine clientseitige Spracherkennungsvorrichtung in einem Spracherkennungssystem vom Server-Client-Typ zur Durchführung der Spracherkennung nach der Äußerung eines Benutzers unter Verwendung der clientseitigen Spracherkennungsvorrichtung und einer serverseitigen Spracherkennungsvorrichtung, wobei die clientseitige Spracherkennungsvorrichtung Folgendes beinhaltet: eine Spracherkennungseinheit zum Erkennen der Äußerung des Benutzers; eine Kommunikationszustandserfassungseinheit zum Erfassen eines Kommunikationszustandes mit einer Servervorrichtung, die die serverseitige Spracherkennungsvorrichtung beinhaltet; und eine Vokabularänderungseinheit zum Ändern eines Erkennungszielvokabulars der Spracherkennungseinheit auf der Grundlage des von der Kommunikationszustandserfassungseinheit erfassten Kommunikationszustandes.
  • Die Spracherkennungseinheit setzt ein Befehlsvokabular und ein großes Vokabular als Erkennungsziel. Wenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung durchgeführt werden kann, ändert die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular, und wenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung nicht durchgeführt werden kann, ändert die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular und das große Vokabular.
  • VORTEILHAFTE EFFEKTE DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung ist es möglich, eine schnelle Reaktionsgeschwindigkeit auf die Äußerung eines Benutzers und eine hohe Erkennungsrate auf die Äußerung des Benutzers in der Spracherkennung vom Server-Client-Typ zu realisieren.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß einer ersten Ausführungsform veranschaulicht.
    • Die 2A und 2B sind Diagramme, die jeweils eine exemplarische Hardwarekonfiguration der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform darstellen.
    • 3 ist ein Flussdiagramm, das den Betrieb einer Vokabularänderungseinheit der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform veranschaulicht.
    • 4 ist ein Flussdiagramm, das die Funktionsweise einer Erkennungsergebnisübernahmeeinheit der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform veranschaulicht.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Um die vorliegende Erfindung näher zu beschreiben, werden im Folgenden Ausführungsformen für die Durchführung der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
  • Erste Ausführungsform
  • 1 ist ein Blockdiagramm, das eine Konfiguration eines Spracherkennungssystems gemäß einer ersten Ausführungsform darstellt.
  • Das Spracherkennungssystem beinhaltet eine Spracherkennungsvorrichtung 100 auf einer Clientseite und eine Servervorrichtung 200. Wie in 1 dargestellt, ist die clientseitige Spracherkennungsvorrichtung 100 mit einer integrierten Vorrichtung 500 verbunden. Im Folgenden wird davon ausgegangen, dass es sich bei der integrierten Vorrichtung 500 um eine Navigationsvorrichtung handelt.
  • Zunächst wird der Umriss der Spracherkennungsvorrichtung 100 beschrieben.
  • Die Spracherkennungsvorrichtung 100 ist eine clientseitige Spracherkennungsvorrichtung und setzt als Erkennungszielvokabular, ein Vokabular, das Adressen und Vokabeln angibt, die Anlagennamen angeben (nachfolgend „großes Vokabular“ genannt). Die clientseitige Spracherkennungsvorrichtung 100 setzt als Erkennungszielsvokabular auch ein Vokabular, das Betriebsbefehle angibt, die den Betrieb auf der integrierten Vorrichtung 500 anweisen, die ein Ziel ist, das mit Sprache und Vokabular bedient werden soll, die zuvor von einem Benutzer registriert wurden (nachstehend „Befehlsvokabular“ genannt). Hier beinhaltet das von einem Benutzer vorab registrierte Vokabular z.B. registrierte Ortsnamen und Namen von Personen in einem Adressbuch.
  • Die clientseitige Spracherkennungsvorrichtung 100 weist im Vergleich zu einer serverseitigen Spracherkennungsvorrichtung 202, die später beschrieben wird, geringere Hardware-Ressourcen und eine geringere Verarbeitungskapazität der zentralen Verarbeitungseinheit (CPU) auf. Inzwischen hat das große Vokabular eine große Anzahl von Elementen als Erkennungsziel. Daher ist die Erkennungsleistung der clientseitigen Spracherkennungsvorrichtung 100 in Bezug auf das große Vokabular geringer als die Erkennungsleistung der serverseitigen Spracherkennungsvorrichtung 202 in Bezug auf das große Vokabular.
  • Da die clientseitige Spracherkennungsvorrichtung 100 außerdem weniger Hardware-Ressourcen und eine geringere Verarbeitungskapazität der CPU aufweist, wie vorstehend beschrieben, kann die clientseitige Spracherkennungsvorrichtung 100 das Befehlsvokabular nicht erkennen, es sei denn, es wird die gleiche Äußerung wie bei einem in einem Erkennungswörterbuch registrierten Betriebsbefehl ausgeführt. Daher hat die clientseitige Spracherkennungsvorrichtung 100 einen geringeren Freiheitsgrad bei der Annahme von Äußerungen als die serverseitige Spracherkennungsvorrichtung 202.
  • Andererseits hat die clientseitige Spracherkennungsvorrichtung 100 im Gegensatz zur serverseitigen Spracherkennungsvorrichtung 202 den Vorteil, dass die Reaktionsgeschwindigkeit auf die Äußerung eines Benutzers schnell ist, da kein Senden oder Empfangen von Daten über ein Kommunikationsnetzwerk 300 erforderlich ist. Darüber hinaus kann die clientseitige Spracherkennungsvorrichtung 100 eine Spracherkennung bei der Äußerung eines Benutzers unabhängig vom Kommunikationsstatus durchführen.
  • Als nächstes wird der Umriss der Spracherkennungsvorrichtung 202 beschrieben.
  • Die Spracherkennungsvorrichtung 202 ist eine serverseitige Spracherkennungsvorrichtung und setzt das große Vokabular und das Befehlsvokabular als Erkennungszielsvokabular. Die serverseitige Spracherkennungsvorrichtung 202 ist reich an Hardware-Ressourcen und verfügt über eine hohe CPU-Verarbeitungskapazität und damit über eine überlegene Leistung bei der Erkennung des großen Vokabulars gegenüber der clientseitigen Spracherkennungsvorrichtung 100.
  • Da die serverseitige Spracherkennungsvorrichtung 202 Daten über das Kommunikationsnetzwerk 300 senden und empfangen muss, ist die Reaktionsgeschwindigkeit auf die Äußerung eines Benutzers im Vergleich zur clientseitigen Spracherkennungsvorrichtung 100 langsam. Wenn außerdem keine Verbindung zur Kommunikation mit der clientseitigen Spracherkennungsvorrichtung 100 hergestellt werden kann, kann die serverseitige Spracherkennungsvorrichtung 202 keine Sprachdaten der Äußerung eines Benutzers erfassen und somit keine Spracherkennung durchführen.
  • Im Spracherkennungssystem gemäß der ersten Ausführungsform, wenn die Verbindung zur Kommunikation zwischen der serverseitigen Spracherkennungsvorrichtung 202 und der clientseitigen Spracherkennungsvorrichtung 100 nicht hergestellt ist, führt die clientseitige Spracherkennungsvorrichtung 100 eine Spracherkennung an Sprachdaten der Äußerung des Benutzers unter Verwendung des großen Vokabulars und des Befehlsvokabulars als Erkennungsziel durch und gibt ein Spracherkennungsergebnis aus.
  • Andererseits, wenn eine Verbindung zur Kommunikation zwischen der serverseitigen Spracherkennungsvorrichtung 202 und der clientseitigen Spracherkennungsvorrichtung 100 hergestellt wird, führen die clientseitige Spracherkennungsvorrichtung 100 und die serverseitige Spracherkennungsvorrichtung 202 parallel eine Spracherkennung der Sprachdaten der Äußerung des Benutzers durch. Zu diesem Zeitpunkt schließt die clientseitige Spracherkennungsvorrichtung 100 das große Vokabular aus dem Erkennungszielvokabular aus und ändert das Erkennungszielvokabular so, dass es sich nur auf das Befehlsvokabular beschränkt. Das heißt, die clientseitige Spracherkennungsvorrichtung 100 aktiviert nur das Erkennungswörterbuch, in dem das Befehlsvokabular registriert ist.
  • Das Spracherkennungssystem gibt als Spracherkennungsergebnis entweder das Erkennungsergebnis der clientseitigen Spracherkennungsvorrichtung 100 oder das Erkennungsergebnis der serverseitigen Spracherkennungsvorrichtung 202 aus.
  • Insbesondere in einem Fall, in dem die Zuverlässigkeit des Erkennungsergebnisses durch die clientseitige Spracherkennungsvorrichtung 100 größer oder gleich einem vorbestimmten Schwellenwert ist, gibt das Spracherkennungssystem als Spracherkennungsergebnis das Erkennungsergebnis der clientseitigen Spracherkennungsvorrichtung 100 aus.
  • Andererseits gibt das Spracherkennungssystem in einem Fall, in dem die Zuverlässigkeit des Erkennungsergebnisses durch die clientseitige Spracherkennungsvorrichtung 100 kleiner als der vorgegebene Schwellenwert ist und das Erkennungsergebnis von der serverseitigen Spracherkennungsvorrichtung 202 innerhalb einer vorgegebenen Bereitschaftszeit empfangen wird, als Ergebnis der Spracherkennung das empfangene Erkennungsergebnis der serverseitigen Spracherkennungsvorrichtung 202 aus. Darüber hinaus gibt das Spracherkennungssystem in einem Fall, in dem die Zuverlässigkeit des Erkennungsergebnisses durch die clientseitige Spracherkennungsvorrichtung 100 kleiner als der vorgegebene Schwellenwert ist und das Erkennungsergebnis nicht innerhalb der Bereitschaftszeit von der serverseitigen Spracherkennungsvorrichtung 202 empfangen werden kann, Informationen aus, die anzeigen, dass die Spracherkennung fehlgeschlagen ist.
  • Wenn die Verbindung zur Kommunikation zwischen der serverseitigen Spracherkennungsvorrichtung 202 und der clientseitigen Spracherkennungsvorrichtung 100 hergestellt ist, begrenzt die clientseitige Spracherkennungsvorrichtung 100 das Erkennungszielvokabular auf das Befehlsvokabular. Daher ist es möglich, bei der Ausgabe eines Befehls durch den Benutzer zu verhindern, dass die clientseitige Spracherkennungsvorrichtung 100 fälschlicherweise einen Adressnamen oder einen Anlagennamen akustisch ähnlich dem Befehl erkennt. Dadurch wird die Erkennungsrate der clientseitigen Spracherkennungsvorrichtung 100 verbessert und die Antwortgeschwindigkeit wird schneller.
  • Wenn der Benutzer einen Adressnamen oder einen Einrichtungsnamen angibt, da die clientseitige Spracherkennungsvorrichtung 100 das große Vokabular nicht als Erkennungszielvokabular einstellt, ist es wahrscheinlich, dass die Spracherkennung fehlschlägt oder dass ein Erkennungsergebnis für einen Befehl als Erkennungsergebnis mit geringer Zuverlässigkeit erhalten wird. Als Ergebnis gibt das Spracherkennungssystem, wenn der Benutzer einen Adressnamen oder einen Anlagennamen angibt, als Spracherkennungsergebnis ein von der serverseitigen Spracherkennungsvorrichtung 202 empfangenes Erkennungsergebnis mit hoher Erkennungsleistung aus.
  • Als nächstes wird die Konfiguration der clientseitigen Spracherkennungsvorrichtung 100 beschrieben.
  • Die clientseitige Spracherkennungsvorrichtung 100 beinhaltet eine Spracherfassungseinheit 101, eine Spracherkennungseinheit 102, eine Kommunikationseinheit 103, eine Kommunikationszustandserfassungseinheit 104, eine Vokabularänderungseinheit 105 und eine Erkennungsergebnisübernahmeeinheit 106.
  • Die Spracherfassungseinheit 101 erfasst die von einem Benutzer geäußerte Sprache über ein damit verbundenes Mikrofon 400. Die Spracherfassungseinheit 101 wandelt die aufgenommene gesprochene Sprache analog/digital (A/D) um, beispielsweise durch Pulscodemodulation (PCM). Die Spracherfassungseinheit 101 gibt die konvertierten digitalisierten Sprachdaten an die Spracherkennungseinheit 102 und die Kommunikationseinheit 103 aus.
  • Die Spracherkennungseinheit 102 erkennt aus der digitalisierten Sprachdateneingabe der Spracherfassungseinheit 101 einen Sprachabschnitt, der dem vom Benutzer gesprochenen Inhalt entspricht (nachfolgend „ein Äußerungsabschnitt“ genannt). Die Spracherkennungseinheit 102 extrahiert die Merkmalsmenge der Sprachdaten des erfassten Äußerungsabschnitts. Die Spracherkennungseinheit 102 führt die Spracherkennung anhand des extrahierten Merkmalsbetrages durch, indem sie als Erkennungsziel ein Erkennungszielvokabular verwendet, das durch die später zu beschreibende Vokabularänderungseinheit 105 angezeigt wird. Die Spracherkennungseinheit 102 gibt ein Ergebnis der Spracherkennung an die Erkennungsergebnisübernahmeeinheit 106 aus. Als Spracherkennungsverfahren der Spracherkennungseinheit 102 ist beispielsweise ein allgemeines Verfahren wie das Hidden Markov Model (HMM) anwendbar. Die Spracherkennungseinheit 102 verfügt über Erkennungswörterbücher (nicht dargestellt) zur Erkennung des großen Vokabulars und des Befehlsvokabulars. Wenn ein Erkennungszielvokabular durch die später zu beschreibende Vokabularänderungseinheit 105 angezeigt wird, aktiviert die Spracherkennungseinheit 102 ein Erkennungswörterbuch, das dem angegebenen Erkennungszielvokabular entspricht.
  • Die Kommunikationseinheit 103 stellt eine Verbindung zur Kommunikation mit einer Kommunikationseinheit 201 der Servervorrichtung 200 über das Kommunikationsnetzwerk 300 her. Die Kommunikationseinheit 103 überträgt die digitalisierte Sprachdateneingabe von der Spracherfassungseinheit 101 an die Servervorrichtung 200. Die Kommunikationseinheit 103 empfängt auch ein Erkennungsergebnis von der serverseitigen Spracherkennungsvorrichtung 202, wobei das Erkennungsergebnis von der Servervorrichtung 200 übertragen wird, wie später beschrieben wird. Die Kommunikationseinheit 103 gibt das empfangene Erkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung 202 an die Erkennungsergebnisübernehmende Einheit 106 aus.
  • Darüber hinaus bestimmt die Kommunikationseinheit 103, ob eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 in einem vorgegebenen Zyklus aufgebaut werden kann. Die Kommunikationseinheit 103 gibt das Bestimmungsergebnis an die Kommunikationszustandserfassungseinheit 104 aus.
  • Auf der Grundlage der von der Kommunikationseinheit 103 eingegebenen Bestimmungsergebnisse erhält die Kommunikationszustandserfassungseinheit 104 Informationen darüber, ob eine Kommunikation durchgeführt werden kann. Die Kommunikationszustandserfassungseinheit 104 gibt die Informationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, an die Vokabularänderungseinheit 105 und die Erkennungsergebnisübernahmeeinheit 106 aus. Die Kommunikationszustandserfassungseinheit 104 kann die Informationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, von einer externen Vorrichtung erfassen.
  • Auf der Grundlage der Informationen, die angeben, ob eine Kommunikation durchgeführt werden kann, die von der Kommunikationszustandserfassungseinheit 104 eingegeben werden, bestimmt die Vokabularänderungseinheit 105 ein von der Spracherkennungseinheit 102 zu erkennendes Vokabular und weist die Spracherkennungseinheit 102 an. Insbesondere bezieht sich die Vokabularänderungseinheit 105 auf die Information, ob eine Kommunikation durchgeführt werden kann und wenn keine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann, weist die Spracherkennungseinheit 102 an, das große Vokabular und das Befehlsvokabular als Erkennungsziel einzustellen. Andererseits, wenn eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann, weist die Vokabularänderungseinheit 105 die Spracherkennungseinheit 102 an, das Befehlsvokabular als Erkennungszielvokabular einzustellen.
  • Auf der Grundlage der Informationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, eingegeben von der Kommunikationszustandserfassungseinheit 104, übernimmt die Erkennungsergebnisübernahmeeinheit 106 eines von einem Spracherkennungsergebnis durch die clientseitige Spracherkennungsvorrichtung 100, einem Spracherkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung 202 und einem Fehler in der Spracherkennung. Die Erkennungsergebnisübernahmeeinheit 106 gibt die übernommenen Informationen an die integrierte Vorrichtung 500 aus.
  • Insbesondere wenn keine Verbindung zur Kommunikation zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann, bestimmt die Erkennungsergebnisübernahmeeinheit 106, ob die Zuverlässigkeit der von der Spracherkennungseinheit 102 eingegebenen Erkennungsergebnisse größer oder gleich einem vorbestimmten Schwellenwert ist. In einem Fall, in dem die Zuverlässigkeit des ausgewählten Spracherkennungsergebnisses größer oder gleich dem vorgegebenen Schwellenwert ist, gibt die Erkennungsergebnisübernahmeeinheit 106 das Erkennungsergebnis als Spracherkennungsergebnis an die integrierte Vorrichtung 500 aus. Andererseits gibt die Erkennungsergebnisübernahmeeinheit 106 in einem Fall, in dem die Zuverlässigkeit des ausgewählten Erkennungsergebnisses unter dem vorgegebenen Schwellenwert liegt, an die integrierte Vorrichtung 500 Informationen aus, die anzeigen, dass die Spracherkennung fehlgeschlagen ist.
  • In der Zwischenzeit, wenn eine Verbindung für die Kommunikation zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann, bestimmt die Erkennungsergebnisübernahmeeinheit 106, ob die Zuverlässigkeit der von der Spracherkennungseinheit 102 eingegebenen Erkennungsergebnisse größer oder gleich dem vorbestimmten Schwellenwert ist. In einem Fall, in dem die Zuverlässigkeit des ausgewählten Erkennungsergebnisses größer oder gleich dem vorgegebenen Schwellenwert ist, gibt die Erkennungsergebnisübernahmeeinheit 106 das Erkennungsergebnis als Spracherkennungsergebnis an die integrierte Vorrichtung 500 aus. Andererseits wartet die Erkennungsergebnisübernahmeeinheit 106 in einem Fall, in dem die Zuverlässigkeit des ausgewählten Erkennungsergebnisses kleiner als der vorgegebene Schwellenwert ist, darauf, dass das Erkennungsergebnis der serverseitigen Spracherkennungsvorrichtung 202 über die Kommunikationseinheit 103 eingegeben wird. Wenn das Erkennungsergebnis von der serverseitigen Spracherkennungsvorrichtung 202 innerhalb der voreingestellten Bereitschaftszeit erfasst wurde, gibt die Erkennungsergebnisübernahmeeinheit 106 das erfasste Erkennungsergebnis als Spracherkennungsergebnis an die integrierte Vorrichtung 500 aus. Andererseits, wenn das Erkennungsergebnis nicht innerhalb der voreingestellten Bereitschaftszeit von der serverseitigen Spracherkennungsvorrichtung 202 erfasst wurde, gibt die Erkennungsergebnisübernahmeeinheit 106 Informationen aus, die anzeigen, dass die Spracherkennung fehlgeschlagen ist, an die integrierte Vorrichtung 500.
  • Als nächstes wird die Konfiguration der Servervorrichtung 200 beschrieben.
  • Die Servervorrichtung 200 beinhaltet die Kommunikationseinheit 201 und die Spracherkennungsvorrichtung 202.
  • Die Kommunikationseinheit 201 stellt eine Verbindung zur Kommunikation mit der Kommunikationseinheit 103 der clientseitigen Spracherkennungsvorrichtung 100 über das Kommunikationsnetzwerk 300 her. Die Kommunikationseinheit 201 empfängt Sprachdaten, die von der clientseitigen Spracherkennungsvorrichtung 100 übertragen werden. Die Kommunikationseinheit 201 gibt die empfangenen Sprachdaten an die serverseitige Spracherkennungsvorrichtung 202 aus. Die Kommunikationseinheit 201 überträgt auch ein Erkennungsergebnis der später zu beschreibenden serverseitigen Spracherkennungsvorrichtung 202 an die clientseitige Spracherkennungsvorrichtung 100.
  • Die serverseitige Spracherkennungsvorrichtung 202 erkennt einen Äußerungsabschnitt aus der Sprachdateneingabe der Kommunikationseinheit 201 und extrahiert die Merkmalsmenge der Sprachdaten des erfassten Äußerungsabschnitts. Die serverseitige Spracherkennungsvorrichtung 202 setzt das große Vokabular und das Befehlsvokabular als Erkennungszielvokabular und führt die Spracherkennung an der extrahierten Merkmalsmenge durch. Die serverseitige Spracherkennungsvorrichtung 202 gibt das Erkennungsergebnis an die Kommunikationseinheit 201 aus.
  • Als nächstes wird ein Beispiel für eine Hardwarekonfiguration der Spracherkennungsvorrichtung 100 beschrieben.
  • Die 2A und 2B sind Diagramme, die exemplarische Hardwarekonfigurationen der Spracherkennungsvorrichtung 100 veranschaulichen.
  • Die Kommunikationseinheit 103 in der Spracherkennungsvorrichtung 100 entspricht einer Sende-Empfangsvorrichtung 100a, die eine drahtlose Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 durchführt. Die jeweiligen Funktionen der Spracherfassungseinheit 101, der Spracherkennungseinheit 102, der Kommunikationszustandserfassungseinheit 104, der Vokabularänderungseinheit 105 und der Erkennungsergebnisübernahmeeinheit 106 in der Spracherkennungsvorrichtung 100 sind durch eine Verarbeitungsschaltung implementiert. Das heißt, die Spracherkennungsvorrichtung 100 beinhaltet die Verarbeitungsschaltung zur Implementierung der oben genannten Funktionen. Die Verarbeitungsschaltung kann eine Verarbeitungsschaltung 100b sein, die eine spezielle Hardware ist, wie in 2A dargestellt, oder ein Prozessor 100c zum Ausführen von Programmen, die in einem Speicher 100d gespeichert sind, wie in 2B dargestellt.
  • Wenn die Spracherfassungseinheit 101, die Spracherkennungseinheit 102, die Kommunikationszustandserfassungseinheit 104, die Vokabularänderungseinheit 105 und die Erkennungsergebnisübernahmeeinheit 106 durch eine spezielle Hardware implementiert sind, wie in 2A dargestellt, entspricht die Verarbeitungsschaltung 100b beispielsweise einer einzelnen Schaltung, einer zusammengesetzten Schaltung, einem programmierten Prozessor, einem parallel programmierten Prozessor, einer anwendungsspezifischen integrierten Schaltung (ASIC), einer feldprogrammierbaren Gateanordnung (FPGA) oder einer Kombination derselben. Die Funktionen der jeweiligen Einheiten der Spracherfassungseinheit 101, der Spracherkennungseinheit 102, der Kommunikationszustandserfassungseinheit 104, der Vokabularänderungseinheit 105 und der Erkennungsergebnisübernahmeeinheit 106 können separat durch Verarbeitungsschaltungen implementiert werden, oder die Funktionen der jeweiligen Einheiten können gemeinsam durch eine Verarbeitungsschaltung implementiert werden.
  • Wie in 2B dargestellt, werden im Falle, dass die Spracherfassungseinheit 101, die Spracherkennungseinheit 102, die Kommunikationszustandserfassungseinheit 104, die Vokabularänderungseinheit 105 und die Erkennungsergebnisübernahmeeinheit 106 durch den Prozessor 100c implementiert, die Funktionen der jeweiligen Einheiten durch Software, Firmware oder eine Kombination aus Software und Firmware implementiert. Die Software oder die Firmware wird als Programm beschrieben und im Speicher 100d abgelegt. Durch Auslesen und Ausführen des im Speicher 100d gespeicherten Programms implementiert der Prozessor 100c die Funktionen der Spracherfassungseinheit 101, der Spracherkennungseinheit 102, der Kommunikationszustandserfassungseinheit 104, der Vokabularänderungseinheit 105 und der Erkennungsergebnisübernahmeeinheit 106. Das heißt, die Spracherfassungseinheit 101, die Spracherkennungseinheit 102, die Kommunikationszustandserfassungseinheit 104, die Vokabularänderungseinheit 105 und die Erkennungsergebnisübernahmeeinheit 106 beinhalten den Speicher 100d zum Speichern einer Programmausführung, deren Ausführung durch den Prozessor 100c zur Ausführung der in den 3 und 4 dargestellten Schritte führt, die später beschrieben werden. Darüber hinaus kann gesagt werden, dass diese Programme einen Computer veranlassen, die Verfahren oder Methoden der Spracherfassungseinheit 101, der Spracherkennungseinheit 102, der Kommunikationszustandserfassungseinheit 104, der Vokabularänderungseinheit 105 und der Erkennungsergebnisübernahmeeinheit 106 auszuführen.
  • Hier kann der Prozessor 100c beispielsweise eine CPU, eine Verarbeitungsvorrichtung, eine arithmetische Vorrichtung, einen Prozessor, einen Mikroprozessor, einen Mikrocomputer, einen digitalen Signalprozessor (DSP) oder dergleichen beinhalten.
  • Der Speicher 100d kann ein nichtflüchtiger oder flüchtiger Halbleiterspeicher wie ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein Flash-Speicher, ein löschbares programmierbares ROM (EPROM), ein elektrisches EPROM (EEPROM), eine Magnetplatte wie eine Festplatte oder eine flexible Platte oder eine optische Platte wie eine Mini-Disk, eine Compact-Disc (CD) oder eine digitale vielseitige Platte (DVD) sein.
  • Es ist zu beachten, dass einige der Funktionen der Spracherfassungseinheit 101, der Spracherkennungseinheit 102, der Kommunikationszustandserfassungseinheit 104, der Vokabularänderungseinheit 105 und der Erkennungsergebnisübernahmeeinheit 106 durch spezielle Hardware und einige davon durch Software oder Firmware implementiert werden können. Auf diese Weise kann die Verarbeitungsschaltung 100b in der Spracherkennungsvorrichtung 100 die obigen Funktionen durch Hardware, Software, Firmware oder eine Kombination derselben implementieren.
  • Als nächstes wird die Bedienung der Spracherkennungsvorrichtung 100 beschrieben.
  • Zunächst wird die Einstellung eines Erkennungszielvokabulars anhand eines Flussdiagramms aus 3 beschrieben.
  • 3 ist ein Flussdiagramm, das den Betrieb der Vokabularänderungseinheit 105 der Spracherkennungsvorrichtung 100 gemäß der ersten Ausführungsform veranschaulicht.
  • Wenn Informationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, von der Kommunikationszustandserfassungseinheit 104 (Schritt ST1) eingegeben werden, bezieht sich die Vokabularänderungseinheit 105 auf die Eingangsinformationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, und bestimmt, ob eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann (Schritt ST2). Wenn eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 aufgebaut werden kann (Schritt ST2: JA), weist die Vokabularänderungseinheit 105 die Spracherkennungseinheit 102 an, das Befehlsvokabular als Erkennungszielvokabular einzustellen (Schritt ST3). Kann dagegen keine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden (Schritt ST2: NEIN), weist die Vokabularänderungseinheit 105 die Spracherkennungseinheit 102 an, das große Vokabular und das Befehlsvokabular als Erkennungszielvokabular einzustellen (Schritt ST4). Wenn die Verarbeitung von Schritt ST3 oder Schritt ST4 durchgeführt wurde, beendet die Vokabularänderungseinheit 105 die Verarbeitung.
  • Anschließend wird die Übernahme eines Erkennungsergebnisses anhand eines Flussdiagramms von 4 beschrieben.
  • 4 ist ein Flussdiagramm, das die Funktionsweise der Erkennungsergebnisübernahmeeinheit 106 der Spracherkennungsvorrichtung 100 gemäß der ersten Ausführungsform veranschaulicht. Es ist zu beachten, dass die Spracherkennungseinheit 102 bestimmt, welches Erkennungswörterbuch aktiviert werden soll, abhängig von einem Erkennungszielvokabular, das auf der Grundlage des Flussdiagramms von 3, wie vorstehend beschrieben, angegeben wird.
  • Wenn Informationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, von der Kommunikationszustandserfassungseinheit 104 (Schritt ST11) eingegeben werden, bezieht sich die Erkennungsergebnisübernahmeeinheit 106 auf die Eingangsinformationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, und bestimmt, ob eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann (Schritt ST12). Wenn eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann (Schritt ST12: JA), erfasst die Erkennungsergebnisübernahmeeinheit 106 einen Erkennungsergebniseingang von der Spracherkennungseinheit 102 (Schritt ST13). Das Erkennungsergebnis, das von der Erkennungsergebnisübernahmeeinheit 106 in Schritt ST13 erfasst wird, ist ein Ergebnis der Erkennungsverarbeitung durch die Spracherkennungseinheit 102, wobei nur das Erkennungswörterbuch des Befehlsvokabulars gültig ist.
  • Die Erkennungsergebnisübernahmeeinheit 106 bestimmt, ob die Zuverlässigkeit des in Schritt ST13 erfassten Erkennungsergebnisses größer oder gleich einem vorgegebenen Schwellenwert ist (Schritt ST14). Wenn die Zuverlässigkeit größer oder gleich dem vorgegebenen Schwellenwert (Schritt ST14: JA) ist, gibt die Erkennungsergebnisübernahmeeinheit 106 das Erkennungsergebnis der in Schritt ST13 erfassten Spracherkennungseinheit 102 als Spracherkennungsergebnis (Schritt ST15) an die integrierte Vorrichtung 500 aus. Anschließend beendet die Erkennungsergebnisübernahmeeinheit 106 die Verarbeitung.
  • Wenn hingegen die Zuverlässigkeit nicht größer oder gleich dem vorgegebenen Schwellenwert (Schritt ST14: NEIN) ist, bestimmt die Erkennungsergebnisübernahmeeinheit 106, ob ein Erkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung 202 erfasst wurde (Schritt ST16). Wenn das Erkennungsergebnis der serverseitigen Spracherkennungsvorrichtung 202 erfasst wurde (Schritt ST16: JA), gibt die Erkennungsergebnisübernahmeeinheit 106 das Erkennungsergebnis der serverseitigen Spracherkennungsvorrichtung 202 als Spracherkennungsergebnis (Schritt ST17) an die Integrierte Vorrichtung 500 aus. Anschließend beendet die Erkennungsergebnisübernahmeeinheit 106 die Verarbeitung.
  • Andererseits, wenn das Erkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung 202 nicht erfasst wurde (Schritt ST16: NEIN), bestimmt die Erkennungsergebnisübernahmeeinheit 106, ob eine voreingestellte Bereitschaftszeit verstrichen ist (Schritt ST18). Wenn die voreingestellte Bereitschaftszeit nicht verstrichen ist (Schritt ST18: NO), kehrt die Verarbeitung zur Bestimmungsverarbeitung von Schritt ST16 zurück. Andererseits, wenn die voreingestellte Bereitschaftszeit abgelaufen ist (Schritt ST18: JA), gibt die Erkennungsergebnisübernahmeeinheit 106 Informationen an die Integrierte Vorrichtung 500 aus, die anzeigen, dass die Spracherkennung fehlgeschlagen ist (Schritt ST19). Anschließend beendet die Erkennungsergebnisübernahmeeinheit 106 die Verarbeitung.
  • Wenn keine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann (Schritt ST12: NEIN), erfasst die Erkennungsergebnisübernahmeeinheit 106 die Eingabe des Erkennungsergebnisses von der Spracherkennungseinheit 102 (Schritt ST20). Das Erkennungsergebnis, das von der Erkennungsergebnisübernahmeeinheit 106 in Schritt ST20 erfasst wird, ist ein Ergebnis der Erkennungsverarbeitung durch die Spracherkennungseinheit 102, wobei die Erkennungswörterbücher des großen Vokabulars und des Befehlsvokabulars gültig sind.
  • Die Erkennungsergebnisübernahmeeinheit 106 bestimmt, ob die Zuverlässigkeit des in Schritt ST20 erfassten Erkennungsergebnisses größer oder gleich dem vorgegebenen Schwellenwert (Schritt ST21) ist. Wenn die Zuverlässigkeit größer oder gleich dem vorgegebenen Schwellenwert (Schritt ST21: JA) ist, gibt die Erkennungsergebnisübernahmeeinheit 106 das Erkennungsergebnis der in Schritt ST20 erfassten Spracherkennungseinheit 102 als Spracherkennungsergebnis (Schritt ST22) an die Integrierte Vorrichtung 500 aus. Anschließend beendet die Erkennungsergebnisübernahmeeinheit 106 die Verarbeitung. Wenn hingegen die Zuverlässigkeit nicht größer oder gleich dem vorgegebenen Schwellenwert (Schritt ST21: NEIN) ist, gibt die Erkennungsergebnisübernahmeeinheit 106 Informationen an die Integrierte Vorrichtung 500 aus, die anzeigen, dass die Spracherkennung fehlgeschlagen ist (Schritt ST23). Anschließend beendet die Erkennungsergebnisübernahmeeinheit 106 die Verarbeitung.
  • Es ist zu beachten, dass die Kommunikationszustandserfassungseinheit 104 zusätzlich zu der oben beschriebenen Konfiguration auch eine Komponente zum Erfassen von Informationen zum Vorhersagen eines Kommunikationszustands zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 beinhalten kann. Hier sind die Informationen zum Vorhersagen eines Kommunikationszustands Informationen zum Vorhersagen, ob die Verbindung zur Kommunikation zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 wahrscheinlich innerhalb eines vorbestimmten Zeitraums deaktiviert wird. Insbesondere sind die Informationen zum Vorhersagen eines Kommunikationszustands Informationen wie Informationen, die anzeigen, dass das mit der clientseitigen Spracherkennungsvorrichtung 100 ausgestattete Fahrzeug nach 30 Sekunden oder in 1 km in einen Tunnel einfährt. Die Kommunikationszustandserfassungseinheit 104 erfasst die Informationen zum Vorhersagen eines Kommunikationszustands von einer externen Vorrichtung (nicht dargestellt) über die Kommunikationseinheit 103. Die Kommunikationszustandserfassungseinheit 104 gibt die erfassten Informationen zur Vorhersage eines Kommunikationszustands an die Vokabularänderungseinheit 105 und die Erkennungsergebnisübernahmeeinheit 106 aus.
  • Die Vokabularänderungseinheit 105 zeigt der Spracherkennungseinheit 102 auf der Grundlage der Informationen, die angeben, ob eine Kommunikation durchgeführt werden kann, und eines Vorhersageergebnisses eines Zustands, in dem die Kommunikation wahrscheinlich deaktiviert wird, ein Erkennungszielvokabular an, wobei die Informationen von der Erfassungseinheit 104 des Kommunikationszustands eingegeben werden. Insbesondere wenn die Verbindung zur Kommunikation zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 nicht hergestellt werden kann oder wenn festgestellt wird, dass die Kommunikation wahrscheinlich innerhalb eines vorbestimmten Zeitraums deaktiviert wird, weist die Vokabularänderungseinheit 105 die Spracherkennungseinheit 102 an, das große Vokabular und das Befehlsvokabular als Erkennungsziel einzustellen. Andererseits, wenn eine Verbindung zur Kommunikation mit der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann und wenn festgestellt wird, dass die Kommunikation wahrscheinlich nicht innerhalb der vorgegebenen Zeitspanne deaktiviert wird, weist die Vokabularänderungseinheit 105 die Spracherkennungseinheit 102 an, das Befehlsvokabular als Erkennungszielvokabular einzustellen.
  • Die Erkennungsergebnisübernahmeeinheit 106 übernimmt eines von einem Spracherkennungsergebnis durch die clientseitige Spracherkennungsvorrichtung 100, einem Spracherkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung 202 und einem Fehler in der Spracherkennung auf der Grundlage der Informationen, die anzeigen, ob eine Kommunikation durchgeführt werden kann, und ein Vorhersageergebnis eines Zustands, in dem die Kommunikation wahrscheinlich deaktiviert wird, wobei die Informationen von der Kommunikationszustandserfassungseinheit 104 eingegeben werden.
  • Insbesondere wenn eine Verbindung zur Kommunikation zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 nicht hergestellt werden kann oder wenn bestimmt wird, dass die Kommunikation innerhalb der vorgegebenen Zeitspanne wahrscheinlich deaktiviert wird, bestimmt die Erkennungsergebnisübernahmeeinheit 106, ob die Zuverlässigkeit der von der Spracherkennungseinheit 102 eingegebenen Erkennungsergebnisse größer oder gleich dem vorgegebenen Schwellenwert ist.
  • Andererseits, wenn eine Verbindung zur Kommunikation zwischen der Kommunikationseinheit 103 und der Kommunikationseinheit 201 der Servervorrichtung 200 hergestellt werden kann und wenn bestimmt wird, dass die Kommunikation wahrscheinlich nicht innerhalb der vorgegebenen Zeitspanne deaktiviert wird, bestimmt die Erkennungsergebnisübernehmende Einheit 106, ob die Zuverlässigkeit der von der Spracherkennungseinheit 102 eingegebenen Erkennungsergebnisse größer oder gleich dem vorgegebenen Schwellenwert ist. Die Erkennungsergebnisübernahmeeinheit 106 wartet ebenfalls darauf, dass das Erkennungsergebnis der serverseitigen Spracherkennungsvorrichtung 202 bei Bedarf eingegeben wird.
  • Wie vorstehend beschrieben, beinhaltet die clientseitige Spracherkennungsvorrichtung 100 in dem Spracherkennungssystem vom Server-Client-Typ zur Durchführung der Spracherkennung nach der Äußerung eines Benutzers unter Verwendung der clientseitigen Spracherkennungsvorrichtung 100 und der serverseitigen Spracherkennungsvorrichtung 202, die clientseitige Spracherkennungsvorrichtung 100: die Spracherkennungseinheit 102 zum Erkennen der Äußerung des Benutzers; die Kommunikationszustandserfassungseinheit 104 zum Erfassen eines Kommunikationszustandes mit der Servervorrichtung 200 einschließlich der serverseitigen Spracherkennungsvorrichtung 202; und die Vokabularänderungseinheit 105 zum Ändern eines Erkennungszielvokabulars der Spracherkennungseinheit 102 auf der Grundlage des erworbenen Kommunikationszustandes. Daher ist es möglich, eine schnelle Reaktionsgeschwindigkeit auf die Äußerung des Benutzers und eine hohe Erkennungsrate der Äußerung des Benutzers zu realisieren.
  • Darüber hinaus setzt die Spracherkennungseinheit 102 gemäß der ersten Ausführungsform das Befehlsvokabular und das große Vokabular als Erkennungszielvokabular, und wenn der von der Kommunikationszustandserfassungseinheit 104 erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung 200 durchgeführt werden kann, ändert die Vokabularänderungseinheit 105 das Erkennungszielvokabular der Spracherkennungseinheit 102 in das Befehlsvokabular, und wenn der von der Kommunikationszustandserfassungseinheit 104 erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung 200 nicht durchgeführt werden kann, ändert die Vokabularänderungseinheit 105 das Erkennungszielvokabular der Spracherkennungseinheit 102 in das Befehlsvokabular und das große Vokabular. Daher ist es möglich, eine schnelle Reaktionsgeschwindigkeit auf die Äußerung des Benutzers und eine hohe Erkennungsrate der Äußerung des Benutzers zu realisieren.
  • Darüber hinaus ist gemäß der ersten Ausführungsform weiterhin die Erkennungsergebnisübernahmeeinheit 106 zum Übernehmen eines von einem Erkennungsergebnis durch die Spracherkennungseinheit 102, einem Erkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung 202 und einem Ausfall der Spracherkennung auf der Grundlage des von der Kommunikationszustandsübernahmeeinheit 104 erfassten Kommunikationszustandes und der Zuverlässigkeit des Erkennungsergebnisses durch die Spracherkennungseinheit enthalten. Daher ist es möglich, eine schnelle Reaktionsgeschwindigkeit auf die Äußerung des Benutzers und eine hohe Erkennungsrate der Äußerung des Benutzers zu realisieren.
  • Darüber hinaus erfasst die Kommunikationszustandserfassungseinheit 104 gemäß der ersten Ausführungsform Informationen zum Vorhersagen des Kommunikationszustandes mit der Servervorrichtung 200, und die Vokabularänderungseinheit 105 bezieht sich auf die Informationen zum Vorhersagen des Kommunikationszustandes, der von der Kommunikationszustandserfassungseinheit 104 erfasst wird, und wenn bestimmt wird, dass der Kommunikationszustand wahrscheinlich innerhalb eines vorbestimmten Zeitraums ein kommunikationsdeaktivierter Zustand ist, ändert sie das Erkennungszielvokabular der Spracherkennungseinheit 102 in das Befehlsvokabular. Somit ist es möglich, eine Verschlechterung des Kommunikationszustandes in der Mitte der Spracherkennungsverarbeitung zu verhindern. Dadurch kann die Spracherkennungsvorrichtung 100 zuverlässig ein Spracherkennungsergebnis erfassen und das Spracherkennungsergebnis an die Integrierte Vorrichtung 500 ausgeben.
  • Es ist zu beachten, dass die vorliegende Erfindung eine Änderung einer beliebigen Komponente der Ausführungsform oder das Weglassen einer Komponente der Ausführungsform im Rahmen der vorliegenden Erfindung beinhalten kann.
  • INDUSTRIELLE ANWENDBARKEIT
  • Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung wird in einer Vorrichtung oder dergleichen verwendet, um eine Spracherkennungsverarbeitung nach der Äußerung eines Benutzers in einer Umgebung durchzuführen, in der sich ein Kommunikationszustand ändert, während sich ein mobiler Körper bewegt.
  • Bezugszeichenliste
  • 100, 202
    Spracherkennungsvorrichtung,
    101
    Spracherfassungseinheit,
    102
    Spracherkennungseinheit,
    103, 201
    Kommunikationseinheit,
    104
    Kommunikationszustandserfassungseinheit,
    105
    Vokabularveränderungseinheit,
    106
    Erkennungsergebnisübernahmeeinheit,
    200
    Servervorrichtung.

Claims (4)

  1. Eine clientseitige Spracherkennungsvorrichtung (100) in einem Spracherkennungssystem vom Server-Client-Typ zum Ausführen der Spracherkennung nach der Äußerung eines Benutzers unter Verwendung der clientseitigen Spracherkennungsvorrichtung (100) und einer serverseitigen Spracherkennungsvorrichtung (202), wobei die clientseitige Spracherkennungsvorrichtung umfasst: eine Spracherkennungseinheit (102) zum Erkennen der Äußerung des Benutzers; eine Kommunikationszustandserfassungseinheit (104) zum Erfassen eines Kommunikationszustandes mit einer Servervorrichtung (200), die die serverseitige Spracherkennungsvorrichtung beinhaltet; und eine Vokabularänderungseinheit (105) zum Ändern eines Erkennungszielvokabulars der Spracherkennungseinheit auf der Grundlage des von der Kommunikationszustandserfassungseinheit erfassten Kommunikationszustands, wobei die Spracherkennungseinheit ein Befehlsvokabular und ein großes Vokabular als Erkennungszielvokabular festlegt, und wenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass eine Kommunikation mit der Servervorrichtung durchgeführt werden kann, die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular ändert, und wenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung nicht durchgeführt werden kann, die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular und das große Vokabular ändert.
  2. Die Spracherkennungsvorrichtung nach Anspruch 1, ferner umfassend eine Erkennungsergebnisübernahmeeinheit (106) zum Übernehmen eines von einem Erkennungsergebnis durch die Spracherkennungseinheit, einem Erkennungsergebnis durch die serverseitige Spracherkennungsvorrichtung und einem Ausfall der Spracherkennung, auf der Grundlage des von der Kommunikationszustandsübernahmeeinheit erfassten Kommunikationszustandes und der Zuverlässigkeit des Erkennungsergebnisses durch die Spracherkennungseinheit.
  3. Die Spracherkennungsvorrichtung nach Anspruch 1 oder 2, wobei die Kommunikationszustandserfassungseinheit Informationen zum Vorhersagen des Kommunikationszustands mit der Servervorrichtung erfasst, und die Vokabularänderungseinheit sich auf die Informationen zum Vorhersagen des von der Kommunikationszustandserfassungseinheit erfassten Kommunikationszustandes bezieht, und wenn bestimmt wird, dass der Kommunikationszustand innerhalb eines vorbestimmten Zeitraums wahrscheinlich ein kommunikationsfreier Zustand ist, das Erkennungszielvokabular der Spracherkennungseinheit auf das Befehlsvokabular und das große Vokabular ändert.
  4. Ein Spracherkennungsverfahren zum Durchführen einer Spracherkennung vom Server-Client-Typ auf die Äußerung eines Benutzers unter Verwendung einer clientseitigen Spracherkennungsvorrichtung (100) und einer serverseitigen Spracherkennungsvorrichtung (202), wobei das Spracherkennungsverfahren die folgenden Schritte umfasst: Erkennen der Äußerung des Benutzers durch eine Spracherkennungseinheit (102); Erfassen eines Kommunikationszustandes zwischen der clientseitigen Spracherkennungsvorrichtung und einer Servervorrichtung mit der serverseitigen Spracherkennungsvorrichtung durch eine Kommunikationszustandserfassungseinheit (104); und Ändern eines Erkennungszielvokabulars, das zur Erkennung der Äußerung des Benutzers verwendet wird, durch eine Vokabularänderungseinheit (105) auf der Grundlage des erworbenen Kommunikationszustands, wobei die Spracherkennungseinheit ein Befehlsvokabular und ein großes Vokabular als Erkennungszielvokabular festlegt, und wenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass eine Kommunikation mit der Servervorrichtung durchgeführt werden kann, die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular ändert, und wenn der von der Kommunikationszustandserfassungseinheit erfasste Kommunikationszustand anzeigt, dass die Kommunikation mit der Servervorrichtung nicht durchgeführt werden kann, die Vokabularänderungseinheit das Erkennungszielvokabular der Spracherkennungseinheit in das Befehlsvokabular und das große Vokabular ändert.
DE112017007562.9T 2017-06-22 2017-06-22 Spracherkennungsvorrichtung und Spracherkennungsverfahren Expired - Fee Related DE112017007562B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/023060 WO2018235236A1 (ja) 2017-06-22 2017-06-22 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
DE112017007562T5 DE112017007562T5 (de) 2020-02-20
DE112017007562B4 true DE112017007562B4 (de) 2021-01-21

Family

ID=64736141

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017007562.9T Expired - Fee Related DE112017007562B4 (de) 2017-06-22 2017-06-22 Spracherkennungsvorrichtung und Spracherkennungsverfahren

Country Status (5)

Country Link
US (1) US20200211562A1 (de)
JP (1) JP6570796B2 (de)
CN (1) CN110770821A (de)
DE (1) DE112017007562B4 (de)
WO (1) WO2018235236A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10553098B2 (en) 2014-05-20 2020-02-04 Ooma, Inc. Appliance device integration with alarm systems
US9633547B2 (en) 2014-05-20 2017-04-25 Ooma, Inc. Security monitoring and control
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US10009286B2 (en) 2015-05-08 2018-06-26 Ooma, Inc. Communications hub
WO2019087478A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020175384A1 (en) * 2019-02-25 2020-09-03 Clarion Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
WO2020245912A1 (ja) * 2019-06-04 2020-12-10 日本電信電話株式会社 音声認識制御装置、音声認識制御方法、およびプログラム
JP2021152589A (ja) * 2020-03-24 2021-09-30 シャープ株式会社 電子機器の制御装置、制御プログラム、制御方法、電子機器
JP7522651B2 (ja) 2020-12-18 2024-07-25 本田技研工業株式会社 情報処理装置、移動体、プログラム及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057450A1 (en) * 2008-08-29 2010-03-04 Detlef Koll Hybrid Speech Recognition
DE102014019192A1 (de) * 2014-12-19 2016-06-23 Audi Ag Darstellung des Online-Status einer hypriden Sprachbedienung

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4554285B2 (ja) * 2004-06-18 2010-09-29 トヨタ自動車株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
JP2015219253A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 音声認識装置、音声認識方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057450A1 (en) * 2008-08-29 2010-03-04 Detlef Koll Hybrid Speech Recognition
DE102014019192A1 (de) * 2014-12-19 2016-06-23 Audi Ag Darstellung des Online-Status einer hypriden Sprachbedienung

Also Published As

Publication number Publication date
JP6570796B2 (ja) 2019-09-04
JPWO2018235236A1 (ja) 2019-11-07
CN110770821A (zh) 2020-02-07
US20200211562A1 (en) 2020-07-02
WO2018235236A1 (ja) 2018-12-27
DE112017007562T5 (de) 2020-02-20

Similar Documents

Publication Publication Date Title
DE112017007562B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE60128816T2 (de) Spracherkennungsverfahren mit ersetzungsbefehl
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE112015003382B4 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
DE112013007617B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP1733223A1 (de) Vorrichtung und verfahren zur beurteilung einer güteklasse eines zu prüfenden objekts
DE112013006728T5 (de) Spracherkennungssystem und Spracherkennungsgerät
DE112011105407T5 (de) Spracherkennungsvorrichtung und Navigationsvorrichtung
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE102013223036A1 (de) Adaptionsverfahren und -systeme für Sprachsysteme
DE102013222519A1 (de) Adaptionsverfahren und -systeme für sprachsysteme
DE102017121913A1 (de) Automatisierte Sprachaussprachezuteilung
DE102013222757A1 (de) Adaptionsverfahren und -systeme für Sprachsysteme
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102018221063A1 (de) Konfiguration eines Steuerungssystems für ein zumindest teilautonomes Kraftfahrzeug
DE112015006831T5 (de) Dynamisches Akustikmodell für Fahrzeug
WO2015185464A1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE102014200570A1 (de) Verfahren und System zur Erzeugung eines Steuerungsbefehls
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE112012006308B4 (de) Sprachsynthesevorrichtung
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE102018200746A1 (de) Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug
DE102017200976A1 (de) Verfahren zum Betreiben eines Kraftfahrzeugs mit einer Bedienvorrichtung
DE102017222549A1 (de) Steuerverfahren und Sprachdialogsystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R084 Declaration of willingness to licence
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee