DE112014007265T5 - Spracherkennungseinrichtung und Spracherkennungsverfahren - Google Patents

Spracherkennungseinrichtung und Spracherkennungsverfahren Download PDF

Info

Publication number
DE112014007265T5
DE112014007265T5 DE112014007265.6T DE112014007265T DE112014007265T5 DE 112014007265 T5 DE112014007265 T5 DE 112014007265T5 DE 112014007265 T DE112014007265 T DE 112014007265T DE 112014007265 T5 DE112014007265 T5 DE 112014007265T5
Authority
DE
Germany
Prior art keywords
speech
voice
unit
user
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112014007265.6T
Other languages
English (en)
Inventor
Toshiyuki Hanazawa
Isamu Ogawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112014007265T5 publication Critical patent/DE112014007265T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

Eine Einrichtung umfasst eine Lippenbilderkennungseinheit 103, um einen Benutzerzustand zu erkennen, aus Bilddaten, welche Informationen außer Sprache sind; eine Nichtsprachabschnitts-Bestimmungseinheit 104, um aus dem erkannten Benutzerzustand zu bestimmen, ob oder ob nicht der Benutzer spricht; eine Sprachabschnittsdetektions-Schwellenwertlerneinheit 106, um einen ersten Sprachabschnittsdetektionsschwellenwert (SSDT) aus Sprachdaten einzustellen, wenn bestimmt wird, dass nicht gesprochen wird, und einen zweiten SSDT aus den Sprachdaten einzustellen, nach Umwandlung durch eine Spracheingabeeinheit, wenn bestimmt wird, dass gesprochen wird; eine Sprachabschnittsdetektionseinheit 107, um einen Sprachabschnitt zu detektieren, welcher Sprechen anzeigt, aus den Sprachdaten unter Verwendung der eingestellten Schwellenwerte, wobei, wenn die Spracherkennungseinrichtung den Sprachabschnitt unter Verwendung des zweiten SSDT nicht detektieren kann, sie den Sprachabschnitt unter Verwendung des ersten SSDT detektiert; und eine Spracherkennungseinheit 108, um Sprachdaten im detektierten Sprachabschnitt zu erkennen, und ein Erkennungsergebnis auszugeben.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren zum Extrahieren eines Sprachabschnitts aus eingegebener Sprache und zum Durchführen einer Spracherkennung des extrahierten Sprachabschnitts.
  • Hintergrund zum Stand der Technik
  • Eine Spracherkennungseinrichtung zum Empfangen von Sprache als eine Operationseingabe wurde kürzlich an einem mobilen Endgerät oder einem Navigationssystem montiert. Ein in die Spracherkennungseinrichtung eingegebenes Sprachsignal enthält nicht nur Sprache, die ein Benutzer äußert, der die Operationseingabe vornimmt, sondern auch Töne außer dem Zielton, wie ex terne Geräusche. Aus diesem Grund ist eine Technik erforderlich, die einen Abschnitt, den der Benutzer äußert (nachfolgend als ”Sprachabschnitt” bezeichnet), aus dem in einer lauten Umgebung eingegebenen Sprachsignal richtig extrahiert, und Spracherkennung durchführt, und eine Vielzahl von Techniken offenbart sind.
  • Patentdokument 1 offenbart zum Beispiel eine Sprachabschnittsdetektionseinrichtung, die akustische Merkmale zum Detektieren eines Sprachabschnitts aus einem Sprachsignal extrahiert, Bildmerkmale zum Detektieren des Sprachabschnitts aus Bildrahmen extrahiert, akustische Bildmerkmale durch Kombinieren der akustischen Merkmale mit den extrahierten Bildmerkmalen erzeugt, und den Sprachabschnitt auf Grundlage der akustischen Bildmerkmale bestimmt.
  • Des Weiteren offenbart Patentdokument 2 eine Spracheingabeeinrichtung, die so ausgelegt ist, dass sie die Position eines Sprechers spezifiziert, durch Bestimmen des Vorhandenseins oder Nichtvorhandenseins von Sprache, auf Grundlage der Analyse von Mundbildern eines Sprechers der Spracheingabe, bestimmt, dass die Bewegung des Mundes an der lokalisierten Position die Quelle eines Zieltons ist, und Bewegungen aus einer Geräuschbestimmung ausschließt.
  • Weiterhin offenbart Patentdokument 3 eine Ziffernfolgespracherkennungseinrichtung, welche einen Schwellenwert zum Ausschneiden eines Sprachabschnitts aus Eingabesprache in Entsprechung mit dem Wert einer Variablen i (zum Beispiel i = 5) sukzessive verändert, eine Vielzahl von Erkennungskandidaten durch Ausschneiden der Sprachabschnitte in Entsprechung mit den geänderten Schwellenwerten erhält, und ein finales Erkennungsergebnis bestimmt, durch Aufsummieren von Erkennungsbewertungen, die aus der Vielzahl von erhaltenen Erkennungskandidaten berechnet sind.
  • Liste der zitierten Schriften
  • [Patentdokumente]
    • Patentdokument 1: Japanisches Patent Offenlegungsschrift Nr. 2011-59186
    • Patentdokument 2: Japanisches Patent Offenlegungsschrift Nr. 2006-39267
    • Patentdokument 3: Japanisches Patent Offenlegungsschrift Nr. H8-314495/1996 .
  • Zusammenfassung der Erfindung
  • Technisches Problem
  • Bei den in vorgenanntem Patentdokument 1 und Patentdokument 2 offenbarten Techniken ist es allerdings notwendig, mittels einer Bildaufnahmeeinheit Videos immer parallel zur Sprachabschnittsdetektion und Spracherkennungsverarbeitung für die Eingabesprache aufzunehmen, und das Vorhandensein oder Nichtvorhandensein von Sprache auf Grundlage der Analyse der Mundbilder zu bestimmen, was zu einem Problem eines Anstiegs des Berechnungsumfangs führt.
  • Weiterhin muss durch die in vorgenanntem Patentdokument 3 offenbarte Technik die Sprachabschnittsdetektionsverarbeitung und Spracherkennungsverarbeitung fünf Mal ausgeführt werden, während die Schwellenwerte für eine einzelne Äußerung des Benutzers verändert werden, was zu dem Problem führt, dass der Berechnungsumfang erhöht wird.
  • Außerdem besteht ein Problem in einer zunehmenden Verzögerungszeit bis zum Erhalt eines Spracherkennungsergebnisses in einem Fall, in welchem die Spracherkennungseinrichtung mit dem hohen Berechnungsumfang auf der Hardware betrieben wird, welche eine niedrige Verarbeitungsleistung aufweist, wie ein Tablet-PC. Weiterhin führt das Reduzieren des Berechnungsumfangs der Bilderkennungsverarbeitung oder Spracherkennungsverarbeitung in Entsprechung mit der Verarbeitungsleistung des Tablet-PCs oder dergleichen zu einem Problem der Verschlechterung der Erkennungsverarbeitungsleistung.
  • Die vorliegende Erfindung ist zur Lösung der vorgenannten Probleme realisiert. Aus diesem Grund besteht eine Aufgabe der vorliegenden Erfindung darin, eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren bereitzustellen, die in der Lage sind, eine Verzögerungszeit bis zum Erhalt eines Spracherkennungsergebnisses zu reduzieren und eine Verschlechterung der Erkennungsverarbeitungsleistung zu verhindern, selbst wenn die Spracherkennungseinrichtung auf Hardware eingesetzt wird, die eine niedrige Verarbeitungsleistung aufweist.
  • Lösung des Problems
  • Eine Spracherkennungseinrichtung in Entsprechung mit der vorliegenden Erfindung umfasst: eine Spracheingabeeinheit, die ausgelegt ist, um gesammelte Sprache zu erwerben und die Sprache in Sprachdaten umzuwandeln; eine Nichtsprachinformationen-Eingabeeinheit, die ausgelegt ist, um Informationen außer der Sprache zu erwerben; eine Nichtsprachoperations-Erkennungseinheit, die ausgelegt ist, um einen Benutzerzustand aus den Informationen außer der Sprache, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, zu erkennen; eine Nichtsprachabschnitts-Bestimmungseinheit, die ausgelegt ist, um zu bestimmen, ob oder ob nicht der Benutzer spricht, aus dem Benutzerzustand, den die Nichtsprachoperations-Erkennungseinheit erkennt; eine Schwellenwertlerneinheit, die ausgelegt ist, einen ersten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer nicht spricht, und einen zweiten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer spricht; eine Sprachabschnittsdetektionseinheit, die ausgelegt ist, um unter Verwendung des durch die Schwellenwertlerneinheit eingestellten Schwellenwertes einen Sprachabschnitt zu detektieren, der angibt, dass der Benutzer spricht, aus den durch die Spracheingabeeinheit umgewandelten Sprachdaten; und eine Spracherkennungseinheit, die ausgelegt ist, um die Sprachdaten im durch die Sprachabschnittsdetektionseinheit detektierten Sprachabschnitt zu erkennen, und ein Erkennungsergebnis auszugeben, wobei die Sprachabschnittsdetekti onseinheit den Sprachabschnitt unter Verwendung des ersten Schwellenwerts detektiert, wenn die Sprachabschnittsdetektionseinheit den Sprachabschnitt unter Verwendung des zweiten Schwellenwerts nicht detektieren kann.
  • Vorteilhafte Wirkungen der Erfindung
  • Gemäß der vorliegenden Erfindung kann selbst bei Einsatz einer Hardware mit einer geringen Verarbeitungsleistung die Verzögerungszeit reduziert werden, bis das Spracherkennungsergebnis erhalten wird, und eine Verschlechterung der Erkennungsverarbeitungsleistung verhindert werden.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung gemäß Ausführungsform 1;
  • 2 ist ein Diagramm zum Darstellen einer Verarbeitung, einer Spracheingabestufe und einer CPU-Last der Spracherkennungseinrichtung gemäß Ausführungsform 1;
  • 3 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung gemäß Ausführungsform 1;
  • 4 ist ein Bockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung gemäß Ausführungsform 2;
  • 5 ist eine Tabelle zum Darstellen eines Beispiels eines Operationsszenarios, das in einem Operationsszenariospeicher der Spracherkennungseinrichtung gemäß Ausführungsform 2 gespeichert ist;
  • 6 ist ein Diagramm zum Darstellen einer Verarbeitung, einer Spracheingabestufe und einer CPU-Last der Spracherkennungseinrichtung gemäß Ausführungsform 2;
  • 7 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung gemäß Ausführungsform 2;
  • 8 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung gemäß Ausführungsform 3;
  • 9 ist ein Diagramm zum Darstellen einer Verarbeitung, einer Spracheingabestufe und einer CPU-Last der Spracherkennungseinrichtung gemäß Ausführungsform 3;
  • 10 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung gemäß Ausführungsform 3;
  • 11 ist ein Blockdiagramm zum Darstellen einer Hardwarekonfiguration eines mobilen Endgeräts, das mit einer Spracherkennungseinrichtung gemäß der vorliegenden Erfindung ausgestattet ist.
  • Beschreibung der Ausführungsformen
  • Die beste Ausführungsform zur Ausführung der Erfindung wird nachfolgend unter Bezugnahme auf die beliegenden Zeichnungen erläutert, um die vorliegende Erfindung detaillierter zu beschreiben.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung 100 gemäß Ausführungsform 1.
  • Die Spracherkennungseinrichtung 100 besteht aus einer Berührungsoperation-Eingabeeinheit (Nichtsprachinformationen-Eingabeeinheit) 101, einer Bildeingabeeinheit (Nichtsprachinformationen-Eingabeeinheit) 102, einer Lippenbilderkennungseinheit (Nichtsprachoperations-Erkennungseinheit) 103, einer Nichtsprachabschnitts-Bestimmungseinheit 104, einer Spracheingabeeinheit 105, einer Sprachabschnittsdetektions-Schwellenwertlerneinheit 106, einer Sprachabschnittsdetektionseinheit 107 und einer Spracherkennungseinheit 108.
  • Im Übrigen, obwohl die folgende Beschreibung für ein Beispiel erläutert wird, in welchem ein Benutzer eine Berührungsoperation über einen Berührungsbildschirm (nicht gezeigt) durchführt, ist die Spracherkennungseinrichtung 100 auch für einen Fall anwendbar, in welchem ein Eingabemittel außer ein Berührungsbildschirm eingesetzt wird, oder für einen Fall, in welchem ein Eingabemittel mit einem Eingabeverfahren außer der Berührungsoperation eingesetzt wird.
  • Die Berührungsoperation-Eingabeeinheit 101 detektiert eine Berührung eines Benutzers auf einem Berührungsbildschirm und erwirbt die Koordinatenwerte der auf dem Berührungsbildschirm detektierten Berührung. Die Bildeingabeeinheit 102 akquiriert mit einem Bildaufnahmemittel, wie einer Kamera, aufgenommene Videos und wandelt die Videos in Bilddaten um. Die Lippenbilderkennungseinheit 103 führt eine Analyse der Bilddaten, die die Bildeingabeeinheit 102 erwirbt, durch und erkennt eine Bewegung der Lippen des Benutzers. Die Nichtsprachabschnitts-Bestimmungseinheit 104 bestimmt, ob oder ob nicht der Benutzer spricht durch Zugreifen auf ein Erkennungsergebnis der Lippenbilderkennungseinheit 103, wenn die durch die Berührungsoperation-Eingabeeinheit 101 erworbenen Koordinatenwerte innerhalb eines Bereichs zum Durchführen einer nichtsprachlichen Operation liegen. Wenn sie bestimmt, dass der Benutzer nicht spricht, weist die Nichtsprachabschnitts-Bestimmungseinheit 104 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, einen Schwellenwert zu lernen, der zum Detektieren eines Sprachabschnitts eingesetzt wird. Ein Bereich zum Durchführen einer Operation für die Sprache, welcher für die Nichtsprachabschnitts-Bestimmungseinheit 104 eingesetzt wird, um eine Bestimmung durchzuführen, bedeutet ein Bereich auf dem Berührungsbildschirm, auf dem ein Spracheingabeempfangsbutton oder dergleichen angeordnet ist, und ein Bereich zum Durchführen der nichtsprachlichen Operation bedeutet ein Bereich, auf dem ein Button zum Durchführen eines Wechsels auf einen Bildschirm der unteren Ebene und dergleichen angeordnet ist.
  • Die Spracheingabeeinheit 105 erwirbt die durch ein Sammelmittel, wie ein Mikrofon, gesammelte Sprache und wandelt die Sprache in Sprachdaten um. Die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 stellt einen Schwellenwert zum Detektieren einer Äußerung eines Benutzers aus der Sprache ein, die die Spracheingabeeinheit 105 erwirbt. Die Sprachabschnittsdetektionseinheit 107 detektiert die Äußerung des Benutzers aus der Sprache, die die Spracheingabeeinheit 105 in Entsprechung mit dem Schwellenwert, den die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 einstellt, erwirbt. Wenn die Sprachabschnittsdetektionseinheit 107 die Äußerung des Benutzers detektiert, erkennt die Spracherkennungseinheit 108 die Sprache, die die Spracheingabeeinheit 105 erwirbt, und gibt einen Text aus, welcher ein Spracherkennungsergebnis ist.
  • Anschließend wird die Operation der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1 unter Bezugnahme auf 2 und 3 erläutert. 2 ist ein Diagramm zum Darstellen eines Beispiels der Eingabeoperation des Spracherkennungseinrichtung 100 gemäß Ausführungsform 1, und 3 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1.
  • Zunächst zeigt 2A auf der Zeitachse die Zeit A1, zu welcher der Benutzer eine erste Berührungsoperation durchführt, die Zeit B1, die ein Eingabe-Zeitlimit der Berührungsoperation anzeigt, die Zeit C1, zu welcher der Benutzer eine zweite Berührungsoperation durchführt, eine Zeit D1, die das Ende des Schwellenwertlernens anzeigt, und eine Zeit E1, die ein Spracheingabe-Zeitlimit anzeigt.
  • 2B zeigt eine zeitliche Änderung der Eingabeebene der Sprache, die der Spracheingabeeinheit 105 zugeführt wird. Eine durchgängige Linie zeigt die Spracherzeugung F (F1 ist die Anfangsposition der Spracherzeugung, und F2 ist die Endposition der Spracherzeugung) an, und eine strichpunktierte Linie zeigt Geräusche G an. Im Übrigen bezeichnet ein Wert H, gezeigt auf der Achse der Spracheingabeebene, einen ersten Sprachabschnittsdetektionsschwellenwert und ein Wert I bezeichnet einen zweiten Sprachabschnittsdetektionsschwellenwert.
  • 2C zeigt eine zeitliche Änderung der CPU-Last der Spracherkennungseinrichtung 100 an. Ein Bereich J und ein Bereich K bezeichnen eine Last einer Schwellenwertlernverarbeitung, ein Bereich L bezeichnet eine Last der Sprachabschnittsdetektionsverarbeitung, und ein Bereich M bezeichnet eine Last der Spracherkennungsverarbeitung.
  • In einem Zustand, in welchem die Spracherkennungseinrichtung 100 arbeitet, führt die Berührungsoperation-Eingabeeinheit 101 eine Bestimmung durch, ob oder ob nicht eine Berührungsoperation auf dem Berührungsbildschirm detektiert ist (Schritt ST1). Wenn ein Benutzer bzw. eine Benutzerin einen Teil des Berührungsbildschirms mit seinem/ihrem Finger nach unten wischt, während die Bestimmung durchgeführt wird, detektiert die Berührungsoperation-Eingabeeinheit 101 die Berührungsoperation (JA in Schritt ST1), erwirbt die Koordinatenwerte der bei der Berührungsoperation detektierten Berührung, und gibt die Koordinatenwerte an die Nichtsprachabschnitts-Bestimmungseinheit 104 aus (Schritt ST2). Beim Erwerben der in Schritt ST2 ausgegebenen Koordinatenwerte aktiviert die Nichtsprachabschnitts-Bestimmungseinheit 104 einen eingebauten Zeitmesser und startet ein Messen einer Zeit, die ab der Zeit zum Detektieren der Berührungsoperation abgelaufen ist (Schritt ST3).
  • Wenn zum Beispiel die Berührungsoperation-Eingabeeinheit 100 die erste Berührungsoperation detektiert (Zeit A1), gezeigt in 2A in Schritt ST1, erwirbt sie die Koordinatenwerte der bei der ersten Berührungsoperation in Schritt ST2 detektierten Berührung, und die Nichtsprachabschnitts-Bestimmungseinheit 104 misst eine Zeit, die seit dem Detektieren der ersten Berührungsoperation in Schritt ST3 abgelaufen ist. Die gemessene abgelaufene Zeit wird verwendet, um den Ablauf des Eingabe-Zeitlimits (Zeit B1) der Berührungsoperation gemäß 2A zu bestimmen.
  • Die Nichtsprachabschnitts-Bestimmungseinheit 104 weist die Spracheingabeeinheit 105 an, die Spracheingabe zu starten, und die Spracheingabeeinheit 105 startet den Eingabeempfang der Sprache in Antwort auf die Anweisung (Schritt ST4), und wandelt die erworbene Sprache in Sprachdaten um (Schritt ST5). Die Sprachdaten bestehen nach der Umwandlung zum Beispiel aus PCM(Pulscodemodulation)-Daten, die aus der Digitalisierung des Sprachsignals, das die Spracheingabeeinheit 105 akquiriert, resultieren.
  • Des Weiteren bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, ob oder ob nicht die in Schritt ST2 ausgegebenen Koordinatenwerte außerhalb eines vorgeschriebenen Bereichs liegen, der eine Äußerung anzeigt (Schritt ST6). Wenn die Koordinatenwerte außerhalb des Bereichs liegen, der die Äußerung anzeigt (JA in Schritt ST6), bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, dass die Operation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, und weist die Bildeingabeeinheit 102 an, die Bildeingabe zu starten. In Antwort auf diese Anweisung startet die Bildeingabeeinheit 102 den Empfang einer Videoeingabe (Schritt ST7) und wandelt das erworbene Video in ein Datensignal um, wie Videodaten (Schritt ST8). Hier bestehen die Videodaten zum Beispiel aus Einzelbildern, die durch Digitalisieren des Bildsignals, das die Bildeingabeeinheit 102 erwirbt, erhalten werden, und durch Umwandeln des digitalisierten Bildsignals in eine Folge von fortlaufenden Standbildern. Die nachfolgende Beschreibung erfolgt mittels eines Beispiels von Einzelbildern.
  • Die Lippenbilderkennungseinheit 103 führt Bilderkennung der Bewegung der Lippen des Benutzers aus den in Schritt ST8 umgewandelten Einzelbildern durch (Schritt ST9). Die Lippenbilderkennungseinheit 103 bestimmt, ob oder ob nicht der Benutzer spricht, aus dem in Schritt ST9 erkannten Bilderkennungsergebnis (Schritt ST10). Als konkrete Verarbeitung in Schritt ST10 extrahiert die Lippenbilderkennungseinheit 103 zum Beispiel Lippenbilder aus den Einzelbildern, berechnet die Form der Lippen aus der Breite und Höhe der Lippen durch eine öffentlich bekannte Technik, und anschießendem Bestimmen, ob oder ob nicht der Benutzer etwas äußert, auf Grundlage davon, ob oder ob nicht die Veränderung der Lippenform mit einem vorgegebene Lippenformmuster bei der Äußerung übereinstimmt. Wenn die Veränderung der Lippenform mit dem Lippenformmuster übereinstimmt, bestimmt die Lippenbilderkennungseinheit 103, dass der Benutzer spricht.
  • Wenn die Lippenbilderkennungseinheit 103 bestimmt, dass der Benutzer spricht (JA in Schritt ST10), geht sie weiter zur Verarbeitung in Schritt ST12. Andererseits, wenn die Lippenbilderkennungseinheit 103 bestimmt, dass der Benutzer nicht spricht (NEIN in Schritt ST10), weist die Nichtsprachabschnitts-Bestimmungseinheit 104 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Anweisung erfasst die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel einen Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode aus den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten (Schritt ST11).
  • Zudem bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, ob oder ob nicht ein Zeitmesserwert, der durch den in Schritt ST3 aktivierten Zeitmesser gemessen ist, einen voreingestellten Zeitlimit-Schwellenwert erreicht, das heißt, ob oder ob nicht der Zeitmesserwert das Zeitlimit der Berührungsoperationseingabe erreicht (Schritt ST12). Insbesondere bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, ob oder ob nicht der Zeitmesserwert die Zeit B1 gemäß 2 erreicht. Wenn der Zeitmesserwert das Zeitlimit der Berührungsoperationseingabe (NEIN in Schritt ST12) nicht erreicht, geht die Verarbeitung zurück zu Schritt ST9, um die vorangehende Verarbeitung zu wiederholen. Dahingegen, wenn der Zeitmesserwert das Zeitlimit der Berührungsoperationseingabe erreicht (JA in Schritt ST12), veranlasst die Nichtsprachabschnitts-Bestimmungseinheit 104 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 den in Schritt ST11 in einem Speicherbereich (nicht gezeigt) als den ersten Sprachabschnittsdetektionsschwellenwert gespeicherten Wert der Spracheingabeebene zu speichern. Im Beispiel gemäß 2 speichert sie den Wert der höchsten Spracheingabeebene in den ab der Zeit A1 eingegebenen Sprachdaten, zu welcher die erste Berührungsoperation detektiert ist, bis zur Zeit B1, welche das Berührungsoperationseingabe-Zeitlimit ist, das heißt, der Wert H gemäß 2B, als den ersten Sprachabschnittsdetektionsschwellenwert.
  • Anschließend weist die Nichtsprachabschnitts-Bestimmungseinheit 104 die Bildeingabeeinheit 102 an, den Empfang der Bildeingabe (Schritt ST14) zu stoppen, und die Spracheingabeeinheit 105 an, den Empfang der Spracheingabe zu stoppen (Schritt ST15). Anschließend geht das Flussdiagramm zurück zur Verarbeitung in Schritt ST1, um die vorangehende Verarbeitung zu wiederholen.
  • Während der vorangehenden Verarbeitung von Schritt ST7 bis Schritt ST15 wird nur die Sprachabschnittsdetektions-Schwellenwertlernverarbeitung durchgeführt, während Bilderkennungsverarbeitung (siehe den Bereich J (Bilderkennungsverarbeitung) und Bereich K (Sprachabschnittsdetektions-Schwellenwertlernverarbeitung), von der Zeit A1 bis zur Zeit B1 gemäß 2C) ausgeführt wird.
  • Andererseits, wenn die Koordinatenwerte innerhalb des Bereichs liegen, der die Äußerung in der Bestimmungsverarbeitung in Schritt ST6 (NEIN in Schritt ST6) anzeigt, bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, dass diese eine Operation in Begleitung einer Äußerung ist, und weist die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Äußerung lernt die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel den Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode ab den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten und speichert den Wert als den zweiten Sprachabschnittsdetektionsschwellenwert (Schritt ST16).
  • In dem Beispiel gemäß 2 lernt sie den Wert der höchsten Spracheingabeebene in den ab der Zeit C1 eingegebenen Sprachdaten, zu welcher die zweite Berührungsoperation detektiert wird, bis zur Zeit D1, zu welcher das Schwellenwertlernen endet, das heißt der Wert I gemäß 2B, und speichert den Wert I als den zweiten Sprachabschnittsdetektionsschwellenwert. Im Übrigen wird angenommen, dass der Benutzer während des Lernens des zweiten Sprachabschnittsdetektionsschwellenwerts nicht spricht.
  • Anschließend bestimmt die Sprachabschnittsdetektionseinheit 107 gemäß dem in Schritt ST16 gespeicherten zweiten Sprachabschnittsdetektionsschwellenwert, ob sie oder ob sie nicht den Sprachabschnitt von den Sprachdaten detektieren kann, die über die Spracheingabeeinheit 105 nach Abschließen des Sprachabschnittsdetektionsschwellenwertlernens in Schritt ST16 eingegeben sind (Schritt ST17). In dem Beispiel gemäß 2 detektiert sie den Sprachabschnitt in Entsprechung mit dem Wert I, welcher der zweite Sprachabschnittsdetektionsschwellenwert ist. Insbesondere bestimmt sie einen Punkt als die Anfangsposition der Sprachansage als den Punkt, an welchem die Spracheingabeebene der nach der Zeit D1, zu welcher das Schwellenwertlernen endet, eingegebenen Sprachdaten den zweiten Sprachabschnittsdetektionsschwellenwert I überschreitet, und bestimmt einen Punkt als die Endposition der Sprachansage als den Punkt, an welchem die Spracheingabeebene unter den Wert I fällt, welcher der zweite Sprachabschnittsdetektionsschwellenwert ist, in den Sprachdaten, die der Anfangsposition der Sprachansage folgen.
  • Wenn die Sprachdaten keinerlei Geräusche enthalten ist es möglich, die Anfangsposition F1 und die Endposition F2, wie durch die Spracherzeugung F in 2 gezeigt, zu detektieren, und in der Bestimmungsverarbeitung in Schritt ST17 bestimmt wird, dass der Sprachabschnitt detektiert werden kann (JA in Schritt ST17). Wenn der Sprachabschnitt detektiert werden kann (JA in Schritt ST17), gibt die Sprachabschnittsdetektionseinheit 107 den Sprachabschnitt ein, den sie für die Spracherkennungseinheit 108 detektiert, und die Spracherkennungseinheit 108 führt die Spracherkennung durch und gibt den Text des Spracherkennungsergebnisses aus (Schritt ST21). Anschließend stoppt die Spracheingabeeinheit 105 den Empfang der Spracheingabe in Antwort auf die Anweisung zum Stoppen des Empfangs der Spracheingabe, die von der Nichtsprachabschnitts-Bestimmungseinheit 104 gesendet wird (Schritt ST22), und geht zurück zur Verarbeitung in Schritt ST1.
  • Andererseits, wenn zum Beispiel Geräusche in den Sprachdaten auftreten, wie durch die der Spracherzeugung F gemäß 2 überlagerten Geräusche G dargestellt ist, wird die Anfangsposition F1 der Spracherzeugung F rich tig detektiert, da die Anfangsposition F1 höher ist als der Wert I, welcher der zweite Sprachabschnittsdetektionsschwellenwert ist, aber die Endposition F2 der Spracherzeugung F nicht richtig detektiert, da die Geräusche G die Endposition F2 überlagern, und die Endposition F2 höher bleibt als der Wert I des zweiten Sprachabschnittsdetektionsschwellenwerts. Daher bestimmt die Sprachabschnittsdetektionseinheit 107 in der Bestimmungsverarbeitung in Schritt ST17, dass der Sprachabschnitt nicht detektiert werden kann (NEIN in Schritt ST17). Wenn sie den Sprachabschnitt nicht detektieren kann (NEIN in Schritt ST17), ruft die Sprachabschnittsdetektionseinheit 107 einen voreingestellten Spracheingabe-Zeitlimitwert ab und bestimmt, ob sie oder ob sie nicht das Spracheingabe-Zeitlimit erreicht (Schritt ST18). Die detaillierte Verarbeitung in Schritt ST18 wird nachfolgend erläutert. Die Sprachabschnittsdetektionseinheit 107 fährt mit dem Zählen der Zeit ab einem Zeitpunkt fort, wenn die Sprachabschnittsdetektionseinheit 107 die Anfangsposition F1 der Spracherzeugung F detektiert, und bestimmt, ob oder ob nicht ein Zählwert die Zeit E1 des voreingestellten Spracheingabe-Zeitlimits erreicht.
  • Wenn sie das Spracheingabe-Zeitlimit nicht erreicht (NEIN in Schritt ST18), geht die Sprachabschnittsdetektionseinheit 107 zurück zur Verarbeitung in Schritt ST17 und fährt mit der Detektion des Sprachabschnitts fort. Andererseits, wenn sie das Spracheingabe-Zeitlimit erreicht (JA in Schritt ST18), stellt die Sprachabschnittsdetektionseinheit 107 den in Schritt ST13 gespeicherten ersten Sprachabschnittsdetektionsschwellenwert als einen Schwellenwert für die Bestimmung ein (Schritt ST19).
  • Gemäß dem in Schritt ST19 eingestellten ersten Sprachabschnittsdetektionsschwellenwert bestimmt die Sprachabschnittsdetektionseinheit 107, ob sie oder ob sie nicht den Sprachabschnitt aus den Sprachdaten detektieren kann, die über die Spracheingabeeinheit 105 nach Abschließen des Sprachabschnittsdetektionsschwellenwertlernens in Schritt ST16 (Schritt ST20) eingegeben sind. Hier speichert die Sprachabschnittsdetektionseinheit 107 die nach der Lernverarbeitung in Schritt ST16 eigegebenen Sprachdaten im Speicherbereich (nicht gezeigt), und detektiert die Anfangsposition und die Endposition der Spracherzeugung durch Anwendung des in Schritt ST19 hinsichtlich der gespeicherten Sprachdaten neu eingestellten ersten Sprachabschnittsdetektionsschwellenwerts.
  • In dem Beispiel gemäß 2, selbst wenn Geräusche G auftreten, ist die Anfangsposition F1 der Spracherzeugung F höher als der Wert H, welcher der erste Sprachabschnittsdetektionsschwellenwert ist, und die Endposition F2 der Spracherzeugung F niedriger als der Wert H, welcher der erste Sprachabschnittsdetektionsschwellenwert ist. Somit bestimmt die Sprachabschnittsdetektionseinheit 107, dass sie den Sprachabschnitt detektieren kann (JA in Schritt ST20).
  • Wenn sie den Sprachabschnitt detektieren kann (JA in Schritt ST20), geht die Sprachabschnittsdetektionseinheit 107 weiter zur Verarbeitung in Schritt ST21. Andererseits, wenn die Sprachabschnittsdetektionseinheit 107 den Sprachabschnitt nicht detektieren kann, selbst wenn sie den ersten Sprachabschnittsdetektionsschwellenwert anwendet (NEIN in Schritt ST20), geht sie zur Verarbeitung in Schritt ST22 ohne Durchführen der Spracherkennung, und geht zurück zur Verarbeitung in Schritt ST1.
  • Während die Spracherkennungsverarbeitung in der Verarbeitung von Schritt ST17 bis Schritt ST22 ausgeführt wird, wird nur die Sprachabschnittsdetektionsverarbeitung durchgeführt (siehe den Bereich L (Sprachabschnittsdetektionsverarbeitung) und den Bereich M (Spracherkennungsverarbeitung) von der Zeit D1 bis zur Zeit E1 gemäß 2C).
  • Wie vorstehend erläutert, ist die Spracherkennungseinrichtung gemäß der vorliegenden Ausführungsform 1 derart ausgelegt, dass sie die Nichtsprachabschnitts-Bestimmungseinheit 104 umfasst, um eine nichtsprachliche Operation in einer Berührungsoperation zu detektieren, und um zu bestimmen, ob oder ob nicht ein Benutzer spricht, durch die während der nichtsprachlichen Operation durchgeführte Bilderkennungsverarbeitung; die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 umfasst, um den ersten Sprachabschnittsdetektionsschwellenwert der Sprachdaten zu lernen, wenn der Benutzer nicht spricht; und die Sprachabschnittsdetektionseinheit 107 umfasst, um die Sprachabschnittsdetektion erneut durchzuführen, unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, wenn es ihr nicht gelingt, den Sprachabschnitt zu detektieren, durch Anwendung des zweiten Sprachabschnittsdetektionsschwellenwerts, welcher nach Detektieren der Operation für die Sprache in der Berührungsoperation gelernt wird. Dementsprechend, selbst wenn der zweite Sprachabschnittsdetektionsschwellenwert, der im Lernabschnitt während der Operation für die Sprache eingestellt wird, ein ungeeigneter Wert ist, kann in der vorliegenden Ausführungsform 1 ein geeigneter Sprachabschnitt detektiert werden, unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts. Zudem kann sie eine Steuerung derart durchführen, dass die Bilderkennungsverarbeitung verhindert, dass die Bilderkennungsverarbeitung und die Spracherkennungsverarbeitung gleichzeitig durchgeführt werden. Dementsprechend, selbst wenn die Spracherkennungseinrichtung 100 für einen Tablet-PC mit einer geringen Verarbeitungsleistung verwendet wird, kann sie die Verzögerungszeit reduzieren, bis das Spracherkennungsergebnis erhalten wird, wodurch es möglich ist, eine Verschlechterung der Spracherkennungsleistung zu reduzieren.
  • Weiterhin geht die vorstehende Ausführungsform 1 von der Konfiguration aus, in welcher die Bilderkennungsverarbeitung der Videodaten, die mit einer Kamera oder dergleichen aufgenommen werden, nur während der nichtsprachlichen Operation durchgeführt werden, um eine Bestimmung durchgeführt wird, ob oder ob nicht der Benutzer spricht, kann aber auch konfiguriert sein, um eine Bestimmung durchzuführen, ob oder ob nicht der Benutzer spricht unter Verwendung der mit einem Mittel außer der Kamera erworbenen Daten. Die vorliegende Erfindung kann zum Beispiel ausgelegt sein, dass wenn ein Tablet-PC mit einem Annäherungssensor ausgestattet ist, der Abstand zwischen dem Mikrofon des Tablet-PCs und den Lippen des Benutzers aus den vom Annäherungssensor erworbenen Daten berechnet wird, und wenn der Abstand zwischen dem Mikrofon und den Lippen kürzer ist als ein voreingestellter Schwellenwert, bestimmt wird, dass der Benutzer spricht.
  • Dies ermöglicht der Vorrichtung, eine Zunahme der Verarbeitungslast zu verhindern, während die Spracherkennungsverarbeitung nicht durchgeführt wird, wodurch es möglich ist, die Spracherkennungsleistung im Tablet-PC mit einer geringen Verarbeitungsleistung zu verbessern, und es zu ermöglichen, dass die Vorrichtung eine Verarbeitung außer der Spracherkennung ausführen kann.
  • Zudem macht es die Verwendung des Annäherungssensors möglich, den Stromverbrauch gegenüber dem Fall der Verwendung der Kamera zu reduzieren, wodurch es möglich ist, die Nutzbarkeit des Tablet-PCs mit hoher Schonung der Akkulebensdauer zu verbessern.
  • Ausführungsform 2
  • Obwohl die vorstehende Ausführungsform eine Konfiguration zeigt, in welcher, wenn sie die nicht sprachliche Operation detektiert, die Lippenbilderkennungseinheit 103 die Lippenbilder erkennt, um zu bestimmen, ob oder ob nicht ein Benutzer spricht, beschreibt die vorliegende Ausführungsform 2 eine Konfiguration, in welcher eine Operation für die sprachliche oder nicht sprachliche Operation in Entsprechung mit dem Operationszustand des Benutzers bestimmt wird, und die Spracheingabeebene während der nichtsprachlichen Operation gelernt wird.
  • 4 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung 200 gemäß Ausführungsform 2.
  • Die Spracherkennungseinrichtung 200 gemäß Ausführungsform 2 umfasst anstelle der Bildeingabeeinheit 102 die Lippenbilderkennungseinheit 103 und die Nichtsprachabschnitts-Bestimmungseinheit 104 der in Ausführungsform 1 gezeigten Spracherkennungseinrichtung 100, eine Operationszustandsbestimmungseinheit (Nichtsprachoperations-Erkennungseinheit) 201, einen Operationsszenariospeicher 202 und eine Nichtsprachabschnitts-Bestimmungseinheit 203.
  • Nachfolgend sind gleiche oder ähnliche Komponenten wie die Komponenten der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1 durch die gleichen Bezugszeichen bezeichnet, wie die Bezugszeichen gemäß Ausführungsform 1, und auf deren Beschreibung wird verzichtet oder diese vereinfacht.
  • Die Operationszustandsbestimmungseinheit 201 bestimmt den Operationszustand eines Benutzers durch Abrufen von Informationen über die Berührungsoperation des Benutzers auf dem Berührungsbildschirm, die über die Berührungsoperation-Eingabeeinheit 101 eingegeben werden, und der Informationen, die den Operationszustand anzeigen, der durch eine im Operationsszenariospeicher 202 gespeicherte Berührungsoperation einen Wechsel vollzieht. Hier beziehen sich Informationen über die Berührungsoperation auf die Koordinatenwerte oder dergleichen, bei welchen die Berührung des Benutzers auf dem Berührungsbildschirm detektiert wird.
  • Der Operationsszenariospeicher 202 ist ein Speicherbereich zum Speichern eines Operationszustands, welcher durch die Berührungsoperation einen Wechsel vollzieht. Es wird zum Beispiel angenommen, dass die folgenden drei Bildschirme als der Operationsbildschirm bereitgestellt sind: ein Ausgangsbildschirm; ein Operationsbildschirm-Auswahlbildschirm, der auf einer unteren Ebene des Ausgangsbildschirms platziert ist, für einen Benutzer, um einen Operationsbildschirm auszuwählen; und einen Operationsbildschirm auf dem gewählten Bildschirm, welcher auf einer unteren Ebene des Operationsbildschirm-Auswahlbildschirms platziert ist. Wenn ein Benutzer eine Berührungsoperation auf dem Ausgangsbildschirm durchführt, um den Wechsel auf den Operationsbildschirm-Auswahlbildschirm zu bewirken, werden die Informationen, welche anzeigen, dass der Operationszustand einen Wechsel vom Ausgangsbildschirm zum Operationsbildschirm-Auswahlbildschirm vollzieht, als ein Operationsszenario gespeichert. Des Weiteren, wenn der Benutzer eine Berührungsoperation entsprechend einem Auswahlbutton auf dem Operationsbildschirm-Auswahlbildschirm durchführt, um einen Wechsel zum Operationsbildschirm-Auswahlbildschirm zu bewirken, werden die Informationen, die anzeigen, dass der Operationszustand einen Wechsel vom Operationsbildschirmauswahlzustand zu einem bestimmten Elementeingabezustand auf dem gewählten Bildschirm vollzieht, als das Operationsszenario gespeichert.
  • 5 ist eine Tabelle zum Darstellen eines Beispiels der Operationsszenarios, die der Operationsszenariospeicher 202 der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2 speichert.
  • In dem Beispiel gemäß 5 besteht ein Operationsszenario aus einem Operationszustand, einem Anzeigebildschirm, einem Wechselzustand, einem Zustand eines Wechselziels, und Informationen, die entweder eine die Sprache begleitende Operation oder eine nichtsprachliche Operation anzeigen.
  • Zunächst beziehen sich für den Operationszustand als ein konkretes Beispiel der vorgenannte ”Anfangszustand” und der ”Operationsbildschirmauswahlzustand” auf ”wähle Arbeitsplatz”; und als ein konkretes Beispiel beziehen sich ”Arbeit an Platz A” und ”Arbeit an Platz B” auf den vorgenannten ”Operationszustand auf dem gewählten Bildschirm”. Zudem bezieht sich als ein konkretes Beispiel der vorgenannte ”Eingabezustand eines bestimmten Elements” auf vier Operationszustände, wie ”Arbeit C in Operation”.
  • Wenn der Betriebszustand zum Beispiel ”wähle Arbeitsplatz” ist, zeigt der Betriebsbildschirm ”wähle Arbeitsplatz” an. Auf dem Operationsbildschirm, auf welchem ”wähle Arbeitsplatz” angezeigt ist, wenn der Benutzer ”berühre Arbeitsplatz-A-Button” durchführt, welcher die Wechselbedingung ist, vollzieht der Operationszustand einen Wechsel zu ”Arbeit an Platz A”. Andererseits, wenn der Benutzer die Wechselbedingung ”berühre Arbeitsplatz-B-Button” durchführt, vollzieht der Operationszustand einen Wechsel zu ”Arbeit an Platz B”. Die Operationen ”berühre Arbeitsplatz-A-Button” und ”berühre Arbeitsplatz-B-Button” zeigen an, dass sie nichtsprachliche Operationen sind.
  • Zudem, wenn der Operationszustand zum Beispiel ”Arbeit C in Operation” ist, zeigt der Operationsbildschirm ”Arbeit C” an. Auf dem Operationsbildschirm, welcher ”Arbeit C” anzeigt, wenn der Benutzer einen Wechselzu stand ”berühre Ende-Button” durchführt, vollzieht er einen Wechsel auf den Operationszustand ””Arbeiten an Platz A”. Die Operation ”berühre Ende-Button” zeigt an, dass sie eine nichtsprachliche Operation ist.
  • Anschließend wird unter Bezugnahme auf 6 und 7 die Operation der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2 erläutert. 6 ist ein Diagramm zum Darstellen eines Beispiels der Eingabeoperation für die Spracherkennungseinrichtung 200 gemäß Ausführungsform 2; und 7 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2. Im Übrigen sind in der folgenden Beschreibung die gleichen Schritte wie die Schritte der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1 durch die gleichen Bezugszeichen bezeichnet, wie jene in 3, und auf deren Beschreibung wird verzichtet oder diese vereinfacht.
  • Zunächst zeigt 6A auf der Zeitachse eine Zeit A2, zu welcher der Benutzer eine erste Berührungsoperation durchführt, eine Zeit B2, welche das Eingabe-Zeitlimit der ersten Berührungsoperation anzeigt, eine Zeit A3, zu welcher der Benutzer eine zweite Berührungsoperation durchführt, eine Zeit B3, welche das Eingabe-Zeitlimit der zweiten Berührungsoperation anzeigt, eine Zeit C2, zu welcher der Benutzer eine dritte Berührungsoperation durchführt, eine Zeit D2, welche das Ende des Schwellenwertlernens anzeigt, und eine Zeit E2, welche das Spracheingabe-Zeitlimit anzeigt.
  • 6B zeigt eine zeitliche Veränderung der Eingabeebene der Sprache, die der Spracheingabeeinheit 105 zugeführt wird. Eine durchgezogene Linie zeigt die Spracherzeugung F an (F1 ist die Anfangsposition der Spracherzeugung, und F2 ist die Endposition der Spracherzeugung), und eine strichpunktierte Linie zeigt Geräusche G an. Der auf der Zeitachse der Spracheingangsebene gezeigte Wert H bezeichnet den ersten Sprachabschnittsdetektionsschwellenwert, und der Wert I bezeichnet den zweiten Sprachabschnittsdetektionsschwellenwert.
  • 6C zeigt eine zeitliche Veränderung der CPU-Last der Spracherkennungs einrichtung 200. Der Bereich K bezeichnet eine Last der Schwellenwertlernverarbeitung, der Bereich L bezeichnet eine Last der Sprachabschnittsdetektionsverarbeitung, und der Bereich M bezeichnet eine Last der Spracherkennungsverarbeitung.
  • Wenn der Benutzer einen Teil des Berührungsbildschirms berührt, detektiert die Berührungsoperation-Eingabeeinheit 101 die Berührungsoperation (JA in Schritt ST1), erwirbt die Koordinatenwerte an dem Teil, an dem die Berührungsoperation detektiert ist, und gibt die Koordinatenwerte an die Nichtsprachabschnitts-Bestimmungseinheit 203 und die Operationszustandsbestimmungseinheit 201 aus (Schritt ST31). Das Erwerben der in Schritt ST31 ausgegebenen Koordinatenwerte aktiviert den eingebauten Zeitmesser und startet ein Messen einer Zeit, die seit dem Detektieren der Berührungsoperation abgelaufen ist (Schritt ST3). Zudem weist die Nichtsprachabschnitts-Bestimmungseinheit 203 die Spracheingabeeinheit 105 an, die Spracheingabe zu starten. In Antwort auf die Anweisung startet die Spracheingabeeinheit 105 den Eingabeempfang der Sprachansage (Schritt ST4) und wandelt die erworbene Sprachansage in Sprachdaten um (Schritt ST5).
  • Andererseits bestimmt die Operationszustandsbestimmungseinheit 201 beim Erwerben der in Schritt ST31 ausgegebenen Koordinatenwerte den Operationszustand des Operationsbildschirms durch Zugreifen auf den Operationsszenariospeicher 202 (Schritt ST32). Das Bestimmungsergebnis wird an die Nichtsprachabschnitts-Bestimmungseinheit 203 ausgegeben. Die Nichtsprachabschnitts-Bestimmungseinheit 203 führt eine Bestimmung durch, ob oder ob nicht die Berührungsoperation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, durch Zugreifen auf die in Schritt ST31 ausgegebenen Koordinatenwerte und den in Schritt ST32 ausgegebenen Operationszustand (Schritt ST33). Wenn die Berührungsoperation eine nichtsprachliche Operation ist (JA in Schritt ST33), weist die Nichtsprachabschnitts-Bestimmungseinheit 203 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Anweisung zeichnet die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel einen Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode aus den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten auf (Schritt ST11). Anschließend wird die Verarbeitung in den Schritten ST12, ST13 und ST15 ausgeführt, gefolgt vom Zurückkehren zur Verarbeitung in Schritt ST1.
  • Zwei Beispiele, in welchen eine Bestimmung der nichtsprachlichen Operation in Schritt ST33 erfolgt (JA in Schritt ST33), werden nachfolgend erläutert.
  • Zunächst wird ein Beispiel erläutert, in welchem der Operationszustand einen Wechsel vom ”Anfangszustand” zum ”Bildschirmauswahlzustand” vollzieht. In dem Fall, in welchem die durch die Zeit A2 angezeigte erste Berührungsoperation gemäß 6A eigegeben ist, wird die erste Berührungsoperation des Benutzers auf dem Ausgangsbildschirm durchgeführt, und wenn die durch die erste Berührungsoperation eingegebenen Koordinatenwerte innerhalb eines Bereichs liegen, in welchem ein Wechsel auf einen bestimmten Operationsbildschirm ausgewählt wird (zum Beispiel ein Button zum Fortfahren mit der Operationsbildschirmauswahl), erwirbt die Operationszustandsbestimmungseinheit 201 die Wechselinformationen, die anzeigen, dass der Operationszustand einen Wechsel vom ”Anfangszustand” zum ”Operationsbildschirmauswahlzustand” durchführt, durch Zugreifen auf den Operationsszenariospeicher 202 als das Bestimmungsergebnis in Schritt ST32.
  • Unter Bezugnahme auf den in Schritt ST32 erworbenen Operationszustand bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 203, dass die Berührungsoperation im ”Anfangszustand” eine nichtsprachliche Operation ist, welche keine Äußerung erfordert, um einen Bildschirmwechsel durchzuführen (JA in Schritt ST33). Wenn bestimmt wird, dass die Berührungsoperation die nichtsprachliche Operation ist, wird nur die Sprachabschnitts-Schwellenwertlernverarbeitung bis zur Zeit B2 des ersten Berührungsoperations-Eingabezeitlimits durchgeführt (siehe den Bereich K (Sprachabschnittsdetektions-Schwellenwertlernverarbeitung) von der Zeit A2 bis zur Zeit B2 gemäß 6C).
  • Anschließend wird ein Beispiel erläutert, welches einen Wechsel vom ”Operationsbildschirmauswahlzustand” zum ”Operationszustand auf dem Auswahlbildschirm” zeigt. In dem Fall, wenn die durch die Zeit B2 angezeigte zweite Berührungsoperation gemäß 6A eingegeben wird, wird die zweite Berührungsoperation des Benutzers auf dem Operationsbildschirmauswahlbildschirm durchgeführt, und wenn die durch die zweite Berührungsoperation eingegebenen Koordinatenwerte innerhalb des Bereichs liegen, in welchem ein Wechsel auf einen bestimmten Operationsbildschirm ausgewählt wird (zum Beispiel ein Button zum Auswählen des Operationsbildschirms), die Operationszustandsbestimmungseinheit 201 auf den Operationsszenariospeicher 202 in Schritt ST32 zugreift und die Wechselinformationen erwirbt, die den Wechsel des Operationszustands vom ”Operationsbildschirmauswahlzustand” in den ”Operationszustand auf dem Auswahlbildschirm” als ein Bestimmungsergebnis anzeigen.
  • Unter Bezugnahme auf den in Schritt ST32 erworbenen Operationszustand bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 203, dass die Berührungsoperation im ”Operationsbildschirmauswahlzustand” eine nichtsprachliche Operation ist (JA in Schritt ST33). Wenn bestimmt wird, dass die Berührungsoperation die nichtsprachliche Operation ist, wird nur die Sprachabschnittsschwellenwertlernverarbeitung bis zur Zeit B3 des zweiten Berührungsoperation-Eingabezeitlimits durchgeführt (siehe Bereich K (Sprachabschnittsschwellenwertlernverarbeitung) von der Zeit A3 bis zur Zeit B3 gemäß 3C).
  • Andererseits, wenn die Berührungsoperation eine Operation für Sprache ist (NEIN in Schritt ST33), weist die Nichtsprachabschnitts-Bestimmungseinheit 203 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Anweisung lernt die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel einen Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode ab den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten, und speichert den Wert als den zweiten Sprachabschnittsdetektionsschwellenwert (Schritt ST16). Anschließend führt sie die gleiche Verarbeitung durch, wie die Verarbeitung von Schritt ST17 bis Schritt ST22.
  • Ein Beispiel, in welchem in Schritt ST33 bestimmt wird, dass die Berührungsoperation die Operation für Sprache ist (NEIN in Schritt ST33), wird nachfolgend erläutert.
  • Ein Beispiel, das einen Wechsel vom ”Operationszustand auf dem Auswahlbildschirm” zum ”Eingabezustand eines bestimmten Elements” zeigt, wird nachfolgend erläutert. In dem Fall, wenn eine in der Zeit C2 gemäß 6A angezeigte dritte Berührungsoperation eingegeben wird, wird die dritte Berührungsoperation des Benutzers auf dem Operationsbildschirm des Auswahlbildschirms durchgeführt, und wenn die durch die dritte Berührungsoperation eingegebenen Koordinatenwerte innerhalb eines Bereichs liegen, in welchem ein Wechsel auf das bestimmte Operationselement ausgewählt ist (zum Beispiel ein Button zum Auswählen eines Elements), ruft die Operationszustandsbestimmungseinheit 201 den Operationsszenariospeicher 202 in Schritt ST32 ab, und erwirbt die Wechselinformationen, welche den Wechsel des Operationszustands vom ”Operationszustand auf dem Operationsbildschirm” zum ”Eingabezustand eines bestimmten Elements” als ein Bestimmungsergebnis anzeigen.
  • Wenn der in Schritt ST32 erhaltene Operationszustand zeigt, dass die Berührungsoperation ”Operationszustand auf dem Auswahlbildschirm” ist, und wenn die in Schritt ST31 ausgegebenen Koordinatenwerte innerhalb eines Eingabebereichs eines bestimmten Elements liegen, das eine sprachliche Äußerung begleitet, bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 203, dass die Berührungsoperation die Operation für Sprache ist (NEIN in Schritt ST33). Wenn bestimmt wird, dass die Berührungsoperation die Operation für Sprache ist, arbeitet die Sprachabschnitts-Schwellenwertlernverarbeitung bis zur Zeit D2, zu welcher das Schwellenwertlernen abgeschlossen ist, und weiterhin arbeiten die Sprachabschnittsdetekti onsverarbeitung und die Spracherkennungsverarbeitung bis zur Zeit E2 des Spracheingabe-Zeitlimits (siehe Bereich K (Sprachabschnittsdetektions-Schwellenwertlernverarbeitung) von der Zeit C2 bis zur Zeit D3 gemäß 6C, Bereich L (Sprachabschnittsdetektionsverarbeitung) und Bereich M (Spracherkennungsverarbeitung) von der Zeit D2 bis zur Zeit E2).
  • Wie vorstehend erläutert, ist die Spracherkennungseinrichtung gemäß der vorliegenden Ausführungsform 2 derart ausgelegt, dass sie die Operationszustandsbestimmungseinheit 201 umfasst, um den Operationszustand des Benutzers aus den Operationszuständen, welche im Operationsszenariospeicher 202 gespeichert sind, und einen Wechsel entsprechend der Berührungsoperation durchzuführen, und aus den Informationen über die von der Berührungsoperation-Eingabeeinheit 101 eingegebene Berührungsoperation zu bestimmen; und die Nichtsprachabschnitts-Bestimmungseinheit 203 umfasst, um, wenn bestimmt wird, dass die Berührungsoperation die Operation für Sprache ist, die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 anzuweisen, den ersten Sprachabschnittsdetektionsschwellenwert zu lernen. Dementsprechend kann die vorliegende Ausführungsform 2 die Notwendigkeit des Bildaufnahmemittels, wie einer Kamera, zum Detektieren der nichtsprachlichen Operation überflüssig machen, und erfordert keine Bilderkennungsverarbeitung mit einem hohen Berechnungsumfang. Dementsprechend kann eine Verschlechterung der Spracherkennungsleistung verhindert werden, selbst wenn die Spracherkennungseinrichtung 200 für einen Tablet-PC mit einer geringen Verarbeitungsleistung eingesetzt wird.
  • Zudem ist die sie derart ausgelegt, dass selbst dann, wenn beim Detektieren des Sprachabschnitts unter Verwendung des zweiten Sprachabschnittsschwellenwerts, der nach Detektion der Operation für Sprache gelernt wird, ein Fehler auftritt, die Sprachabschnittsdetektion erneut durchgeführt wird, unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation gelernt wurde. Dementsprechend kann der geeignete Sprachabschnitt detektiert werden, selbst wenn während der Operation für die Sprache kein geeigneter Schwellenwert eingestellt werden kann.
  • Des Weiteren, da die vorliegende Erfindung das Eingabemittel, wie eine Kamera, zum Detektieren der nichtsprachlichen Operation nicht erfordert, kann die vorliegende Ausführungsform den Stromverbrauch des Eingabemittels reduzieren. Somit kann die vorliegende Ausführungsform die Benutzerfreundlichkeit verbessern, wenn sie für einen Tablet-PC oder dergleichen eingesetzt wird, mit hoher Schonung der Akkulebensdauer.
  • Ausführungsform 3
  • Eine Spracherkennungseinrichtung kann durch Kombination der vorgenannten Ausführungsformen 1 und 2 konfiguriert sein.
  • 8 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung 300 gemäß einer dritten Ausführungsform. Die Spracherkennungseinrichtung 300 ist durch Hinzufügen der Bildeingabeeinheit 102 und der Lippenbilderkennungseinheit 103 zur Spracherkennungseinrichtung 200 gemäß Ausführungsform 2, gezeigt in 4, konfiguriert, und durch Ersetzen der Nichtsprachabschnitts-Bestimmungseinheit 203 durch eine Nichtsprachabschnitts-Bestimmungseinheit 301.
  • Wenn die Nichtsprachabschnitts-Bestimmungseinheit 301 bestimmt, dass die Berührungsoperation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, erwirbt die Bildeingabeeinheit 102 mit einem Bildaufnahmemittel, wie einer Kamera, aufgenommene Videos und wandelt die Videos in die Bilddaten um, und die Lippenbilderkennungseinheit 103 führt eine Analyse der erworbenen Bilddaten durch, und erkennt die Bewegung der Lippen des Benutzers. Wenn die Lippenbilderkennungseinheit 103 bestimmt, dass der Benutzer nicht spricht, weist die Nichtsprachabschnitts-Bestimmungseinheit 301 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, einen Sprachabschnittsdetektionsschwellenwert zu lernen.
  • Anschließend wird unter Bezugnahme auf 9 und 10 die Operation der Spracherkennungseinrichtung 300 gemäß Ausführungsform 3 erläutert. 9 ist ein Diagramm zum Darstellen eines Beispiels der Eingabeoperation der Spracherkennungseinrichtung 300 gemäß Ausführungsform 3; und 10 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung 300 gemäß Ausführungsform 3. Im Übrigen sind im Folgenden die gleichen Schritte, wie die Schritte der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2, mit den gleichen Bezugszeichen bezeichnet, wie die in 7 verwendeten Bezugszeichen, und auf deren Beschreibung wird verzichtet oder diese vereinfacht.
  • Zunächst ist die Anordnung von 9A bis 9C gleich wie die in 6 gemäß Ausführungsform 2 gezeigte Anordnung, mit der Ausnahme, dass der Bereich J, der die Bilderkennungsverarbeitung in 9C anzeigt, hinzugefügt ist.
  • Da die Operation bis zum Schritt ST33, in welchem die Nichtsprachabschnitts-Bestimmungseinheit 301 eine Bestimmung durchführt, ob oder ob nicht die Berührungsoperation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, aus den von der Berührungsoperation-Eingabeeinheit 101 ausgegebenen Koordinatenwerten und dem von der Operationszustand-Bestimmungseinheit 201 ausgegebenen Operationszustand, gleich ist, wie die gemäß Ausführungsform 2, wird auf deren Beschreibung verzichtet. Wenn die Berührungsoperation eine nichtsprachliche Operation ist (JA in Schritt ST33), führt die Nichtsprachabschnitts-Bestimmungseinheit 301 die Verarbeitung von Schritt ST7 bis Schritt ST15, gezeigt in 3, gemäß Ausführungsform 1 durch, gefolgt vom Zurückkehren zur Verarbeitung in Schritt ST1. Insbesondere, zusätzlich zur Verarbeitung gemäß Ausführungsform 2, führt die Spracherkennungseinrichtung 300 die Bilderkennungsverarbeitung der Bildeingabeeinheit 102 und der Lippenbilderkennungseinheit 103 durch. Andererseits, wenn die Berührungsoperation eine Operation für Sprache ist (NEIN in Schritt ST33), führt die Spracherkennungseinrichtung 300 die Verarbeitung von Schritt ST16 bis Schritt ST22 durch, gefolgt vom Zurückkehren zur Verarbeitung in Schritt ST1.
  • Ein Beispiel, in welchem die Nichtsprachabschnitts-Bestimmungseinheit 301 in Schritt ST33 bestimmt, dass die Berührungsoperation eine nichtsprachliche Operation ist (JA in Schritt ST33), ist in 9 die erste Berührungsoperation und die zweite Berührungsoperation. Andererseits ist ein Beispiel, in welchem sie in Schritt ST33 bestimmt, dass die Berührungsoperation eine Operation für Sprache ist (NEIN in Schritt ST33), in 9 die dritte Berührungsoperation. Im Übrigen wird in 9C zusätzlich zur Sprachabschnittsdetektions-Schwellenwertlernverarbeitung (siehe Bereich K) in der ersten Berührungsoperation und der zweiten Berührungsoperation weiterhin die Bilderkennungsverarbeitung (siehe Bereich J) durchgeführt. Da die andere Verarbeitung gleich ist wie jene in 6, gezeigt in Ausführungsform 2, wird auf deren detaillierte Beschreibung verzichtet.
  • Wie vorstehend erläutert ist die Bilderkennungseinrichtung 300 gemäß der vorliegenden Ausführungsform 3 derart konfiguriert, dass sie die Operationszustandsbestimmungseinheit 201 umfasst, um den Operationszustand eines Benutzers aus den Operationszuständen zu bestimmen, welche im Operationsszenariospeicher 202 gespeichert sind, und einen Wechsel in Antwort auf die Berührungsoperation und aus den Informationen über die von der Berührungsoperation-Eingabeeinheit 101 eingegebene Berührungsoperation durchzuführen; und die Nichtsprachabschnitts-Bestimmungseinheit 301 die Lippenbilderkennungseinheit 103 anweist, die Bilderkennungsverarbeitung nur dann durchzuführen, wenn eine Bestimmung der nichtsprachlichen Operation durchgeführt wird, und die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 anzuweisen, den ersten Sprachabschnittsdetektionsschwellenwert zu lernen, nur wenn die Bestimmung der nichtsprachlichen Operation durchgeführt wird. Dementsprechend kann die vorliegende Ausführungsform 3 die Steuerung derart durchführen, dass ein gleichzeitiges Durchführen der Bilderkennungsverarbeitung und der Spracherkennungsverarbeitung, welche eine hohe Verarbeitungslast aufweisen, verhindert werden kann, und der Fall des Durchführens der Bilderkennungsverarbeitung in Entsprechung mit dem Operationsszenario eingeschränkt werden kann. Des Weiteren kann die Bildverarbeitungseinrichtung den ersten Sprachabschnittsdetektionsschwellenwert positiv lernen, während ein Benutzer nicht spricht. Aus diesen Gründen kann die Spracherkennungseinrichtung 300 die Spracherkennungsleistung für einen Tablet-PC mit einer geringen Verarbeitungsleistung verbessern.
  • Des Weiteren, da die vorliegende Ausführungsform 3 derart ausgelegt ist, dass, wenn beim Detektieren des Sprachabschnitts unter Verwendung des zweiten Sprachabschnittdetektionsschwellenwerts, der nach Detektion der Operation für Sprache gelernt wird, der Fehler auftritt, die Sprachabschnittsdetektion unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation gelernt wird, erneut durchgeführt wird. Dementsprechend kann die Spracherkennungseinrichtung den geeigneten Sprachabschnitt detektieren, selbst wenn sie während der Operation für die Sprache keinen geeigneten Schwellenwert einstellen kann.
  • Zudem weist die vorstehende Ausführungsform 3 die Konfiguration auf, in welcher eine Bestimmung, ob oder ob nicht ein Benutzer spricht, durch die Bilderkennungsverarbeitung der Videos, die mit der Kamera nur während der nichtsprachlichen Operation aufgenommen werden, durchgeführt wird, aber auch konfiguriert sein kann, um zu bestimmen, ob oder ob nicht der Benutzer spricht, unter Verwendung der Daten, die durch ein Mittel außer der Kamera erworben werden. Die vorliegende Ausführungsform kann zum Beispiel konfiguriert sein, so dass, wenn ein Tablet-PC einen Annäherungssensor aufweist, der Abstand zwischen dem Mikrofon des Tablet-PCs und den Lippen des Benutzers aus den Daten, die der Annäherungssensor erwirbt, berechnet wird, und wenn der Abstand zwischen dem Mikrofon und den Lippen kürzer ist als ein voreingestellter Schwellenwert, bestimmt wird, dass der Benutzer eine Äußerung vermittelt.
  • Dadurch wird es möglich, einen Anstieg der Verarbeitungslast der Einrichtung zu unterdrücken, während die Spracherkennungsverarbeitung nicht durchgeführt wird, wodurch es möglich ist, die Spracherkennungsleistung des Tablet-PCs mit einer geringen Verarbeitungsleistung zu verbessern, und die Verarbeitung außer der Spracherkennung durchzuführen.
  • Zudem ermöglicht die Verwendung des Annäherungssensors das Reduzieren des Stromverbrauchs gegenüber dem Fall der Verwendung der Kamera, wodurch es möglich ist, die Funktionsfähigkeit in einem Tablet-PC mit hoher Schonung der Akkulebensdauer zu verbessern.
  • Im Übrigen zeigen die vorgenannten Ausführungsformen 1 bis 3 ein Beispiel, welches nur einen Schwellenwert der Spracheingabeebene aufweist, welchen die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 einstellt, es kann aber auch konfiguriert sein, dass die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 den Spracheingabeebenen-Schwellenwert zu jeder Zeit lernt, wenn die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 die nichtsprachliche Operation detektiert, und dass die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 eine Vielzahl von Schwellenwerten, die sie lernt, einstellt.
  • Es kann konfiguriert sein, dass, wenn die Vielzahl von Schwellenwerten eingestellt sind, die Sprachabschnittsdetektionseinheit 107 die Sprachabschnittsdetektionsverarbeitung in Schritt ST19 und Schritt ST20, gezeigt im Flussdiagramm gemäß 3, mehrere Male unter Verwendung der Vielzahl von eingestellten Schwellenwerten durchführt, und nur wenn die Sprachabschnittsdetektionseinheit 107 die Anfangsposition und die Endposition eines Spracherzeugungsabschnitts detektiert, die Sprachabschnittsdetektionseinheit 107 ein Ergebnis als den Sprachabschnitt, den sie detektiert, ausgibt.
  • Somit kann nur die Sprachabschnittsdetektionsverarbeitung mehrere Male ausgeführt werden, wodurch es möglich ist, eine Zunahme der Verarbeitungslast zu verhindern, und die Spracherkennungsleistung zu verbessern, selbst wenn die Spracherkennungseinrichtung für einen Tablet-PC mit einer geringen Verarbeitungsleistung eingesetzt wird.
  • Zudem zeigen die vorgenannten Ausführungsformen 1 bis 3 die Konfiguration, in welcher, wenn der Sprachabschnitt in der Bestimmungsverarbeitung in Schritt ST20, gezeigt im Flussdiagramm gemäß 3, nicht detektiert wird, die Eingabe von Sprache gestoppt wird, ohne Durchführen der Spracherkennung, und konfiguriert sein kann, um die Spracherkennung durchzufüh ren und das Erkennungsergebnis auszugeben, selbst wenn der Sprachabschnitt nicht detektiert ist.
  • Die vorliegenden Ausführungsformen können zum Beispiel konfiguriert sein, dass dann, wenn das Spracheingabe-Zeitlimit in einem Zustand eintritt, in welchem die Anfangsposition der Spracherzeugung detektiert ist, aber ihre Endposition nicht detektiert ist, der Sprachabschnitt von der Anfangsposition der Spracherzeugung, der bis zum Spracheingabe-Zeitlimit detektiert ist, als der Sprachabschnitt detektiert wird, und die Spracherkennung durchgeführt, und das Erkennungsergebnis ausgegeben wird. Dadurch wird ein Benutzer in die Lage versetzt, das Verhalten der Spracherkennungseinrichtung leicht zu verstehen, da ein Spracherkennungsergebnis nicht immer ausgegeben wird, wenn der Benutzer eine Operation für Sprache durchführt, wodurch es möglich ist, die Funktionsfähigkeit der Spracherkennungseinrichtung zu verbessern.
  • Zudem sind die vorgenannten Ausführungsformen 1 bis 3 derart konfiguriert, dass, wenn ein Fehler beim Detektieren des Sprachabschnitts (zum Beispiel, wenn das Zeitlimit abläuft), unter Verwendung des zweiten Sprachabschnittsdetektionsschwellenwerts, der nach Detektion der Operation für Sprache in der Berührungsoperation gelernt wird, eintritt, die Sprachabschnittsdetektionsverarbeitung unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation durch die Berührungsoperation gelernt wird, erneut durchgeführt wird, und das Spracherkennungsergebnis ausgegeben wird, aber auch so konfiguriert sein können, dass, selbst wenn der Fehler beim Detektieren des Sprachabschnitts auftritt, die Spracherkennung durchgeführt wird, und das Erkennungsergebnis ausgegeben wird, und das erhaltene Spracherkennungsergebnis als ein Korrekturkandidat repräsentiert wird, durch Durchführen der Sprachabschnittsdetektion unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation gelernt wird. Dadurch wird es möglich, eine Reaktionszeit bis zur ersten Ausgabe des Spracherkennungsergebnisses zu verkürzen, wodurch es möglich ist, die Funktionsfähigkeit der Spracherkennungseinrichtung zu verbessern.
  • Die Spracherkennungseinrichtung 100, 200 oder 300, gezeigt in irgendeiner der vorgenannten Ausführungsformen 1 bis 3, ist zum Beispiel an einem mobilen Endgerät 400 oder dergleichen, wie einem Tablet-PC mit einer Hardwarekonfiguration, wie in 11 gezeigt, montiert. Das mobile Endgerät 400 gemäß 11 besteht aus einem Berührungsbildschirm 401, einem Mikrofon 402, einer Kamera 403, einer CPU 404, einem ROM-Speicher (Read Only Memory) 405, einem RAM-Speicher (Random Access Memory) 406 und einem Speicher 407. Hier enthält die Hardware, die die Spracherkennungseinrichtung 100, 200 oder 300 implementiert, die CPU 404, den ROM-Speicher 405, den RAM-Speicher 406 und den in 11 gezeigten Speicher 407.
  • Die Berührungsoperation-Eingabeeinheit 101, die Bildeingabeeinheit 102, die Lippenbilderkennungseinheit 103, die Nichtsprachabschnitts-Bestimmungseinheiten 104, 203 oder 301, die Spracheingabeeinheit 105, die Schwellenwertlerneinheit 106, die Sprachabschnittsdetektionseinheit 107, die Spracherkennungseinheit 108 und die Operationszustandsbestimmungseinheit 201 sind durch die CPU 404 realisiert, die im ROM-Speicher 405, im RAM-Speicher 406 und im Speicher 407 gespeicherte Programme ausführt. Zudem können mehrere Prozessoren die vorgenannten Funktionen im Zusammenwirken miteinander ausführen.
  • Im Übrigen soll verstanden werden, dass eine freie Kombination der einzelnen Ausführungsformen, Varianten von Komponenten der einzelnen Ausführungsformen oder das Weglassen von irgendwelchen Komponenten der einzelnen Ausführungsformen innerhalb des Umfangs der vorliegenden Erfindung möglich ist.
  • Gewerbliche Anwendbarkeit
  • Eine Spracherkennungseinrichtung gemäß der vorliegenden Erfindung kann eine Verarbeitungslast niedrig halten. Dementsprechend ist die Spracherkennungseinrichtung für eine Anwendung mit einer Einrichtung, wie einem Tablet-PC und einem Smartphone, welche keine hohe Verarbeitungsleistung aufweisen, geeignet, um eine schnelle Ausgabe von Sprache eines Spracherkennungsergebnisses und eine Spracherkennung mit hoher Leistung durchzuführen.
  • Bezugszeichenliste
    • 100, 200, 300 Spracherkennungseinrichtung; 101: Berührungsoperationseingabeeinheit; 102: Bildeingabeeinheit; 103: Lippenbilderkennungseinheit; 104, 203, 301: Nichtsprachabschnitts-Bestimmungseinheit; 105: Spracheingabeeinheit; 106: Sprachabschnittsdetektions-Schwellenwertlerneinheit; 107: Sprachabschnittsdetektionseinheit; 108: Spracherkennungseinheit; 201: Operationszustandsbestimmungseinheit; 202: Operationsszenariospeicher; 400: mobiles Endgerät; 401:; 402: Mikrofon; 403: Kamera; 404: CPU; 405: ROM-Speicher; 406: RAM-Speicher; 407: Speicher.

Claims (6)

  1. Spracherkennungseinrichtung, umfassend: eine Spracheingabeeinheit, die ausgelegt ist, um gesammelte Sprache zu erwerben und die Sprache in Sprachdaten umzuwandeln; eine Nichtsprachinformationen-Eingabeeinheit, die ausgelegt ist, um Informationen außer der Sprache zu erwerben; eine Nichtsprachoperations-Erkennungseinheit, die ausgelegt ist, um einen Benutzerzustand aus den Informationen außer der Sprache, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, zu erkennen; eine Nichtsprachabschnitts-Bestimmungseinheit, die ausgelegt ist, um zu bestimmen, ob oder ob nicht der Benutzer spricht, aus dem Benutzerzustand, den die Nichtsprachoperations-Erkennungseinheit erkennt; eine Schwellenwert-Lerneinheit, die ausgelegt ist, um einen ersten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer nicht spricht, und einen zweiten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer spricht; eine Sprachabschnittsdetektionseinheit, die ausgelegt ist, um unter Verwendung des durch die Schwellenwert-Lerneinheit eingestellten Schwellenwerts einen Sprachabschnitt, der anzeigt, dass der Benutzer spricht, aus den durch die Spracheingabeeinheit umgewandelten Sprachdaten zu detektieren; und eine Spracherkennungseinheit, die ausgelegt ist, um die Sprachdaten im durch die Sprachabschnittsdetektionseinheit detektierten Sprachabschnitt zu erkennen, und ein Erkennungsergebnis auszugeben, wobei die Sprachabschnittsdetektionseinheit den Sprachabschnitt unter Verwendung des ersten Schwellenwertes detektiert, wenn die Sprachabschnittsdetektionseinheit den Sprachabschnitt unter Verwendung des zweiten Schwellenwerts nicht detektieren kann.
  2. Spracherkennungseinrichtung nach Anspruch 1, wobei die Nichtsprachinformationen-Eingabeeinheit Informationen über eine Position, an welcher der Benutzer eine Berührungseingabeoperation durchführt, erwirbt, und Bilddaten erwirbt, in welchen der Benutzerzustand erfasst ist; die Nichtsprachoperations-Erkennungseinheit eine Bewegung der Lippen des Benutzers aus den von der Nichtsprachinformationen-Eingabeeinheit erworbenen Bilddaten erkennt; und die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, ob oder ob nicht der Benutzer spricht, aus den Informationen über die Position, die von der Nichtsprachinformationen-Eingabeeinheit erworben werden, und aus den die Bewegung der Lippen anzeigenden Informationen, die die Nichtsprachoperations-Erkennungseinheit erkennt.
  3. Spracherkennungseinrichtung nach Anspruch 1, wobei die Nichtsprachinformationen-Eingabeeinheit Informationen über eine Position, an welcher der Benutzer eine Berührungseingabeoperation durchführt, erwirbt, und die Nichtsprachoperations-Erkennungseinheit einen Operationszustand der Operationseingabe des Benutzers erkennt aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, und aus Wechselinformationen, die den Operationszustand des Benutzers, welcher in Antwort auf die Berührungseingabeoperation einen Wechsel vollzieht, anzeigen und die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, ob oder ob nicht der Benutzer spricht, aus dem Operationszustand, den die Nichtsprachoperations-Erkennungseinheit erkennt, und aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt.
  4. Spracherkennungseinrichtung nach Anspruch 1, wobei die Nichtsprachinformationen-Eingabeeinheit Informationen über eine Position erwirbt, an welcher der Benutzer eine Berührungseingabeoperation durchführt, und Bilddaten erwirbt, in welchen der Benutzerzustand abgebildet ist, und die Nichtsprachoperations-Erkennungseinheit einen Operationszustand der Operationseingabe des Benutzers aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, und aus den Wechselinformationen, die den Operationszustand des Benutzers, welcher in Antwort auf die Berührungseingabeoperation einen Wechsel vollzieht, anzeigen, erkennt, und eine Bewegung der Lippen des Benutzers aus den Bilddaten, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, erkennt; und die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, ob oder ob nicht der Benutzer spricht, aus dem Operationszustand, den die Nichtsprachoperations-Erkennungseinheit erkennt, aus den Informationen, die die Bewegung der Lippen anzeigen, und aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt.
  5. Spracherkennungseinrichtung nach Anspruch 1, wobei die Sprachabschnittsdetektionseinheit auf Detektieren eines Anfangspunkts des Sprachabschnitts eine Zeit zählt; in einem Fall, in welchem die Sprachabschnittsdetektionseinheit einen Endpunkt des Sprachabschnitts nicht detektieren kann, selbst wenn der Zählwert einen bestimmten Zeitbegrenzungspunkt erreicht, einen Zeitraum vom Anfangspunkt des Sprachabschnitts bis zum Zeitbegrenzungspunkt als den Sprachabschnitt detektiert unter Verwendung des zweiten Schwellenwerts und den Zeitraum vom Anfangspunkt des Sprachabschnitts bis zum Zeitbegrenzungspunkt als den Sprachabschnitt eines Korrekturkandidaten detektiert unter Verwendung des ersten Schwellenwerts, und die Spracherkennungseinheit die Sprachdaten in dem durch die Sprachabschnittsdetektionseinheit detektierten Sprachabschnitt erkennt und ein Erkennungsergebnis ausgibt und die Sprachdaten im Sprachabschnitt des Korrekturkandidaten erkennt und einen Erkennungsergebnis-Korrekturkandidaten ausgibt.
  6. Spracherkennungsverfahren, umfassend die Schritte: Erwerben, durch eine Spracheingabeeinheit, von gesammelter Sprache und Umwandeln der Sprache in Sprachdaten; Erwerben, durch eine Nichtsprachinformationen-Eingabeeinheit, von Informationen außer der Sprache; Erkennen, durch eine Nichtsprachoperations-Erkennungseinheit eines Benutzerzustands aus den Informationen außer der Sprache; Bestimmen, durch eine Nichtsprachabschnitts-Bestimmungseinheit, ob oder ob nicht der Benutzer spricht, aus dem erkannten Benutzerzustand; Einstellen, durch eine Schwellenwert-Lerneinheit, eines ersten Schwellenwerts aus den Sprachdaten, wenn bestimmt wird, dass der Benutzer nicht spricht, und eines zweiten Schwellenwerts, wenn bestimmt wird, dass der Benutzer nicht spricht; Detektieren, durch eine Sprachabschnittsdetektionseinheit, eines Sprachabschnitts, der anzeigt, dass der Benutzer spricht, aus den durch die Spracheingabeeinheit umgewandelten Sprachdaten unter Verwendung des ersten oder des zweiten Schwellenwerts, und Detektieren des Sprachabschnitts unter Verwendung des ersten Schwellenwerts, wenn der Sprachabschnitt unter Verwendung des zweiten Schwellenwerts nicht detektiert werden kann; und Erkennen, durch eine Spracherkennungseinheit, von Sprachdaten im detektierten Sprachabschnitt, und Ausgeben eines Erkennungsergebnisses.
DE112014007265.6T 2014-12-18 2014-12-18 Spracherkennungseinrichtung und Spracherkennungsverfahren Withdrawn DE112014007265T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/083575 WO2016098228A1 (ja) 2014-12-18 2014-12-18 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
DE112014007265T5 true DE112014007265T5 (de) 2017-09-07

Family

ID=56126149

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112014007265.6T Withdrawn DE112014007265T5 (de) 2014-12-18 2014-12-18 Spracherkennungseinrichtung und Spracherkennungsverfahren

Country Status (5)

Country Link
US (1) US20170287472A1 (de)
JP (1) JP6230726B2 (de)
CN (1) CN107004405A (de)
DE (1) DE112014007265T5 (de)
WO (1) WO2016098228A1 (de)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP2018005274A (ja) * 2016-06-27 2018-01-11 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) * 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
KR102133728B1 (ko) * 2017-11-24 2020-07-21 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
CN107992813A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇部状态检测方法及装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
JP7351105B2 (ja) * 2018-06-21 2023-09-27 カシオ計算機株式会社 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
CN112585674A (zh) * 2018-08-31 2021-03-30 三菱电机株式会社 信息处理装置、信息处理方法和程序
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109410957B (zh) * 2018-11-30 2023-05-23 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7266448B2 (ja) * 2019-04-12 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識方法、話者認識装置、及び話者認識プログラム
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2648014B2 (ja) * 1990-10-16 1997-08-27 三洋電機株式会社 音声切り出し装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
ATE389934T1 (de) * 2003-01-24 2008-04-15 Sony Ericsson Mobile Comm Ab Rauschreduzierung und audiovisuelle sprachaktivitätsdetektion
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP4755918B2 (ja) * 2006-02-22 2011-08-24 東芝テック株式会社 データ入力装置及び方法並びにプログラム
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP4715738B2 (ja) * 2006-12-19 2011-07-06 トヨタ自動車株式会社 発話検出装置及び発話検出方法
JP2009098217A (ja) * 2007-10-12 2009-05-07 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
JP4959025B1 (ja) * 2011-11-29 2012-06-20 株式会社ATR−Trek 発話区間検出装置及びプログラム
JP6051991B2 (ja) * 2013-03-21 2016-12-27 富士通株式会社 信号処理装置、信号処理方法、及び信号処理プログラム

Also Published As

Publication number Publication date
JPWO2016098228A1 (ja) 2017-04-27
JP6230726B2 (ja) 2017-11-15
WO2016098228A1 (ja) 2016-06-23
US20170287472A1 (en) 2017-10-05
CN107004405A (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
DE112014007265T5 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
DE102015103385B4 (de) Lenken von Spracheingaben basierend auf einem Eye-Tracking
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE112014004951T5 (de) VAD-Detektions-Vorrichtung und Verfahren zum Betreiben derselben
DE60032982T2 (de) Spracherkennung zur Steuerung eines Geräts
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE112013006728T5 (de) Spracherkennungssystem und Spracherkennungsgerät
DE202016008949U1 (de) Geräte für Aufnahme- und Abspielverfahren sowie Endgerät
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE112008001763T5 (de) Spracherkennungsvorrichtung und Navigationssystem
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE112018007847T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
EP3693960A1 (de) Verfahren für eine individualisierte signalverarbeitung eines audiosignals eines hörgeräts
CN111261187B (zh) 一种将语音转换成唇形的方法、系统、装置和存储介质
DE112014007207T5 (de) Informations-Präsentationssystem
DE112012006308B4 (de) Sprachsynthesevorrichtung
DE102017104094A1 (de) Sprachverarbeitungssystem und sprachverarbeitungsverfahren
WO2005069278A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee