DE112014007265T5

DE112014007265T5 - Spracherkennungseinrichtung und Spracherkennungsverfahren

Info

Publication number: DE112014007265T5
Application number: DE112014007265.6T
Authority: DE
Inventors: Toshiyuki Hanazawa; Isamu Ogawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2017-09-07
Also published as: JPWO2016098228A1; JP6230726B2; WO2016098228A1; US20170287472A1; CN107004405A

Abstract

Eine Einrichtung umfasst eine Lippenbilderkennungseinheit 103, um einen Benutzerzustand zu erkennen, aus Bilddaten, welche Informationen außer Sprache sind; eine Nichtsprachabschnitts-Bestimmungseinheit 104, um aus dem erkannten Benutzerzustand zu bestimmen, ob oder ob nicht der Benutzer spricht; eine Sprachabschnittsdetektions-Schwellenwertlerneinheit 106, um einen ersten Sprachabschnittsdetektionsschwellenwert (SSDT) aus Sprachdaten einzustellen, wenn bestimmt wird, dass nicht gesprochen wird, und einen zweiten SSDT aus den Sprachdaten einzustellen, nach Umwandlung durch eine Spracheingabeeinheit, wenn bestimmt wird, dass gesprochen wird; eine Sprachabschnittsdetektionseinheit 107, um einen Sprachabschnitt zu detektieren, welcher Sprechen anzeigt, aus den Sprachdaten unter Verwendung der eingestellten Schwellenwerte, wobei, wenn die Spracherkennungseinrichtung den Sprachabschnitt unter Verwendung des zweiten SSDT nicht detektieren kann, sie den Sprachabschnitt unter Verwendung des ersten SSDT detektiert; und eine Spracherkennungseinheit 108, um Sprachdaten im detektierten Sprachabschnitt zu erkennen, und ein Erkennungsergebnis auszugeben.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren zum Extrahieren eines Sprachabschnitts aus eingegebener Sprache und zum Durchführen einer Spracherkennung des extrahierten Sprachabschnitts.
Hintergrund zum Stand der Technik
Eine Spracherkennungseinrichtung zum Empfangen von Sprache als eine Operationseingabe wurde kürzlich an einem mobilen Endgerät oder einem Navigationssystem montiert. Ein in die Spracherkennungseinrichtung eingegebenes Sprachsignal enthält nicht nur Sprache, die ein Benutzer äußert, der die Operationseingabe vornimmt, sondern auch Töne außer dem Zielton, wie ex terne Geräusche. Aus diesem Grund ist eine Technik erforderlich, die einen Abschnitt, den der Benutzer äußert (nachfolgend als ”Sprachabschnitt” bezeichnet), aus dem in einer lauten Umgebung eingegebenen Sprachsignal richtig extrahiert, und Spracherkennung durchführt, und eine Vielzahl von Techniken offenbart sind.
Patentdokument 1 offenbart zum Beispiel eine Sprachabschnittsdetektionseinrichtung, die akustische Merkmale zum Detektieren eines Sprachabschnitts aus einem Sprachsignal extrahiert, Bildmerkmale zum Detektieren des Sprachabschnitts aus Bildrahmen extrahiert, akustische Bildmerkmale durch Kombinieren der akustischen Merkmale mit den extrahierten Bildmerkmalen erzeugt, und den Sprachabschnitt auf Grundlage der akustischen Bildmerkmale bestimmt.
Des Weiteren offenbart Patentdokument 2 eine Spracheingabeeinrichtung, die so ausgelegt ist, dass sie die Position eines Sprechers spezifiziert, durch Bestimmen des Vorhandenseins oder Nichtvorhandenseins von Sprache, auf Grundlage der Analyse von Mundbildern eines Sprechers der Spracheingabe, bestimmt, dass die Bewegung des Mundes an der lokalisierten Position die Quelle eines Zieltons ist, und Bewegungen aus einer Geräuschbestimmung ausschließt.
Weiterhin offenbart Patentdokument 3 eine Ziffernfolgespracherkennungseinrichtung, welche einen Schwellenwert zum Ausschneiden eines Sprachabschnitts aus Eingabesprache in Entsprechung mit dem Wert einer Variablen i (zum Beispiel i = 5) sukzessive verändert, eine Vielzahl von Erkennungskandidaten durch Ausschneiden der Sprachabschnitte in Entsprechung mit den geänderten Schwellenwerten erhält, und ein finales Erkennungsergebnis bestimmt, durch Aufsummieren von Erkennungsbewertungen, die aus der Vielzahl von erhaltenen Erkennungskandidaten berechnet sind.
Liste der zitierten Schriften
[Patentdokumente]

Patentdokument 1: Japanisches Patent Offenlegungsschrift Nr. 2011-59186
Patentdokument 2: Japanisches Patent Offenlegungsschrift Nr. 2006-39267
Patentdokument 3: Japanisches Patent Offenlegungsschrift Nr. H8-314495/1996 .

Zusammenfassung der Erfindung
Technisches Problem
Bei den in vorgenanntem Patentdokument 1 und Patentdokument 2 offenbarten Techniken ist es allerdings notwendig, mittels einer Bildaufnahmeeinheit Videos immer parallel zur Sprachabschnittsdetektion und Spracherkennungsverarbeitung für die Eingabesprache aufzunehmen, und das Vorhandensein oder Nichtvorhandensein von Sprache auf Grundlage der Analyse der Mundbilder zu bestimmen, was zu einem Problem eines Anstiegs des Berechnungsumfangs führt.
Weiterhin muss durch die in vorgenanntem Patentdokument 3 offenbarte Technik die Sprachabschnittsdetektionsverarbeitung und Spracherkennungsverarbeitung fünf Mal ausgeführt werden, während die Schwellenwerte für eine einzelne Äußerung des Benutzers verändert werden, was zu dem Problem führt, dass der Berechnungsumfang erhöht wird.
Außerdem besteht ein Problem in einer zunehmenden Verzögerungszeit bis zum Erhalt eines Spracherkennungsergebnisses in einem Fall, in welchem die Spracherkennungseinrichtung mit dem hohen Berechnungsumfang auf der Hardware betrieben wird, welche eine niedrige Verarbeitungsleistung aufweist, wie ein Tablet-PC. Weiterhin führt das Reduzieren des Berechnungsumfangs der Bilderkennungsverarbeitung oder Spracherkennungsverarbeitung in Entsprechung mit der Verarbeitungsleistung des Tablet-PCs oder dergleichen zu einem Problem der Verschlechterung der Erkennungsverarbeitungsleistung.
Die vorliegende Erfindung ist zur Lösung der vorgenannten Probleme realisiert. Aus diesem Grund besteht eine Aufgabe der vorliegenden Erfindung darin, eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren bereitzustellen, die in der Lage sind, eine Verzögerungszeit bis zum Erhalt eines Spracherkennungsergebnisses zu reduzieren und eine Verschlechterung der Erkennungsverarbeitungsleistung zu verhindern, selbst wenn die Spracherkennungseinrichtung auf Hardware eingesetzt wird, die eine niedrige Verarbeitungsleistung aufweist.
Lösung des Problems
Eine Spracherkennungseinrichtung in Entsprechung mit der vorliegenden Erfindung umfasst: eine Spracheingabeeinheit, die ausgelegt ist, um gesammelte Sprache zu erwerben und die Sprache in Sprachdaten umzuwandeln; eine Nichtsprachinformationen-Eingabeeinheit, die ausgelegt ist, um Informationen außer der Sprache zu erwerben; eine Nichtsprachoperations-Erkennungseinheit, die ausgelegt ist, um einen Benutzerzustand aus den Informationen außer der Sprache, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, zu erkennen; eine Nichtsprachabschnitts-Bestimmungseinheit, die ausgelegt ist, um zu bestimmen, ob oder ob nicht der Benutzer spricht, aus dem Benutzerzustand, den die Nichtsprachoperations-Erkennungseinheit erkennt; eine Schwellenwertlerneinheit, die ausgelegt ist, einen ersten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer nicht spricht, und einen zweiten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer spricht; eine Sprachabschnittsdetektionseinheit, die ausgelegt ist, um unter Verwendung des durch die Schwellenwertlerneinheit eingestellten Schwellenwertes einen Sprachabschnitt zu detektieren, der angibt, dass der Benutzer spricht, aus den durch die Spracheingabeeinheit umgewandelten Sprachdaten; und eine Spracherkennungseinheit, die ausgelegt ist, um die Sprachdaten im durch die Sprachabschnittsdetektionseinheit detektierten Sprachabschnitt zu erkennen, und ein Erkennungsergebnis auszugeben, wobei die Sprachabschnittsdetekti onseinheit den Sprachabschnitt unter Verwendung des ersten Schwellenwerts detektiert, wenn die Sprachabschnittsdetektionseinheit den Sprachabschnitt unter Verwendung des zweiten Schwellenwerts nicht detektieren kann.
Vorteilhafte Wirkungen der Erfindung
Gemäß der vorliegenden Erfindung kann selbst bei Einsatz einer Hardware mit einer geringen Verarbeitungsleistung die Verzögerungszeit reduziert werden, bis das Spracherkennungsergebnis erhalten wird, und eine Verschlechterung der Erkennungsverarbeitungsleistung verhindert werden.
Kurzbeschreibung der Zeichnungen
1 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung gemäß Ausführungsform 1;
2 ist ein Diagramm zum Darstellen einer Verarbeitung, einer Spracheingabestufe und einer CPU-Last der Spracherkennungseinrichtung gemäß Ausführungsform 1;
3 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung gemäß Ausführungsform 1;
4 ist ein Bockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung gemäß Ausführungsform 2;
5 ist eine Tabelle zum Darstellen eines Beispiels eines Operationsszenarios, das in einem Operationsszenariospeicher der Spracherkennungseinrichtung gemäß Ausführungsform 2 gespeichert ist;
6 ist ein Diagramm zum Darstellen einer Verarbeitung, einer Spracheingabestufe und einer CPU-Last der Spracherkennungseinrichtung gemäß Ausführungsform 2;
7 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung gemäß Ausführungsform 2;
8 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung gemäß Ausführungsform 3;
9 ist ein Diagramm zum Darstellen einer Verarbeitung, einer Spracheingabestufe und einer CPU-Last der Spracherkennungseinrichtung gemäß Ausführungsform 3;
10 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung gemäß Ausführungsform 3;
11 ist ein Blockdiagramm zum Darstellen einer Hardwarekonfiguration eines mobilen Endgeräts, das mit einer Spracherkennungseinrichtung gemäß der vorliegenden Erfindung ausgestattet ist.
Beschreibung der Ausführungsformen
Die beste Ausführungsform zur Ausführung der Erfindung wird nachfolgend unter Bezugnahme auf die beliegenden Zeichnungen erläutert, um die vorliegende Erfindung detaillierter zu beschreiben.
Ausführungsform 1
1 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung 100 gemäß Ausführungsform 1.
Die Spracherkennungseinrichtung 100 besteht aus einer Berührungsoperation-Eingabeeinheit (Nichtsprachinformationen-Eingabeeinheit) 101, einer Bildeingabeeinheit (Nichtsprachinformationen-Eingabeeinheit) 102, einer Lippenbilderkennungseinheit (Nichtsprachoperations-Erkennungseinheit) 103, einer Nichtsprachabschnitts-Bestimmungseinheit 104, einer Spracheingabeeinheit 105, einer Sprachabschnittsdetektions-Schwellenwertlerneinheit 106, einer Sprachabschnittsdetektionseinheit 107 und einer Spracherkennungseinheit 108.
Im Übrigen, obwohl die folgende Beschreibung für ein Beispiel erläutert wird, in welchem ein Benutzer eine Berührungsoperation über einen Berührungsbildschirm (nicht gezeigt) durchführt, ist die Spracherkennungseinrichtung 100 auch für einen Fall anwendbar, in welchem ein Eingabemittel außer ein Berührungsbildschirm eingesetzt wird, oder für einen Fall, in welchem ein Eingabemittel mit einem Eingabeverfahren außer der Berührungsoperation eingesetzt wird.
Die Berührungsoperation-Eingabeeinheit 101 detektiert eine Berührung eines Benutzers auf einem Berührungsbildschirm und erwirbt die Koordinatenwerte der auf dem Berührungsbildschirm detektierten Berührung. Die Bildeingabeeinheit 102 akquiriert mit einem Bildaufnahmemittel, wie einer Kamera, aufgenommene Videos und wandelt die Videos in Bilddaten um. Die Lippenbilderkennungseinheit 103 führt eine Analyse der Bilddaten, die die Bildeingabeeinheit 102 erwirbt, durch und erkennt eine Bewegung der Lippen des Benutzers. Die Nichtsprachabschnitts-Bestimmungseinheit 104 bestimmt, ob oder ob nicht der Benutzer spricht durch Zugreifen auf ein Erkennungsergebnis der Lippenbilderkennungseinheit 103, wenn die durch die Berührungsoperation-Eingabeeinheit 101 erworbenen Koordinatenwerte innerhalb eines Bereichs zum Durchführen einer nichtsprachlichen Operation liegen. Wenn sie bestimmt, dass der Benutzer nicht spricht, weist die Nichtsprachabschnitts-Bestimmungseinheit 104 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, einen Schwellenwert zu lernen, der zum Detektieren eines Sprachabschnitts eingesetzt wird. Ein Bereich zum Durchführen einer Operation für die Sprache, welcher für die Nichtsprachabschnitts-Bestimmungseinheit 104 eingesetzt wird, um eine Bestimmung durchzuführen, bedeutet ein Bereich auf dem Berührungsbildschirm, auf dem ein Spracheingabeempfangsbutton oder dergleichen angeordnet ist, und ein Bereich zum Durchführen der nichtsprachlichen Operation bedeutet ein Bereich, auf dem ein Button zum Durchführen eines Wechsels auf einen Bildschirm der unteren Ebene und dergleichen angeordnet ist.
Die Spracheingabeeinheit 105 erwirbt die durch ein Sammelmittel, wie ein Mikrofon, gesammelte Sprache und wandelt die Sprache in Sprachdaten um. Die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 stellt einen Schwellenwert zum Detektieren einer Äußerung eines Benutzers aus der Sprache ein, die die Spracheingabeeinheit 105 erwirbt. Die Sprachabschnittsdetektionseinheit 107 detektiert die Äußerung des Benutzers aus der Sprache, die die Spracheingabeeinheit 105 in Entsprechung mit dem Schwellenwert, den die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 einstellt, erwirbt. Wenn die Sprachabschnittsdetektionseinheit 107 die Äußerung des Benutzers detektiert, erkennt die Spracherkennungseinheit 108 die Sprache, die die Spracheingabeeinheit 105 erwirbt, und gibt einen Text aus, welcher ein Spracherkennungsergebnis ist.
Anschließend wird die Operation der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1 unter Bezugnahme auf 2 und 3 erläutert. 2 ist ein Diagramm zum Darstellen eines Beispiels der Eingabeoperation des Spracherkennungseinrichtung 100 gemäß Ausführungsform 1, und 3 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1.
Zunächst zeigt 2A auf der Zeitachse die Zeit A₁, zu welcher der Benutzer eine erste Berührungsoperation durchführt, die Zeit B₁, die ein Eingabe-Zeitlimit der Berührungsoperation anzeigt, die Zeit C₁, zu welcher der Benutzer eine zweite Berührungsoperation durchführt, eine Zeit D₁, die das Ende des Schwellenwertlernens anzeigt, und eine Zeit E₁, die ein Spracheingabe-Zeitlimit anzeigt.
2B zeigt eine zeitliche Änderung der Eingabeebene der Sprache, die der Spracheingabeeinheit 105 zugeführt wird. Eine durchgängige Linie zeigt die Spracherzeugung F (F₁ ist die Anfangsposition der Spracherzeugung, und F₂ ist die Endposition der Spracherzeugung) an, und eine strichpunktierte Linie zeigt Geräusche G an. Im Übrigen bezeichnet ein Wert H, gezeigt auf der Achse der Spracheingabeebene, einen ersten Sprachabschnittsdetektionsschwellenwert und ein Wert I bezeichnet einen zweiten Sprachabschnittsdetektionsschwellenwert.
2C zeigt eine zeitliche Änderung der CPU-Last der Spracherkennungseinrichtung 100 an. Ein Bereich J und ein Bereich K bezeichnen eine Last einer Schwellenwertlernverarbeitung, ein Bereich L bezeichnet eine Last der Sprachabschnittsdetektionsverarbeitung, und ein Bereich M bezeichnet eine Last der Spracherkennungsverarbeitung.
In einem Zustand, in welchem die Spracherkennungseinrichtung 100 arbeitet, führt die Berührungsoperation-Eingabeeinheit 101 eine Bestimmung durch, ob oder ob nicht eine Berührungsoperation auf dem Berührungsbildschirm detektiert ist (Schritt ST1). Wenn ein Benutzer bzw. eine Benutzerin einen Teil des Berührungsbildschirms mit seinem/ihrem Finger nach unten wischt, während die Bestimmung durchgeführt wird, detektiert die Berührungsoperation-Eingabeeinheit 101 die Berührungsoperation (JA in Schritt ST1), erwirbt die Koordinatenwerte der bei der Berührungsoperation detektierten Berührung, und gibt die Koordinatenwerte an die Nichtsprachabschnitts-Bestimmungseinheit 104 aus (Schritt ST2). Beim Erwerben der in Schritt ST2 ausgegebenen Koordinatenwerte aktiviert die Nichtsprachabschnitts-Bestimmungseinheit 104 einen eingebauten Zeitmesser und startet ein Messen einer Zeit, die ab der Zeit zum Detektieren der Berührungsoperation abgelaufen ist (Schritt ST3).
Wenn zum Beispiel die Berührungsoperation-Eingabeeinheit 100 die erste Berührungsoperation detektiert (Zeit A₁), gezeigt in 2A in Schritt ST1, erwirbt sie die Koordinatenwerte der bei der ersten Berührungsoperation in Schritt ST2 detektierten Berührung, und die Nichtsprachabschnitts-Bestimmungseinheit 104 misst eine Zeit, die seit dem Detektieren der ersten Berührungsoperation in Schritt ST3 abgelaufen ist. Die gemessene abgelaufene Zeit wird verwendet, um den Ablauf des Eingabe-Zeitlimits (Zeit B₁) der Berührungsoperation gemäß 2A zu bestimmen.
Die Nichtsprachabschnitts-Bestimmungseinheit 104 weist die Spracheingabeeinheit 105 an, die Spracheingabe zu starten, und die Spracheingabeeinheit 105 startet den Eingabeempfang der Sprache in Antwort auf die Anweisung (Schritt ST4), und wandelt die erworbene Sprache in Sprachdaten um (Schritt ST5). Die Sprachdaten bestehen nach der Umwandlung zum Beispiel aus PCM(Pulscodemodulation)-Daten, die aus der Digitalisierung des Sprachsignals, das die Spracheingabeeinheit 105 akquiriert, resultieren.
Des Weiteren bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, ob oder ob nicht die in Schritt ST2 ausgegebenen Koordinatenwerte außerhalb eines vorgeschriebenen Bereichs liegen, der eine Äußerung anzeigt (Schritt ST6). Wenn die Koordinatenwerte außerhalb des Bereichs liegen, der die Äußerung anzeigt (JA in Schritt ST6), bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, dass die Operation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, und weist die Bildeingabeeinheit 102 an, die Bildeingabe zu starten. In Antwort auf diese Anweisung startet die Bildeingabeeinheit 102 den Empfang einer Videoeingabe (Schritt ST7) und wandelt das erworbene Video in ein Datensignal um, wie Videodaten (Schritt ST8). Hier bestehen die Videodaten zum Beispiel aus Einzelbildern, die durch Digitalisieren des Bildsignals, das die Bildeingabeeinheit 102 erwirbt, erhalten werden, und durch Umwandeln des digitalisierten Bildsignals in eine Folge von fortlaufenden Standbildern. Die nachfolgende Beschreibung erfolgt mittels eines Beispiels von Einzelbildern.
Die Lippenbilderkennungseinheit 103 führt Bilderkennung der Bewegung der Lippen des Benutzers aus den in Schritt ST8 umgewandelten Einzelbildern durch (Schritt ST9). Die Lippenbilderkennungseinheit 103 bestimmt, ob oder ob nicht der Benutzer spricht, aus dem in Schritt ST9 erkannten Bilderkennungsergebnis (Schritt ST10). Als konkrete Verarbeitung in Schritt ST10 extrahiert die Lippenbilderkennungseinheit 103 zum Beispiel Lippenbilder aus den Einzelbildern, berechnet die Form der Lippen aus der Breite und Höhe der Lippen durch eine öffentlich bekannte Technik, und anschießendem Bestimmen, ob oder ob nicht der Benutzer etwas äußert, auf Grundlage davon, ob oder ob nicht die Veränderung der Lippenform mit einem vorgegebene Lippenformmuster bei der Äußerung übereinstimmt. Wenn die Veränderung der Lippenform mit dem Lippenformmuster übereinstimmt, bestimmt die Lippenbilderkennungseinheit 103, dass der Benutzer spricht.
Wenn die Lippenbilderkennungseinheit 103 bestimmt, dass der Benutzer spricht (JA in Schritt ST10), geht sie weiter zur Verarbeitung in Schritt ST12. Andererseits, wenn die Lippenbilderkennungseinheit 103 bestimmt, dass der Benutzer nicht spricht (NEIN in Schritt ST10), weist die Nichtsprachabschnitts-Bestimmungseinheit 104 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Anweisung erfasst die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel einen Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode aus den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten (Schritt ST11).
Zudem bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, ob oder ob nicht ein Zeitmesserwert, der durch den in Schritt ST3 aktivierten Zeitmesser gemessen ist, einen voreingestellten Zeitlimit-Schwellenwert erreicht, das heißt, ob oder ob nicht der Zeitmesserwert das Zeitlimit der Berührungsoperationseingabe erreicht (Schritt ST12). Insbesondere bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, ob oder ob nicht der Zeitmesserwert die Zeit B₁ gemäß 2 erreicht. Wenn der Zeitmesserwert das Zeitlimit der Berührungsoperationseingabe (NEIN in Schritt ST12) nicht erreicht, geht die Verarbeitung zurück zu Schritt ST9, um die vorangehende Verarbeitung zu wiederholen. Dahingegen, wenn der Zeitmesserwert das Zeitlimit der Berührungsoperationseingabe erreicht (JA in Schritt ST12), veranlasst die Nichtsprachabschnitts-Bestimmungseinheit 104 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 den in Schritt ST11 in einem Speicherbereich (nicht gezeigt) als den ersten Sprachabschnittsdetektionsschwellenwert gespeicherten Wert der Spracheingabeebene zu speichern. Im Beispiel gemäß 2 speichert sie den Wert der höchsten Spracheingabeebene in den ab der Zeit A₁ eingegebenen Sprachdaten, zu welcher die erste Berührungsoperation detektiert ist, bis zur Zeit B1, welche das Berührungsoperationseingabe-Zeitlimit ist, das heißt, der Wert H gemäß 2B, als den ersten Sprachabschnittsdetektionsschwellenwert.
Anschließend weist die Nichtsprachabschnitts-Bestimmungseinheit 104 die Bildeingabeeinheit 102 an, den Empfang der Bildeingabe (Schritt ST14) zu stoppen, und die Spracheingabeeinheit 105 an, den Empfang der Spracheingabe zu stoppen (Schritt ST15). Anschließend geht das Flussdiagramm zurück zur Verarbeitung in Schritt ST1, um die vorangehende Verarbeitung zu wiederholen.
Während der vorangehenden Verarbeitung von Schritt ST7 bis Schritt ST15 wird nur die Sprachabschnittsdetektions-Schwellenwertlernverarbeitung durchgeführt, während Bilderkennungsverarbeitung (siehe den Bereich J (Bilderkennungsverarbeitung) und Bereich K (Sprachabschnittsdetektions-Schwellenwertlernverarbeitung), von der Zeit A₁ bis zur Zeit B₁ gemäß 2C) ausgeführt wird.
Andererseits, wenn die Koordinatenwerte innerhalb des Bereichs liegen, der die Äußerung in der Bestimmungsverarbeitung in Schritt ST6 (NEIN in Schritt ST6) anzeigt, bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 104, dass diese eine Operation in Begleitung einer Äußerung ist, und weist die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Äußerung lernt die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel den Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode ab den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten und speichert den Wert als den zweiten Sprachabschnittsdetektionsschwellenwert (Schritt ST16).
In dem Beispiel gemäß 2 lernt sie den Wert der höchsten Spracheingabeebene in den ab der Zeit C₁ eingegebenen Sprachdaten, zu welcher die zweite Berührungsoperation detektiert wird, bis zur Zeit D₁, zu welcher das Schwellenwertlernen endet, das heißt der Wert I gemäß 2B, und speichert den Wert I als den zweiten Sprachabschnittsdetektionsschwellenwert. Im Übrigen wird angenommen, dass der Benutzer während des Lernens des zweiten Sprachabschnittsdetektionsschwellenwerts nicht spricht.
Anschließend bestimmt die Sprachabschnittsdetektionseinheit 107 gemäß dem in Schritt ST16 gespeicherten zweiten Sprachabschnittsdetektionsschwellenwert, ob sie oder ob sie nicht den Sprachabschnitt von den Sprachdaten detektieren kann, die über die Spracheingabeeinheit 105 nach Abschließen des Sprachabschnittsdetektionsschwellenwertlernens in Schritt ST16 eingegeben sind (Schritt ST17). In dem Beispiel gemäß 2 detektiert sie den Sprachabschnitt in Entsprechung mit dem Wert I, welcher der zweite Sprachabschnittsdetektionsschwellenwert ist. Insbesondere bestimmt sie einen Punkt als die Anfangsposition der Sprachansage als den Punkt, an welchem die Spracheingabeebene der nach der Zeit D₁, zu welcher das Schwellenwertlernen endet, eingegebenen Sprachdaten den zweiten Sprachabschnittsdetektionsschwellenwert I überschreitet, und bestimmt einen Punkt als die Endposition der Sprachansage als den Punkt, an welchem die Spracheingabeebene unter den Wert I fällt, welcher der zweite Sprachabschnittsdetektionsschwellenwert ist, in den Sprachdaten, die der Anfangsposition der Sprachansage folgen.
Wenn die Sprachdaten keinerlei Geräusche enthalten ist es möglich, die Anfangsposition F1 und die Endposition F2, wie durch die Spracherzeugung F in 2 gezeigt, zu detektieren, und in der Bestimmungsverarbeitung in Schritt ST17 bestimmt wird, dass der Sprachabschnitt detektiert werden kann (JA in Schritt ST17). Wenn der Sprachabschnitt detektiert werden kann (JA in Schritt ST17), gibt die Sprachabschnittsdetektionseinheit 107 den Sprachabschnitt ein, den sie für die Spracherkennungseinheit 108 detektiert, und die Spracherkennungseinheit 108 führt die Spracherkennung durch und gibt den Text des Spracherkennungsergebnisses aus (Schritt ST21). Anschließend stoppt die Spracheingabeeinheit 105 den Empfang der Spracheingabe in Antwort auf die Anweisung zum Stoppen des Empfangs der Spracheingabe, die von der Nichtsprachabschnitts-Bestimmungseinheit 104 gesendet wird (Schritt ST22), und geht zurück zur Verarbeitung in Schritt ST1.
Andererseits, wenn zum Beispiel Geräusche in den Sprachdaten auftreten, wie durch die der Spracherzeugung F gemäß 2 überlagerten Geräusche G dargestellt ist, wird die Anfangsposition F₁ der Spracherzeugung F rich tig detektiert, da die Anfangsposition F₁ höher ist als der Wert I, welcher der zweite Sprachabschnittsdetektionsschwellenwert ist, aber die Endposition F₂ der Spracherzeugung F nicht richtig detektiert, da die Geräusche G die Endposition F₂ überlagern, und die Endposition F₂ höher bleibt als der Wert I des zweiten Sprachabschnittsdetektionsschwellenwerts. Daher bestimmt die Sprachabschnittsdetektionseinheit 107 in der Bestimmungsverarbeitung in Schritt ST17, dass der Sprachabschnitt nicht detektiert werden kann (NEIN in Schritt ST17). Wenn sie den Sprachabschnitt nicht detektieren kann (NEIN in Schritt ST17), ruft die Sprachabschnittsdetektionseinheit 107 einen voreingestellten Spracheingabe-Zeitlimitwert ab und bestimmt, ob sie oder ob sie nicht das Spracheingabe-Zeitlimit erreicht (Schritt ST18). Die detaillierte Verarbeitung in Schritt ST18 wird nachfolgend erläutert. Die Sprachabschnittsdetektionseinheit 107 fährt mit dem Zählen der Zeit ab einem Zeitpunkt fort, wenn die Sprachabschnittsdetektionseinheit 107 die Anfangsposition F₁ der Spracherzeugung F detektiert, und bestimmt, ob oder ob nicht ein Zählwert die Zeit E₁ des voreingestellten Spracheingabe-Zeitlimits erreicht.
Wenn sie das Spracheingabe-Zeitlimit nicht erreicht (NEIN in Schritt ST18), geht die Sprachabschnittsdetektionseinheit 107 zurück zur Verarbeitung in Schritt ST17 und fährt mit der Detektion des Sprachabschnitts fort. Andererseits, wenn sie das Spracheingabe-Zeitlimit erreicht (JA in Schritt ST18), stellt die Sprachabschnittsdetektionseinheit 107 den in Schritt ST13 gespeicherten ersten Sprachabschnittsdetektionsschwellenwert als einen Schwellenwert für die Bestimmung ein (Schritt ST19).
Gemäß dem in Schritt ST19 eingestellten ersten Sprachabschnittsdetektionsschwellenwert bestimmt die Sprachabschnittsdetektionseinheit 107, ob sie oder ob sie nicht den Sprachabschnitt aus den Sprachdaten detektieren kann, die über die Spracheingabeeinheit 105 nach Abschließen des Sprachabschnittsdetektionsschwellenwertlernens in Schritt ST16 (Schritt ST20) eingegeben sind. Hier speichert die Sprachabschnittsdetektionseinheit 107 die nach der Lernverarbeitung in Schritt ST16 eigegebenen Sprachdaten im Speicherbereich (nicht gezeigt), und detektiert die Anfangsposition und die Endposition der Spracherzeugung durch Anwendung des in Schritt ST19 hinsichtlich der gespeicherten Sprachdaten neu eingestellten ersten Sprachabschnittsdetektionsschwellenwerts.
In dem Beispiel gemäß 2, selbst wenn Geräusche G auftreten, ist die Anfangsposition F₁ der Spracherzeugung F höher als der Wert H, welcher der erste Sprachabschnittsdetektionsschwellenwert ist, und die Endposition F₂ der Spracherzeugung F niedriger als der Wert H, welcher der erste Sprachabschnittsdetektionsschwellenwert ist. Somit bestimmt die Sprachabschnittsdetektionseinheit 107, dass sie den Sprachabschnitt detektieren kann (JA in Schritt ST20).
Wenn sie den Sprachabschnitt detektieren kann (JA in Schritt ST20), geht die Sprachabschnittsdetektionseinheit 107 weiter zur Verarbeitung in Schritt ST21. Andererseits, wenn die Sprachabschnittsdetektionseinheit 107 den Sprachabschnitt nicht detektieren kann, selbst wenn sie den ersten Sprachabschnittsdetektionsschwellenwert anwendet (NEIN in Schritt ST20), geht sie zur Verarbeitung in Schritt ST22 ohne Durchführen der Spracherkennung, und geht zurück zur Verarbeitung in Schritt ST1.
Während die Spracherkennungsverarbeitung in der Verarbeitung von Schritt ST17 bis Schritt ST22 ausgeführt wird, wird nur die Sprachabschnittsdetektionsverarbeitung durchgeführt (siehe den Bereich L (Sprachabschnittsdetektionsverarbeitung) und den Bereich M (Spracherkennungsverarbeitung) von der Zeit D1 bis zur Zeit E1 gemäß 2C).
Wie vorstehend erläutert, ist die Spracherkennungseinrichtung gemäß der vorliegenden Ausführungsform 1 derart ausgelegt, dass sie die Nichtsprachabschnitts-Bestimmungseinheit 104 umfasst, um eine nichtsprachliche Operation in einer Berührungsoperation zu detektieren, und um zu bestimmen, ob oder ob nicht ein Benutzer spricht, durch die während der nichtsprachlichen Operation durchgeführte Bilderkennungsverarbeitung; die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 umfasst, um den ersten Sprachabschnittsdetektionsschwellenwert der Sprachdaten zu lernen, wenn der Benutzer nicht spricht; und die Sprachabschnittsdetektionseinheit 107 umfasst, um die Sprachabschnittsdetektion erneut durchzuführen, unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, wenn es ihr nicht gelingt, den Sprachabschnitt zu detektieren, durch Anwendung des zweiten Sprachabschnittsdetektionsschwellenwerts, welcher nach Detektieren der Operation für die Sprache in der Berührungsoperation gelernt wird. Dementsprechend, selbst wenn der zweite Sprachabschnittsdetektionsschwellenwert, der im Lernabschnitt während der Operation für die Sprache eingestellt wird, ein ungeeigneter Wert ist, kann in der vorliegenden Ausführungsform 1 ein geeigneter Sprachabschnitt detektiert werden, unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts. Zudem kann sie eine Steuerung derart durchführen, dass die Bilderkennungsverarbeitung verhindert, dass die Bilderkennungsverarbeitung und die Spracherkennungsverarbeitung gleichzeitig durchgeführt werden. Dementsprechend, selbst wenn die Spracherkennungseinrichtung 100 für einen Tablet-PC mit einer geringen Verarbeitungsleistung verwendet wird, kann sie die Verzögerungszeit reduzieren, bis das Spracherkennungsergebnis erhalten wird, wodurch es möglich ist, eine Verschlechterung der Spracherkennungsleistung zu reduzieren.
Weiterhin geht die vorstehende Ausführungsform 1 von der Konfiguration aus, in welcher die Bilderkennungsverarbeitung der Videodaten, die mit einer Kamera oder dergleichen aufgenommen werden, nur während der nichtsprachlichen Operation durchgeführt werden, um eine Bestimmung durchgeführt wird, ob oder ob nicht der Benutzer spricht, kann aber auch konfiguriert sein, um eine Bestimmung durchzuführen, ob oder ob nicht der Benutzer spricht unter Verwendung der mit einem Mittel außer der Kamera erworbenen Daten. Die vorliegende Erfindung kann zum Beispiel ausgelegt sein, dass wenn ein Tablet-PC mit einem Annäherungssensor ausgestattet ist, der Abstand zwischen dem Mikrofon des Tablet-PCs und den Lippen des Benutzers aus den vom Annäherungssensor erworbenen Daten berechnet wird, und wenn der Abstand zwischen dem Mikrofon und den Lippen kürzer ist als ein voreingestellter Schwellenwert, bestimmt wird, dass der Benutzer spricht.
Dies ermöglicht der Vorrichtung, eine Zunahme der Verarbeitungslast zu verhindern, während die Spracherkennungsverarbeitung nicht durchgeführt wird, wodurch es möglich ist, die Spracherkennungsleistung im Tablet-PC mit einer geringen Verarbeitungsleistung zu verbessern, und es zu ermöglichen, dass die Vorrichtung eine Verarbeitung außer der Spracherkennung ausführen kann.
Zudem macht es die Verwendung des Annäherungssensors möglich, den Stromverbrauch gegenüber dem Fall der Verwendung der Kamera zu reduzieren, wodurch es möglich ist, die Nutzbarkeit des Tablet-PCs mit hoher Schonung der Akkulebensdauer zu verbessern.
Ausführungsform 2
Obwohl die vorstehende Ausführungsform eine Konfiguration zeigt, in welcher, wenn sie die nicht sprachliche Operation detektiert, die Lippenbilderkennungseinheit 103 die Lippenbilder erkennt, um zu bestimmen, ob oder ob nicht ein Benutzer spricht, beschreibt die vorliegende Ausführungsform 2 eine Konfiguration, in welcher eine Operation für die sprachliche oder nicht sprachliche Operation in Entsprechung mit dem Operationszustand des Benutzers bestimmt wird, und die Spracheingabeebene während der nichtsprachlichen Operation gelernt wird.
4 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung 200 gemäß Ausführungsform 2.
Die Spracherkennungseinrichtung 200 gemäß Ausführungsform 2 umfasst anstelle der Bildeingabeeinheit 102 die Lippenbilderkennungseinheit 103 und die Nichtsprachabschnitts-Bestimmungseinheit 104 der in Ausführungsform 1 gezeigten Spracherkennungseinrichtung 100, eine Operationszustandsbestimmungseinheit (Nichtsprachoperations-Erkennungseinheit) 201, einen Operationsszenariospeicher 202 und eine Nichtsprachabschnitts-Bestimmungseinheit 203.
Nachfolgend sind gleiche oder ähnliche Komponenten wie die Komponenten der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1 durch die gleichen Bezugszeichen bezeichnet, wie die Bezugszeichen gemäß Ausführungsform 1, und auf deren Beschreibung wird verzichtet oder diese vereinfacht.
Die Operationszustandsbestimmungseinheit 201 bestimmt den Operationszustand eines Benutzers durch Abrufen von Informationen über die Berührungsoperation des Benutzers auf dem Berührungsbildschirm, die über die Berührungsoperation-Eingabeeinheit 101 eingegeben werden, und der Informationen, die den Operationszustand anzeigen, der durch eine im Operationsszenariospeicher 202 gespeicherte Berührungsoperation einen Wechsel vollzieht. Hier beziehen sich Informationen über die Berührungsoperation auf die Koordinatenwerte oder dergleichen, bei welchen die Berührung des Benutzers auf dem Berührungsbildschirm detektiert wird.
Der Operationsszenariospeicher 202 ist ein Speicherbereich zum Speichern eines Operationszustands, welcher durch die Berührungsoperation einen Wechsel vollzieht. Es wird zum Beispiel angenommen, dass die folgenden drei Bildschirme als der Operationsbildschirm bereitgestellt sind: ein Ausgangsbildschirm; ein Operationsbildschirm-Auswahlbildschirm, der auf einer unteren Ebene des Ausgangsbildschirms platziert ist, für einen Benutzer, um einen Operationsbildschirm auszuwählen; und einen Operationsbildschirm auf dem gewählten Bildschirm, welcher auf einer unteren Ebene des Operationsbildschirm-Auswahlbildschirms platziert ist. Wenn ein Benutzer eine Berührungsoperation auf dem Ausgangsbildschirm durchführt, um den Wechsel auf den Operationsbildschirm-Auswahlbildschirm zu bewirken, werden die Informationen, welche anzeigen, dass der Operationszustand einen Wechsel vom Ausgangsbildschirm zum Operationsbildschirm-Auswahlbildschirm vollzieht, als ein Operationsszenario gespeichert. Des Weiteren, wenn der Benutzer eine Berührungsoperation entsprechend einem Auswahlbutton auf dem Operationsbildschirm-Auswahlbildschirm durchführt, um einen Wechsel zum Operationsbildschirm-Auswahlbildschirm zu bewirken, werden die Informationen, die anzeigen, dass der Operationszustand einen Wechsel vom Operationsbildschirmauswahlzustand zu einem bestimmten Elementeingabezustand auf dem gewählten Bildschirm vollzieht, als das Operationsszenario gespeichert.
5 ist eine Tabelle zum Darstellen eines Beispiels der Operationsszenarios, die der Operationsszenariospeicher 202 der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2 speichert.
In dem Beispiel gemäß 5 besteht ein Operationsszenario aus einem Operationszustand, einem Anzeigebildschirm, einem Wechselzustand, einem Zustand eines Wechselziels, und Informationen, die entweder eine die Sprache begleitende Operation oder eine nichtsprachliche Operation anzeigen.
Zunächst beziehen sich für den Operationszustand als ein konkretes Beispiel der vorgenannte ”Anfangszustand” und der ”Operationsbildschirmauswahlzustand” auf ”wähle Arbeitsplatz”; und als ein konkretes Beispiel beziehen sich ”Arbeit an Platz A” und ”Arbeit an Platz B” auf den vorgenannten ”Operationszustand auf dem gewählten Bildschirm”. Zudem bezieht sich als ein konkretes Beispiel der vorgenannte ”Eingabezustand eines bestimmten Elements” auf vier Operationszustände, wie ”Arbeit C in Operation”.
Wenn der Betriebszustand zum Beispiel ”wähle Arbeitsplatz” ist, zeigt der Betriebsbildschirm ”wähle Arbeitsplatz” an. Auf dem Operationsbildschirm, auf welchem ”wähle Arbeitsplatz” angezeigt ist, wenn der Benutzer ”berühre Arbeitsplatz-A-Button” durchführt, welcher die Wechselbedingung ist, vollzieht der Operationszustand einen Wechsel zu ”Arbeit an Platz A”. Andererseits, wenn der Benutzer die Wechselbedingung ”berühre Arbeitsplatz-B-Button” durchführt, vollzieht der Operationszustand einen Wechsel zu ”Arbeit an Platz B”. Die Operationen ”berühre Arbeitsplatz-A-Button” und ”berühre Arbeitsplatz-B-Button” zeigen an, dass sie nichtsprachliche Operationen sind.
Zudem, wenn der Operationszustand zum Beispiel ”Arbeit C in Operation” ist, zeigt der Operationsbildschirm ”Arbeit C” an. Auf dem Operationsbildschirm, welcher ”Arbeit C” anzeigt, wenn der Benutzer einen Wechselzu stand ”berühre Ende-Button” durchführt, vollzieht er einen Wechsel auf den Operationszustand ””Arbeiten an Platz A”. Die Operation ”berühre Ende-Button” zeigt an, dass sie eine nichtsprachliche Operation ist.
Anschließend wird unter Bezugnahme auf 6 und 7 die Operation der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2 erläutert. 6 ist ein Diagramm zum Darstellen eines Beispiels der Eingabeoperation für die Spracherkennungseinrichtung 200 gemäß Ausführungsform 2; und 7 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2. Im Übrigen sind in der folgenden Beschreibung die gleichen Schritte wie die Schritte der Spracherkennungseinrichtung 100 gemäß Ausführungsform 1 durch die gleichen Bezugszeichen bezeichnet, wie jene in 3, und auf deren Beschreibung wird verzichtet oder diese vereinfacht.
Zunächst zeigt 6A auf der Zeitachse eine Zeit A₂, zu welcher der Benutzer eine erste Berührungsoperation durchführt, eine Zeit B₂, welche das Eingabe-Zeitlimit der ersten Berührungsoperation anzeigt, eine Zeit A₃, zu welcher der Benutzer eine zweite Berührungsoperation durchführt, eine Zeit B₃, welche das Eingabe-Zeitlimit der zweiten Berührungsoperation anzeigt, eine Zeit C₂, zu welcher der Benutzer eine dritte Berührungsoperation durchführt, eine Zeit D₂, welche das Ende des Schwellenwertlernens anzeigt, und eine Zeit E₂, welche das Spracheingabe-Zeitlimit anzeigt.
6B zeigt eine zeitliche Veränderung der Eingabeebene der Sprache, die der Spracheingabeeinheit 105 zugeführt wird. Eine durchgezogene Linie zeigt die Spracherzeugung F an (F₁ ist die Anfangsposition der Spracherzeugung, und F₂ ist die Endposition der Spracherzeugung), und eine strichpunktierte Linie zeigt Geräusche G an. Der auf der Zeitachse der Spracheingangsebene gezeigte Wert H bezeichnet den ersten Sprachabschnittsdetektionsschwellenwert, und der Wert I bezeichnet den zweiten Sprachabschnittsdetektionsschwellenwert.
6C zeigt eine zeitliche Veränderung der CPU-Last der Spracherkennungs einrichtung 200. Der Bereich K bezeichnet eine Last der Schwellenwertlernverarbeitung, der Bereich L bezeichnet eine Last der Sprachabschnittsdetektionsverarbeitung, und der Bereich M bezeichnet eine Last der Spracherkennungsverarbeitung.
Wenn der Benutzer einen Teil des Berührungsbildschirms berührt, detektiert die Berührungsoperation-Eingabeeinheit 101 die Berührungsoperation (JA in Schritt ST1), erwirbt die Koordinatenwerte an dem Teil, an dem die Berührungsoperation detektiert ist, und gibt die Koordinatenwerte an die Nichtsprachabschnitts-Bestimmungseinheit 203 und die Operationszustandsbestimmungseinheit 201 aus (Schritt ST31). Das Erwerben der in Schritt ST31 ausgegebenen Koordinatenwerte aktiviert den eingebauten Zeitmesser und startet ein Messen einer Zeit, die seit dem Detektieren der Berührungsoperation abgelaufen ist (Schritt ST3). Zudem weist die Nichtsprachabschnitts-Bestimmungseinheit 203 die Spracheingabeeinheit 105 an, die Spracheingabe zu starten. In Antwort auf die Anweisung startet die Spracheingabeeinheit 105 den Eingabeempfang der Sprachansage (Schritt ST4) und wandelt die erworbene Sprachansage in Sprachdaten um (Schritt ST5).
Andererseits bestimmt die Operationszustandsbestimmungseinheit 201 beim Erwerben der in Schritt ST31 ausgegebenen Koordinatenwerte den Operationszustand des Operationsbildschirms durch Zugreifen auf den Operationsszenariospeicher 202 (Schritt ST32). Das Bestimmungsergebnis wird an die Nichtsprachabschnitts-Bestimmungseinheit 203 ausgegeben. Die Nichtsprachabschnitts-Bestimmungseinheit 203 führt eine Bestimmung durch, ob oder ob nicht die Berührungsoperation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, durch Zugreifen auf die in Schritt ST31 ausgegebenen Koordinatenwerte und den in Schritt ST32 ausgegebenen Operationszustand (Schritt ST33). Wenn die Berührungsoperation eine nichtsprachliche Operation ist (JA in Schritt ST33), weist die Nichtsprachabschnitts-Bestimmungseinheit 203 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Anweisung zeichnet die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel einen Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode aus den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten auf (Schritt ST11). Anschließend wird die Verarbeitung in den Schritten ST12, ST13 und ST15 ausgeführt, gefolgt vom Zurückkehren zur Verarbeitung in Schritt ST1.
Zwei Beispiele, in welchen eine Bestimmung der nichtsprachlichen Operation in Schritt ST33 erfolgt (JA in Schritt ST33), werden nachfolgend erläutert.
Zunächst wird ein Beispiel erläutert, in welchem der Operationszustand einen Wechsel vom ”Anfangszustand” zum ”Bildschirmauswahlzustand” vollzieht. In dem Fall, in welchem die durch die Zeit A₂ angezeigte erste Berührungsoperation gemäß 6A eigegeben ist, wird die erste Berührungsoperation des Benutzers auf dem Ausgangsbildschirm durchgeführt, und wenn die durch die erste Berührungsoperation eingegebenen Koordinatenwerte innerhalb eines Bereichs liegen, in welchem ein Wechsel auf einen bestimmten Operationsbildschirm ausgewählt wird (zum Beispiel ein Button zum Fortfahren mit der Operationsbildschirmauswahl), erwirbt die Operationszustandsbestimmungseinheit 201 die Wechselinformationen, die anzeigen, dass der Operationszustand einen Wechsel vom ”Anfangszustand” zum ”Operationsbildschirmauswahlzustand” durchführt, durch Zugreifen auf den Operationsszenariospeicher 202 als das Bestimmungsergebnis in Schritt ST32.
Unter Bezugnahme auf den in Schritt ST32 erworbenen Operationszustand bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 203, dass die Berührungsoperation im ”Anfangszustand” eine nichtsprachliche Operation ist, welche keine Äußerung erfordert, um einen Bildschirmwechsel durchzuführen (JA in Schritt ST33). Wenn bestimmt wird, dass die Berührungsoperation die nichtsprachliche Operation ist, wird nur die Sprachabschnitts-Schwellenwertlernverarbeitung bis zur Zeit B₂ des ersten Berührungsoperations-Eingabezeitlimits durchgeführt (siehe den Bereich K (Sprachabschnittsdetektions-Schwellenwertlernverarbeitung) von der Zeit A₂ bis zur Zeit B₂ gemäß 6C).
Anschließend wird ein Beispiel erläutert, welches einen Wechsel vom ”Operationsbildschirmauswahlzustand” zum ”Operationszustand auf dem Auswahlbildschirm” zeigt. In dem Fall, wenn die durch die Zeit B₂ angezeigte zweite Berührungsoperation gemäß 6A eingegeben wird, wird die zweite Berührungsoperation des Benutzers auf dem Operationsbildschirmauswahlbildschirm durchgeführt, und wenn die durch die zweite Berührungsoperation eingegebenen Koordinatenwerte innerhalb des Bereichs liegen, in welchem ein Wechsel auf einen bestimmten Operationsbildschirm ausgewählt wird (zum Beispiel ein Button zum Auswählen des Operationsbildschirms), die Operationszustandsbestimmungseinheit 201 auf den Operationsszenariospeicher 202 in Schritt ST32 zugreift und die Wechselinformationen erwirbt, die den Wechsel des Operationszustands vom ”Operationsbildschirmauswahlzustand” in den ”Operationszustand auf dem Auswahlbildschirm” als ein Bestimmungsergebnis anzeigen.
Unter Bezugnahme auf den in Schritt ST32 erworbenen Operationszustand bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 203, dass die Berührungsoperation im ”Operationsbildschirmauswahlzustand” eine nichtsprachliche Operation ist (JA in Schritt ST33). Wenn bestimmt wird, dass die Berührungsoperation die nichtsprachliche Operation ist, wird nur die Sprachabschnittsschwellenwertlernverarbeitung bis zur Zeit B₃ des zweiten Berührungsoperation-Eingabezeitlimits durchgeführt (siehe Bereich K (Sprachabschnittsschwellenwertlernverarbeitung) von der Zeit A₃ bis zur Zeit B₃ gemäß 3C).
Andererseits, wenn die Berührungsoperation eine Operation für Sprache ist (NEIN in Schritt ST33), weist die Nichtsprachabschnitts-Bestimmungseinheit 203 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, den Schwellenwert der Sprachabschnittsdetektion zu lernen. In Antwort auf die Anweisung lernt die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 zum Beispiel einen Wert der höchsten Spracheingabeebene innerhalb einer vorgeschriebenen Zeitperiode ab den von der Spracheingabeeinheit 105 eingegebenen Sprachdaten, und speichert den Wert als den zweiten Sprachabschnittsdetektionsschwellenwert (Schritt ST16). Anschließend führt sie die gleiche Verarbeitung durch, wie die Verarbeitung von Schritt ST17 bis Schritt ST22.
Ein Beispiel, in welchem in Schritt ST33 bestimmt wird, dass die Berührungsoperation die Operation für Sprache ist (NEIN in Schritt ST33), wird nachfolgend erläutert.
Ein Beispiel, das einen Wechsel vom ”Operationszustand auf dem Auswahlbildschirm” zum ”Eingabezustand eines bestimmten Elements” zeigt, wird nachfolgend erläutert. In dem Fall, wenn eine in der Zeit C₂ gemäß 6A angezeigte dritte Berührungsoperation eingegeben wird, wird die dritte Berührungsoperation des Benutzers auf dem Operationsbildschirm des Auswahlbildschirms durchgeführt, und wenn die durch die dritte Berührungsoperation eingegebenen Koordinatenwerte innerhalb eines Bereichs liegen, in welchem ein Wechsel auf das bestimmte Operationselement ausgewählt ist (zum Beispiel ein Button zum Auswählen eines Elements), ruft die Operationszustandsbestimmungseinheit 201 den Operationsszenariospeicher 202 in Schritt ST32 ab, und erwirbt die Wechselinformationen, welche den Wechsel des Operationszustands vom ”Operationszustand auf dem Operationsbildschirm” zum ”Eingabezustand eines bestimmten Elements” als ein Bestimmungsergebnis anzeigen.
Wenn der in Schritt ST32 erhaltene Operationszustand zeigt, dass die Berührungsoperation ”Operationszustand auf dem Auswahlbildschirm” ist, und wenn die in Schritt ST31 ausgegebenen Koordinatenwerte innerhalb eines Eingabebereichs eines bestimmten Elements liegen, das eine sprachliche Äußerung begleitet, bestimmt die Nichtsprachabschnitts-Bestimmungseinheit 203, dass die Berührungsoperation die Operation für Sprache ist (NEIN in Schritt ST33). Wenn bestimmt wird, dass die Berührungsoperation die Operation für Sprache ist, arbeitet die Sprachabschnitts-Schwellenwertlernverarbeitung bis zur Zeit D₂, zu welcher das Schwellenwertlernen abgeschlossen ist, und weiterhin arbeiten die Sprachabschnittsdetekti onsverarbeitung und die Spracherkennungsverarbeitung bis zur Zeit E₂ des Spracheingabe-Zeitlimits (siehe Bereich K (Sprachabschnittsdetektions-Schwellenwertlernverarbeitung) von der Zeit C₂ bis zur Zeit D₃ gemäß 6C, Bereich L (Sprachabschnittsdetektionsverarbeitung) und Bereich M (Spracherkennungsverarbeitung) von der Zeit D₂ bis zur Zeit E₂).
Wie vorstehend erläutert, ist die Spracherkennungseinrichtung gemäß der vorliegenden Ausführungsform 2 derart ausgelegt, dass sie die Operationszustandsbestimmungseinheit 201 umfasst, um den Operationszustand des Benutzers aus den Operationszuständen, welche im Operationsszenariospeicher 202 gespeichert sind, und einen Wechsel entsprechend der Berührungsoperation durchzuführen, und aus den Informationen über die von der Berührungsoperation-Eingabeeinheit 101 eingegebene Berührungsoperation zu bestimmen; und die Nichtsprachabschnitts-Bestimmungseinheit 203 umfasst, um, wenn bestimmt wird, dass die Berührungsoperation die Operation für Sprache ist, die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 anzuweisen, den ersten Sprachabschnittsdetektionsschwellenwert zu lernen. Dementsprechend kann die vorliegende Ausführungsform 2 die Notwendigkeit des Bildaufnahmemittels, wie einer Kamera, zum Detektieren der nichtsprachlichen Operation überflüssig machen, und erfordert keine Bilderkennungsverarbeitung mit einem hohen Berechnungsumfang. Dementsprechend kann eine Verschlechterung der Spracherkennungsleistung verhindert werden, selbst wenn die Spracherkennungseinrichtung 200 für einen Tablet-PC mit einer geringen Verarbeitungsleistung eingesetzt wird.
Zudem ist die sie derart ausgelegt, dass selbst dann, wenn beim Detektieren des Sprachabschnitts unter Verwendung des zweiten Sprachabschnittsschwellenwerts, der nach Detektion der Operation für Sprache gelernt wird, ein Fehler auftritt, die Sprachabschnittsdetektion erneut durchgeführt wird, unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation gelernt wurde. Dementsprechend kann der geeignete Sprachabschnitt detektiert werden, selbst wenn während der Operation für die Sprache kein geeigneter Schwellenwert eingestellt werden kann.
Des Weiteren, da die vorliegende Erfindung das Eingabemittel, wie eine Kamera, zum Detektieren der nichtsprachlichen Operation nicht erfordert, kann die vorliegende Ausführungsform den Stromverbrauch des Eingabemittels reduzieren. Somit kann die vorliegende Ausführungsform die Benutzerfreundlichkeit verbessern, wenn sie für einen Tablet-PC oder dergleichen eingesetzt wird, mit hoher Schonung der Akkulebensdauer.
Ausführungsform 3
Eine Spracherkennungseinrichtung kann durch Kombination der vorgenannten Ausführungsformen 1 und 2 konfiguriert sein.
8 ist ein Blockdiagramm zum Darstellen einer Konfiguration einer Spracherkennungseinrichtung 300 gemäß einer dritten Ausführungsform. Die Spracherkennungseinrichtung 300 ist durch Hinzufügen der Bildeingabeeinheit 102 und der Lippenbilderkennungseinheit 103 zur Spracherkennungseinrichtung 200 gemäß Ausführungsform 2, gezeigt in 4, konfiguriert, und durch Ersetzen der Nichtsprachabschnitts-Bestimmungseinheit 203 durch eine Nichtsprachabschnitts-Bestimmungseinheit 301.
Wenn die Nichtsprachabschnitts-Bestimmungseinheit 301 bestimmt, dass die Berührungsoperation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, erwirbt die Bildeingabeeinheit 102 mit einem Bildaufnahmemittel, wie einer Kamera, aufgenommene Videos und wandelt die Videos in die Bilddaten um, und die Lippenbilderkennungseinheit 103 führt eine Analyse der erworbenen Bilddaten durch, und erkennt die Bewegung der Lippen des Benutzers. Wenn die Lippenbilderkennungseinheit 103 bestimmt, dass der Benutzer nicht spricht, weist die Nichtsprachabschnitts-Bestimmungseinheit 301 die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 an, einen Sprachabschnittsdetektionsschwellenwert zu lernen.
Anschließend wird unter Bezugnahme auf 9 und 10 die Operation der Spracherkennungseinrichtung 300 gemäß Ausführungsform 3 erläutert. 9 ist ein Diagramm zum Darstellen eines Beispiels der Eingabeoperation der Spracherkennungseinrichtung 300 gemäß Ausführungsform 3; und 10 ist ein Flussdiagramm zum Darstellen der Operation der Spracherkennungseinrichtung 300 gemäß Ausführungsform 3. Im Übrigen sind im Folgenden die gleichen Schritte, wie die Schritte der Spracherkennungseinrichtung 200 gemäß Ausführungsform 2, mit den gleichen Bezugszeichen bezeichnet, wie die in 7 verwendeten Bezugszeichen, und auf deren Beschreibung wird verzichtet oder diese vereinfacht.
Zunächst ist die Anordnung von 9A bis 9C gleich wie die in 6 gemäß Ausführungsform 2 gezeigte Anordnung, mit der Ausnahme, dass der Bereich J, der die Bilderkennungsverarbeitung in 9C anzeigt, hinzugefügt ist.
Da die Operation bis zum Schritt ST33, in welchem die Nichtsprachabschnitts-Bestimmungseinheit 301 eine Bestimmung durchführt, ob oder ob nicht die Berührungsoperation eine nichtsprachliche Operation ohne Begleitung einer Äußerung ist, aus den von der Berührungsoperation-Eingabeeinheit 101 ausgegebenen Koordinatenwerten und dem von der Operationszustand-Bestimmungseinheit 201 ausgegebenen Operationszustand, gleich ist, wie die gemäß Ausführungsform 2, wird auf deren Beschreibung verzichtet. Wenn die Berührungsoperation eine nichtsprachliche Operation ist (JA in Schritt ST33), führt die Nichtsprachabschnitts-Bestimmungseinheit 301 die Verarbeitung von Schritt ST7 bis Schritt ST15, gezeigt in 3, gemäß Ausführungsform 1 durch, gefolgt vom Zurückkehren zur Verarbeitung in Schritt ST1. Insbesondere, zusätzlich zur Verarbeitung gemäß Ausführungsform 2, führt die Spracherkennungseinrichtung 300 die Bilderkennungsverarbeitung der Bildeingabeeinheit 102 und der Lippenbilderkennungseinheit 103 durch. Andererseits, wenn die Berührungsoperation eine Operation für Sprache ist (NEIN in Schritt ST33), führt die Spracherkennungseinrichtung 300 die Verarbeitung von Schritt ST16 bis Schritt ST22 durch, gefolgt vom Zurückkehren zur Verarbeitung in Schritt ST1.
Ein Beispiel, in welchem die Nichtsprachabschnitts-Bestimmungseinheit 301 in Schritt ST33 bestimmt, dass die Berührungsoperation eine nichtsprachliche Operation ist (JA in Schritt ST33), ist in 9 die erste Berührungsoperation und die zweite Berührungsoperation. Andererseits ist ein Beispiel, in welchem sie in Schritt ST33 bestimmt, dass die Berührungsoperation eine Operation für Sprache ist (NEIN in Schritt ST33), in 9 die dritte Berührungsoperation. Im Übrigen wird in 9C zusätzlich zur Sprachabschnittsdetektions-Schwellenwertlernverarbeitung (siehe Bereich K) in der ersten Berührungsoperation und der zweiten Berührungsoperation weiterhin die Bilderkennungsverarbeitung (siehe Bereich J) durchgeführt. Da die andere Verarbeitung gleich ist wie jene in 6, gezeigt in Ausführungsform 2, wird auf deren detaillierte Beschreibung verzichtet.
Wie vorstehend erläutert ist die Bilderkennungseinrichtung 300 gemäß der vorliegenden Ausführungsform 3 derart konfiguriert, dass sie die Operationszustandsbestimmungseinheit 201 umfasst, um den Operationszustand eines Benutzers aus den Operationszuständen zu bestimmen, welche im Operationsszenariospeicher 202 gespeichert sind, und einen Wechsel in Antwort auf die Berührungsoperation und aus den Informationen über die von der Berührungsoperation-Eingabeeinheit 101 eingegebene Berührungsoperation durchzuführen; und die Nichtsprachabschnitts-Bestimmungseinheit 301 die Lippenbilderkennungseinheit 103 anweist, die Bilderkennungsverarbeitung nur dann durchzuführen, wenn eine Bestimmung der nichtsprachlichen Operation durchgeführt wird, und die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 anzuweisen, den ersten Sprachabschnittsdetektionsschwellenwert zu lernen, nur wenn die Bestimmung der nichtsprachlichen Operation durchgeführt wird. Dementsprechend kann die vorliegende Ausführungsform 3 die Steuerung derart durchführen, dass ein gleichzeitiges Durchführen der Bilderkennungsverarbeitung und der Spracherkennungsverarbeitung, welche eine hohe Verarbeitungslast aufweisen, verhindert werden kann, und der Fall des Durchführens der Bilderkennungsverarbeitung in Entsprechung mit dem Operationsszenario eingeschränkt werden kann. Des Weiteren kann die Bildverarbeitungseinrichtung den ersten Sprachabschnittsdetektionsschwellenwert positiv lernen, während ein Benutzer nicht spricht. Aus diesen Gründen kann die Spracherkennungseinrichtung 300 die Spracherkennungsleistung für einen Tablet-PC mit einer geringen Verarbeitungsleistung verbessern.
Des Weiteren, da die vorliegende Ausführungsform 3 derart ausgelegt ist, dass, wenn beim Detektieren des Sprachabschnitts unter Verwendung des zweiten Sprachabschnittdetektionsschwellenwerts, der nach Detektion der Operation für Sprache gelernt wird, der Fehler auftritt, die Sprachabschnittsdetektion unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation gelernt wird, erneut durchgeführt wird. Dementsprechend kann die Spracherkennungseinrichtung den geeigneten Sprachabschnitt detektieren, selbst wenn sie während der Operation für die Sprache keinen geeigneten Schwellenwert einstellen kann.
Zudem weist die vorstehende Ausführungsform 3 die Konfiguration auf, in welcher eine Bestimmung, ob oder ob nicht ein Benutzer spricht, durch die Bilderkennungsverarbeitung der Videos, die mit der Kamera nur während der nichtsprachlichen Operation aufgenommen werden, durchgeführt wird, aber auch konfiguriert sein kann, um zu bestimmen, ob oder ob nicht der Benutzer spricht, unter Verwendung der Daten, die durch ein Mittel außer der Kamera erworben werden. Die vorliegende Ausführungsform kann zum Beispiel konfiguriert sein, so dass, wenn ein Tablet-PC einen Annäherungssensor aufweist, der Abstand zwischen dem Mikrofon des Tablet-PCs und den Lippen des Benutzers aus den Daten, die der Annäherungssensor erwirbt, berechnet wird, und wenn der Abstand zwischen dem Mikrofon und den Lippen kürzer ist als ein voreingestellter Schwellenwert, bestimmt wird, dass der Benutzer eine Äußerung vermittelt.
Dadurch wird es möglich, einen Anstieg der Verarbeitungslast der Einrichtung zu unterdrücken, während die Spracherkennungsverarbeitung nicht durchgeführt wird, wodurch es möglich ist, die Spracherkennungsleistung des Tablet-PCs mit einer geringen Verarbeitungsleistung zu verbessern, und die Verarbeitung außer der Spracherkennung durchzuführen.
Zudem ermöglicht die Verwendung des Annäherungssensors das Reduzieren des Stromverbrauchs gegenüber dem Fall der Verwendung der Kamera, wodurch es möglich ist, die Funktionsfähigkeit in einem Tablet-PC mit hoher Schonung der Akkulebensdauer zu verbessern.
Im Übrigen zeigen die vorgenannten Ausführungsformen 1 bis 3 ein Beispiel, welches nur einen Schwellenwert der Spracheingabeebene aufweist, welchen die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 einstellt, es kann aber auch konfiguriert sein, dass die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 den Spracheingabeebenen-Schwellenwert zu jeder Zeit lernt, wenn die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 die nichtsprachliche Operation detektiert, und dass die Sprachabschnittsdetektions-Schwellenwertlerneinheit 106 eine Vielzahl von Schwellenwerten, die sie lernt, einstellt.
Es kann konfiguriert sein, dass, wenn die Vielzahl von Schwellenwerten eingestellt sind, die Sprachabschnittsdetektionseinheit 107 die Sprachabschnittsdetektionsverarbeitung in Schritt ST19 und Schritt ST20, gezeigt im Flussdiagramm gemäß 3, mehrere Male unter Verwendung der Vielzahl von eingestellten Schwellenwerten durchführt, und nur wenn die Sprachabschnittsdetektionseinheit 107 die Anfangsposition und die Endposition eines Spracherzeugungsabschnitts detektiert, die Sprachabschnittsdetektionseinheit 107 ein Ergebnis als den Sprachabschnitt, den sie detektiert, ausgibt.
Somit kann nur die Sprachabschnittsdetektionsverarbeitung mehrere Male ausgeführt werden, wodurch es möglich ist, eine Zunahme der Verarbeitungslast zu verhindern, und die Spracherkennungsleistung zu verbessern, selbst wenn die Spracherkennungseinrichtung für einen Tablet-PC mit einer geringen Verarbeitungsleistung eingesetzt wird.
Zudem zeigen die vorgenannten Ausführungsformen 1 bis 3 die Konfiguration, in welcher, wenn der Sprachabschnitt in der Bestimmungsverarbeitung in Schritt ST20, gezeigt im Flussdiagramm gemäß 3, nicht detektiert wird, die Eingabe von Sprache gestoppt wird, ohne Durchführen der Spracherkennung, und konfiguriert sein kann, um die Spracherkennung durchzufüh ren und das Erkennungsergebnis auszugeben, selbst wenn der Sprachabschnitt nicht detektiert ist.
Die vorliegenden Ausführungsformen können zum Beispiel konfiguriert sein, dass dann, wenn das Spracheingabe-Zeitlimit in einem Zustand eintritt, in welchem die Anfangsposition der Spracherzeugung detektiert ist, aber ihre Endposition nicht detektiert ist, der Sprachabschnitt von der Anfangsposition der Spracherzeugung, der bis zum Spracheingabe-Zeitlimit detektiert ist, als der Sprachabschnitt detektiert wird, und die Spracherkennung durchgeführt, und das Erkennungsergebnis ausgegeben wird. Dadurch wird ein Benutzer in die Lage versetzt, das Verhalten der Spracherkennungseinrichtung leicht zu verstehen, da ein Spracherkennungsergebnis nicht immer ausgegeben wird, wenn der Benutzer eine Operation für Sprache durchführt, wodurch es möglich ist, die Funktionsfähigkeit der Spracherkennungseinrichtung zu verbessern.
Zudem sind die vorgenannten Ausführungsformen 1 bis 3 derart konfiguriert, dass, wenn ein Fehler beim Detektieren des Sprachabschnitts (zum Beispiel, wenn das Zeitlimit abläuft), unter Verwendung des zweiten Sprachabschnittsdetektionsschwellenwerts, der nach Detektion der Operation für Sprache in der Berührungsoperation gelernt wird, eintritt, die Sprachabschnittsdetektionsverarbeitung unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation durch die Berührungsoperation gelernt wird, erneut durchgeführt wird, und das Spracherkennungsergebnis ausgegeben wird, aber auch so konfiguriert sein können, dass, selbst wenn der Fehler beim Detektieren des Sprachabschnitts auftritt, die Spracherkennung durchgeführt wird, und das Erkennungsergebnis ausgegeben wird, und das erhaltene Spracherkennungsergebnis als ein Korrekturkandidat repräsentiert wird, durch Durchführen der Sprachabschnittsdetektion unter Verwendung des ersten Sprachabschnittsdetektionsschwellenwerts, der während der nichtsprachlichen Operation gelernt wird. Dadurch wird es möglich, eine Reaktionszeit bis zur ersten Ausgabe des Spracherkennungsergebnisses zu verkürzen, wodurch es möglich ist, die Funktionsfähigkeit der Spracherkennungseinrichtung zu verbessern.
Die Spracherkennungseinrichtung 100, 200 oder 300, gezeigt in irgendeiner der vorgenannten Ausführungsformen 1 bis 3, ist zum Beispiel an einem mobilen Endgerät 400 oder dergleichen, wie einem Tablet-PC mit einer Hardwarekonfiguration, wie in 11 gezeigt, montiert. Das mobile Endgerät 400 gemäß 11 besteht aus einem Berührungsbildschirm 401, einem Mikrofon 402, einer Kamera 403, einer CPU 404, einem ROM-Speicher (Read Only Memory) 405, einem RAM-Speicher (Random Access Memory) 406 und einem Speicher 407. Hier enthält die Hardware, die die Spracherkennungseinrichtung 100, 200 oder 300 implementiert, die CPU 404, den ROM-Speicher 405, den RAM-Speicher 406 und den in 11 gezeigten Speicher 407.
Die Berührungsoperation-Eingabeeinheit 101, die Bildeingabeeinheit 102, die Lippenbilderkennungseinheit 103, die Nichtsprachabschnitts-Bestimmungseinheiten 104, 203 oder 301, die Spracheingabeeinheit 105, die Schwellenwertlerneinheit 106, die Sprachabschnittsdetektionseinheit 107, die Spracherkennungseinheit 108 und die Operationszustandsbestimmungseinheit 201 sind durch die CPU 404 realisiert, die im ROM-Speicher 405, im RAM-Speicher 406 und im Speicher 407 gespeicherte Programme ausführt. Zudem können mehrere Prozessoren die vorgenannten Funktionen im Zusammenwirken miteinander ausführen.
Im Übrigen soll verstanden werden, dass eine freie Kombination der einzelnen Ausführungsformen, Varianten von Komponenten der einzelnen Ausführungsformen oder das Weglassen von irgendwelchen Komponenten der einzelnen Ausführungsformen innerhalb des Umfangs der vorliegenden Erfindung möglich ist.
Gewerbliche Anwendbarkeit
Eine Spracherkennungseinrichtung gemäß der vorliegenden Erfindung kann eine Verarbeitungslast niedrig halten. Dementsprechend ist die Spracherkennungseinrichtung für eine Anwendung mit einer Einrichtung, wie einem Tablet-PC und einem Smartphone, welche keine hohe Verarbeitungsleistung aufweisen, geeignet, um eine schnelle Ausgabe von Sprache eines Spracherkennungsergebnisses und eine Spracherkennung mit hoher Leistung durchzuführen.
Bezugszeichenliste

100, 200, 300 Spracherkennungseinrichtung; 101: Berührungsoperationseingabeeinheit; 102: Bildeingabeeinheit; 103: Lippenbilderkennungseinheit; 104, 203, 301: Nichtsprachabschnitts-Bestimmungseinheit; 105: Spracheingabeeinheit; 106: Sprachabschnittsdetektions-Schwellenwertlerneinheit; 107: Sprachabschnittsdetektionseinheit; 108: Spracherkennungseinheit; 201: Operationszustandsbestimmungseinheit; 202: Operationsszenariospeicher; 400: mobiles Endgerät; 401:; 402: Mikrofon; 403: Kamera; 404: CPU; 405: ROM-Speicher; 406: RAM-Speicher; 407: Speicher.

Claims

Spracherkennungseinrichtung, umfassend: eine Spracheingabeeinheit, die ausgelegt ist, um gesammelte Sprache zu erwerben und die Sprache in Sprachdaten umzuwandeln; eine Nichtsprachinformationen-Eingabeeinheit, die ausgelegt ist, um Informationen außer der Sprache zu erwerben; eine Nichtsprachoperations-Erkennungseinheit, die ausgelegt ist, um einen Benutzerzustand aus den Informationen außer der Sprache, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, zu erkennen; eine Nichtsprachabschnitts-Bestimmungseinheit, die ausgelegt ist, um zu bestimmen, ob oder ob nicht der Benutzer spricht, aus dem Benutzerzustand, den die Nichtsprachoperations-Erkennungseinheit erkennt; eine Schwellenwert-Lerneinheit, die ausgelegt ist, um einen ersten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer nicht spricht, und einen zweiten Schwellenwert aus den Sprachdaten, die durch die Spracheingabeeinheit umgewandelt werden, einzustellen, wenn die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, dass der Benutzer spricht; eine Sprachabschnittsdetektionseinheit, die ausgelegt ist, um unter Verwendung des durch die Schwellenwert-Lerneinheit eingestellten Schwellenwerts einen Sprachabschnitt, der anzeigt, dass der Benutzer spricht, aus den durch die Spracheingabeeinheit umgewandelten Sprachdaten zu detektieren; und eine Spracherkennungseinheit, die ausgelegt ist, um die Sprachdaten im durch die Sprachabschnittsdetektionseinheit detektierten Sprachabschnitt zu erkennen, und ein Erkennungsergebnis auszugeben, wobei die Sprachabschnittsdetektionseinheit den Sprachabschnitt unter Verwendung des ersten Schwellenwertes detektiert, wenn die Sprachabschnittsdetektionseinheit den Sprachabschnitt unter Verwendung des zweiten Schwellenwerts nicht detektieren kann.
Spracherkennungseinrichtung nach Anspruch 1, wobei die Nichtsprachinformationen-Eingabeeinheit Informationen über eine Position, an welcher der Benutzer eine Berührungseingabeoperation durchführt, erwirbt, und Bilddaten erwirbt, in welchen der Benutzerzustand erfasst ist; die Nichtsprachoperations-Erkennungseinheit eine Bewegung der Lippen des Benutzers aus den von der Nichtsprachinformationen-Eingabeeinheit erworbenen Bilddaten erkennt; und die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, ob oder ob nicht der Benutzer spricht, aus den Informationen über die Position, die von der Nichtsprachinformationen-Eingabeeinheit erworben werden, und aus den die Bewegung der Lippen anzeigenden Informationen, die die Nichtsprachoperations-Erkennungseinheit erkennt.
Spracherkennungseinrichtung nach Anspruch 1, wobei die Nichtsprachinformationen-Eingabeeinheit Informationen über eine Position, an welcher der Benutzer eine Berührungseingabeoperation durchführt, erwirbt, und die Nichtsprachoperations-Erkennungseinheit einen Operationszustand der Operationseingabe des Benutzers erkennt aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, und aus Wechselinformationen, die den Operationszustand des Benutzers, welcher in Antwort auf die Berührungseingabeoperation einen Wechsel vollzieht, anzeigen und die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, ob oder ob nicht der Benutzer spricht, aus dem Operationszustand, den die Nichtsprachoperations-Erkennungseinheit erkennt, und aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt.
Spracherkennungseinrichtung nach Anspruch 1, wobei die Nichtsprachinformationen-Eingabeeinheit Informationen über eine Position erwirbt, an welcher der Benutzer eine Berührungseingabeoperation durchführt, und Bilddaten erwirbt, in welchen der Benutzerzustand abgebildet ist, und die Nichtsprachoperations-Erkennungseinheit einen Operationszustand der Operationseingabe des Benutzers aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, und aus den Wechselinformationen, die den Operationszustand des Benutzers, welcher in Antwort auf die Berührungseingabeoperation einen Wechsel vollzieht, anzeigen, erkennt, und eine Bewegung der Lippen des Benutzers aus den Bilddaten, die die Nichtsprachinformationen-Eingabeeinheit erwirbt, erkennt; und die Nichtsprachabschnitts-Bestimmungseinheit bestimmt, ob oder ob nicht der Benutzer spricht, aus dem Operationszustand, den die Nichtsprachoperations-Erkennungseinheit erkennt, aus den Informationen, die die Bewegung der Lippen anzeigen, und aus den Informationen über die Position, die die Nichtsprachinformationen-Eingabeeinheit erwirbt.
Spracherkennungseinrichtung nach Anspruch 1, wobei die Sprachabschnittsdetektionseinheit auf Detektieren eines Anfangspunkts des Sprachabschnitts eine Zeit zählt; in einem Fall, in welchem die Sprachabschnittsdetektionseinheit einen Endpunkt des Sprachabschnitts nicht detektieren kann, selbst wenn der Zählwert einen bestimmten Zeitbegrenzungspunkt erreicht, einen Zeitraum vom Anfangspunkt des Sprachabschnitts bis zum Zeitbegrenzungspunkt als den Sprachabschnitt detektiert unter Verwendung des zweiten Schwellenwerts und den Zeitraum vom Anfangspunkt des Sprachabschnitts bis zum Zeitbegrenzungspunkt als den Sprachabschnitt eines Korrekturkandidaten detektiert unter Verwendung des ersten Schwellenwerts, und die Spracherkennungseinheit die Sprachdaten in dem durch die Sprachabschnittsdetektionseinheit detektierten Sprachabschnitt erkennt und ein Erkennungsergebnis ausgibt und die Sprachdaten im Sprachabschnitt des Korrekturkandidaten erkennt und einen Erkennungsergebnis-Korrekturkandidaten ausgibt.
Spracherkennungsverfahren, umfassend die Schritte: Erwerben, durch eine Spracheingabeeinheit, von gesammelter Sprache und Umwandeln der Sprache in Sprachdaten; Erwerben, durch eine Nichtsprachinformationen-Eingabeeinheit, von Informationen außer der Sprache; Erkennen, durch eine Nichtsprachoperations-Erkennungseinheit eines Benutzerzustands aus den Informationen außer der Sprache; Bestimmen, durch eine Nichtsprachabschnitts-Bestimmungseinheit, ob oder ob nicht der Benutzer spricht, aus dem erkannten Benutzerzustand; Einstellen, durch eine Schwellenwert-Lerneinheit, eines ersten Schwellenwerts aus den Sprachdaten, wenn bestimmt wird, dass der Benutzer nicht spricht, und eines zweiten Schwellenwerts, wenn bestimmt wird, dass der Benutzer nicht spricht; Detektieren, durch eine Sprachabschnittsdetektionseinheit, eines Sprachabschnitts, der anzeigt, dass der Benutzer spricht, aus den durch die Spracheingabeeinheit umgewandelten Sprachdaten unter Verwendung des ersten oder des zweiten Schwellenwerts, und Detektieren des Sprachabschnitts unter Verwendung des ersten Schwellenwerts, wenn der Sprachabschnitt unter Verwendung des zweiten Schwellenwerts nicht detektiert werden kann; und Erkennen, durch eine Spracherkennungseinheit, von Sprachdaten im detektierten Sprachabschnitt, und Ausgeben eines Erkennungsergebnisses.