DE602004003443T2

DE602004003443T2 - Sprachperiodenerkennung basierend auf Elektromyographie

Info

Publication number: DE602004003443T2
Application number: DE602004003443T
Authority: DE
Inventors: Inc. Hiroyuki c/o NTT DoCoMo Manabe; Akira Hiraiwa; Inc. Kouki c/o NTT DoCoMo Hayashi; Inc. Toshiaki c/o NTT DoCoMo Sugimura; Inc. Toshio c/o NTT DoCoMo Miki
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-09-19
Filing date: 2004-09-14
Publication date: 2007-10-04
Anticipated expiration: 2024-09-15
Also published as: CN1601604A; EP1517298A1; DE602004003443D1; JP4713111B2; EP1517298B1; US20050102134A1; CN100361197C; US7627470B2; JP2005115345A

Description

Die vorliegende Erfindung betrifft ein Endgerät, eine Stimmerkennungs-Verarbeitungsvorrichtung, ein Übertragungssystem, eine Signalpegel-Steuervorrichtung und ein Sprechperioden-Erfassungsverfahren gemäß dem Oberbegriff der Ansprüche 1, 4, 6, 7 bzw. 8.
Bei gewöhnlichen Stimmerfassungsvorrichtungen wurde eine Stimmerkennungstechnik verwendet, um eine in Sprache vorhandene Stimme als ein akustisches Signal zu behandeln und um eine Frequenzanalyse an dem akustischen Signal auszuführen, um Stimminformationen zu erkennen und zu verarbeiten. Um ein gewünschtes Stimmerfassungsergebnis unter Verwendung der Stimmerkennungstechnik bereitzustellen, ist es wichtig, Inhalte der Sprache von einem erfassten Stimmsignal genau zu erkennen sowie genau zu erfassen, ob der betreffende Sprecher tatsächlich spricht (Erfassung einer Sprechperiode). Insbesondere dann, wenn eine Stimmerkennung in einer geräuschvollen Umgebung ausgeführt wird oder wenn viele Menschen gleichzeitig sprechen, ist die Erfassung einer Sprechperiode ein erhebliches Problem.
Der Grund besteht darin, dass in einer Umgebung mit geringen Geräuschen eine Sprechperiode leicht erfasst werden kann, indem die Leistung eines erfassten Stimmsignals überwacht wird, sie jedoch in einer geräuschvollen Umgebung nicht einfach aus der Leistung erfasst werden kann, da das erfasste Stimmsignal die hinzugefügten Störungen umfasst. Wenn keine Sprechperiode erfasst werden kann, kann keine Stimme erkannt werden, selbst wenn für die nachfolgende Verarbeitung eine Stimmerkennungsvorrichtung bereitgestellt wird, die gegenüber Störungen robust ist.
Es sind verschiedene Forschungen in Bezug auf die Erfassung einer Sprechperiode ausgeführt worden. Die Dokumente "Handsfree Voice Recognition Using Microphone Array and Kalman Filter in An Actual Environment – Construction of Front-End System for Interactive TV" von Masakiyo Fujimoto and Yasuo Ariki; The Fourth DSPS Educators Conference; S. 55–58; August, 2002, und "Robust Speech Detection Using Images of Portions Around Mouth" von Kazumasa Murai, Keisuke Noma, Ken-ichi Kumagai, Tomoko Matsui und Satoshi Nakamura; Information Processing Society of Japan Research Report "Voice Language Information Processing" Nr. 034-01; März, 2000, handeln z. B. von derartigen Forschungen.
Die Lösungsansätze der in diesen Dokumenten beschriebenen Techniken und weiterer Techniken nach dem Stand der Technik werden grob in zwei Lösungsansätze klassifiziert: bei einem Lösungsansatz wird versucht, eine Sprechperiode lediglich aus einem Stimmsignal zu erfassen, wobei bei dem anderen Lösungsansatz versucht wird, ein Sprechsignal nicht nur aus einem Stimmsignal, sondern außerdem aus einem Nichtstimmsignal zu erfassen.
Bei jedem der beiden oben genannten Lösungsansätze gibt es ein Problem. Bei dem Versuch der Erfassung lediglich aus einem Stimmsignal besteht ein Nachteil darin, dass die Erfassungsgenauigkeit in beträchtlichem Maße von der Lautstärke und der Art der Umgebungsgeräusche abhängt. Um eine robuste Erfassung einer Sprechperiode zu realisieren, die durch Umgebungsgeräusche überhaupt nicht beeinflusst ist, ist eine Erfassung aus einem Nichtstimmsignal wichtig, die durch den zuletzt genannten Lösungsansatz durchgeführt wird.
Bei der Verwendung eines Nichtstimmsignals besteht jedoch ein Problem darin, dass eine Installation eines Sensors, der von einem verschieden ist, für eine Stimmerkennung erforderlich ist. Wenn z. B. ein Bild als ein Nichtstimmsignal verwendet wird, muss eine Kamera in der Weise vorgesehen werden, dass sich ein Lippenabschnitt immer in einem Gesichtsfeld befindet und es ist ferner außerdem erforderlich, dass der Lippenabschnitt stets in einer konstanten Position im Gesichtsfeld der Kamera ist. Es ist jedoch praktisch unmöglich, eine Kamera in der Weise vorzusehen, dass dies erreicht wird. Außerdem ist eine Bilderkennungstechnik erforderlich, um eine Sprechperiode aus Bildern des Lippenabschnitts zu erfassen.
Bilderkennungstechniken erfordern im Allgemeinen eine riesige Anzahl von Operationen. Es wird allgemein angenommen, dass der Fall der Ausführung einer Stimmerkennung in einer geräuschvollen Umgebung dann vorliegt, wenn eine Stimmerkennung unter Verwendung eines mobilen Endgeräts, wie etwa ein Mobiltelefon, durchgeführt wird. Ein derartiges mobiles Endgerät ist jedoch nicht mit einer ausreichenden Rechenfähigkeit versehen, um eine Bildverarbeitung auszuführen, und es ist deswegen praktisch schwierig, das mobile Endgerät für eine Bildverarbeitung zu verwenden, wodurch auch die Lösung des oben genannten Problems unmöglich ist.
Aus dem Artikel "ADAPTIVE EMG-DRIVEN COMMUNICATION FOR THE DISABILITY" von Park, Hae-Jeong u. a.; Proceedings of the First Joint BMES/EMBS Conference Serving Humanity, Advancing Technology, 13.–16.Oktober 1999, Atlanta, GA, USA, S.656 ist eine Vorrichtung bekannt, die Elektromyographie-Erfassungsmittel zum Erfassen einer Elektromyographie (EMG) umfasst, die erzeugt wird, wenn ein Patient sein Kinn bewegt. Die Elektromyographie wird mit einem Schwellenwert verglichen.
Das Patent DE-A1-4 212 907 offenbart eine Sprecherkennungsvorrichtung, die akustische Daten mit anderen Messungen kombiniert, z. B. von einem Sensor, der einen Hautstrom misst.
Die Aufgabe der Erfindung besteht darin, ein Endgerät und ein Sprechperioden-Erfassungsverfahren gemäß dem Oberbegriff von Anspruch 1 bzw. 8 zu schaffen, die eine Erfassung einer Sprechperiode genauer ausführen können.
Diese Aufgabe wird gelöst gemäß den Merkmalen der Ansprüche 1 und 8, die die Erfindung definieren.
Weitere Ausführungsformen der Erfindung können aus der folgenden Beschreibung und den abhängigen Ansprüchen entnommen werden.
Die Erfindung wird im Folgenden in Verbindung mit den Ausführungsformen, die in den beigefügten Zeichnungen gezeigt sind, genauer erläutert.
1 zeigt die Konfiguration einer Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung;
2 zeigt eine Beziehung zwischen einer EMG und einem Stimmsignal;
3 zeigt den Effektivwert (RMS) einer EMG, die im zeitlichen Verlauf gezeigt ist;
4 ist ein Ablaufplan, der ein Beispiel einer Verarbeitung zum Bestimmen einer Sprechperiode für eine EMG zeigt;
5 ist ein Ablaufplan, der ein abgewandeltes Beispiel der Verarbeitung zum Bestimmen einer Sprechperiode für eine EMG zeigt;
6 ist ein Blockschaltplan, der ein Konfigurationsbeispiel zeigt, bei dem der Konfiguration von 1 ein Zähler hinzugefügt ist;
7 ist eine schematische Darstellung, die ein Beispiel der Verwendung eines mobilen Endgeräts zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird;
8A und 8B sind schematische Darstellungen, die ein Beispiel der Anordnung von Oberflächenelektroden für eine EMG-Erfassung zeigt;
9 ist ein Ablaufplan, der ein Beispiel des Betriebs eines mobilen Endgeräts zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird;
10 ist ein Ablaufplan, der ein weiteres Beispiel des Betriebs eines mobilen Endgeräts zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird;
11 ist ein Ablaufplan, der ein weiteres Beispiel des Betriebs eines mobilen Endgeräts zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird;
12 ist ein Blockschaltplan, der ein Konfigurationsbeispiel zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung bei einem Mobiltelefon-Endgerät angewendet wird;
13 ist ein Blockschaltplan, der ein weiteres Konfigurationsbeispiel zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung bei einem Mobiltelefon-Endgerät angewendet wird;
14 zeigt eine Beziehung zwischen einem Stimmsignal, einer Rahmenfolge, für die eine VAD durchgeführt wird, und einer codierten Rahmenfolge;
15 zeigt eine Beziehung zwischen einem Stimmsignal und einer EMG; 16 zeigt den Zeitablauf der Erzeugung einer EMG und eines Stimmsignals;
17 zeigt den Zeitablauf der Erfassung einer Sprechperiode für eine EMG und den Zeitablauf der Verarbeitung, die bei dem Mobiltelefon ausgeführt wird;
18A zeigt die Konfiguration bei dem Erfassen einer Sprechperiode, wobei lediglich VAD verwendet wird;
18B zeigt die Konfiguration beim Erfassen einer Sprechperiode unter Verwendung von VAD und einer EMG;
19 zeigt den Punkt, an dem eine Sprechperioden-Erfassungsverarbeitung anhand einer EMG und eine Sprechperioden-Erfassungsverarbeitung anhand eines Stimmsignals integriert werden;
20 zeigt die Konfiguration in dem Fall, wenn eine erfasste Sprechperiode übertragen wird, um eine Stimmerkennungsverarbeitung auszuführen;
21 zeigt ein Verfahren, um gespeicherte Daten später zu modifizieren, um eine korrekte Sprechperiode zu erfassen, wenn die Bestimmung einer Sprechperiode, die unter Verwendung einer EMG ausgeführt wird, fehlerhaft ist;
22A zeigt eine Sprechgarnitur, die einen Gehörgang-Ohrhörer/Lautsprecher enthält;
22B zeigt eine Sprechgarnitur, die einen Lautsprecher des Kopfhörertyps enthält;
23 zeigt die Konfiguration zum Steuern des Ein/Ausschaltens eines Stromversorgungsschalters eines Mikrofons;
24 zeigt einen Funktionsablauf zum Steuern des Einschaltens/Ausschaltens des Leistungsschalters eines Mikrofons;
25 zeigt die Konfiguration zum Steuern der Änderung der Verstärkung eines Verstärkers zum Verstärken eines Stimmsignals, das von einem Mikrofon ausgegeben wird; und
26 zeigt die Konfiguration zum Ändern des Ausgangs eines Lautsprechers SP.
Eine Ausführungsform der vorliegenden Erfindung wird im Folgenden unter Bezugnahme auf die Zeichnungen beschrieben. In allen Figuren, auf die die nachfolgende Beschreibung Bezug nimmt, sind gleiche Abschnitte mit gleichen Bezugszeichen angegeben.
(Vollständige Konfiguration)
1 ist ein Blockschaltplan, der die Konfiguration von Hauptabschnitten einer Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung zeigt. Die Sprechperioden-Erfassungsvorrichtung 1 gemäß der vorliegenden Erfindung umfasst einen EMG-Erfassungsabschnitt 11, einen EMG-Verarbeitungsabschnitt 12, einen Sprechperioden-Erfassungsabschnitt 13 und einen Sprechperioden-Meldeabschnitt 14.
In dieser Figur erfasst der EMG-Erfassungsabschnitt 11 eine EMG, wenn ein Sprecher spricht. Der EMG-Erfassungsabschnitt 11 ist so konfiguriert, dass er Oberflächenelektroden enthält, die später beschrieben werden. Das heißt, eine EMG wird über die Oberflächenelektroden erfasst, die mit der Oberfläche unmittelbar über dem Muskel, der beim Sprechen aktiv ist, in Kontakt sind. Eine genauere Anordnung der Elektroden wird später beschrieben.
In dem EMG-Verarbeitungsabschnitt 12 wird die EMG, die durch den EMG-Erfassungsabschnitt 11 erfasst wird, verstärkt. Der EMG-Verarbeitungsabschnitt 12 verarbeitet außerdem die EMG mit einem Tiefpassfilter, einem Hochpassfilter und dergleichen, um Störungen zu entfernen oder um ein gewünschtes Signal wirkungsvoll abzuleiten. Er berechnet ferner Parameter, die von dem Sprechperioden-Erfassungsabschnitt 13 benötigt werden.
In dem Sprechperioden-Erfassungsabschnitt 13 werden der Startpunkt und der Endpunkt einer Sprechperiode anhand der Parameter, die durch den EMG-Verarbeitungsabschnitt 12 berechnet werden, erfasst.
Der Sprechperioden-Meldeabschnitt 14 meldet den Startpunkt und den Endpunkt der Sprechperiode, die durch den Sprechperioden-Erfassungsabschnitt 13 erfasst wurden, an einen nachfolgenden Stimmerkennungsalgorithmus, so dass der Algorithmus eine Stimmerkennung ausführt. Der Stimmerkennungsalgorithmus, der eine Stimmerkennungsverarbeitung unter Verwendung des Startpunkts und des Endpunkts der Sprechperiode ausführt, die durch den Sprechperioden-Meldeabschnitt 14 gemeldet werden, ist nicht auf einen bestimmten Algorithmus begrenzt, so dass ein beliebiger Algorithmus verwendet werden kann.
Gemäß der oben genannten Konfiguration ist es möglich, eine Sprechperiode anhand einer EMG zu erfassen. Somit kann eine Sprechperiode unabhängig von den Bedingungen der Umgebungsgeräusche erfasst werden und dadurch kann eine Stimmerkennung in einer geräuschvollen Umgebung möglich sein.
(Grundprinzip)
2 zeigt eine Beziehung zwischen einer EMG und einem Stimmsignal, die ein Grundprinzip der vorliegenden Erfindung darstellt. In dieser Figur gibt die horizontale Achse die Zeit (in Sekunden) an und die vertikale Achse zeigt die Amplitude an.
Diese Figur zeigt eine Oberflächen-EMG, die an einem Wangenabschnitt eines Sprechers gemessen wird, wenn er wiederholt japanische Vokale "a-i-u-e-o" ausspricht, sowie ein Stimmsignal, das gleichzeitig gemessen wird. Eine EMG K und ein Stimmsignal S sind im oberen Teil bzw. im unteren Teil der Figur gezeigt.
Es sollte angemerkt werden, dass das Stimmsignal S und die EMG K synchronisiert sind. Im Einzelnen spricht der Sprecher "a-i-u-e-o" während einer Periode von etwa 1,5 bis 3,2 Sekunden aus und ein dementsprechendes Stimmsignal mit einer großen Amplitude wird beobachtet. Eine große Amplitude wird außerdem während der Periode in der EMG beobachtet.
Das Gleiche gilt für "a-i-u-e-o", das während der Periode von etwa 4,7 bis 6,3 Sekunden ausgesprochen wird, sowie ferner für "a-i-u-e-o", das während einer Periode von etwa 8 bis 9,5 Sekunden ausgesprochen wird. In den anderen Perioden schweigt die Stimme des Sprechers und Umgebungsgeräusche sind gemischt.
Die vorliegende Erfindung wurde durch die Entdeckung des Erfinders ausgelöst, dass ein Stimmsignal und eine EMG synchronisiert sind, wie in 2 gezeigt ist. Es wurde außerdem festgestellt, dass ein Stimmsignal und eine EMG nicht nur dann in der in 2 gezeigten Weise synchronisiert sind, wenn der ausgesprochene Inhalt "a-i-u-e-o" ist, sondern auch bei anderen Inhalten. Kurz gesagt, eine große Amplitude, die eine Muskelaktivität begleitet, die dann bewirkt wird, wenn ein Sprecher spricht, wird in einer EMG beobachtet, so dass eine Sprechperiode erfasst werden kann, indem diese EMG beobachtet wird.
Das Stimmsignal und die EMG, die in 2 gezeigt sind, wurden gemessen, während die Umgebungsgeräusche nicht sehr laut waren (in einem gewöhnlichen Büro). Wenn ein ähnliches Experiment ausgeführt wird, wenn der Pegel der Umgebungsgeräusche hoch ist, werden die Umgebungsgeräusche einem Stimmsignal überlagert. Eine EMG wird dagegen vorteilhaft überhaupt nicht beeinflusst.
(Sprechperioden-Erfassungsverarbeitung)
Eine Verarbeitung zum Erfassen einer Sprechperiode wird im Folgenden genau beschrieben.
3 zeigt ein Beispiel einer Verarbeitung zum Erfassen einer Sprechperiode für eine EMG. 3 zeigt einen Effektivwert (der im Folgenden durch RMS abgekürzt wird), der aus der in 2 gezeigten EMG berechnet wurde und in der zeitlichen Folge angezeigt wird. In dieser Figur gibt die horizontale Achse die Zeit (in Sekunden) an und die vertikale Achse gibt einen RMS-Wert an. Der RMS-Wert wurde bei einer Rahmenperiode von 20 ms und einer Rahmenlänge von 50 ms berechnet.
Wie in 3 ersichtlich ist, ist der Wert offensichtlich größer, wenn eine Stimme ausgesprochen wird, als dann, wenn keine Stimme ausgesprochen wird. In dieser Figur beträgt der RMS-Wert der EMG, wenn keine Stimme ausgesprochen wird, etwa 0,01. Deswegen kann durch das Einstellen eines Schwellenwerts auf 0,02 oder 0,03 und durch Vergleichen des Schwellenwerts mit dem RMS-Wert eine Sprechperiode erfasst werden. Das heißt, wenn der RMS-Wert den eingestellten Schwellenwert übersteigt, kann die Periode als eine Sprechperiode erfasst werden. Wenn er unter dem eingestellten Schwellenwert ist, kann die Periode als eine Nichtsprechperiode erfasst werden.
(Verarbeitung zum Bestimmen einer Sprechperiode)
4 ist ein Ablaufplan, der eine Verarbeitung zum Bestimmen einer Sprechperiode für eine EMG zeigt.
In dieser Figur wird der oben beschriebene Schwellenwert im Voraus eingestellt (Schritt S40). Anschließend wird die Messung einer EMG begonnen (Schritt S41). Dann werden RMS-Werte nacheinander aus der gemessenen EMG berechnet (Schritt S42). In diesem Fall können die Rahmenperiode und die Rahmenlänge 20 ms bzw. 60 ms betragen. Andere Werte können verwendet werden.
Es wird daraufhin festgestellt, ob die Werte den im Voraus eingestellten Schwellenwert übersteigen (Schritt S43). Wenn der Schwellenwert überschritten wird, wird die Periode als eine Sprechperiode bestimmt (Schritt S44). Wenn dagegen der Schwellenwert nicht überschritten wird, wird die Periode als eine Nichtsprechperiode bestimmt (Schritt S45). Die oben genannte Verarbeitung wird wiederholt ausgeführt.
Obwohl die Figur ein Ablaufplan ist, der die Verarbeitung zeigt, die dann ausgeführt wird, wenn RMS-Werte aus einer EMG berechnet werden, muss die vorliegende Erfindung nicht unbedingt einen RMS verwenden. Das heißt, es können verschiedene Merkmale, die aus einer gemessenen EMG extrahiert werden, verwendet werden. Es können z. B. eine mittlere relative Abweichung (ARV), ein integriertes EMG-Signal (iEMG), das Frequenzspektrum einer EMG und dergleichen verwendet werden.
Ferner kann die Anzahl der Signaldurchgänge an einem Schwellenwert anstelle des RMS in 4 verwendet werden. Das heißt die Anzahl von Positionen einer gemessenen EMG, die einen im Voraus eingestellten Schwellenwert (z. B. 10 mV) überschreiten, wird gezählt und die gezählte Anzahl kann verwendet werden. Wenn z. B. die Abtastwerte einer gemessenen EMG 1, 5, 12, 8 und –2 mV betragen und der Schwellenwert 10 mV beträgt, ist der Wert der gezählten Signaldurchgänge "1". Wenn der Schwellenwert 6 mV beträgt, ist der Wert der gezählten Signaldurchgänge "2". Auf diese Weise kann die gleiche Verarbeitung wie die oben beschriebene Verarbeitung außerdem unter Verwendung der Anzahl von Signaldurchgängen an einem im Voraus eingestellten Schwellenwert anstelle eines RMS ausgeführt werden.
Die Abtastfrequenz der EMG beträgt z. B. 2000 Hz.
Wie oben beschrieben wurde, können durch Vergleichen des Werts der Amplitude einer EMG mit einem vorbestimmten Schwellenwert der Sprach startzeitpunkt und der Sprachendzeitpunkt einer Sprechperiode erfasst werden. Kurz gesagt, es erscheint eine große Amplitude in einer EMG, wenn beim Sprechen eines Sprechers eine Muskelaktivität bewirkt wird, so dass eine Sprechperiode, d. h. ein Sprachstartzeitpunkt und ein Sprachendzeitpunkt durch Erfassen der großen Amplitude erfasst werden kann.
(Variation der Bestimmungsverarbeitung)
Der Ablaufplan, der in 5 gezeigt ist, kann dem in 4 gezeigten Ablaufplan angefügt werden. Bei dem in 4 gezeigten Ablaufplan besteht ein Problem dahingehend, dass dann, wenn eine große Amplitude aus irgendeinem Grund ständig in einer EMG enthalten ist, die Periode als eine Sprechperiode bestimmt wird, selbst wenn sie eine Nichtsprechperiode ist. Um den Einfluss einer derartigen kurzzeitigen Schwankung zu verringern, kann der in 5 gezeigte Ablaufplan angefügt werden und die Schritte S43 bis S45 des Ablaufplans von 4 ersetzen.
In 5 bedeutet "Status" eine der beiden Arten von Perioden, d. h. eine Sprechperiode oder eine Nichtsprechperiode. Damit z. B. eine Periode als eine Nichtsprechperiode (oder eine Sprechperiode) bestimmt wird, ist es erforderlich, dass mehrere Perioden unmittelbar vor der Periode als Nichtsprechperioden (oder Sprechperioden) bestimmt wurden. Um dies zu erreichen, wird der Konfiguration von 1 ein Zähler 15 hinzugefügt, um die Anzahl von wiederholt auftretenden aufeinanderfolgenden Nichtsprechperioden (oder Sprechperioden) zu zählen, wie in 6 gezeigt ist. Der Wert des Zählers wird mit einem voreingestellten Schwellenwert verglichen. Wenn der Wert den Schwellenwert übersteigt, wird die Periode als eine Nichtsprechperiode (oder eine Sprechperiode) erstmalig bestimmt. Der Zyklus zum Bestimmen der Anzahl von mehreren Perioden kann z. B. 20 Hz betragen.
Nachdem ein RMS-Wert einer EMG im Schritt S42 von 4 berechnet wurde, geht der Prozess zu den Schritten in 5. Zuerst wird der Zählwert des Zählers zurückgesetzt (Schritt S51). Wenn der oben beschriebene Status sich nicht geändert hat, wird der Zählwert des Zählers erhöht (vom Schritt S52 zum Schritt S53). Wenn der Zählwert des Zählers den voreingestellten Schwellenwert als ein Ergebnis der Erhöhung nicht übersteigt, wird der Zählwert erneut erhöht (vom Schritt S54 zum S52).
Wenn dagegen der Zählwert des Zählers den voreingestellten Schwellenwert als ein Ergebnis der Erhöhung übersteigt, wird der Status bestimmt, wobei dadurch eine Sprechperiode oder eine Nichtsprechperiode bestimmt wird (vom Schritt S54 zum Schritt S55).
Wenn sich der Status im Schritt S52 geändert hat, wird der Zählwert des Zählers zurückgesetzt (vom Schritt S52 zum Schritt S51) und der Prozess wird fortgesetzt.
Wenn der oben beschriebene Ablaufplan, der in 5 gezeigt ist, angefügt wird, entsteht dadurch ein Problem, dass ein bestimmter Sprachstartpunkt (oder Sprachendpunkt) zeitlich nach dem tatsächlichen Sprachstartpunkt (oder Sprachendpunkt) liegt. Durch Korrigieren der Sprechperiode, die gemäß den Ablaufplänen von 4 und 5 bestimmt wurde, mit der Zeit, die dem Schwellenwert entspricht, der mit dem oben beschriebenen Zählwert des Zählers verglichen wird, können der tatsächliche Sprachstartpunkt und der tatsächliche Sprachendpunkt erfasst werden.
Wenn z. B. eine Erhöhung des Zählwerts begonnen wird, wenn die Zeit "0" ist (die vorhergehende Periode ist eine Nichtsprechperiode), wird zu diesem Zeitpunkt keine Sprechperiode bestimmt. Die Zeit wird erhöht, damit sie "1", "2", "3" usw. beträgt, und wenn der Zählwert "n" erreicht, das den Schwellenwert darstellt, wird erstmalig eine Sprechperiode bestimmt. Somit wurde das Sprechen tatsächlich zum Zeitpunkt "0" begonnen, obwohl eine Sprechperiode zu einem Zeitpunkt bestimmt wird, der dem Zählwert "n" entspricht. Demzufolge können ein korrekter Sprachstartpunkt und ein korrekter Sprachendpunkt durch das Ausführen einer Korrektur durch eine Zeit, die der Periode von den Zählwerten "0" bis "n" entspricht, erfasst werden.
Durch Verwenden des in 5 gezeigten Ablaufplans wird ferner ein Vorteil dadurch erreicht, dass ein Problem behandelt wird, dass der Pegel einer EMG über eine Folge von Sprechperioden sehr niedrig werden kann, wie in 2 gezeigt ist.
Das heißt, ein Phänomen wird in 2 bestätigt, dass die Amplitude der EMG in der Nähe des 2-Sekunden-Punkts und des 2,5-Sekunden-Punkts geringer wird. Bei dem Ablauf von 4 werden diese Abschnitte als Nichtsprechperioden betrachtet. Durch Anfügen des Ablaufplans von 5 werden diese Abschnitte jedoch nicht als Nichtsprechperioden bestimmt, sondern können als Sprechperioden betrachtet werden.
(Sprechperioden-Erfassungsverfahren)
In der oben beschriebenen Sprechperioden-Erfassungsvorrichtung wird ein Sprechperioden-Erfassungsverfahren, das im Folgenden beschrieben wird, verwendet. Das heißt, es wird ein Sprechperioden-Erfassungsverfahren verwendet, das umfasst: einen EMG-Erfassungsschritt zum Erfassen einer EMG, die erzeugt wird, während ein Sprecher spricht (in Übereinstimmung mit Schritt S41 in 4); und einen Sprechperioden-Erfassungsschritt zum Erfassen einer Sprechperiode anhand der EMG, die durch den EMG-Erfassungsschritt erfasst wird (in Übereinstimmung mit den Schritten S42 bis S44 in 4); wobei Informationen über die Sprechperiode, die in dem Sprechperioden-Erfassungsschritt erfasst wird, gemeldet werden. Gemäß dieser Konfiguration kann eine Sprechperiode anhand einer EMG erfasst werden. Demzufolge kann eine Sprechperiode unabhängig von dem Zustand der Umgebungsgeräusche erfasst werden und deswegen ist eine Stimmerkennung in einer geräuschvollen Umgebung möglich.
Es erfolgt nun eine Beschreibung an einem Beispiel, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung bei einem mobilen Endgerät angewendet wird.
(Verwendungsbeispiel)
7 zeigt ein Beispiel der Verwendung eines mobilen Endgeräts, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird. In der Figur wird angenommen, dass eine Datenübertragung durch Verwendung eines mobilen Endgeräts, wie etwa ein Mobiltelefon, ausgeführt wird.
Wie durch die gestrichelte Linie in der Figur gezeigt ist, ist ein mobiles Endgerät 1a mit Oberflächenelektroden für eine EMG-Erfassung 10a und 10b und einem 20 versehen. Die Oberflächenelektroden zur EMG-Erfassung 10a und 10b sind auf der Seite vorgesehen, die mit der Gesichtshaut eines Benutzers 100, der ein Sprecher ist, in Kontakt ist. Dementsprechend kann während der Verwendung des mobilen Endgeräts 1a eine EMG von der Haut erfasst werden, mit der jede Elektrode des Paars aus Oberflächenelektroden für eine EMG-Erfassung 10a und 10b in Kontakt ist.
Das mobile Endgerät 1a, das in der Figur gezeigt ist, ist ein so genanntes Klapp-Endgerät, das mit einem Scharnier 21 versehen ist. Die vorliegende Erfindung ist natürlich auch bei einem Endgerät anwendbar, das nicht mit dem Scharnier 21 versehen ist.
Es wird als eine unveränderliche Tatsache angenommen, dass dann, wenn eine Datenübertragung unter Verwendung eines mobilen Endgeräts, wie etwa ein Mobiltelefon, ausgeführt wird, das des Endgeräts in der Nähe des Munds eines Benutzers positioniert ist und der Lautsprecher sich in der Nähe seiner Ohren befindet.
Es wird angenommen, dass sich das aktuelle Mobiltelefon-Endgerät zukünftig in seiner Form nicht stark ändern wird, obwohl es miniaturisiert werden könnte. Ein wichtiger Punkt besteht somit darin, dass ein mobiles Endgerät, insbesondere ein Endgerät für eine Konversation, wie etwa ein Mobiltelefon-Endgerät, in Kontakt mit der Haut verwendet wird. Das bedeutet, dass eine Oberflächenelektrode mit der Haut in Kontakt sein kann, ohne dass dem Benutzer ein unangenehmes Gefühl entsteht.
Wenn eine Sprechperiode unter Verwendung einer Kamera erfasst wird, wie dies in Techniken nach dem Stand der Technik erfolgte, muss eine Kamera oder ein Sensor lediglich für diesen Zweck an einer gewünschten Position eingestellt werden. Bei der Verwendung einer EMG ist es jedoch möglich, eine Sprechperiode zu erfassen, ohne die gewöhnliche Form zu verändern, d. h. die Form der Verwendung eines mobilen Endgeräts in Kontakt mit der Haut, und ohne eine weitere Operation oder eine Einstellung eines Sensors auszuführen.
Kurz gesagt, da ein mobiles Endgerät zur Verwendung üblicherweise an die Haut gepresst wird, ist eine Affinität zwischen dieser Verwendungsform und der vorliegenden Erfindung sehr hoch.
(Anordnung von Elektroden)
Die 8A und 8B zeigen ein Beispiel der Anordnung von Elektroden. In der Figur ist ein Beispiel gezeigt, bei dem ein mobiles Endgerät mit Elektroden für eine EMG-Erfassung versehen ist. In dem in 8A gezeigten Beispiel ist das mobile Endgerät 1a mit verhältnismäßig großen Oberflächenelektroden 10c und 10d versehen. Jede der Oberflächenelektroden 10c und 10d ist eine ebene Elektrode mit einer Größe von z. B. 2 cm × 3 cm. Die Oberflächenelektrode 10c sollte z. B. mit dem Wangenabschnitt eines Benutzers in Kontakt sein und die Oberflächenelektrode 10d sollte z. B. mit dem Mundabschnitt des Benutzers in Kontakt sein, und dadurch kann von dem Elektrodenpaar ein EMG erfasst werden.
In dem in 8B gezeigten Beispiel ist das mobile Endgerät 1a mit nadelförmigen Oberflächenelektroden 10e und 10f versehen. Jede der nadelförmigen Oberflächenelektroden 10e und 10f ist eine Elektrode des Nadeltyps mit einem Durchmesser von z. B. 1 mm. Die nadelförmigen Oberflächenelektroden 10e und 10f sollten mit dem Wangenabschnitt eines Benutzers in Kontakt sein und dadurch kann von dem Elektrodenpaar eine EMG erfasst werden.
Die oben beschriebenen Oberflächenelektroden sind lediglich Beispiele und ein Elektrodenpaar zum Erfassen einer EMG mit einer beliebigen Form kann an dem Gehäuse des mobilen Endgeräts 1a vorgesehen sein. Die Oberflächenelektroden müssen jedoch an einem Abschnitt des Gehäuses des mobilen Endgeräts 1a vorgesehen sein, der mit der Haut eines Sprechers in Kontakt sein sollte, während er spricht. Die Konfiguration einer Schaltung zum Messen einer EMG, die über die oben beschriebenen Oberflächenelektroden erhalten wird, ist wohlbekannt und deswegen ist ihre Beschreibung weggelassen.
(Beispiel der Funktionsweise)
9 ist ein Ablaufplan, der ein Beispiel der Funktionsweise eines mobilen Endgeräts zeigt, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird.
In dieser Figur berührt ein Benutzer das mobile Endgerät zuerst mit seiner Haut. Nach dem Kontakt wird über Oberflächenelektroden zur EMG-Erfassung, die mit der Haut in Kontakt sind, eine EMG erfasst (Schritt S81).
Wenn der Benutzer zu sprechen beginnt, beginnen Muskeln um seinen Mund zu wirken und deswegen wird in der erfassten EMG im Vergleich mit dem Zeitpunkt des Nichtsprechens (der Zustand, in dem keine Sprache ausgesprochen wird, d. h. ein Ruheabschnitt bei der gewöhnlichen Stimmerkennung) eine große Amplitude beobachtet. Durch Erfassen dieser großen Amplitude wird ein Sprachstartzeitpunkt erfasst (Schritt S82).
Wenn die Sprache endet, wird die Amplitude der erfassten EMG klein. Durch Erfassen des Punkts, an dem die Amplitude klein wird, wird ein Sprachendpunkt erfasst (Schritt S83).
Der erfasste Sprachstartzeitpunkt und der erfasste Sprachendzeitpunkt werden dann nach außen gemeldet (Schritt S84). Ein nachfolgender Stimmerkennungsalgorithmus oder eine nachfolgende Stimmerkennungsvorrichtung wird darüber benachrichtigt und veranlasst, eine Stimmerkennung zu beginnen.
Die oben genannte Operation wird wiederholt ausgeführt (Schritt S85).
10 ist ein Ablaufplan, der ein weiteres Beispiel der Funktionsweise eines mobilen Endgeräts zeigt, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird. Der Unterschied der Funktionsweise in 10 von der Funktionsweise in 9 besteht darin, dass dann, wenn ein Sprachstartzeitpunkt erfasst wird, dieser sofort an einen Erkennungsalgorithmus oder eine Stimmerkennungsvorrichtung gemeldet wird.
In dieser Figur berührt ein Benutzer das mobile Endgerät zuerst mit seiner Haut. Nach dem Kontakt wird über Oberflächenelektroden zur EMG-Erfassung, die mit der Haut in Kontakt sind, eine EMG erfasst (Schritt S91).
Wenn der Benutzer zu sprechen beginnt, beginnen Muskeln um seinen Mund zu wirken und deswegen wird in der erfassten EMG im Vergleich zu dem Zeitpunkt des Nichtsprechens eine große Amplitude beobachtet. Durch Erfassen dieser großen Amplitude wird ein Sprachstartzeitpunkt erfasst (Schritt S92). In Reaktion auf die Erfassung des Sprachstartzeitpunkts werden Informationen über diese Wirkung nach außen gemeldet (Schritt S93).
Wenn das Sprechen endet, wird die Amplitude der erfassten EMG klein. Durch Erfassen des Punkts, an dem die Amplitude klein wird, wird ein Sprachendzeitpunkt erfasst (Schritt S94). In Reaktion auf die Erfassung des Sprachendzeitpunkts werden Informationen über diese Wirkung nach außen gemeldet (Schritt S95). Die oben genannte Operation wird wiederholt ausgeführt (Schritt S96).
Wie oben beschrieben wurde, wird durch das Melden des erfassten Sprachstartzeitpunkts und des erfassten Sprachendzeitpunkts nach außen ein nachfolgender Stimmerkennungsalgorithmus oder eine Stimmerkennungsvorrichtung darüber informiert und veranlasst, eine Stimmerkennung zu beginnen.
Bei der Operation in Übereinstimmung mit dem Ablaufplan, der in 10 gezeigt ist, können die Stimmerkennungsverarbeitung durch den Stimmerkennungsalgorithmus oder die Stimmerkennungsvorrichtung und die Sprechperioden-Erfassungsverarbeitung getrennt ausgeführt werden. Mit anderen Worten, während bei dem Ablaufplan, der in 9 gezeigt ist, der Stimmalgorithmus oder die Stimmerkennungsvorrichtung in enger Beziehung mit der Sprechperioden-Erfassungsverarbeitung stehen müssen, können sie bei dem Ablaufplan, der in 10 gezeigt ist, separat arbeiten.
Ferner ist 11 ein Ablaufplan, der ein weiteres Beispiel der Funktionsweise eines mobilen Endgeräts zeigt, bei dem eine Sprechperiode-Erfassungsvorrichtung gemäß der vorliegenden Erfindung verwendet wird. In dem Ablaufplan, der in 11 gezeigt ist, ist die Unabhängigkeit von einem Stimmerkennungsalgorithmus oder einer Stimmerkennungsvorrichtung größer im Vergleich zu den Ablaufplänen, die in den 9 und 10 gezeigt sind.
Ein Benutzer berührt das mobile Endgerät zuerst mit seiner Haut. Nach dem Kontakt wird über Oberflächenelektroden zur EMG-Erfassung eine EMG erfasst (Schritt S101).
Wenn der Benutzer zu sprechen beginnt, beginnen Muskeln um seinen Mund zu wirken und deswegen wird in der erfassten EMG im Vergleich zu dem Zeitpunkt des Nichtsprechens eine große Amplitude beobachtet. Durch Erfassen dieser großen Amplitude wird ein Sprachstartzeitpunkt erfasst (Schritt S102). In Reaktion auf die Erfassung des Sprachstartzeitpunkts wird begonnen, das Stimmsignal in einer Stimmsignaldatenbank DB zu sichern (Schritt S103).
Wenn die Sprache endet, wird die Amplitude der erfassten EMG klein. Durch Erfassen des Punkts, an dem die Amplitude klein wird, wird ein Sprachendzeitpunkt erfasst (Schritt S104). In Reaktion auf die Erfassung des Sprachendzeitpunkts endet das Sichern in der Stimmsignaldatenbank DB (Schritt S105). Nachdem das Sichern beendet wurde, werden die in der Stimmsignaldatenbank DB gesicherten Stimmsignaldaten nach außen gemeldet, wie etwa an einen Audioerkennungsalgorithmus (Schritt S106).
Wie oben beschrieben wurde, werden in dem in 11 gezeigten Ablaufplan ein Sprachstartzeitpunkt und ein Sprachendzeitpunkt unter Verwendung einer EMG erfasst und Stimmsignaldaten für eine dementsprechende Sprechperiode werden in der Stimmsignaldatenbank DB gesichert. Die gesicherten Stimmsignaldaten werden dann an einen Erkennungsalgorithmus oder eine Stimmerkennungsvorrichtung übertragen.
Gemäß der oben beschriebenen Funktionsweise ist es möglich, ein mobiles Endgerät zu verwenden, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung in Kombination mit einem üblichen Stimmerkennungsalgorithmus oder einer üblichen Stimmerkennungsvorrichtung verwendet wird, ohne den Stimmerkennungsalgorithmus oder die Stimmerkennungsvorrichtung besonders zu verändern. Die Kombination mit einer Stimmerkennungsvorrichtung wird später beschrieben.
(Zusammenfassung der Sprechperioden-Erfassungsvorrichtung)
Wenn eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung bei einem Mobiltelefon-Endgerät angewendet wird, ist die Konfiguration in der Weise, die in 12 gezeigt ist. Das heißt, ein mobiles Endgerät 1a umfasst eine Sprechperioden-Erfassungsvorrichtung 1 und einen Datenübertragungssteuerabschnitt 2. Der Datenübertragungssteuerabschnitt 2 führt eine Stimmerkennungsverarbeitung anhand von Daten über eine Sprechperiode aus, die von der Sprechperioden-Erfassungsvorrichtung 1 gemeldet werden. Der Datenübertragungssteuerabschnitt 2 kann derart sein, dass er Datenübertragungen von Mobiltelefonen der zweiten Generation, Datenübertragungen von Mobiltelefonen der dritten Generation und Datenübertragungen von Mobiltelefonen einer höheren Generation realisiert, und kann eine beliebige Konfiguration aufweisen.
Mit dem Datenübertragungssteuerabschnitt 2 sind ein 20, ein Lautsprecher SP, ein Anzeigeabschnitt D und Antenne ANT verbunden.
Wenn die oben beschriebene Konfiguration von 11 verwendet wird, bei der eine größere Unabhängigkeit zwischen der Sprechperioden-Erfassungsvorrichtung 1 und dem Datenübertragungssteuerabschnitt 2 vorhanden ist, sollte die oben beschriebene Stimmsignaldatenbank DB zwischen der Sprechperioden-Erfassungsvorrichtung 1 und dem Datenübertragungssteuerabschnitt 2 vorhanden sein, wie in 13 gezeigt ist. Durch Sichern von Stimmsignaldaten in der Stimmsignaldatenbank DB sollten die Stimmsignaldaten von der Sprechperioden-Erfassungsvorrichtung 1 an den Datenübertragungssteuerabschnitt 2 geleitet werden.
(Anwendung bei einem Übertragungssystem)
Die oben beschriebene Sprechperioden-Erfassungsvorrichtung kann bei einem Übertragungssystem, um eine Codierungsverarbeitung für ein Sprechstimmsignal auszuführen, das einer Sprechperiode entspricht, und zum Übertragen des codierten Stimmsignals angewendet werden. Die Beschreibung hiervon erfolgt nachstehend.
Ein mobiles Datenübertragungsendgerät, wie etwa ein Mobiltelefon, kann nicht mit einer Batterie mit großer Kapazität ausgerüstet werden. Um die Zeit der ununterbrochenen Benutzung eines mobilen Datenübertragungsendgeräts zu verlängern, muss die Lebensdauer der Batterie verbessert werden. Dementsprechend wird in einem Mobiltelefon das Vorhandensein/Fehlen einer Stimme unter Verwendung einer Stimmaktivitätserfassung (VAD) bestimmt. Während einer Nichtsprechperiode wird eine intermittierende Übertragung ausgeführt, bei der eine sehr kleine Menge von Informationen übertragen wird, oder die Übertragung wird angehalten. Die intermittierende Übertragung ist wirkungsvoll für eine Verlängerung der Batterielebensdauer und die Verringerung der Störung für ein Mobiltelefon. Dies wird beschrieben von Naka, Ohya, Saegusa und Hama in "Featured: Mobile Multimedia Signal Processing Technology – Voice Coding Technology" (NTT DoCoMo Technical Journal, Bd. 8, Nr. 4, S. 25–33, 2001).
Die Vorteile der VAD sind nicht darauf beschränkt. Bei dem Code-Mehrfachzugriff-Verfahren (CDMA-Verfahren), einem Verfahren, das für Dienste von Mobiltelefonen der dritten Generation verwendet wird, die gegenwärtig vertrieben werden, ist außerdem ein Vorteil der effektiven Nutzung von Übertragungskanälen gegeben. Das heißt, durch die Reduzierung von Informationen, die während einer Nichtsprechperiode übertragen werden, kann der Datenübertragungskanal einem anderen Benutzer zugewiesen werden und dadurch kann der Datenübertragungskanal effektiv genutzt werden.
Die VAD ist ein Verfahren, bei dem Leistung, Tonhöhe oder ein Ton eines erfassten Stimmsignals extrahiert wird, um eine Sprechperiode zu erfassen. Die VAD, die bei einem Mobiltelefon angewendet wird, ist speziell in 3GPP TS26.094 spezifiziert. Ein Stimmsignal wird für jeden Rahmen von 20 ms, 40 ms und dergleichen codiert und übertragen.
Bei der VAD wird jedoch eine Sprechperiode unter Verwendung eines Stimmsignals erfasst und es wird deswegen, nachdem die tatsächliche Sprache erfolgt ist, bestimmt, dass eine Sprache begonnen hat. Das heißt, der Zeitpunkt, an dem durch die VAD der Beginn einer Sprache bestimmt wird, liegt im Prinzip nach dem tatsächlichen Sprachstartzeitpunkt. Der gleiche Rahmen, der zum Codieren verwendet wird, wird als ein Rahmen verwendet, für den die VAD ausgeführt wird. Die Bestimmung durch die VAD wird ausgeführt, nachdem die Zeit, die der Rahmenlänge entspricht, abgelaufen ist, und anschließend wird eine Verarbeitung für die Bestimmung ausgeführt. Deswegen besteht ein Problem dahingehend, dass der Zeitpunkt, an dem die Codierung ausgeführt wird, nach der Bestimmung durch die VAD liegt, und dadurch eine Verzögerung bewirkt wird.
Wenn z. B. der Sprachstartzeitpunkt dem Beginn eines Rahmens entspricht, werden wenigstens 20 ms (die der Zeit entsprechen, die einer verwendeten Rahmenlänge entspricht) bis zu einem Zeitpunkt benötigt, an dem ein Sprachstartzeitpunkt bestimmt wird. Außerdem wird ferner eine Verzögerung bewirkt, die der Zeit entspricht, die für eine Bestimmungsverarbeitung durch die VAD benötigt wird. Bei Echtzeit-Datenübertragungen, wie etwa ein Sprachanruf bei Verwendung eines Mobiltelefons, ist eine kürzere Verzögerung günstiger. Deswegen gilt in Bezug auf die Verzögerung durch die VAD, je kürzer, desto besser.
Wenn ferner der Sprachstartzeitpunkt in der Mitte oder der späteren Hälfte eines Rahmens liegt, sind in dem Rahmen, der den tatsächlichen Sprachstartzeitpunkt enthält, eine Nichtsprechperiode und eine Sprechperiode gemischt. 14 zeigt z. B. ein Stimmsignal S, eine Rahmenfolge B, für die die VAD ausgeführt werden soll, und eine codierte Rahmenfolge C. Bei der Rahmenfolge B, für die die VAD auszuführen ist, werden die schraffierten Rahmen als Nichtsprechperioden bestimmt und die nichtschraffierten Abschnitte werden als Sprechperioden bestimmt. Bei der codierten Rahmenfolge C werden Rahmen mit einer Rasterpunktmarkierung bei einer niedrigen Bitrate codiert und Rahmen ohne Rasterpunktmarkierung werden bei einer hohen Bitrate codiert. Dadurch werden die Rahmen, die bei einer hohen Bitrate codiert werden, mit einer hohen Qualität gesendet und empfangen und die Rahmen, die bei einer niedrigen Bitrate codiert werden, werden bei einer niedrigen Qualität gesendet und empfangen.
Wie in den Figuren gezeigt ist, befindet sich der Sprachstartzeitpunkt der eigentlichen Sprechperioden in der Mitte eines Rahmens F in der Rahmenfolge B, für die die VAD ausgeführt wird. Deswegen kann der Rahmen F als eine Nichtsprechperiode bestimmt werden, wie in der Figur gezeigt ist. Demzufolge liegt in diesem Fall ein bestimmter Sprachstartzeitpunkt nach dem eigentlichen Sprachstartzeitpunkt. Folglich können die Daten am Beginn der eigentlichen Sprache verloren gehen.
Ferner ist, wie in 14 gezeigt ist, das Stimmsignal S gewöhnlich dadurch gekennzeichnet, dass seine Amplitude allmählich ansteigt, ohne dass eine plötzliche große Amplitude am Beginn einer Sprache beobachtet wird. Deswegen ist es schwierig, den Beginn einer Sprache genau zu erfassen. Er kann einfacher erfasst werden, wenn ein Schwellenwert für die Erfassung eines Stimmsignals niedrig eingestellt wird. Eine Möglichkeit der fehlerhaften Erfassung infolge von Umgebungsstörungen wird jedoch größer. Demzufolge muss der Schwellenwert in gewissem Umfang hoch eingestellt werden. Wenn der Schwellenwert in gewissem Umfang hoch eingestellt wird, ist es jedoch schwierig, den Beginn einer Sprache mit einer kleinen Amplitude genau zu erfassen. Insbesondere in einer geräuschvollen Umgebung ist es schwierig, den Beginn einer Sprache genau zu erfassen, da die Erfassung einer Sprache mit VAD schwierig ist, wenn die Sprechlautstärke gering ist und ein Stimmsignal in Geräuschen verborgen ist. Aus dem oben genannten Grund wird ein Rahmen, der dem tatsächlichen Beginn einer Sprache entspricht, als eine Nichtsprechperiode bestimmt, wodurch Probleme entstehen, wie etwa der Verlust des Beginns der Sprache und eine Verschlechterung der Anrufqualität.
Es gibt ferner ein weiteres Problem dahingehend, dass in einer geräuschvollen Umgebung eine Periode, in der ein Benutzer keine Sprache äußert (d. h. eine Periode, die eigentlich als eine Nichtsprechperiode bestimmt wird), infolge des Einflusses von Umgebungsgeräuschen als eine Sprechperiode bestimmt wird. Dies bewirkt ein Problem, dass Informationen unnötigerweise gesendet werden müssen, die Batterielebensdauer eines Mobiltelefons verkürzt wird und Datenübertragungskanäle unnötig verwendet werden.
Wenn eine Verzögerung zulässig ist, gibt es kein Problem bei der Verwendung eines Verfahrens zum Erfassen einer Sprechperiode lediglich mit einem Stimmsignal. Das ist der Fall, da ein Sprachstartzeitpunkt durch eine spätere Betrachtung der Signalform gekennzeichnet werden kann. Für eine Stimmübertragung und Verwendung eines Mobiltelefons ist jedoch eine Echtzeit-Datenübertragung wichtig und die Verzögerung muss möglichst kurz sein. Eine Verzögerung kann z. B. verkürzt werden, indem ein Sprechsignal immer bei einer hohen Bitrate übertragen wird, unabhängig davon, ob eine Periode eine Nichtsprechperiode oder eine Sprechperiode ist, und ohne die Verwendung der VAD. Eine Verbesserung der Batterielebensdauer eines Mobiltelefons und eine effektive Nutzung von Datenübertragungskanälen sind jedoch erforderlich und das Verfahren ohne Verwendung der VAD kann keine realistische Lösung sein. Um einen Verlust des Beginns einer Sprache und einer Verschlechterung der Da tenübertragungsqualität zu vermeiden, ist es demzufolge erforderlich, die Bestimmung einer Sprechperiode vor dem tatsächlichen Sprachstartzeitpunkt auszuführen. Um eine unnötige Datenübertragung zu vermeiden, ist es ferner erforderlich, eine Sprechperiode selbst bei einer geräuschvollen Umgebung korrekt zu erfassen, und es ist erwünscht, eine Sprechperiode unter Verwendung eines Verfahrens zu erfassen, das nicht durch Umgebungsgeräusche beeinflusst wird.
Es wird allgemein angemerkt, dass eine EMG vor einem Stimmsignal beobachtet wird. 15 zeigt ein Beispiel der eigentlichen Beobachtung einer EMG. Die Figur zeigt Signalformen eines Stimmsignals S und einer EMG D, wenn "nana" ausgesprochen wird. Unter Bezugnahme auf die Figur wird festgestellt, dass die EMG D um eine Zeitspanne t vor dem Stimmsignal S beobachtet wird.
16 zeigt den Zeitverlauf der Erzeugung einer EMG und eines Stimmsignals. Wie in der Figur gezeigt ist, wird dann, wenn eine Anweisung zum Ausführen einer Sprechbewegung vom Gehirn an Muskeln übertragen wird (Schritt S201) eine EMG zuerst erzeugt (Schritt S202) und dann beginnt die Kontraktion von Muskeln (Schritt S203). Anschließend beginnt die Erzeugung einer Stimme (Schritt S204). Dadurch wird eine Sprache begonnen.
17 zeigt den Zeitverlauf der Erfassung einer Sprechperiode für eine EMG und den Zeitverlauf der Verarbeitung, die in dem Mobiltelefon ausgeführt wird. In der Figur ist in dem Mechanismus in dem sprechenden menschlichen Wesen die Periode von der Erzeugung einer EMG (Schritt S202) bis zum Beginn der Erzeugung einer Stimme (Schritt S204) eine Nichtsprechperiode und die Perioden nach der Erzeugung einer Stimme (Schritt S204) ist eine Sprechperiode.
In der Sprechperioden-Erfassungsvorrichtung werden Routinen zum Messen einer EMG und zum Erfassen eines Sprachbeginns für Nichtsprechperioden verarbeitet (Schritt S205). Dann wird der Beginn einer Sprache durch das Erfassen der Erzeugung einer EMG erfasst und der Sprachbeginn wird an das Mobiltelefon gemeldet (Schritt S206). Anschließend geht die Sprechperioden-Erfassungsvorrichtung zu einer Leitverarbeitung zum Erfassen der Beendigung der Sprache. Die Beendigung der Sprache kann außerdem durch die EMG erfasst werden.
In dem Mobiltelefon wird eine intermittierende Übertragung in Nichtsprechperioden ausgeführt (Schritt S208). Anschließend wird dann, wenn der Beginn einer Sprache durch die Sprechperioden-Erfassungsvorrichtung gemeldet wird, ein Codierungsparameter in dem Mobiltelefon geändert (Schritt S209) und es wird in den nachfolgenden Sprechperioden eine ununterbrochene Übertragung ausgeführt (Schritt S210).
Eine EMG kann gemessen werden, ohne dass sie durch Umgebungsgeräusche beeinflusst ist. Dementsprechend ist es durch Erfassen einer Sprechperiode unter Verwendung einer EMG möglich, eine Sprechperiode vor dem tatsächlichen Sprachstartzeitpunkt auszuführen, ohne dass eine Beeinflussung durch Umgebungsgeräusche erfolgt.
18A zeigt die Konfiguration bei der Erfassung einer Sprechperiode, wobei lediglich VAD verwendet wird, und 18B zeigt die Konfiguration bei der Erfassung einer Sprechperiode, indem VAD und eine EMG verwendet werden. In 18A, die dem Lösungsansatz nach dem Stand der Technik entspricht, wird der Zeitablauf der Codierung durch eine Codiereinrichtung 210 zum Ausgeben eines Bitstroms mit einem Stimmsignal als ein Eingabesignal durch ein Ergebnis der Erfassung einer Sprechperiode durch einen VAD-Abschnitt 220 bestimmt. In 18B, die einem Lösungsansatz gemäß der vorliegenden Erfindung entspricht, wird der Zeitablauf der Codierung durch die Codiereinrichtung 210 nicht nur durch ein Ergebnis der Erfassung einer Sprechperiode durch den VAD-Abschnitt 220 bestimmt, sondern außerdem durch ein Ergebnis der Erfassung einer Sprechperiode durch eine Sprechperioden-Erfassungsvorrichtung 230 unter Verwendung einer EMG. Durch das Erfassen einer Sprechperiode in der oben beschriebenen Weise kann eine unnötige Datenübertragung verhindert werden und der Leistungsverbrauch kann verringert werden.
Es ist möglich, eine Sprechperiode robuster zu erfassen, indem die Sprechperiodenerfassung anhand einer EMG und die Sprechperiodenerfassung anhand eines Stimmsignals kombiniert werden. Bei Bewegungen wie etwa Gähnen und Husten und bei Mundbewegungen, bei denen keine Sprache gebildet wird, kann die entsprechende Periode bei einem Verfahren, das lediglich eine EMG verwendet, als eine Sprechperiode erfasst werden. Durch Kombinieren einer EMG, die nicht durch Umgebungsgeräusche beeinflusst ist, und eines Stimmsignals, das nicht durch Bewegungen beeinflusst ist, die nicht zu einer Sprache führen, kann jedoch eine robustere Erfassung einer Sprechperiode möglich sein. Das heißt, wie in 19 gezeigt ist, durch Ausführen einer integrierten Verarbeitung (Schritt S213) zum Integrieren einer Sprechperioden-Erfassungsverarbeitung anhand einer EMG (Schritt S211) und einer Sprechperioden-Erfassungsverarbeitung anhand eines Stimmsignals (Schritt S212) wird eine endgültige Ausgabe eines Sprechperioden-Erfassungsergebnisses erreicht (Schritt S214).
Bei der Ausführung der integrierten Verarbeitung kann die VAD, die in 3GPP TS26.094 spezifiziert ist, für die Sprechperiodenerfassung anhand eines Stimmsignals verwendet werden. Die folgenden beiden Verfahren können für das Integrieren der Sprechperiodenerfassung anhand einer EMG und der Sprechperiodenerfassung anhand eines Stimmsignals verwendet werden.
Ein erstes Verfahren besteht darin, ein endgültiges Erfassungsergebnis anhand des Ergebnisses der Sprech-/Nichtsprecherfassung durch eine jeweilige Verarbeitung zu erhalten. In diesem Fall kann lediglich eine Periode, die durch Ergebnisse beider Verarbeitungen als eine Sprechperiode bestimmt wird, abschließend als eine Sprechperiode bestimmt werden. Alternativ kann eine Periode, die durch wenigstens eine der Verarbeitungen als eine Sprechperiode bestimmt wurde, abschließend als eine Sprechperiode bestimmt werden.
Ein zweites Verfahren besteht darin, ein endgültiges Erfassungsergebnis anhand von Parametern zu erhalten, die in der Stufe erhalten werden, in der die entsprechenden Verarbeitungen ein erfasstes Signal verarbeiten. Die Parameter entsprechen einer Wahrscheinlichkeit oder Mutmaßlichkeit, dass die zu bestimmende Periode eine Sprechperiode ist, und eine Schwellenwertverarbeitung wird für die Parameter ausgeführt, um eine Sprechperiode zu erfassen. Im Fall einer EMG ist der Parameter z. B. ein RMS.
Bei dem zweiten Verfahren kann die Schwellenwertverarbeitung für Parameter ausgeführt werden, die als ein Ergebnis einer Gewichtung und durch Addieren der Parameter beider Verarbeitungen erhalten werden, oder für Parameter, die als Ergebnis einer Multiplikation der Parameter beider Verarbeitungen erhalten werden. Durch Gewichten der Parameter kann spezifiziert werden, welcher Parameter stärker zu gewichten ist. Zum Beispiel kann durch stärkeres Gewichten der EMG in einer geräuschvollen Umgebung und durch stärkeres Gewichten des Stimmsignals in einer Umgebung mit geringeren Geräuschen die Genauigkeit des abschließenden Erfassungsergebnisses verbessert werden.
Es ist einfach, EMG-Messmittel in ein Mobiltelefon einzubauen. Da ein Mobiltelefon gewöhnlich in Kontakt mit einem Gesicht verwendet wird, kann es z. B. so konfiguriert werden, wie unter Bezugnahme auf 7 beschrieben wurde, um eine EMG zu messen. Gemäß der Konfiguration wird seine Benutzerfreundlichkeit nicht besonders eingeschränkt.
Wie oben beschrieben wurde, ist es unter Verwendung einer EMG möglich, eine Sprechperiode vor dem tatsächlichen Sprachstartzeitpunkt zu bestimmen. Indem dies bei einer VAD eines Mobiltelefons angewendet wird, können der Verlust des Beginns einer Sprache und eine Verschlechterung der Datenübertragungsqualität vermieden werden. Durch Bestimmen einer Sprechperiode unter Verwendung einer EMG ist es ferner möglich, eine Sprechperiode ohne Beeinflussung durch Umgebungsgeräusche zu bestimmen. Indem dies bei einer VAD eines Mobiltelefons angewendet wird, können lediglich notwendige Datenübertragungen ausgeführt werden, ohne dass unnötige Datenübertragungen erfolgen. Als Ergebnis ist die Batterielebensdauer verbessert und Datenübertragungskanäle können effektiv genutzt werden.
(Stimmerkennungsvorrichtung)
Bei einer Stimmerkennung werden Inhalte einer Sprache erkannt, indem eine Signalverarbeitung für ein Stimmsignal ausgeführt wird, das von einem eingegeben wird. Bei der gegenwärtig ausgeführten Stimmerkennung gibt es ein Problem, dass die Genauigkeit der Stimmerkennung in einer geräuschvollen Umgebung verschlechtert ist. Die Faktoren der Verschlechterung der Erkennungs genauigkeit in einer geräuschvollen Umgebung sind z. B., dass Geräusche anders als ein betreffendes Stimmsignal gemischt sind und eine Sprechperiode nicht in geeigneter Weise bestimmt werden kann. Bei dem zuerst genannten Faktor ist ein Verfahren zum Modellieren eines Stimmsignals vorgeschlagen worden, bei dem Geräusche gemischt werden.
Es ist ferner ein Verfahren der spektralen Subtraktion (das im Folgenden als ein SS-Verfahren bezeichnet wird) zum Subtrahieren einer Geräuschkomponente von einem gemessenen Signal vorgeschlagen worden, um die Genauigkeit einer Stimmerkennung zu verbessern. Das SS-Verfahren ist beschrieben von S.F. Boll in "Suppression of acoustic noise in speech using spectral subtraction", (IEEE trans. Acoustics, Speech, and Signal Processing, Bd. 27, Nr. 2, S. 113–120, 1979).
Als ein Verfahren zum Erfassen einer Sprechperiode aus einem Stimmsignal gibt es ein Erfassungsverfahren durch Berechnung der Leistung oder der Tonhöhe eines Signals. Dieses Verfahren ist in 3GPP TS26.094 spezifiziert.
Bei der Erfassung einer Sprechperiode unter Verwendung eines Stimmsignals ist es schwierig, eine Sprechperiode unter den Bedingungen einer geräuschvollen Umgebung zu erfassen. Wenn keine Sprechperiode erfasst werden kann, kann natürlich keine Stimmerkennung ausgeführt werden. Wenn z. B. eine Nichtsprechperiode fälschlicherweise als eine Sprechperiode bestimmt wurde, kann ein Einfügungsfehler (ein Fehler, das ein nicht ausgesprochenes Wort oder Satz in ein Erkennungsergebnis eingefügt wird) bewirkt werden, und wenn eine Sprechperiode fälschlicherweise als eine Nichtsprechperiode bestimmt wurde, kann ein Verlustfehler (ein Fehler, dass ein ausgesprochenes Wort oder Satz nicht erkannt wird) bewirkt werden. Das SS-Verfahren ist ein Lösungsansatz, bei dem eine Geräuschsignalkomponente von einem beobachteten Signal, in dem ein Stimmsignal und ein Geräuschsignal gemischt sind, subtrahiert wird, um lediglich das Stimmsignal zu extrahieren. Obwohl dieser Lösungsansatz zum Erkennen eines Stimmsignals, das mit Geräuschen gemischt ist, wirkungsvoll ist, ist es natürlich unmöglich, den Lösungsansatz anzuwenden, wenn keine Sprechperiode erfasst werden kann.
Wenn es möglich ist, eine Sprechperiode ohne Beeinflussung durch Umgebungsgeräusche zu erfassen, können Fehler bei der Stimmerkennung vermindert werden. Wenn es ferner möglich ist, eine Sprechperiode in geeigneter Weise zu erfassen, kann das SS-Verfahren effektiver angewendet werden, wodurch die Erkennungsgenauigkeit verbessert werden kann. Aus diesem Grund wird die oben beschriebene EMG verwendet.
Als Verfahren, das bei der Kombination mit Stimmerkennung verwendet wird, gibt es ein Verfahren zur vorübergehenden Speicherung von Stimmsignaldaten innerhalb einer erfassten Sprechperiode in einer Stimmsignaldatenbank, um sie zu einem Stimmerkennungssystem zu senden, nachdem die Sprache beendet ist, wie in 11 gezeigt ist, sowie ein Verfahren zur Übertragung lediglich einer erfassten Sprechperiode an ein Stimmerkennungssystem.
Das zuerst genannte System ist dadurch gekennzeichnet, dass ein Stimmsignal durch mehrere Stimmerkennungssysteme verarbeitet werden kann und dass dann, wenn die Bestimmung einer Sprechperiode, die unter Verwendung einer EMG ausgeführt wird, fehlerhaft ist, der Fehler später modifiziert werden kann und ein Stimmsignal, das einer geeigneten Sprechperiode entspricht, kann übertragen werden.
Um das zuletzt genannte Verfahren zu realisieren, kann es durch einen Sprechperioden-Erfassungsabschnitt 301, der umfasst: Messungen einer EMG (Schritt S311), Erfassung eines Sprachstartzeitpunkts (Schritt S312) und Erfassung eines Sprachendzeitpunkts (Schritt S313), und einen Stimmerkennungsabschnitt 300, der umfasst: Messung eines Stimmsignals (Schritt S321), Beginn einer Stimmerkennung (Schritt S322) und Beendigung einer Stimmerkennung (Schritt S323), konfiguriert werden, wie in 20 gezeigt ist. Wenn die Messung einer EMG (S311) und die Messung eines Stimmsignals (Schritt S321) begonnen werden, wird eine Stimmerkennung begonnen (Schritt S322), wenn ein Sprachstartzeitpunkt erfasst wird (Schritt S312). Wenn ein Sprachendzeitpunkt erfasst wird (Schritt S313) endet die Stimmerkennung (Schritt S323). Gemäß diesem Prozess wird eine Stimmerkennung lediglich für eine erfasste Sprechperiode ausgeführt, so dass das Verfahren dadurch gekenn zeichnet ist, dass es mit einem kleineren Speicher realisiert werden kann, die Verarbeitung kann einfacher als bei dem zuerst genannten Verfahren ausgeführt werden und eine Integration mit einem vorhandenen Stimmerkennungssystem kann in einfacher Weise realisiert werden.
Es erfolgt nun unter Bezugnahme auf 21 eine Beschreibung des Verfahrens, bei dem dann, wenn eine Bestimmung einer Sprechperiode, die unter Verwendung einer EMG ausgeführt wird, fehlerhaft ist, die gespeicherten Daten später modifiziert werden, um eine geeignete Sprechperiode zu erfassen. Die Figuren zeigen eine EMG D, wenn keine Sprache erfolgt, und ein Ergebnis der Bestimmung einer Sprechperiode für die EMG D.
Wenn eine Bewegung, wie etwa Gähnen oder Husten, oder eine Mundbewegung ausgeführt wird, während keine Sprache erfolgt, ist ein Signal, das der Bewegung entspricht, in die EMG D gemischt. In der Figur wird die Mischung eines derartigen Signals von dem Punkt in der Nähe von 3700 ms bis zu dem Punkt in der Nähe von 4500 ms erkannt. Wenn in einem solchen Fall eine Sprechperiode lediglich unter Verwendung der EMG D bestimmt wird, kann die oben beschriebene Periode als eine Sprechperiode bestimmt werden.
In der Figur werden die beiden in der Figur enthaltenen Rahmen, die durch eine Halbtonpunktmarkierung angegeben sind, gemäß dem anfänglichen Bestimmungsergebnis als Sprechperioden erfasst. Zurückblickend auf die beiden Rahmen, die als Sprechperioden bestimmt wurden, von dem Punkt von 6000 ms in der Figur, können sie jedoch in der Weise eingeschätzt werden, dass sie nicht durch eine Sprache begleitet werden, da die Leistung des Stimmsignals, die den Rahmen entspricht, die als Sprechperioden bestimmt wurden, gering ist und die Länge der Perioden, die als Sprechperioden bestimmt wurden, kurz ist. Durch Verwendung weiterer Informationen, die später erhalten werden, oder durch ein späteres Zurückblicken, das oben beschrieben wurde, kann eine fehlerhafte Bestimmung modifiziert werden.
Kriterien für eine derartige fehlerhafte Bestimmung sollten durch die Art der Aufgabe oder der betreffenden Sprache (nur aufeinanderfolgende Zahlen, natürliche Unterhaltung, lediglich bestimmte Wörter, wie etwa Ortsbezeichnungen und dergleichen) oder durch Charakteristiken eines Benutzers oder einer Umgebung (z. B. Neigung zu Husten oder Gähnen, Pegel der Umgebungsgeräusche und dergleichen) festgelegt werden. In der Figur werden als ein Ergebnis des späteren Zurückblickens auf die Perioden, die anfänglich als Sprechperioden bestimmt wurden, die Perioden als ein endgültiges Bestimmungsergebnis als Nichtsprechperioden modifiziert. Dadurch ist eine bessere Erfassung einer Sprechperiode möglich.
Wie in dem Abschnitt "Anwendung auf ein Übertragungssystem" beschrieben ist, ist es ferner möglich, eine Sprechperiode zu erfassen, indem nicht nur eine EMG verwendet wird, sondern indem eine EMG in Verbindung mit einem Stimmsignal verwendet wird.
Wenn die vorliegende Erfindung bei einem Mobiltelefon angewendet wird, kann das Mobiltelefon als ein Endgerät verwendet werden, wie in den 8 und 9 gezeigt ist. Wenn die vorliegende Erfindung bei einer Sprechgarnitur angewendet wird, kann die Sprechgarnitur in der in den 22A und 22B gezeigten Weise konfiguriert sein. Das heißt, wie in 22A gezeigt ist, ist ein EMG-Messabschnitt 50 für die Sprechgarnitur 40 vorgesehen, in der ein 20 und ein Gehörgang-Ohrhörer/Lautsprecher 30 integriert sind. Wie in 22B gezeigt ist, ist ein EMG-Messabschnitt 50 für eine Sprechgarnitur 40 vorgesehen, in der ein 20 und ein Lautsprecher 31 des Kopfhörertyps integriert sind. Beide EMGs 50 sind mit Elektroden zum Messen einer EMG vorgesehen, wobei die Elektroden seitlich in Kontakt mit der Gesichtshaut des Benutzers 100 vorgesehen sind.
Durch Verwenden einer Sprechgarnitur mit der Konfiguration, die in den 22A oder 22B gezeigt ist, ist es möglich, eine EMG zu erfassen, eine Sprechperiode anhand der EMG zu erfassen und eine Stimmerkennungsverarbeitung ähnlich wie in den Fällen der 7 und 8 auszuführen.
Wenn es möglich ist, in der oben beschriebenen Weise eine Sprechperiode ohne Beeinflussung durch Geräusche zu erfassen, kann das SS-Verfahren bei der Erkennung eines Stimmsignals, das mit Geräuschen gemischt ist, wirkungsvoll angewendet werden und dadurch können eine Verbesserung der Genauigkeit der Stimmerkennung und eine Stimmerkennung mit weniger Einfügungsfehlern und Verlustfehlern realisiert werden.
(Signalpegel-Steuervorrichtung)
Bei einer Tätigkeit, die eine telephonische Unterhaltung mit anderen Personen (insbesondere mit Kunden) erfordert z. B. bei Telefonappointern, ist es wichtig, zu bewirken, dass ein Gesprächspartner sich nicht unwohl fühlt und keine vertraulichen Informationen unnötig preisgegeben werden. In einer Szene, bei der mehrere Personen über ein sprechen, z. B. bei einer Konferenz, einer Diskussion oder in einem Studio einer Fernsehstation, ist es notwendig, dass ein Stimmsignal, das an ein Publikum übertragen werden soll, ein hochwertiges Stimmsignal ohne eingemischte Geräusche sein sollte.
Ein Punkt, der den beiden Szenen gemeinsam ist, besteht darin, dass Geräusche, die durch ein eingefangen werden, nicht an einen Gesprächspartner oder ein Publikum übertragen werden sollten, wenn eine Person, die das in ihrer Hand hält, oder wenn das an der Person angebracht ist, nicht spricht. In dem Fall des Telefonappointers sollten z. B. Umgebungsgeräusche nicht übertragen werden, wenn der Appointer nicht spricht, und Inhalte von vertraulichen Informationen, wie etwa persönliche Informationen, sollten nicht übertragen werden, wenn derartige Informationen in der Umgebung des Appointers ausgesprochen werden. Das Gleiche gilt für eine Konferenz, eine Diskussion oder ein Studio in einer Fernsehstation.
Um dies zu erreichen, wird ein Telefonhörer mit einer Haltefunktion versehen und ein, das für Sprecher vorgesehen ist, die eine Konferenz oder eine Diskussion leiten, ist z. B. mit einem Stromversorgungsschalter versehen. Durch Einschalten/Ausschalten der Funktion oder des Schalters kann die unnötige Übertragung von Geräuschen verhindert werden, wenn nicht gesprochen wird. In einem Studio einer Fernsehstation wird festgelegt, ob eine andere Person eine Eingabe akzeptiert, und eine Mischung von unnötigen Geräuschen wird verhindert, indem ein Schalter eingeschaltet wird, wenn die Eingabe akzeptiert wird, und der Schalter ausgeschaltet wird, wenn die Eingabe nicht akzeptiert wird.
Wenn in der oben beschriebenen Weise manuell eingestellt wird, ob eine Eingabe akzeptiert werden sollte oder nicht, ist die Tätigkeit mühsam. Als ein Verfahren, um dies automatisch auszuführen, ist es vorstellbar, die oben beschriebene VAD zu verwenden, um Eingaben lediglich dann zu akzeptieren, wenn eine Sprechperiode erfasst wird. Bei der VAD zum Erfassen einer Sprechperiode anhand eines Stimmsignals besteht jedoch ein Problem dahingehend, dass der Zeitpunkt, der durch die VAD als ein Sprachstartzeitpunkt bestimmt wird, nach dem tatsächlichen Sprachstartzeitpunkt liegt, wodurch eine Verzögerung, der Verlust des Beginns einer Sprache und eine Qualitätsverschlechterung bewirkt werden. Bei der Verwendung der VAD besteht außerdem ein Problem, dass eine genaue Erfassung einer Sprechperiode schwierig ist, da VAD auf den Einfluss von Umgebungsgeräuschen empfindlich ist.
Durch Erfassen einer Sprechperiode unter Verwendung der oben genannten EMG ist es möglich, den Beginn einer Sprache vor dem tatsächlichen Startzeitpunkt der Sprache zu bestimmen und eine Sprechperiode ohne Beeinflussung durch Umgebungsgeräusche zu bestimmen. Das Verfahren zum Erfassen einer Sprechperiode wurde bereits beschrieben und deswegen wird seine Beschreibung an dieser Stelle weggelassen.
23 zeigt die Konfiguration zum Steuern des Einschaltens/Ausschaltens eines Stromversorgungsschalters eines s. In der Figur wird Leistung von einer Batterie BT über einen Leistungsversorgungsschalter SW an ein 20 geliefert. Das 20 setzt eine eingegebene Stimme in ein Stimmsignal um, das ein elektrisches Signal ist. Das von dem 20 ausgegebene Stimmsignal wird an einen Verstärker 22 und dergleichen übertragen. In diesem Fall wird die Einschalt/Ausschaltsteuerung des Leistungsversorgungsschalters SW anhand eines Ergebnisses der Erfassung einer Sprechperiode ausgeführt. Das heißt, der Leistungsschalter SW wird so gesteuert, dass er in Reaktion auf die Erfassung eines Sprachstartzeitpunkts eingeschaltet wird. Dann wird der Leistungsschalter SW in der Weise gesteuert, dass er in Reaktion auf die Erfassung eines Sprachendzeitpunkts ausgeschaltet wird.
24 zeigt den oben genannten Betriebsablauf. Wie in der Figur gezeigt ist, ist die oben genannte Operation durch einen Sprechperioden-Erfassungsabschnitt 301, der die Messung einer EMG (Schritt S311), die Erfassung eines Sprachstartzeitpunkts (Schritt S312) und die Erfassung eines Sprachendzeitpunkts (Schritt S313) umfasst, und einen Stimmsammlungs/Stimmübertragungsabschnitt 302, der das Einschalten eines Schalters eines s (Schritt S331), den Beginn einer Übertragung eines Stimmsignals (Schritt S332), das Ausschalten des Schalters des s (Schritt S333) und die Beendigung der Übertragung des Stimmsignals (Schritt S334) umfasst, konfiguriert. Wenn die Messung einer EMG begonnen wird (Schritt S311) und der Leistungsversorgungsschalter des s eingeschaltet ist (Schritt S331), wird ein Sprachstartzeitpunkt erfasst (Schritt S312). Dadurch, dass der Leistungsversorgungsschalter des s eingeschaltet worden ist, wird die Übertragung eines Stimmsignals begonnen (Schritt S332). Wenn dagegen ein Sprachendzeitpunkt erfasst wird (Schritt S313), wird der Leistungsversorgungsschalter des s ausgeschaltet (Schritt S333). Dadurch, dass der Leistungsversorgungsschalter des s ausgeschaltet wurde, wird die Übertragung des Stimmsignals beendet (Schritt S334).
Der Leistungsversorgungsschalter eines s muss nicht ein- oder ausgeschaltet werden, wenn der Pegel eines Ausgangssignals, der von dem abgeleitet wird, anhand einer Sprechperiode gesteuert wird. Anstelle des Einschaltens/Ausschaltens des Leistungsversorgungsschalters eines s kann die Verstärkung eines Verstärkers zum Verstärken eines Ausgangssignals von einem oder die Ausgabe an einen Lautsprecher geändert werden. Wie in 25 gezeigt ist kann z. B. bei der Steuerung einer Verstärkungsänderung eines Verstärkers 22 zum Verstärken eines von einem 20 ausgegebenen Stimmsignals die Verstärkung des Verstärkers 22 in Reaktion auf die Erfassung eines Sprachstartzeitpunkts vergrößert werden und in Reaktion auf die Erfassung eines Sprachendzeitpunkts vermindert werden. Wie in 26 gezeigt ist, kann bei der Veränderung des Ausgangs an einem Lautsprecher SP die Lautstärke, die für eine Lautstärkesteuerschaltung 23 eingestellt wird, in Reaktion auf die Erfassung eines Sprachstartzeitpunkts vergrößert werden und in Reaktion auf die Erfassung eines Sprachendzeitpunkts verringert werden.
Zusätzlich zu den oben genannten Konfigurationen kann jede Konfiguration verwendet werden, wenn sie die Übertragung einer Stimme, die einer Nichtsprechperiode entspricht, an einen Gesprächspartner oder ein Publikum verhindern kann. Kurz gesagt ist es ausreichend, wenn der Pegel eines von einem abgeleiteten Ausgangssignals gesteuert wird und eine Stimme, die einer Nichtsprechperiode entspricht, so gesteuert wird, dass sie nicht ausgegeben wird.
Wenn die Konfiguration von 23 bei einem Mobiltelefon angewendet wird, kann das Mobiltelefon als ein Endgerät verwendet werden, wie in den 8 und 9 gezeigt ist. Wenn die Konfiguration von 23 bei einer Sprechgarnitur angewendet wird, wird sie in der Weise verwendet, wie in den 22A und 22B gezeigt ist.
Wie oben beschrieben wurde, ist es durch Erfassen einer Sprechperiode unter Verwendung einer EMG möglich, den Beginn einer Sprache vor dem tatsächlichen Startzeitpunkt der Sprache zu bestimmen und eine Sprechperiode ohne Beeinflussung durch Umgebungsgeräusche zu bestimmen. Es ist somit möglich, ein hochwertiges Stimmsignal ohne eingemischte Geräusche zu erhalten.
Es gibt die folgenden Aspekte in Bezug auf die Beschreibung des ersten Aspekts.

(1) Die Sprechperioden-Erfassungsvorrichtung gemäß dem ersten Aspekt, bei der die EMG-Erfassungsmittel die EMG von Elektroden erfassen, die mit der Oberfläche der Haut eines Sprechers in Kontakt sind. Demzufolge kann die EMG lediglich durch die Berührung der Elektroden mit der Oberfläche der Haut des Sprechers erfasst werden.
(2) Die Sprechperioden-Erfassungsvorrichtung gemäß (1), bei der die Elektroden an einem Endgerät vorgesehen sind, das durch den Sprecher während des Sprechens verwendet wird. Demzufolge kann die EMG unter Verwendung des Endgeräts, das durch den Sprecher verwendet wird, erfasst werden.

Die Erfassung einer Sprechperiode ist im Allgemeinen bei einer Stimmerkennungsverarbeitung wichtig. Ein Lösungsansatz zum Erfassen einer Sprechperiode, bei dem lediglich Stimmsignale verwendet werden, und ein Lösungsansatz unter Verwendung von Bildern der Bewegungen des Munds eines Sprechers sind vorgeschlagen worden. Bei dem zuerst genannten Lösungsansatz ist es jedoch nicht möglich, eine Sprechperiode genau zu erfassen, wenn der Pegel von Umgebungsgeräuschen hoch ist oder wenn mehrere Personen gleichzeitig sprechen. Der zuletzt genannte Lösungsansatz ist praktisch unvorteilhaft, da er einen Sensor, wie etwa eine Kamera, zur Erfassung einer Sprechperiode erfordert, die an einer bestimmten Position einzurichten ist.
Gemäß der vorliegenden Erfindung wird eine Sprechperiode unter Verwendung einer EMG erfasst, die erzeugt wird, wenn ein Sprecher spricht. Es erscheint eine große Amplitude in einer EMG, wenn eine Muskelaktivität bewirkt wird, wenn ein Sprecher spricht, wobei durch Wahrnehmung der Amplitude eine Sprechperiode erfasst werden kann.
Durch das Vorsehen von Elektroden für ein mobiles Endgerät kann eine durch Sprache erzeugte EMG an der Haut des Sprechers gemessen werden. Deswegen besitzt die vorliegende Erfindung eine hohe Affinität mit der Verwendungsform eines mobilen Endgeräts, d. h. die Form der Verwendung des Endgeräts, indem es an die Haut gedrückt wird. Eine Sprechperiode kann selbst dann problemlos erfasst werden, wenn der Pegel von Umgebungsgeräuschen hoch ist. Es ist ferner nicht erforderlich, einen Sensor an einer bestimmten Position vorzusehen.
Wenn eine Stimmerkennungsverarbeitung anhand einer erfassten Sprechperiode ausgeführt wird, kann die Erkennungsgenauigkeit verbessert werden. Wenn ferner eine Codierungsverarbeitung anhand einer erfassten Sprechperiode ausgeführt wird, kann der Leistungsverbrauch verringert werden und die Batterielebensdauer eines mobilen Datenübertragungsendgeräts einschließlich eines Mobiltelefons kann verbessert werden. Ferner kann durch Steuerung des Pegels eines von einem abgeleiteten Ausgangssignals anhand einer erfassten Sprechperiode und durch eine Steuerung, dass eine Stimme, die einer Nichtsprechperiode entspricht, nicht ausgegeben wird, ein hochwertiges Stimmsignal ohne eingemischte Geräusche erhalten werden.

Claims

Endgerät (1a), das ein Mikrofon (20) zum Empfangen einer Sprechstimme eines Sprechers (100) und eine Sprechperioden-Erfassungsvorrichtung (1) umfasst, wobei die Sprechperioden-Erfassungsvorrichtung (1) Elektromyographie-Erfassungsmittel (11) zum Erfassen einer Elektromyographie, die von Elektroden (10a, 10b) auf einem Abschnitt des Gehäuses des Endgerätes (1a) erzeugt wird, wenn der Sprecher (100) spricht, wobei der Abschnitt mit der Haut des Sprechers in Kontakt ist, während der Sprecher (100) spricht, und Sprechperioden-Erfassungsmittel (13) zum Erfassen einer Sprechperiode anhand der durch die Elektromyographie-Erfassungsmittel (11) erfassten Elektromyographie umfasst; dadurch gekennzeichnet, dass die Sprechperioden-Erfassungsmittel (13) Mittel umfassen, um einen Amplitudenwert der Elektromyographie mit einem vorgegebenen Schwellenwert zu vergleichen, um den Sprachstartzeitpunkt und den Sprachendzeitpunkt der Sprechperiode zu erfassen, wobei die Sprechperioden-Erfassungsvorrichtung (1) Mittel (14) umfasst, die in der Weise arbeiten, dass sie den erfassten Sprachstartzeitpunkt und den erfassten Sprachendzeitpunkt melden.
Endgerät (1a) nach Anspruch 1, dadurch gekennzeichnet, dass die Sprechperioden-Erfassungsvorrichtung (1) ferner einen Zähler umfasst, um das Ergebnis des Vergleichs des Amplitudenwerts der Elektromyographie mit dem vorgegebenen Schwellenwert zu zählen, wobei die Sprechperioden-Erfassungsmittel (13) eine Sprechperiode nur dann bestimmen, wenn der Zählwert des Zählers einen vorgegebenen Wert übersteigt.
Endgerät (1a) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Sprechperioden-Erfassungsvorrichtung (1) ferner Speichermittel zum Sichern eines Sprechstimmsignals des Sprechers (100) umfasst, wobei das Sichern des Sprechstimmsignals zu dem Sprachstartzeitpunkt beginnt und zu dem Sprachendzeitpunkt endet.
Stimmerkennungs-Verarbeitungsvorrichtung zum Ausführen einer Stimmerkennungsverarbeitung für ein Sprechstimmsignal, dadurch gekennzeichnet, dass die Stimmerkennungs-Verarbeitungsvorrichtung das Endgerät (1a) nach Anspruch 1 oder 2 und Stimmerkennungs-Verarbeitungsmittel zum Ausführen einer Stimmerkennungsverarbeitung für ein Sprechstimmsignal, das einer Sprechperiode entspricht, die von der Sprechperioden-Erfassungsvorrichtung (1) erfasst wird, umfasst.
Stimmerkennungs-Verarbeitungsvorrichtung zum Ausführen einer Stimmerkennungsverarbeitung für ein Sprechstimmsignal, dadurch gekennzeichnet, dass die Stimmerkennungs-Verarbeitungsvorrichtung das Endgerät (1a) nach Anspruch 3 und Stimmerkennungs-Verarbeitungsmittel zum Ausführen einer Stimmerkennungsverarbeitung an einem Sprechstimmsignal, das in den Speichermitteln durch die Sprechperioden-Erfassungsvorrichtung (1) gespeichert ist, umfasst.
Übertragungssystem zum Ausführen einer Codierungsverarbeitung für ein Sprechstimmsignal, das einer Sprechperiode entspricht, und zum Übertragen des codierten Stimmsignals, dadurch gekennzeichnet, dass das Übertragungssystem das Endgerät (1a) nach einem der Ansprüche 1 bis 3 und Codierungsverarbeitungszeitpunkt-Bestimmungsmittel zum Bestimmen des Zeitpunkts der Codierungsverarbeitung anhand einer Sprechperiode, die durch die Sprechperioden-Erfassungsvorrichtung (1) erfasst wird, umfasst.
Signalpegel-Steuervorrichtung zum Steuern eines Pegels eines Ausgangssignals, das von einem Mikrofon (20) abgeleitet wird, dadurch gekennzeichnet, dass die Signalpegel-Steuervorrichtung das Endgerät (1a) nach einem der Ansprüche 1 bis 3 und Steuermittel zum Steuern des Pegels eines Ausgangssignals anhand einer durch die Sprechperioden-Erfassungsvorrichtung (1) erfassten Sprechperiode und zum Ausführen einer Steuerung, derart, dass eine Stimme, die einer Nichtsprechperiode entspricht, nicht ausgegeben wird, umfasst.
Sprechperioden-Erfassungsverfahren für ein Endgerät (1a), das ein Mikrofon (20) zum Empfangen einer Sprechstimme eines Sprechers (100) umfasst, wobei das Verfahren einen Elektromyographie-Erfassungsschritt zum Erfassen einer Elektromyographie, die von Elektroden (10a, 10b) auf einem Abschnitt des Gehäuses des Endgeräts (1a) erzeugt wird, während der Sprecher (100) spricht, wobei der Abschnitt mit der Haut des Sprechers in Kontakt ist, während der Sprecher (100) spricht, und einen Sprechperioden-Erfassungsschritt, bei dem eine Sprechperiode anhand der in dem Elektromyographie-Erfassungsschritt erfassten Elektromyographie erfasst wird, umfasst; dadurch gekennzeichnet, dass das Sprechperioden-Erfassungsverfahren einen Schritt des Vergleichens eines Amplitudenwerts der Elektromyographie mit einem vorgegebenen Schwellenwert umfasst, um einen Sprachstartzeitpunkt und einen Sprachendzeitpunkt der Sprechperiode zu erfassen, wobei das Sprechperioden-Erfassungsverfahren einen Schritt des Meldens des erfassten Sprachstartzeitpunkts und des erfassten Sprachendzeitpunkts umfasst.