-
Die
vorliegende Erfindung betrifft ein Endgerät, eine Stimmerkennungs-Verarbeitungsvorrichtung,
ein Übertragungssystem,
eine Signalpegel-Steuervorrichtung und ein Sprechperioden-Erfassungsverfahren
gemäß dem Oberbegriff
der Ansprüche
1, 4, 6, 7 bzw. 8.
-
Bei
gewöhnlichen
Stimmerfassungsvorrichtungen wurde eine Stimmerkennungstechnik verwendet,
um eine in Sprache vorhandene Stimme als ein akustisches Signal
zu behandeln und um eine Frequenzanalyse an dem akustischen Signal
auszuführen,
um Stimminformationen zu erkennen und zu verarbeiten. Um ein gewünschtes
Stimmerfassungsergebnis unter Verwendung der Stimmerkennungstechnik
bereitzustellen, ist es wichtig, Inhalte der Sprache von einem erfassten
Stimmsignal genau zu erkennen sowie genau zu erfassen, ob der betreffende
Sprecher tatsächlich
spricht (Erfassung einer Sprechperiode). Insbesondere dann, wenn
eine Stimmerkennung in einer geräuschvollen
Umgebung ausgeführt
wird oder wenn viele Menschen gleichzeitig sprechen, ist die Erfassung
einer Sprechperiode ein erhebliches Problem.
-
Der
Grund besteht darin, dass in einer Umgebung mit geringen Geräuschen eine
Sprechperiode leicht erfasst werden kann, indem die Leistung eines
erfassten Stimmsignals überwacht
wird, sie jedoch in einer geräuschvollen
Umgebung nicht einfach aus der Leistung erfasst werden kann, da
das erfasste Stimmsignal die hinzugefügten Störungen umfasst. Wenn keine
Sprechperiode erfasst werden kann, kann keine Stimme erkannt werden,
selbst wenn für
die nachfolgende Verarbeitung eine Stimmerkennungsvorrichtung bereitgestellt
wird, die gegenüber
Störungen
robust ist.
-
Es
sind verschiedene Forschungen in Bezug auf die Erfassung einer Sprechperiode
ausgeführt worden.
Die Dokumente "Handsfree
Voice Recognition Using Microphone Array and Kalman Filter in An Actual
Environment – Construction
of Front-End System for Interactive TV" von Masakiyo Fujimoto and Yasuo Ariki;
The Fourth DSPS Educators Conference; S. 55–58; August, 2002, und "Robust Speech Detection
Using Images of Portions Around Mouth" von Kazumasa Murai, Keisuke Noma, Ken-ichi
Kumagai, Tomoko Matsui und Satoshi Nakamura; Information Processing
Society of Japan Research Report "Voice Language Information Processing" Nr. 034-01; März, 2000,
handeln z. B. von derartigen Forschungen.
-
Die
Lösungsansätze der
in diesen Dokumenten beschriebenen Techniken und weiterer Techniken nach
dem Stand der Technik werden grob in zwei Lösungsansätze klassifiziert: bei einem
Lösungsansatz wird
versucht, eine Sprechperiode lediglich aus einem Stimmsignal zu
erfassen, wobei bei dem anderen Lösungsansatz versucht wird,
ein Sprechsignal nicht nur aus einem Stimmsignal, sondern außerdem aus
einem Nichtstimmsignal zu erfassen.
-
Bei
jedem der beiden oben genannten Lösungsansätze gibt es ein Problem. Bei
dem Versuch der Erfassung lediglich aus einem Stimmsignal besteht
ein Nachteil darin, dass die Erfassungsgenauigkeit in beträchtlichem
Maße von
der Lautstärke
und der Art der Umgebungsgeräusche
abhängt.
Um eine robuste Erfassung einer Sprechperiode zu realisieren, die
durch Umgebungsgeräusche überhaupt nicht
beeinflusst ist, ist eine Erfassung aus einem Nichtstimmsignal wichtig,
die durch den zuletzt genannten Lösungsansatz durchgeführt wird.
-
Bei
der Verwendung eines Nichtstimmsignals besteht jedoch ein Problem
darin, dass eine Installation eines Sensors, der von einem verschieden ist,
für eine
Stimmerkennung erforderlich ist. Wenn z. B. ein Bild als ein Nichtstimmsignal
verwendet wird, muss eine Kamera in der Weise vorgesehen werden, dass
sich ein Lippenabschnitt immer in einem Gesichtsfeld befindet und
es ist ferner außerdem
erforderlich, dass der Lippenabschnitt stets in einer konstanten
Position im Gesichtsfeld der Kamera ist. Es ist jedoch praktisch
unmöglich,
eine Kamera in der Weise vorzusehen, dass dies erreicht wird. Außerdem ist
eine Bilderkennungstechnik erforderlich, um eine Sprechperiode aus
Bildern des Lippenabschnitts zu erfassen.
-
Bilderkennungstechniken
erfordern im Allgemeinen eine riesige Anzahl von Operationen. Es
wird allgemein angenommen, dass der Fall der Ausführung einer
Stimmerkennung in einer geräuschvollen Umgebung
dann vorliegt, wenn eine Stimmerkennung unter Verwendung eines mobilen
Endgeräts, wie
etwa ein Mobiltelefon, durchgeführt
wird. Ein derartiges mobiles Endgerät ist jedoch nicht mit einer ausreichenden
Rechenfähigkeit
versehen, um eine Bildverarbeitung auszuführen, und es ist deswegen praktisch
schwierig, das mobile Endgerät
für eine Bildverarbeitung
zu verwenden, wodurch auch die Lösung
des oben genannten Problems unmöglich
ist.
-
Aus
dem Artikel "ADAPTIVE
EMG-DRIVEN COMMUNICATION FOR THE DISABILITY" von Park, Hae-Jeong u. a.; Proceedings
of the First Joint BMES/EMBS Conference Serving Humanity, Advancing
Technology, 13.–16.Oktober
1999, Atlanta, GA, USA, S.656 ist eine Vorrichtung bekannt, die
Elektromyographie-Erfassungsmittel zum Erfassen einer Elektromyographie
(EMG) umfasst, die erzeugt wird, wenn ein Patient sein Kinn bewegt.
Die Elektromyographie wird mit einem Schwellenwert verglichen.
-
Das
Patent DE-A1-4 212 907 offenbart eine Sprecherkennungsvorrichtung,
die akustische Daten mit anderen Messungen kombiniert, z. B. von
einem Sensor, der einen Hautstrom misst.
-
Die
Aufgabe der Erfindung besteht darin, ein Endgerät und ein Sprechperioden-Erfassungsverfahren
gemäß dem Oberbegriff
von Anspruch 1 bzw. 8 zu schaffen, die eine Erfassung einer Sprechperiode genauer
ausführen
können.
-
Diese
Aufgabe wird gelöst
gemäß den Merkmalen
der Ansprüche
1 und 8, die die Erfindung definieren.
-
Weitere
Ausführungsformen
der Erfindung können
aus der folgenden Beschreibung und den abhängigen Ansprüchen entnommen
werden.
-
Die
Erfindung wird im Folgenden in Verbindung mit den Ausführungsformen,
die in den beigefügten
Zeichnungen gezeigt sind, genauer erläutert.
-
1 zeigt
die Konfiguration einer Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung;
-
2 zeigt
eine Beziehung zwischen einer EMG und einem Stimmsignal;
-
3 zeigt
den Effektivwert (RMS) einer EMG, die im zeitlichen Verlauf gezeigt
ist;
-
4 ist
ein Ablaufplan, der ein Beispiel einer Verarbeitung zum Bestimmen
einer Sprechperiode für
eine EMG zeigt;
-
5 ist
ein Ablaufplan, der ein abgewandeltes Beispiel der Verarbeitung
zum Bestimmen einer Sprechperiode für eine EMG zeigt;
-
6 ist
ein Blockschaltplan, der ein Konfigurationsbeispiel zeigt, bei dem
der Konfiguration von 1 ein Zähler hinzugefügt ist;
-
7 ist
eine schematische Darstellung, die ein Beispiel der Verwendung eines
mobilen Endgeräts
zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung verwendet wird;
-
8A und 8B sind
schematische Darstellungen, die ein Beispiel der Anordnung von Oberflächenelektroden
für eine
EMG-Erfassung zeigt;
-
9 ist
ein Ablaufplan, der ein Beispiel des Betriebs eines mobilen Endgeräts zeigt,
bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung verwendet wird;
-
10 ist
ein Ablaufplan, der ein weiteres Beispiel des Betriebs eines mobilen
Endgeräts
zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung verwendet wird;
-
11 ist
ein Ablaufplan, der ein weiteres Beispiel des Betriebs eines mobilen
Endgeräts
zeigt, bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung verwendet wird;
-
12 ist
ein Blockschaltplan, der ein Konfigurationsbeispiel zeigt, bei dem
die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung
bei einem Mobiltelefon-Endgerät
angewendet wird;
-
13 ist
ein Blockschaltplan, der ein weiteres Konfigurationsbeispiel zeigt,
bei dem die Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung bei einem Mobiltelefon-Endgerät angewendet wird;
-
14 zeigt
eine Beziehung zwischen einem Stimmsignal, einer Rahmenfolge, für die eine VAD
durchgeführt
wird, und einer codierten Rahmenfolge;
-
15 zeigt
eine Beziehung zwischen einem Stimmsignal und einer EMG; 16 zeigt
den Zeitablauf der Erzeugung einer EMG und eines Stimmsignals;
-
17 zeigt
den Zeitablauf der Erfassung einer Sprechperiode für eine EMG
und den Zeitablauf der Verarbeitung, die bei dem Mobiltelefon ausgeführt wird;
-
18A zeigt die Konfiguration bei dem Erfassen einer
Sprechperiode, wobei lediglich VAD verwendet wird;
-
18B zeigt die Konfiguration beim Erfassen einer
Sprechperiode unter Verwendung von VAD und einer EMG;
-
19 zeigt
den Punkt, an dem eine Sprechperioden-Erfassungsverarbeitung anhand
einer EMG und eine Sprechperioden-Erfassungsverarbeitung anhand
eines Stimmsignals integriert werden;
-
20 zeigt
die Konfiguration in dem Fall, wenn eine erfasste Sprechperiode übertragen
wird, um eine Stimmerkennungsverarbeitung auszuführen;
-
21 zeigt
ein Verfahren, um gespeicherte Daten später zu modifizieren, um eine
korrekte Sprechperiode zu erfassen, wenn die Bestimmung einer Sprechperiode,
die unter Verwendung einer EMG ausgeführt wird, fehlerhaft ist;
-
22A zeigt eine Sprechgarnitur, die einen Gehörgang-Ohrhörer/Lautsprecher
enthält;
-
22B zeigt eine Sprechgarnitur, die einen Lautsprecher
des Kopfhörertyps
enthält;
-
23 zeigt
die Konfiguration zum Steuern des Ein/Ausschaltens eines Stromversorgungsschalters
eines Mikrofons;
-
24 zeigt
einen Funktionsablauf zum Steuern des Einschaltens/Ausschaltens
des Leistungsschalters eines Mikrofons;
-
25 zeigt
die Konfiguration zum Steuern der Änderung der Verstärkung eines
Verstärkers
zum Verstärken
eines Stimmsignals, das von einem Mikrofon ausgegeben wird; und
-
26 zeigt
die Konfiguration zum Ändern des
Ausgangs eines Lautsprechers SP.
-
Eine
Ausführungsform
der vorliegenden Erfindung wird im Folgenden unter Bezugnahme auf
die Zeichnungen beschrieben. In allen Figuren, auf die die nachfolgende
Beschreibung Bezug nimmt, sind gleiche Abschnitte mit gleichen Bezugszeichen
angegeben.
-
(Vollständige Konfiguration)
-
1 ist
ein Blockschaltplan, der die Konfiguration von Hauptabschnitten
einer Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung
zeigt. Die Sprechperioden-Erfassungsvorrichtung 1 gemäß der vorliegenden
Erfindung umfasst einen EMG-Erfassungsabschnitt 11, einen EMG-Verarbeitungsabschnitt 12,
einen Sprechperioden-Erfassungsabschnitt 13 und einen Sprechperioden-Meldeabschnitt 14.
-
In
dieser Figur erfasst der EMG-Erfassungsabschnitt 11 eine
EMG, wenn ein Sprecher spricht. Der EMG-Erfassungsabschnitt 11 ist
so konfiguriert, dass er Oberflächenelektroden
enthält,
die später
beschrieben werden. Das heißt,
eine EMG wird über
die Oberflächenelektroden
erfasst, die mit der Oberfläche
unmittelbar über
dem Muskel, der beim Sprechen aktiv ist, in Kontakt sind. Eine genauere
Anordnung der Elektroden wird später
beschrieben.
-
In
dem EMG-Verarbeitungsabschnitt 12 wird die EMG, die durch
den EMG-Erfassungsabschnitt 11 erfasst wird, verstärkt. Der
EMG-Verarbeitungsabschnitt 12 verarbeitet außerdem die
EMG mit einem Tiefpassfilter, einem Hochpassfilter und dergleichen, um
Störungen
zu entfernen oder um ein gewünschtes
Signal wirkungsvoll abzuleiten. Er berechnet ferner Parameter, die
von dem Sprechperioden-Erfassungsabschnitt 13 benötigt werden.
-
In
dem Sprechperioden-Erfassungsabschnitt 13 werden der Startpunkt
und der Endpunkt einer Sprechperiode anhand der Parameter, die durch
den EMG-Verarbeitungsabschnitt 12 berechnet werden, erfasst.
-
Der
Sprechperioden-Meldeabschnitt 14 meldet den Startpunkt
und den Endpunkt der Sprechperiode, die durch den Sprechperioden-Erfassungsabschnitt 13 erfasst
wurden, an einen nachfolgenden Stimmerkennungsalgorithmus, so dass
der Algorithmus eine Stimmerkennung ausführt. Der Stimmerkennungsalgorithmus,
der eine Stimmerkennungsverarbeitung unter Verwendung des Startpunkts
und des Endpunkts der Sprechperiode ausführt, die durch den Sprechperioden-Meldeabschnitt 14 gemeldet
werden, ist nicht auf einen bestimmten Algorithmus begrenzt, so
dass ein beliebiger Algorithmus verwendet werden kann.
-
Gemäß der oben
genannten Konfiguration ist es möglich,
eine Sprechperiode anhand einer EMG zu erfassen. Somit kann eine
Sprechperiode unabhängig
von den Bedingungen der Umgebungsgeräusche erfasst werden und dadurch
kann eine Stimmerkennung in einer geräuschvollen Umgebung möglich sein.
-
(Grundprinzip)
-
2 zeigt
eine Beziehung zwischen einer EMG und einem Stimmsignal, die ein
Grundprinzip der vorliegenden Erfindung darstellt. In dieser Figur gibt
die horizontale Achse die Zeit (in Sekunden) an und die vertikale
Achse zeigt die Amplitude an.
-
Diese
Figur zeigt eine Oberflächen-EMG,
die an einem Wangenabschnitt eines Sprechers gemessen wird, wenn
er wiederholt japanische Vokale "a-i-u-e-o" ausspricht, sowie
ein Stimmsignal, das gleichzeitig gemessen wird. Eine EMG K und
ein Stimmsignal S sind im oberen Teil bzw. im unteren Teil der Figur
gezeigt.
-
Es
sollte angemerkt werden, dass das Stimmsignal S und die EMG K synchronisiert
sind. Im Einzelnen spricht der Sprecher "a-i-u-e-o" während einer
Periode von etwa 1,5 bis 3,2 Sekunden aus und ein dementsprechendes
Stimmsignal mit einer großen
Amplitude wird beobachtet. Eine große Amplitude wird außerdem während der
Periode in der EMG beobachtet.
-
Das
Gleiche gilt für "a-i-u-e-o", das während der
Periode von etwa 4,7 bis 6,3 Sekunden ausgesprochen wird, sowie
ferner für "a-i-u-e-o", das während einer
Periode von etwa 8 bis 9,5 Sekunden ausgesprochen wird. In den anderen
Perioden schweigt die Stimme des Sprechers und Umgebungsgeräusche sind
gemischt.
-
Die
vorliegende Erfindung wurde durch die Entdeckung des Erfinders ausgelöst, dass
ein Stimmsignal und eine EMG synchronisiert sind, wie in 2 gezeigt
ist. Es wurde außerdem
festgestellt, dass ein Stimmsignal und eine EMG nicht nur dann in
der in 2 gezeigten Weise synchronisiert sind, wenn der
ausgesprochene Inhalt "a-i-u-e-o" ist, sondern auch
bei anderen Inhalten. Kurz gesagt, eine große Amplitude, die eine Muskelaktivität begleitet, die
dann bewirkt wird, wenn ein Sprecher spricht, wird in einer EMG
beobachtet, so dass eine Sprechperiode erfasst werden kann, indem
diese EMG beobachtet wird.
-
Das
Stimmsignal und die EMG, die in 2 gezeigt
sind, wurden gemessen, während
die Umgebungsgeräusche
nicht sehr laut waren (in einem gewöhnlichen Büro). Wenn ein ähnliches
Experiment ausgeführt
wird, wenn der Pegel der Umgebungsgeräusche hoch ist, werden die
Umgebungsgeräusche einem
Stimmsignal überlagert.
Eine EMG wird dagegen vorteilhaft überhaupt nicht beeinflusst.
-
(Sprechperioden-Erfassungsverarbeitung)
-
Eine
Verarbeitung zum Erfassen einer Sprechperiode wird im Folgenden
genau beschrieben.
-
3 zeigt
ein Beispiel einer Verarbeitung zum Erfassen einer Sprechperiode
für eine
EMG. 3 zeigt einen Effektivwert (der im Folgenden durch
RMS abgekürzt
wird), der aus der in 2 gezeigten EMG berechnet wurde
und in der zeitlichen Folge angezeigt wird. In dieser Figur gibt
die horizontale Achse die Zeit (in Sekunden) an und die vertikale Achse
gibt einen RMS-Wert an. Der RMS-Wert wurde bei einer Rahmenperiode
von 20 ms und einer Rahmenlänge
von 50 ms berechnet.
-
Wie
in 3 ersichtlich ist, ist der Wert offensichtlich
größer, wenn
eine Stimme ausgesprochen wird, als dann, wenn keine Stimme ausgesprochen wird.
In dieser Figur beträgt
der RMS-Wert der EMG, wenn keine Stimme ausgesprochen wird, etwa
0,01. Deswegen kann durch das Einstellen eines Schwellenwerts auf
0,02 oder 0,03 und durch Vergleichen des Schwellenwerts mit dem
RMS-Wert eine Sprechperiode erfasst werden. Das heißt, wenn
der RMS-Wert den
eingestellten Schwellenwert übersteigt,
kann die Periode als eine Sprechperiode erfasst werden. Wenn er
unter dem eingestellten Schwellenwert ist, kann die Periode als
eine Nichtsprechperiode erfasst werden.
-
(Verarbeitung zum Bestimmen
einer Sprechperiode)
-
4 ist
ein Ablaufplan, der eine Verarbeitung zum Bestimmen einer Sprechperiode
für eine EMG
zeigt.
-
In
dieser Figur wird der oben beschriebene Schwellenwert im Voraus
eingestellt (Schritt S40). Anschließend wird die Messung einer
EMG begonnen (Schritt S41). Dann werden RMS-Werte nacheinander aus
der gemessenen EMG berechnet (Schritt S42). In diesem Fall können die
Rahmenperiode und die Rahmenlänge
20 ms bzw. 60 ms betragen. Andere Werte können verwendet werden.
-
Es
wird daraufhin festgestellt, ob die Werte den im Voraus eingestellten
Schwellenwert übersteigen
(Schritt S43). Wenn der Schwellenwert überschritten wird, wird die
Periode als eine Sprechperiode bestimmt (Schritt S44). Wenn dagegen
der Schwellenwert nicht überschritten
wird, wird die Periode als eine Nichtsprechperiode bestimmt (Schritt S45).
Die oben genannte Verarbeitung wird wiederholt ausgeführt.
-
Obwohl
die Figur ein Ablaufplan ist, der die Verarbeitung zeigt, die dann
ausgeführt
wird, wenn RMS-Werte aus einer EMG berechnet werden, muss die vorliegende
Erfindung nicht unbedingt einen RMS verwenden. Das heißt, es können verschiedene Merkmale,
die aus einer gemessenen EMG extrahiert werden, verwendet werden.
Es können
z. B. eine mittlere relative Abweichung (ARV), ein integriertes
EMG-Signal (iEMG), das Frequenzspektrum einer EMG und dergleichen
verwendet werden.
-
Ferner
kann die Anzahl der Signaldurchgänge
an einem Schwellenwert anstelle des RMS in 4 verwendet
werden. Das heißt
die Anzahl von Positionen einer gemessenen EMG, die einen im Voraus
eingestellten Schwellenwert (z. B. 10 mV) überschreiten, wird gezählt und
die gezählte
Anzahl kann verwendet werden. Wenn z. B. die Abtastwerte einer gemessenen
EMG 1, 5, 12, 8 und –2
mV betragen und der Schwellenwert 10 mV beträgt, ist der Wert der gezählten Signaldurchgänge "1". Wenn der Schwellenwert 6 mV beträgt, ist
der Wert der gezählten
Signaldurchgänge "2". Auf diese Weise kann die gleiche Verarbeitung
wie die oben beschriebene Verarbeitung außerdem unter Verwendung der
Anzahl von Signaldurchgängen
an einem im Voraus eingestellten Schwellenwert anstelle eines RMS
ausgeführt
werden.
-
Die
Abtastfrequenz der EMG beträgt
z. B. 2000 Hz.
-
Wie
oben beschrieben wurde, können
durch Vergleichen des Werts der Amplitude einer EMG mit einem vorbestimmten
Schwellenwert der Sprach startzeitpunkt und der Sprachendzeitpunkt
einer Sprechperiode erfasst werden. Kurz gesagt, es erscheint eine
große
Amplitude in einer EMG, wenn beim Sprechen eines Sprechers eine
Muskelaktivität bewirkt
wird, so dass eine Sprechperiode, d. h. ein Sprachstartzeitpunkt
und ein Sprachendzeitpunkt durch Erfassen der großen Amplitude
erfasst werden kann.
-
(Variation der Bestimmungsverarbeitung)
-
Der
Ablaufplan, der in 5 gezeigt ist, kann dem in 4 gezeigten
Ablaufplan angefügt
werden. Bei dem in 4 gezeigten Ablaufplan besteht
ein Problem dahingehend, dass dann, wenn eine große Amplitude
aus irgendeinem Grund ständig
in einer EMG enthalten ist, die Periode als eine Sprechperiode bestimmt
wird, selbst wenn sie eine Nichtsprechperiode ist. Um den Einfluss
einer derartigen kurzzeitigen Schwankung zu verringern, kann der
in 5 gezeigte Ablaufplan angefügt werden und die Schritte
S43 bis S45 des Ablaufplans von 4 ersetzen.
-
In 5 bedeutet "Status" eine der beiden Arten
von Perioden, d. h. eine Sprechperiode oder eine Nichtsprechperiode.
Damit z. B. eine Periode als eine Nichtsprechperiode (oder eine
Sprechperiode) bestimmt wird, ist es erforderlich, dass mehrere
Perioden unmittelbar vor der Periode als Nichtsprechperioden (oder
Sprechperioden) bestimmt wurden. Um dies zu erreichen, wird der
Konfiguration von 1 ein Zähler 15 hinzugefügt, um die
Anzahl von wiederholt auftretenden aufeinanderfolgenden Nichtsprechperioden
(oder Sprechperioden) zu zählen,
wie in 6 gezeigt ist. Der Wert des Zählers wird mit einem voreingestellten
Schwellenwert verglichen. Wenn der Wert den Schwellenwert übersteigt,
wird die Periode als eine Nichtsprechperiode (oder eine Sprechperiode)
erstmalig bestimmt. Der Zyklus zum Bestimmen der Anzahl von mehreren
Perioden kann z. B. 20 Hz betragen.
-
Nachdem
ein RMS-Wert einer EMG im Schritt S42 von 4 berechnet
wurde, geht der Prozess zu den Schritten in 5. Zuerst
wird der Zählwert
des Zählers
zurückgesetzt
(Schritt S51). Wenn der oben beschriebene Status sich nicht geändert hat,
wird der Zählwert
des Zählers
erhöht
(vom Schritt S52 zum Schritt S53). Wenn der Zählwert des Zählers den
voreingestellten Schwellenwert als ein Ergebnis der Erhöhung nicht übersteigt,
wird der Zählwert
erneut erhöht
(vom Schritt S54 zum S52).
-
Wenn
dagegen der Zählwert
des Zählers
den voreingestellten Schwellenwert als ein Ergebnis der Erhöhung übersteigt,
wird der Status bestimmt, wobei dadurch eine Sprechperiode oder
eine Nichtsprechperiode bestimmt wird (vom Schritt S54 zum Schritt
S55).
-
Wenn
sich der Status im Schritt S52 geändert hat, wird der Zählwert des
Zählers
zurückgesetzt (vom
Schritt S52 zum Schritt S51) und der Prozess wird fortgesetzt.
-
Wenn
der oben beschriebene Ablaufplan, der in 5 gezeigt
ist, angefügt
wird, entsteht dadurch ein Problem, dass ein bestimmter Sprachstartpunkt
(oder Sprachendpunkt) zeitlich nach dem tatsächlichen Sprachstartpunkt (oder
Sprachendpunkt) liegt. Durch Korrigieren der Sprechperiode, die
gemäß den Ablaufplänen von 4 und 5 bestimmt
wurde, mit der Zeit, die dem Schwellenwert entspricht, der mit dem
oben beschriebenen Zählwert des
Zählers
verglichen wird, können
der tatsächliche Sprachstartpunkt
und der tatsächliche
Sprachendpunkt erfasst werden.
-
Wenn
z. B. eine Erhöhung
des Zählwerts
begonnen wird, wenn die Zeit "0" ist (die vorhergehende Periode
ist eine Nichtsprechperiode), wird zu diesem Zeitpunkt keine Sprechperiode
bestimmt. Die Zeit wird erhöht,
damit sie "1", "2", "3" usw. beträgt, und wenn
der Zählwert "n" erreicht, das den Schwellenwert darstellt,
wird erstmalig eine Sprechperiode bestimmt. Somit wurde das Sprechen
tatsächlich
zum Zeitpunkt "0" begonnen, obwohl
eine Sprechperiode zu einem Zeitpunkt bestimmt wird, der dem Zählwert "n" entspricht. Demzufolge können ein
korrekter Sprachstartpunkt und ein korrekter Sprachendpunkt durch
das Ausführen
einer Korrektur durch eine Zeit, die der Periode von den Zählwerten "0" bis "n" entspricht,
erfasst werden.
-
Durch
Verwenden des in 5 gezeigten Ablaufplans wird
ferner ein Vorteil dadurch erreicht, dass ein Problem behandelt
wird, dass der Pegel einer EMG über
eine Folge von Sprechperioden sehr niedrig werden kann, wie in 2 gezeigt
ist.
-
Das
heißt,
ein Phänomen
wird in 2 bestätigt, dass die Amplitude der
EMG in der Nähe
des 2-Sekunden-Punkts und des 2,5-Sekunden-Punkts geringer wird.
Bei dem Ablauf von 4 werden diese Abschnitte als
Nichtsprechperioden betrachtet. Durch Anfügen des Ablaufplans von 5 werden diese
Abschnitte jedoch nicht als Nichtsprechperioden bestimmt, sondern
können
als Sprechperioden betrachtet werden.
-
(Sprechperioden-Erfassungsverfahren)
-
In
der oben beschriebenen Sprechperioden-Erfassungsvorrichtung wird
ein Sprechperioden-Erfassungsverfahren, das im Folgenden beschrieben
wird, verwendet. Das heißt,
es wird ein Sprechperioden-Erfassungsverfahren verwendet, das umfasst:
einen EMG-Erfassungsschritt zum Erfassen einer EMG, die erzeugt
wird, während
ein Sprecher spricht (in Übereinstimmung
mit Schritt S41 in 4); und einen Sprechperioden-Erfassungsschritt
zum Erfassen einer Sprechperiode anhand der EMG, die durch den EMG-Erfassungsschritt
erfasst wird (in Übereinstimmung
mit den Schritten S42 bis S44 in 4); wobei
Informationen über
die Sprechperiode, die in dem Sprechperioden-Erfassungsschritt erfasst
wird, gemeldet werden. Gemäß dieser
Konfiguration kann eine Sprechperiode anhand einer EMG erfasst werden.
Demzufolge kann eine Sprechperiode unabhängig von dem Zustand der Umgebungsgeräusche erfasst
werden und deswegen ist eine Stimmerkennung in einer geräuschvollen
Umgebung möglich.
-
Es
erfolgt nun eine Beschreibung an einem Beispiel, bei dem eine Sprechperioden-Erfassungsvorrichtung
gemäß der vorliegenden
Erfindung bei einem mobilen Endgerät angewendet wird.
-
(Verwendungsbeispiel)
-
7 zeigt
ein Beispiel der Verwendung eines mobilen Endgeräts, bei dem eine Sprechperioden-Erfassungsvorrichtung
gemäß der vorliegenden Erfindung
verwendet wird. In der Figur wird angenommen, dass eine Datenübertragung
durch Verwendung eines mobilen Endgeräts, wie etwa ein Mobiltelefon,
ausgeführt
wird.
-
Wie
durch die gestrichelte Linie in der Figur gezeigt ist, ist ein mobiles Endgerät 1a mit
Oberflächenelektroden
für eine
EMG-Erfassung 10a und 10b und einem 20 versehen.
Die Oberflächenelektroden
zur EMG-Erfassung 10a und 10b sind auf der Seite
vorgesehen, die mit der Gesichtshaut eines Benutzers 100,
der ein Sprecher ist, in Kontakt ist. Dementsprechend kann während der
Verwendung des mobilen Endgeräts 1a eine
EMG von der Haut erfasst werden, mit der jede Elektrode des Paars
aus Oberflächenelektroden
für eine
EMG-Erfassung 10a und 10b in Kontakt ist.
-
Das
mobile Endgerät 1a,
das in der Figur gezeigt ist, ist ein so genanntes Klapp-Endgerät, das mit
einem Scharnier 21 versehen ist. Die vorliegende Erfindung
ist natürlich
auch bei einem Endgerät
anwendbar, das nicht mit dem Scharnier 21 versehen ist.
-
Es
wird als eine unveränderliche
Tatsache angenommen, dass dann, wenn eine Datenübertragung unter Verwendung
eines mobilen Endgeräts, wie
etwa ein Mobiltelefon, ausgeführt
wird, das des Endgeräts
in der Nähe
des Munds eines Benutzers positioniert ist und der Lautsprecher
sich in der Nähe seiner
Ohren befindet.
-
Es
wird angenommen, dass sich das aktuelle Mobiltelefon-Endgerät zukünftig in
seiner Form nicht stark ändern
wird, obwohl es miniaturisiert werden könnte. Ein wichtiger Punkt besteht
somit darin, dass ein mobiles Endgerät, insbesondere ein Endgerät für eine Konversation,
wie etwa ein Mobiltelefon-Endgerät, in Kontakt
mit der Haut verwendet wird. Das bedeutet, dass eine Oberflächenelektrode
mit der Haut in Kontakt sein kann, ohne dass dem Benutzer ein unangenehmes
Gefühl
entsteht.
-
Wenn
eine Sprechperiode unter Verwendung einer Kamera erfasst wird, wie
dies in Techniken nach dem Stand der Technik erfolgte, muss eine Kamera
oder ein Sensor lediglich für
diesen Zweck an einer gewünschten
Position eingestellt werden. Bei der Verwendung einer EMG ist es
jedoch möglich,
eine Sprechperiode zu erfassen, ohne die gewöhnliche Form zu verändern, d.
h. die Form der Verwendung eines mobilen Endgeräts in Kontakt mit der Haut,
und ohne eine weitere Operation oder eine Einstellung eines Sensors
auszuführen.
-
Kurz
gesagt, da ein mobiles Endgerät
zur Verwendung üblicherweise
an die Haut gepresst wird, ist eine Affinität zwischen dieser Verwendungsform
und der vorliegenden Erfindung sehr hoch.
-
(Anordnung von Elektroden)
-
Die 8A und 8B zeigen
ein Beispiel der Anordnung von Elektroden. In der Figur ist ein Beispiel
gezeigt, bei dem ein mobiles Endgerät mit Elektroden für eine EMG-Erfassung
versehen ist. In dem in 8A gezeigten
Beispiel ist das mobile Endgerät 1a mit
verhältnismäßig großen Oberflächenelektroden 10c und 10d versehen.
Jede der Oberflächenelektroden 10c und 10d ist
eine ebene Elektrode mit einer Größe von z. B. 2 cm × 3 cm.
Die Oberflächenelektrode 10c sollte
z. B. mit dem Wangenabschnitt eines Benutzers in Kontakt sein und
die Oberflächenelektrode 10d sollte
z. B. mit dem Mundabschnitt des Benutzers in Kontakt sein, und dadurch
kann von dem Elektrodenpaar ein EMG erfasst werden.
-
In
dem in 8B gezeigten Beispiel ist das mobile
Endgerät 1a mit
nadelförmigen
Oberflächenelektroden 10e und 10f versehen.
Jede der nadelförmigen
Oberflächenelektroden 10e und 10f ist
eine Elektrode des Nadeltyps mit einem Durchmesser von z. B. 1 mm.
Die nadelförmigen
Oberflächenelektroden 10e und 10f sollten
mit dem Wangenabschnitt eines Benutzers in Kontakt sein und dadurch
kann von dem Elektrodenpaar eine EMG erfasst werden.
-
Die
oben beschriebenen Oberflächenelektroden
sind lediglich Beispiele und ein Elektrodenpaar zum Erfassen einer
EMG mit einer beliebigen Form kann an dem Gehäuse des mobilen Endgeräts 1a vorgesehen
sein. Die Oberflächenelektroden
müssen
jedoch an einem Abschnitt des Gehäuses des mobilen Endgeräts 1a vorgesehen
sein, der mit der Haut eines Sprechers in Kontakt sein sollte, während er
spricht. Die Konfiguration einer Schaltung zum Messen einer EMG,
die über
die oben beschriebenen Oberflächenelektroden
erhalten wird, ist wohlbekannt und deswegen ist ihre Beschreibung
weggelassen.
-
(Beispiel der Funktionsweise)
-
9 ist
ein Ablaufplan, der ein Beispiel der Funktionsweise eines mobilen
Endgeräts
zeigt, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung verwendet wird.
-
In
dieser Figur berührt
ein Benutzer das mobile Endgerät
zuerst mit seiner Haut. Nach dem Kontakt wird über Oberflächenelektroden zur EMG-Erfassung,
die mit der Haut in Kontakt sind, eine EMG erfasst (Schritt S81).
-
Wenn
der Benutzer zu sprechen beginnt, beginnen Muskeln um seinen Mund
zu wirken und deswegen wird in der erfassten EMG im Vergleich mit dem
Zeitpunkt des Nichtsprechens (der Zustand, in dem keine Sprache
ausgesprochen wird, d. h. ein Ruheabschnitt bei der gewöhnlichen
Stimmerkennung) eine große
Amplitude beobachtet. Durch Erfassen dieser großen Amplitude wird ein Sprachstartzeitpunkt
erfasst (Schritt S82).
-
Wenn
die Sprache endet, wird die Amplitude der erfassten EMG klein. Durch
Erfassen des Punkts, an dem die Amplitude klein wird, wird ein Sprachendpunkt
erfasst (Schritt S83).
-
Der
erfasste Sprachstartzeitpunkt und der erfasste Sprachendzeitpunkt
werden dann nach außen
gemeldet (Schritt S84). Ein nachfolgender Stimmerkennungsalgorithmus
oder eine nachfolgende Stimmerkennungsvorrichtung wird darüber benachrichtigt
und veranlasst, eine Stimmerkennung zu beginnen.
-
Die
oben genannte Operation wird wiederholt ausgeführt (Schritt S85).
-
10 ist
ein Ablaufplan, der ein weiteres Beispiel der Funktionsweise eines
mobilen Endgeräts
zeigt, bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung verwendet wird. Der Unterschied der Funktionsweise in 10 von
der Funktionsweise in 9 besteht darin, dass dann,
wenn ein Sprachstartzeitpunkt erfasst wird, dieser sofort an einen
Erkennungsalgorithmus oder eine Stimmerkennungsvorrichtung gemeldet wird.
-
In
dieser Figur berührt
ein Benutzer das mobile Endgerät
zuerst mit seiner Haut. Nach dem Kontakt wird über Oberflächenelektroden zur EMG-Erfassung,
die mit der Haut in Kontakt sind, eine EMG erfasst (Schritt S91).
-
Wenn
der Benutzer zu sprechen beginnt, beginnen Muskeln um seinen Mund
zu wirken und deswegen wird in der erfassten EMG im Vergleich zu dem
Zeitpunkt des Nichtsprechens eine große Amplitude beobachtet. Durch
Erfassen dieser großen
Amplitude wird ein Sprachstartzeitpunkt erfasst (Schritt S92). In
Reaktion auf die Erfassung des Sprachstartzeitpunkts werden Informationen über diese
Wirkung nach außen
gemeldet (Schritt S93).
-
Wenn
das Sprechen endet, wird die Amplitude der erfassten EMG klein.
Durch Erfassen des Punkts, an dem die Amplitude klein wird, wird
ein Sprachendzeitpunkt erfasst (Schritt S94). In Reaktion auf die
Erfassung des Sprachendzeitpunkts werden Informationen über diese
Wirkung nach außen
gemeldet (Schritt S95). Die oben genannte Operation wird wiederholt
ausgeführt
(Schritt S96).
-
Wie
oben beschrieben wurde, wird durch das Melden des erfassten Sprachstartzeitpunkts
und des erfassten Sprachendzeitpunkts nach außen ein nachfolgender Stimmerkennungsalgorithmus
oder eine Stimmerkennungsvorrichtung darüber informiert und veranlasst,
eine Stimmerkennung zu beginnen.
-
Bei
der Operation in Übereinstimmung
mit dem Ablaufplan, der in 10 gezeigt
ist, können
die Stimmerkennungsverarbeitung durch den Stimmerkennungsalgorithmus
oder die Stimmerkennungsvorrichtung und die Sprechperioden-Erfassungsverarbeitung
getrennt ausgeführt
werden. Mit anderen Worten, während
bei dem Ablaufplan, der in 9 gezeigt
ist, der Stimmalgorithmus oder die Stimmerkennungsvorrichtung in
enger Beziehung mit der Sprechperioden-Erfassungsverarbeitung stehen müssen, können sie
bei dem Ablaufplan, der in 10 gezeigt
ist, separat arbeiten.
-
Ferner
ist 11 ein Ablaufplan, der ein weiteres Beispiel der
Funktionsweise eines mobilen Endgeräts zeigt, bei dem eine Sprechperiode-Erfassungsvorrichtung
gemäß der vorliegenden
Erfindung verwendet wird. In dem Ablaufplan, der in 11 gezeigt
ist, ist die Unabhängigkeit
von einem Stimmerkennungsalgorithmus oder einer Stimmerkennungsvorrichtung
größer im Vergleich
zu den Ablaufplänen, die
in den 9 und 10 gezeigt sind.
-
Ein
Benutzer berührt
das mobile Endgerät zuerst
mit seiner Haut. Nach dem Kontakt wird über Oberflächenelektroden zur EMG-Erfassung
eine EMG erfasst (Schritt S101).
-
Wenn
der Benutzer zu sprechen beginnt, beginnen Muskeln um seinen Mund
zu wirken und deswegen wird in der erfassten EMG im Vergleich zu dem
Zeitpunkt des Nichtsprechens eine große Amplitude beobachtet. Durch
Erfassen dieser großen
Amplitude wird ein Sprachstartzeitpunkt erfasst (Schritt S102).
In Reaktion auf die Erfassung des Sprachstartzeitpunkts wird begonnen,
das Stimmsignal in einer Stimmsignaldatenbank DB zu sichern (Schritt S103).
-
Wenn
die Sprache endet, wird die Amplitude der erfassten EMG klein. Durch
Erfassen des Punkts, an dem die Amplitude klein wird, wird ein Sprachendzeitpunkt
erfasst (Schritt S104). In Reaktion auf die Erfassung des Sprachendzeitpunkts
endet das Sichern in der Stimmsignaldatenbank DB (Schritt S105).
Nachdem das Sichern beendet wurde, werden die in der Stimmsignaldatenbank
DB gesicherten Stimmsignaldaten nach außen gemeldet, wie etwa an einen
Audioerkennungsalgorithmus (Schritt S106).
-
Wie
oben beschrieben wurde, werden in dem in 11 gezeigten
Ablaufplan ein Sprachstartzeitpunkt und ein Sprachendzeitpunkt unter
Verwendung einer EMG erfasst und Stimmsignaldaten für eine dementsprechende
Sprechperiode werden in der Stimmsignaldatenbank DB gesichert. Die
gesicherten Stimmsignaldaten werden dann an einen Erkennungsalgorithmus
oder eine Stimmerkennungsvorrichtung übertragen.
-
Gemäß der oben
beschriebenen Funktionsweise ist es möglich, ein mobiles Endgerät zu verwenden,
bei dem eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden
Erfindung in Kombination mit einem üblichen Stimmerkennungsalgorithmus
oder einer üblichen
Stimmerkennungsvorrichtung verwendet wird, ohne den Stimmerkennungsalgorithmus
oder die Stimmerkennungsvorrichtung besonders zu verändern. Die
Kombination mit einer Stimmerkennungsvorrichtung wird später beschrieben.
-
(Zusammenfassung der Sprechperioden-Erfassungsvorrichtung)
-
Wenn
eine Sprechperioden-Erfassungsvorrichtung gemäß der vorliegenden Erfindung
bei einem Mobiltelefon-Endgerät
angewendet wird, ist die Konfiguration in der Weise, die in 12 gezeigt
ist. Das heißt,
ein mobiles Endgerät 1a umfasst
eine Sprechperioden-Erfassungsvorrichtung 1 und einen Datenübertragungssteuerabschnitt 2.
Der Datenübertragungssteuerabschnitt 2 führt eine
Stimmerkennungsverarbeitung anhand von Daten über eine Sprechperiode aus,
die von der Sprechperioden-Erfassungsvorrichtung 1 gemeldet
werden. Der Datenübertragungssteuerabschnitt 2 kann
derart sein, dass er Datenübertragungen
von Mobiltelefonen der zweiten Generation, Datenübertragungen von Mobiltelefonen
der dritten Generation und Datenübertragungen
von Mobiltelefonen einer höheren
Generation realisiert, und kann eine beliebige Konfiguration aufweisen.
-
Mit
dem Datenübertragungssteuerabschnitt 2 sind
ein 20, ein Lautsprecher SP, ein Anzeigeabschnitt D und
Antenne ANT verbunden.
-
Wenn
die oben beschriebene Konfiguration von 11 verwendet
wird, bei der eine größere Unabhängigkeit
zwischen der Sprechperioden-Erfassungsvorrichtung 1 und
dem Datenübertragungssteuerabschnitt 2 vorhanden
ist, sollte die oben beschriebene Stimmsignaldatenbank DB zwischen
der Sprechperioden-Erfassungsvorrichtung 1 und
dem Datenübertragungssteuerabschnitt 2 vorhanden sein,
wie in 13 gezeigt ist. Durch Sichern
von Stimmsignaldaten in der Stimmsignaldatenbank DB sollten die
Stimmsignaldaten von der Sprechperioden-Erfassungsvorrichtung 1 an
den Datenübertragungssteuerabschnitt 2 geleitet
werden.
-
(Anwendung bei einem Übertragungssystem)
-
Die
oben beschriebene Sprechperioden-Erfassungsvorrichtung kann bei
einem Übertragungssystem,
um eine Codierungsverarbeitung für
ein Sprechstimmsignal auszuführen,
das einer Sprechperiode entspricht, und zum Übertragen des codierten Stimmsignals
angewendet werden. Die Beschreibung hiervon erfolgt nachstehend.
-
Ein
mobiles Datenübertragungsendgerät, wie etwa
ein Mobiltelefon, kann nicht mit einer Batterie mit großer Kapazität ausgerüstet werden.
Um die Zeit der ununterbrochenen Benutzung eines mobilen Datenübertragungsendgeräts zu verlängern, muss die
Lebensdauer der Batterie verbessert werden. Dementsprechend wird
in einem Mobiltelefon das Vorhandensein/Fehlen einer Stimme unter
Verwendung einer Stimmaktivitätserfassung
(VAD) bestimmt. Während
einer Nichtsprechperiode wird eine intermittierende Übertragung
ausgeführt,
bei der eine sehr kleine Menge von Informationen übertragen wird,
oder die Übertragung
wird angehalten. Die intermittierende Übertragung ist wirkungsvoll
für eine Verlängerung
der Batterielebensdauer und die Verringerung der Störung für ein Mobiltelefon.
Dies wird beschrieben von Naka, Ohya, Saegusa und Hama in "Featured: Mobile
Multimedia Signal Processing Technology – Voice Coding Technology" (NTT DoCoMo Technical
Journal, Bd. 8, Nr. 4, S. 25–33,
2001).
-
Die
Vorteile der VAD sind nicht darauf beschränkt. Bei dem Code-Mehrfachzugriff-Verfahren (CDMA-Verfahren),
einem Verfahren, das für
Dienste von Mobiltelefonen der dritten Generation verwendet wird,
die gegenwärtig
vertrieben werden, ist außerdem
ein Vorteil der effektiven Nutzung von Übertragungskanälen gegeben.
Das heißt,
durch die Reduzierung von Informationen, die während einer Nichtsprechperiode übertragen
werden, kann der Datenübertragungskanal
einem anderen Benutzer zugewiesen werden und dadurch kann der Datenübertragungskanal
effektiv genutzt werden.
-
Die
VAD ist ein Verfahren, bei dem Leistung, Tonhöhe oder ein Ton eines erfassten
Stimmsignals extrahiert wird, um eine Sprechperiode zu erfassen. Die
VAD, die bei einem Mobiltelefon angewendet wird, ist speziell in
3GPP TS26.094 spezifiziert. Ein Stimmsignal wird für jeden
Rahmen von 20 ms, 40 ms und dergleichen codiert und übertragen.
-
Bei
der VAD wird jedoch eine Sprechperiode unter Verwendung eines Stimmsignals
erfasst und es wird deswegen, nachdem die tatsächliche Sprache erfolgt ist,
bestimmt, dass eine Sprache begonnen hat. Das heißt, der
Zeitpunkt, an dem durch die VAD der Beginn einer Sprache bestimmt
wird, liegt im Prinzip nach dem tatsächlichen Sprachstartzeitpunkt. Der
gleiche Rahmen, der zum Codieren verwendet wird, wird als ein Rahmen
verwendet, für
den die VAD ausgeführt
wird. Die Bestimmung durch die VAD wird ausgeführt, nachdem die Zeit, die
der Rahmenlänge entspricht,
abgelaufen ist, und anschließend
wird eine Verarbeitung für
die Bestimmung ausgeführt. Deswegen
besteht ein Problem dahingehend, dass der Zeitpunkt, an dem die
Codierung ausgeführt
wird, nach der Bestimmung durch die VAD liegt, und dadurch eine
Verzögerung
bewirkt wird.
-
Wenn
z. B. der Sprachstartzeitpunkt dem Beginn eines Rahmens entspricht,
werden wenigstens 20 ms (die der Zeit entsprechen, die einer verwendeten
Rahmenlänge
entspricht) bis zu einem Zeitpunkt benötigt, an dem ein Sprachstartzeitpunkt
bestimmt wird. Außerdem
wird ferner eine Verzögerung bewirkt,
die der Zeit entspricht, die für
eine Bestimmungsverarbeitung durch die VAD benötigt wird. Bei Echtzeit-Datenübertragungen,
wie etwa ein Sprachanruf bei Verwendung eines Mobiltelefons, ist
eine kürzere
Verzögerung
günstiger.
Deswegen gilt in Bezug auf die Verzögerung durch die VAD, je kürzer, desto
besser.
-
Wenn
ferner der Sprachstartzeitpunkt in der Mitte oder der späteren Hälfte eines
Rahmens liegt, sind in dem Rahmen, der den tatsächlichen Sprachstartzeitpunkt
enthält,
eine Nichtsprechperiode und eine Sprechperiode gemischt. 14 zeigt
z. B. ein Stimmsignal S, eine Rahmenfolge B, für die die VAD ausgeführt werden
soll, und eine codierte Rahmenfolge C. Bei der Rahmenfolge B, für die die
VAD auszuführen
ist, werden die schraffierten Rahmen als Nichtsprechperioden bestimmt
und die nichtschraffierten Abschnitte werden als Sprechperioden
bestimmt. Bei der codierten Rahmenfolge C werden Rahmen mit einer
Rasterpunktmarkierung bei einer niedrigen Bitrate codiert und Rahmen
ohne Rasterpunktmarkierung werden bei einer hohen Bitrate codiert.
Dadurch werden die Rahmen, die bei einer hohen Bitrate codiert werden,
mit einer hohen Qualität gesendet
und empfangen und die Rahmen, die bei einer niedrigen Bitrate codiert
werden, werden bei einer niedrigen Qualität gesendet und empfangen.
-
Wie
in den Figuren gezeigt ist, befindet sich der Sprachstartzeitpunkt
der eigentlichen Sprechperioden in der Mitte eines Rahmens F in
der Rahmenfolge B, für
die die VAD ausgeführt
wird. Deswegen kann der Rahmen F als eine Nichtsprechperiode bestimmt
werden, wie in der Figur gezeigt ist. Demzufolge liegt in diesem
Fall ein bestimmter Sprachstartzeitpunkt nach dem eigentlichen Sprachstartzeitpunkt.
Folglich können
die Daten am Beginn der eigentlichen Sprache verloren gehen.
-
Ferner
ist, wie in 14 gezeigt ist, das Stimmsignal
S gewöhnlich
dadurch gekennzeichnet, dass seine Amplitude allmählich ansteigt,
ohne dass eine plötzliche
große
Amplitude am Beginn einer Sprache beobachtet wird. Deswegen ist
es schwierig, den Beginn einer Sprache genau zu erfassen. Er kann
einfacher erfasst werden, wenn ein Schwellenwert für die Erfassung
eines Stimmsignals niedrig eingestellt wird. Eine Möglichkeit
der fehlerhaften Erfassung infolge von Umgebungsstörungen wird
jedoch größer. Demzufolge
muss der Schwellenwert in gewissem Umfang hoch eingestellt werden.
Wenn der Schwellenwert in gewissem Umfang hoch eingestellt wird,
ist es jedoch schwierig, den Beginn einer Sprache mit einer kleinen
Amplitude genau zu erfassen. Insbesondere in einer geräuschvollen
Umgebung ist es schwierig, den Beginn einer Sprache genau zu erfassen,
da die Erfassung einer Sprache mit VAD schwierig ist, wenn die Sprechlautstärke gering ist
und ein Stimmsignal in Geräuschen
verborgen ist. Aus dem oben genannten Grund wird ein Rahmen, der
dem tatsächlichen
Beginn einer Sprache entspricht, als eine Nichtsprechperiode bestimmt,
wodurch Probleme entstehen, wie etwa der Verlust des Beginns der
Sprache und eine Verschlechterung der Anrufqualität.
-
Es
gibt ferner ein weiteres Problem dahingehend, dass in einer geräuschvollen
Umgebung eine Periode, in der ein Benutzer keine Sprache äußert (d. h.
eine Periode, die eigentlich als eine Nichtsprechperiode bestimmt
wird), infolge des Einflusses von Umgebungsgeräuschen als eine Sprechperiode
bestimmt wird. Dies bewirkt ein Problem, dass Informationen unnötigerweise
gesendet werden müssen,
die Batterielebensdauer eines Mobiltelefons verkürzt wird und Datenübertragungskanäle unnötig verwendet
werden.
-
Wenn
eine Verzögerung
zulässig
ist, gibt es kein Problem bei der Verwendung eines Verfahrens zum
Erfassen einer Sprechperiode lediglich mit einem Stimmsignal. Das
ist der Fall, da ein Sprachstartzeitpunkt durch eine spätere Betrachtung
der Signalform gekennzeichnet werden kann. Für eine Stimmübertragung
und Verwendung eines Mobiltelefons ist jedoch eine Echtzeit-Datenübertragung
wichtig und die Verzögerung
muss möglichst
kurz sein. Eine Verzögerung
kann z. B. verkürzt
werden, indem ein Sprechsignal immer bei einer hohen Bitrate übertragen
wird, unabhängig
davon, ob eine Periode eine Nichtsprechperiode oder eine Sprechperiode
ist, und ohne die Verwendung der VAD. Eine Verbesserung der Batterielebensdauer
eines Mobiltelefons und eine effektive Nutzung von Datenübertragungskanälen sind
jedoch erforderlich und das Verfahren ohne Verwendung der VAD kann
keine realistische Lösung sein.
Um einen Verlust des Beginns einer Sprache und einer Verschlechterung
der Da tenübertragungsqualität zu vermeiden,
ist es demzufolge erforderlich, die Bestimmung einer Sprechperiode
vor dem tatsächlichen
Sprachstartzeitpunkt auszuführen.
Um eine unnötige
Datenübertragung
zu vermeiden, ist es ferner erforderlich, eine Sprechperiode selbst
bei einer geräuschvollen
Umgebung korrekt zu erfassen, und es ist erwünscht, eine Sprechperiode unter
Verwendung eines Verfahrens zu erfassen, das nicht durch Umgebungsgeräusche beeinflusst
wird.
-
Es
wird allgemein angemerkt, dass eine EMG vor einem Stimmsignal beobachtet
wird. 15 zeigt ein Beispiel der eigentlichen
Beobachtung einer EMG. Die Figur zeigt Signalformen eines Stimmsignals
S und einer EMG D, wenn "nana" ausgesprochen wird.
Unter Bezugnahme auf die Figur wird festgestellt, dass die EMG D
um eine Zeitspanne t vor dem Stimmsignal S beobachtet wird.
-
16 zeigt
den Zeitverlauf der Erzeugung einer EMG und eines Stimmsignals.
Wie in der Figur gezeigt ist, wird dann, wenn eine Anweisung zum Ausführen einer
Sprechbewegung vom Gehirn an Muskeln übertragen wird (Schritt S201)
eine EMG zuerst erzeugt (Schritt S202) und dann beginnt die Kontraktion
von Muskeln (Schritt S203). Anschließend beginnt die Erzeugung
einer Stimme (Schritt S204). Dadurch wird eine Sprache begonnen.
-
17 zeigt
den Zeitverlauf der Erfassung einer Sprechperiode für eine EMG
und den Zeitverlauf der Verarbeitung, die in dem Mobiltelefon ausgeführt wird.
In der Figur ist in dem Mechanismus in dem sprechenden menschlichen
Wesen die Periode von der Erzeugung einer EMG (Schritt S202) bis
zum Beginn der Erzeugung einer Stimme (Schritt S204) eine Nichtsprechperiode
und die Perioden nach der Erzeugung einer Stimme (Schritt S204)
ist eine Sprechperiode.
-
In
der Sprechperioden-Erfassungsvorrichtung werden Routinen zum Messen
einer EMG und zum Erfassen eines Sprachbeginns für Nichtsprechperioden verarbeitet
(Schritt S205). Dann wird der Beginn einer Sprache durch das Erfassen
der Erzeugung einer EMG erfasst und der Sprachbeginn wird an das
Mobiltelefon gemeldet (Schritt S206). Anschließend geht die Sprechperioden-Erfassungsvorrichtung
zu einer Leitverarbeitung zum Erfassen der Beendigung der Sprache.
Die Beendigung der Sprache kann außerdem durch die EMG erfasst werden.
-
In
dem Mobiltelefon wird eine intermittierende Übertragung in Nichtsprechperioden
ausgeführt (Schritt
S208). Anschließend
wird dann, wenn der Beginn einer Sprache durch die Sprechperioden-Erfassungsvorrichtung
gemeldet wird, ein Codierungsparameter in dem Mobiltelefon geändert (Schritt S209)
und es wird in den nachfolgenden Sprechperioden eine ununterbrochene Übertragung
ausgeführt (Schritt
S210).
-
Eine
EMG kann gemessen werden, ohne dass sie durch Umgebungsgeräusche beeinflusst
ist. Dementsprechend ist es durch Erfassen einer Sprechperiode unter
Verwendung einer EMG möglich,
eine Sprechperiode vor dem tatsächlichen Sprachstartzeitpunkt
auszuführen,
ohne dass eine Beeinflussung durch Umgebungsgeräusche erfolgt.
-
18A zeigt die Konfiguration bei der Erfassung
einer Sprechperiode, wobei lediglich VAD verwendet wird, und 18B zeigt die Konfiguration bei der Erfassung
einer Sprechperiode, indem VAD und eine EMG verwendet werden. In 18A, die dem Lösungsansatz
nach dem Stand der Technik entspricht, wird der Zeitablauf der Codierung
durch eine Codiereinrichtung 210 zum Ausgeben eines Bitstroms
mit einem Stimmsignal als ein Eingabesignal durch ein Ergebnis der
Erfassung einer Sprechperiode durch einen VAD-Abschnitt 220 bestimmt.
In 18B, die einem Lösungsansatz gemäß der vorliegenden
Erfindung entspricht, wird der Zeitablauf der Codierung durch die
Codiereinrichtung 210 nicht nur durch ein Ergebnis der
Erfassung einer Sprechperiode durch den VAD-Abschnitt 220 bestimmt,
sondern außerdem
durch ein Ergebnis der Erfassung einer Sprechperiode durch eine
Sprechperioden-Erfassungsvorrichtung 230 unter Verwendung
einer EMG. Durch das Erfassen einer Sprechperiode in der oben beschriebenen
Weise kann eine unnötige
Datenübertragung
verhindert werden und der Leistungsverbrauch kann verringert werden.
-
Es
ist möglich,
eine Sprechperiode robuster zu erfassen, indem die Sprechperiodenerfassung
anhand einer EMG und die Sprechperiodenerfassung anhand eines Stimmsignals
kombiniert werden. Bei Bewegungen wie etwa Gähnen und Husten und bei Mundbewegungen,
bei denen keine Sprache gebildet wird, kann die entsprechende Periode
bei einem Verfahren, das lediglich eine EMG verwendet, als eine
Sprechperiode erfasst werden. Durch Kombinieren einer EMG, die nicht
durch Umgebungsgeräusche
beeinflusst ist, und eines Stimmsignals, das nicht durch Bewegungen
beeinflusst ist, die nicht zu einer Sprache führen, kann jedoch eine robustere
Erfassung einer Sprechperiode möglich
sein. Das heißt,
wie in 19 gezeigt ist, durch Ausführen einer
integrierten Verarbeitung (Schritt S213) zum Integrieren einer Sprechperioden-Erfassungsverarbeitung
anhand einer EMG (Schritt S211) und einer Sprechperioden-Erfassungsverarbeitung
anhand eines Stimmsignals (Schritt S212) wird eine endgültige Ausgabe
eines Sprechperioden-Erfassungsergebnisses erreicht (Schritt S214).
-
Bei
der Ausführung
der integrierten Verarbeitung kann die VAD, die in 3GPP TS26.094
spezifiziert ist, für
die Sprechperiodenerfassung anhand eines Stimmsignals verwendet
werden. Die folgenden beiden Verfahren können für das Integrieren der Sprechperiodenerfassung
anhand einer EMG und der Sprechperiodenerfassung anhand eines Stimmsignals
verwendet werden.
-
Ein
erstes Verfahren besteht darin, ein endgültiges Erfassungsergebnis anhand
des Ergebnisses der Sprech-/Nichtsprecherfassung durch eine jeweilige
Verarbeitung zu erhalten. In diesem Fall kann lediglich eine Periode,
die durch Ergebnisse beider Verarbeitungen als eine Sprechperiode
bestimmt wird, abschließend
als eine Sprechperiode bestimmt werden. Alternativ kann eine Periode,
die durch wenigstens eine der Verarbeitungen als eine Sprechperiode
bestimmt wurde, abschließend
als eine Sprechperiode bestimmt werden.
-
Ein
zweites Verfahren besteht darin, ein endgültiges Erfassungsergebnis anhand
von Parametern zu erhalten, die in der Stufe erhalten werden, in der
die entsprechenden Verarbeitungen ein erfasstes Signal verarbeiten.
Die Parameter entsprechen einer Wahrscheinlichkeit oder Mutmaßlichkeit,
dass die zu bestimmende Periode eine Sprechperiode ist, und eine
Schwellenwertverarbeitung wird für
die Parameter ausgeführt,
um eine Sprechperiode zu erfassen. Im Fall einer EMG ist der Parameter
z. B. ein RMS.
-
Bei
dem zweiten Verfahren kann die Schwellenwertverarbeitung für Parameter
ausgeführt
werden, die als ein Ergebnis einer Gewichtung und durch Addieren
der Parameter beider Verarbeitungen erhalten werden, oder für Parameter,
die als Ergebnis einer Multiplikation der Parameter beider Verarbeitungen
erhalten werden. Durch Gewichten der Parameter kann spezifiziert
werden, welcher Parameter stärker
zu gewichten ist. Zum Beispiel kann durch stärkeres Gewichten der EMG in
einer geräuschvollen
Umgebung und durch stärkeres
Gewichten des Stimmsignals in einer Umgebung mit geringeren Geräuschen die
Genauigkeit des abschließenden
Erfassungsergebnisses verbessert werden.
-
Es
ist einfach, EMG-Messmittel in ein Mobiltelefon einzubauen. Da ein
Mobiltelefon gewöhnlich in
Kontakt mit einem Gesicht verwendet wird, kann es z. B. so konfiguriert
werden, wie unter Bezugnahme auf 7 beschrieben
wurde, um eine EMG zu messen. Gemäß der Konfiguration wird seine
Benutzerfreundlichkeit nicht besonders eingeschränkt.
-
Wie
oben beschrieben wurde, ist es unter Verwendung einer EMG möglich, eine
Sprechperiode vor dem tatsächlichen
Sprachstartzeitpunkt zu bestimmen. Indem dies bei einer VAD eines
Mobiltelefons angewendet wird, können
der Verlust des Beginns einer Sprache und eine Verschlechterung
der Datenübertragungsqualität vermieden
werden. Durch Bestimmen einer Sprechperiode unter Verwendung einer
EMG ist es ferner möglich,
eine Sprechperiode ohne Beeinflussung durch Umgebungsgeräusche zu
bestimmen. Indem dies bei einer VAD eines Mobiltelefons angewendet
wird, können lediglich
notwendige Datenübertragungen
ausgeführt werden,
ohne dass unnötige
Datenübertragungen
erfolgen. Als Ergebnis ist die Batterielebensdauer verbessert und
Datenübertragungskanäle können effektiv
genutzt werden.
-
(Stimmerkennungsvorrichtung)
-
Bei
einer Stimmerkennung werden Inhalte einer Sprache erkannt, indem
eine Signalverarbeitung für
ein Stimmsignal ausgeführt
wird, das von einem eingegeben wird. Bei der gegenwärtig ausgeführten Stimmerkennung
gibt es ein Problem, dass die Genauigkeit der Stimmerkennung in
einer geräuschvollen
Umgebung verschlechtert ist. Die Faktoren der Verschlechterung der
Erkennungs genauigkeit in einer geräuschvollen Umgebung sind z.
B., dass Geräusche
anders als ein betreffendes Stimmsignal gemischt sind und eine Sprechperiode
nicht in geeigneter Weise bestimmt werden kann. Bei dem zuerst genannten
Faktor ist ein Verfahren zum Modellieren eines Stimmsignals vorgeschlagen
worden, bei dem Geräusche
gemischt werden.
-
Es
ist ferner ein Verfahren der spektralen Subtraktion (das im Folgenden
als ein SS-Verfahren bezeichnet wird) zum Subtrahieren einer Geräuschkomponente
von einem gemessenen Signal vorgeschlagen worden, um die Genauigkeit
einer Stimmerkennung zu verbessern. Das SS-Verfahren ist beschrieben
von S.F. Boll in "Suppression
of acoustic noise in speech using spectral subtraction", (IEEE trans. Acoustics,
Speech, and Signal Processing, Bd. 27, Nr. 2, S. 113–120, 1979).
-
Als
ein Verfahren zum Erfassen einer Sprechperiode aus einem Stimmsignal
gibt es ein Erfassungsverfahren durch Berechnung der Leistung oder
der Tonhöhe
eines Signals. Dieses Verfahren ist in 3GPP TS26.094 spezifiziert.
-
Bei
der Erfassung einer Sprechperiode unter Verwendung eines Stimmsignals
ist es schwierig, eine Sprechperiode unter den Bedingungen einer
geräuschvollen
Umgebung zu erfassen. Wenn keine Sprechperiode erfasst werden kann,
kann natürlich keine
Stimmerkennung ausgeführt
werden. Wenn z. B. eine Nichtsprechperiode fälschlicherweise als eine Sprechperiode
bestimmt wurde, kann ein Einfügungsfehler
(ein Fehler, das ein nicht ausgesprochenes Wort oder Satz in ein
Erkennungsergebnis eingefügt
wird) bewirkt werden, und wenn eine Sprechperiode fälschlicherweise
als eine Nichtsprechperiode bestimmt wurde, kann ein Verlustfehler
(ein Fehler, dass ein ausgesprochenes Wort oder Satz nicht erkannt
wird) bewirkt werden. Das SS-Verfahren ist ein Lösungsansatz, bei dem eine Geräuschsignalkomponente
von einem beobachteten Signal, in dem ein Stimmsignal und ein Geräuschsignal
gemischt sind, subtrahiert wird, um lediglich das Stimmsignal zu
extrahieren. Obwohl dieser Lösungsansatz
zum Erkennen eines Stimmsignals, das mit Geräuschen gemischt ist, wirkungsvoll
ist, ist es natürlich
unmöglich, den
Lösungsansatz
anzuwenden, wenn keine Sprechperiode erfasst werden kann.
-
Wenn
es möglich
ist, eine Sprechperiode ohne Beeinflussung durch Umgebungsgeräusche zu erfassen,
können
Fehler bei der Stimmerkennung vermindert werden. Wenn es ferner
möglich
ist, eine Sprechperiode in geeigneter Weise zu erfassen, kann das
SS-Verfahren effektiver angewendet werden, wodurch die Erkennungsgenauigkeit
verbessert werden kann. Aus diesem Grund wird die oben beschriebene
EMG verwendet.
-
Als
Verfahren, das bei der Kombination mit Stimmerkennung verwendet
wird, gibt es ein Verfahren zur vorübergehenden Speicherung von
Stimmsignaldaten innerhalb einer erfassten Sprechperiode in einer
Stimmsignaldatenbank, um sie zu einem Stimmerkennungssystem zu senden,
nachdem die Sprache beendet ist, wie in 11 gezeigt
ist, sowie ein Verfahren zur Übertragung
lediglich einer erfassten Sprechperiode an ein Stimmerkennungssystem.
-
Das
zuerst genannte System ist dadurch gekennzeichnet, dass ein Stimmsignal
durch mehrere Stimmerkennungssysteme verarbeitet werden kann und
dass dann, wenn die Bestimmung einer Sprechperiode, die unter Verwendung
einer EMG ausgeführt
wird, fehlerhaft ist, der Fehler später modifiziert werden kann
und ein Stimmsignal, das einer geeigneten Sprechperiode entspricht,
kann übertragen werden.
-
Um
das zuletzt genannte Verfahren zu realisieren, kann es durch einen
Sprechperioden-Erfassungsabschnitt 301, der umfasst: Messungen
einer EMG (Schritt S311), Erfassung eines Sprachstartzeitpunkts
(Schritt S312) und Erfassung eines Sprachendzeitpunkts (Schritt
S313), und einen Stimmerkennungsabschnitt 300, der umfasst:
Messung eines Stimmsignals (Schritt S321), Beginn einer Stimmerkennung
(Schritt S322) und Beendigung einer Stimmerkennung (Schritt S323),
konfiguriert werden, wie in 20 gezeigt
ist. Wenn die Messung einer EMG (S311) und die Messung eines Stimmsignals
(Schritt S321) begonnen werden, wird eine Stimmerkennung begonnen
(Schritt S322), wenn ein Sprachstartzeitpunkt erfasst wird (Schritt
S312). Wenn ein Sprachendzeitpunkt erfasst wird (Schritt S313) endet
die Stimmerkennung (Schritt S323). Gemäß diesem Prozess wird eine
Stimmerkennung lediglich für
eine erfasste Sprechperiode ausgeführt, so dass das Verfahren
dadurch gekenn zeichnet ist, dass es mit einem kleineren Speicher
realisiert werden kann, die Verarbeitung kann einfacher als bei
dem zuerst genannten Verfahren ausgeführt werden und eine Integration
mit einem vorhandenen Stimmerkennungssystem kann in einfacher Weise
realisiert werden.
-
Es
erfolgt nun unter Bezugnahme auf 21 eine
Beschreibung des Verfahrens, bei dem dann, wenn eine Bestimmung
einer Sprechperiode, die unter Verwendung einer EMG ausgeführt wird,
fehlerhaft ist, die gespeicherten Daten später modifiziert werden, um
eine geeignete Sprechperiode zu erfassen. Die Figuren zeigen eine
EMG D, wenn keine Sprache erfolgt, und ein Ergebnis der Bestimmung einer
Sprechperiode für
die EMG D.
-
Wenn
eine Bewegung, wie etwa Gähnen oder
Husten, oder eine Mundbewegung ausgeführt wird, während keine Sprache erfolgt,
ist ein Signal, das der Bewegung entspricht, in die EMG D gemischt.
In der Figur wird die Mischung eines derartigen Signals von dem
Punkt in der Nähe
von 3700 ms bis zu dem Punkt in der Nähe von 4500 ms erkannt. Wenn
in einem solchen Fall eine Sprechperiode lediglich unter Verwendung
der EMG D bestimmt wird, kann die oben beschriebene Periode als
eine Sprechperiode bestimmt werden.
-
In
der Figur werden die beiden in der Figur enthaltenen Rahmen, die
durch eine Halbtonpunktmarkierung angegeben sind, gemäß dem anfänglichen
Bestimmungsergebnis als Sprechperioden erfasst. Zurückblickend
auf die beiden Rahmen, die als Sprechperioden bestimmt wurden, von
dem Punkt von 6000 ms in der Figur, können sie jedoch in der Weise
eingeschätzt
werden, dass sie nicht durch eine Sprache begleitet werden, da die
Leistung des Stimmsignals, die den Rahmen entspricht, die als Sprechperioden
bestimmt wurden, gering ist und die Länge der Perioden, die als Sprechperioden
bestimmt wurden, kurz ist. Durch Verwendung weiterer Informationen,
die später
erhalten werden, oder durch ein späteres Zurückblicken, das oben beschrieben
wurde, kann eine fehlerhafte Bestimmung modifiziert werden.
-
Kriterien
für eine
derartige fehlerhafte Bestimmung sollten durch die Art der Aufgabe
oder der betreffenden Sprache (nur aufeinanderfolgende Zahlen, natürliche Unterhaltung,
lediglich bestimmte Wörter,
wie etwa Ortsbezeichnungen und dergleichen) oder durch Charakteristiken
eines Benutzers oder einer Umgebung (z. B. Neigung zu Husten oder Gähnen, Pegel
der Umgebungsgeräusche
und dergleichen) festgelegt werden. In der Figur werden als ein
Ergebnis des späteren
Zurückblickens
auf die Perioden, die anfänglich
als Sprechperioden bestimmt wurden, die Perioden als ein endgültiges Bestimmungsergebnis
als Nichtsprechperioden modifiziert. Dadurch ist eine bessere Erfassung
einer Sprechperiode möglich.
-
Wie
in dem Abschnitt "Anwendung
auf ein Übertragungssystem" beschrieben ist,
ist es ferner möglich,
eine Sprechperiode zu erfassen, indem nicht nur eine EMG verwendet
wird, sondern indem eine EMG in Verbindung mit einem Stimmsignal
verwendet wird.
-
Wenn
die vorliegende Erfindung bei einem Mobiltelefon angewendet wird,
kann das Mobiltelefon als ein Endgerät verwendet werden, wie in
den 8 und 9 gezeigt
ist. Wenn die vorliegende Erfindung bei einer Sprechgarnitur angewendet
wird, kann die Sprechgarnitur in der in den 22A und 22B gezeigten Weise konfiguriert sein. Das heißt, wie
in 22A gezeigt ist, ist ein EMG-Messabschnitt 50 für die Sprechgarnitur 40 vorgesehen,
in der ein 20 und ein Gehörgang-Ohrhörer/Lautsprecher 30 integriert
sind. Wie in 22B gezeigt ist, ist ein EMG-Messabschnitt 50 für eine Sprechgarnitur 40 vorgesehen,
in der ein 20 und ein Lautsprecher 31 des Kopfhörertyps
integriert sind. Beide EMGs 50 sind mit Elektroden zum
Messen einer EMG vorgesehen, wobei die Elektroden seitlich in Kontakt
mit der Gesichtshaut des Benutzers 100 vorgesehen sind.
-
Durch
Verwenden einer Sprechgarnitur mit der Konfiguration, die in den 22A oder 22B gezeigt
ist, ist es möglich,
eine EMG zu erfassen, eine Sprechperiode anhand der EMG zu erfassen und
eine Stimmerkennungsverarbeitung ähnlich wie in den Fällen der 7 und 8 auszuführen.
-
Wenn
es möglich
ist, in der oben beschriebenen Weise eine Sprechperiode ohne Beeinflussung durch
Geräusche
zu erfassen, kann das SS-Verfahren
bei der Erkennung eines Stimmsignals, das mit Geräuschen gemischt
ist, wirkungsvoll angewendet werden und dadurch können eine
Verbesserung der Genauigkeit der Stimmerkennung und eine Stimmerkennung
mit weniger Einfügungsfehlern
und Verlustfehlern realisiert werden.
-
(Signalpegel-Steuervorrichtung)
-
Bei
einer Tätigkeit,
die eine telephonische Unterhaltung mit anderen Personen (insbesondere mit
Kunden) erfordert z. B. bei Telefonappointern, ist es wichtig, zu
bewirken, dass ein Gesprächspartner sich
nicht unwohl fühlt
und keine vertraulichen Informationen unnötig preisgegeben werden. In
einer Szene, bei der mehrere Personen über ein sprechen, z. B. bei
einer Konferenz, einer Diskussion oder in einem Studio einer Fernsehstation,
ist es notwendig, dass ein Stimmsignal, das an ein Publikum übertragen
werden soll, ein hochwertiges Stimmsignal ohne eingemischte Geräusche sein
sollte.
-
Ein
Punkt, der den beiden Szenen gemeinsam ist, besteht darin, dass
Geräusche,
die durch ein eingefangen werden, nicht an einen Gesprächspartner
oder ein Publikum übertragen
werden sollten, wenn eine Person, die das in ihrer Hand hält, oder wenn
das an der Person angebracht ist, nicht spricht. In dem Fall des
Telefonappointers sollten z. B. Umgebungsgeräusche nicht übertragen
werden, wenn der Appointer nicht spricht, und Inhalte von vertraulichen Informationen,
wie etwa persönliche
Informationen, sollten nicht übertragen
werden, wenn derartige Informationen in der Umgebung des Appointers
ausgesprochen werden. Das Gleiche gilt für eine Konferenz, eine Diskussion
oder ein Studio in einer Fernsehstation.
-
Um
dies zu erreichen, wird ein Telefonhörer mit einer Haltefunktion
versehen und ein, das für Sprecher
vorgesehen ist, die eine Konferenz oder eine Diskussion leiten,
ist z. B. mit einem Stromversorgungsschalter versehen. Durch Einschalten/Ausschalten
der Funktion oder des Schalters kann die unnötige Übertragung von Geräuschen verhindert werden,
wenn nicht gesprochen wird. In einem Studio einer Fernsehstation
wird festgelegt, ob eine andere Person eine Eingabe akzeptiert,
und eine Mischung von unnötigen
Geräuschen
wird verhindert, indem ein Schalter eingeschaltet wird, wenn die
Eingabe akzeptiert wird, und der Schalter ausgeschaltet wird, wenn
die Eingabe nicht akzeptiert wird.
-
Wenn
in der oben beschriebenen Weise manuell eingestellt wird, ob eine
Eingabe akzeptiert werden sollte oder nicht, ist die Tätigkeit
mühsam.
Als ein Verfahren, um dies automatisch auszuführen, ist es vorstellbar, die
oben beschriebene VAD zu verwenden, um Eingaben lediglich dann zu
akzeptieren, wenn eine Sprechperiode erfasst wird. Bei der VAD zum
Erfassen einer Sprechperiode anhand eines Stimmsignals besteht jedoch
ein Problem dahingehend, dass der Zeitpunkt, der durch die VAD als
ein Sprachstartzeitpunkt bestimmt wird, nach dem tatsächlichen
Sprachstartzeitpunkt liegt, wodurch eine Verzögerung, der Verlust des Beginns
einer Sprache und eine Qualitätsverschlechterung
bewirkt werden. Bei der Verwendung der VAD besteht außerdem ein Problem,
dass eine genaue Erfassung einer Sprechperiode schwierig ist, da
VAD auf den Einfluss von Umgebungsgeräuschen empfindlich ist.
-
Durch
Erfassen einer Sprechperiode unter Verwendung der oben genannten
EMG ist es möglich,
den Beginn einer Sprache vor dem tatsächlichen Startzeitpunkt der
Sprache zu bestimmen und eine Sprechperiode ohne Beeinflussung durch
Umgebungsgeräusche
zu bestimmen. Das Verfahren zum Erfassen einer Sprechperiode wurde
bereits beschrieben und deswegen wird seine Beschreibung an dieser
Stelle weggelassen.
-
23 zeigt
die Konfiguration zum Steuern des Einschaltens/Ausschaltens eines
Stromversorgungsschalters eines s. In der Figur wird Leistung von
einer Batterie BT über
einen Leistungsversorgungsschalter SW an ein 20 geliefert.
Das 20 setzt eine eingegebene Stimme in ein Stimmsignal
um, das ein elektrisches Signal ist. Das von dem 20 ausgegebene
Stimmsignal wird an einen Verstärker 22 und
dergleichen übertragen.
In diesem Fall wird die Einschalt/Ausschaltsteuerung des Leistungsversorgungsschalters
SW anhand eines Ergebnisses der Erfassung einer Sprechperiode ausgeführt. Das heißt, der
Leistungsschalter SW wird so gesteuert, dass er in Reaktion auf
die Erfassung eines Sprachstartzeitpunkts eingeschaltet wird. Dann
wird der Leistungsschalter SW in der Weise gesteuert, dass er in
Reaktion auf die Erfassung eines Sprachendzeitpunkts ausgeschaltet
wird.
-
24 zeigt
den oben genannten Betriebsablauf. Wie in der Figur gezeigt ist,
ist die oben genannte Operation durch einen Sprechperioden-Erfassungsabschnitt 301,
der die Messung einer EMG (Schritt S311), die Erfassung eines Sprachstartzeitpunkts
(Schritt S312) und die Erfassung eines Sprachendzeitpunkts (Schritt
S313) umfasst, und einen Stimmsammlungs/Stimmübertragungsabschnitt 302, der
das Einschalten eines Schalters eines s (Schritt S331), den Beginn
einer Übertragung
eines Stimmsignals (Schritt S332), das Ausschalten des Schalters des
s (Schritt S333) und die Beendigung der Übertragung des Stimmsignals
(Schritt S334) umfasst, konfiguriert. Wenn die Messung einer EMG
begonnen wird (Schritt S311) und der Leistungsversorgungsschalter
des s eingeschaltet ist (Schritt S331), wird ein Sprachstartzeitpunkt
erfasst (Schritt S312). Dadurch, dass der Leistungsversorgungsschalter
des s eingeschaltet worden ist, wird die Übertragung eines Stimmsignals
begonnen (Schritt S332). Wenn dagegen ein Sprachendzeitpunkt erfasst
wird (Schritt S313), wird der Leistungsversorgungsschalter des s ausgeschaltet
(Schritt S333). Dadurch, dass der Leistungsversorgungsschalter des
s ausgeschaltet wurde, wird die Übertragung
des Stimmsignals beendet (Schritt S334).
-
Der
Leistungsversorgungsschalter eines s muss nicht ein- oder ausgeschaltet
werden, wenn der Pegel eines Ausgangssignals, der von dem abgeleitet
wird, anhand einer Sprechperiode gesteuert wird. Anstelle des Einschaltens/Ausschaltens
des Leistungsversorgungsschalters eines s kann die Verstärkung eines
Verstärkers
zum Verstärken
eines Ausgangssignals von einem oder die Ausgabe an einen Lautsprecher
geändert
werden. Wie in 25 gezeigt ist kann z. B. bei
der Steuerung einer Verstärkungsänderung
eines Verstärkers 22 zum
Verstärken eines
von einem 20 ausgegebenen Stimmsignals die Verstärkung des
Verstärkers 22 in
Reaktion auf die Erfassung eines Sprachstartzeitpunkts vergrößert werden
und in Reaktion auf die Erfassung eines Sprachendzeitpunkts vermindert
werden. Wie in 26 gezeigt ist, kann bei der
Veränderung
des Ausgangs an einem Lautsprecher SP die Lautstärke, die für eine Lautstärkesteuerschaltung 23 eingestellt wird,
in Reaktion auf die Erfassung eines Sprachstartzeitpunkts vergrößert werden
und in Reaktion auf die Erfassung eines Sprachendzeitpunkts verringert
werden.
-
Zusätzlich zu
den oben genannten Konfigurationen kann jede Konfiguration verwendet
werden, wenn sie die Übertragung
einer Stimme, die einer Nichtsprechperiode entspricht, an einen
Gesprächspartner
oder ein Publikum verhindern kann. Kurz gesagt ist es ausreichend,
wenn der Pegel eines von einem abgeleiteten Ausgangssignals gesteuert
wird und eine Stimme, die einer Nichtsprechperiode entspricht, so
gesteuert wird, dass sie nicht ausgegeben wird.
-
Wenn
die Konfiguration von 23 bei einem Mobiltelefon angewendet
wird, kann das Mobiltelefon als ein Endgerät verwendet werden, wie in den 8 und 9 gezeigt
ist. Wenn die Konfiguration von 23 bei
einer Sprechgarnitur angewendet wird, wird sie in der Weise verwendet,
wie in den 22A und 22B gezeigt
ist.
-
Wie
oben beschrieben wurde, ist es durch Erfassen einer Sprechperiode
unter Verwendung einer EMG möglich,
den Beginn einer Sprache vor dem tatsächlichen Startzeitpunkt der
Sprache zu bestimmen und eine Sprechperiode ohne Beeinflussung durch
Umgebungsgeräusche
zu bestimmen. Es ist somit möglich,
ein hochwertiges Stimmsignal ohne eingemischte Geräusche zu
erhalten.
-
Es
gibt die folgenden Aspekte in Bezug auf die Beschreibung des ersten
Aspekts.
- (1) Die Sprechperioden-Erfassungsvorrichtung gemäß dem ersten
Aspekt, bei der die EMG-Erfassungsmittel die EMG von Elektroden
erfassen, die mit der Oberfläche
der Haut eines Sprechers in Kontakt sind. Demzufolge kann die EMG
lediglich durch die Berührung
der Elektroden mit der Oberfläche
der Haut des Sprechers erfasst werden.
- (2) Die Sprechperioden-Erfassungsvorrichtung gemäß (1), bei
der die Elektroden an einem Endgerät vorgesehen sind, das durch
den Sprecher während
des Sprechens verwendet wird. Demzufolge kann die EMG unter Verwendung
des Endgeräts,
das durch den Sprecher verwendet wird, erfasst werden.
-
Die
Erfassung einer Sprechperiode ist im Allgemeinen bei einer Stimmerkennungsverarbeitung wichtig.
Ein Lösungsansatz
zum Erfassen einer Sprechperiode, bei dem lediglich Stimmsignale
verwendet werden, und ein Lösungsansatz
unter Verwendung von Bildern der Bewegungen des Munds eines Sprechers
sind vorgeschlagen worden. Bei dem zuerst genannten Lösungsansatz ist
es jedoch nicht möglich,
eine Sprechperiode genau zu erfassen, wenn der Pegel von Umgebungsgeräuschen hoch
ist oder wenn mehrere Personen gleichzeitig sprechen. Der zuletzt
genannte Lösungsansatz
ist praktisch unvorteilhaft, da er einen Sensor, wie etwa eine Kamera,
zur Erfassung einer Sprechperiode erfordert, die an einer bestimmten
Position einzurichten ist.
-
Gemäß der vorliegenden
Erfindung wird eine Sprechperiode unter Verwendung einer EMG erfasst, die
erzeugt wird, wenn ein Sprecher spricht. Es erscheint eine große Amplitude
in einer EMG, wenn eine Muskelaktivität bewirkt wird, wenn ein Sprecher spricht,
wobei durch Wahrnehmung der Amplitude eine Sprechperiode erfasst
werden kann.
-
Durch
das Vorsehen von Elektroden für
ein mobiles Endgerät
kann eine durch Sprache erzeugte EMG an der Haut des Sprechers gemessen
werden. Deswegen besitzt die vorliegende Erfindung eine hohe Affinität mit der
Verwendungsform eines mobilen Endgeräts, d. h. die Form der Verwendung
des Endgeräts,
indem es an die Haut gedrückt
wird. Eine Sprechperiode kann selbst dann problemlos erfasst werden,
wenn der Pegel von Umgebungsgeräuschen hoch
ist. Es ist ferner nicht erforderlich, einen Sensor an einer bestimmten
Position vorzusehen.
-
Wenn
eine Stimmerkennungsverarbeitung anhand einer erfassten Sprechperiode
ausgeführt wird,
kann die Erkennungsgenauigkeit verbessert werden. Wenn ferner eine
Codierungsverarbeitung anhand einer erfassten Sprechperiode ausgeführt wird,
kann der Leistungsverbrauch verringert werden und die Batterielebensdauer
eines mobilen Datenübertragungsendgeräts einschließlich eines
Mobiltelefons kann verbessert werden. Ferner kann durch Steuerung
des Pegels eines von einem abgeleiteten Ausgangssignals anhand einer
erfassten Sprechperiode und durch eine Steuerung, dass eine Stimme, die
einer Nichtsprechperiode entspricht, nicht ausgegeben wird, ein
hochwertiges Stimmsignal ohne eingemischte Geräusche erhalten werden.