-
1. Sachgebiet
der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf zellulare Telefone, und,
insbesondere, auf ein zellulares Telefon, das eine Sprachwählfunktion
besitzt.
-
2. Beschreibung des in
Bezug stehenden Stands der Technik
-
Ein
zellulares Telefon, das eine Sprachwählfunktion besitzt, setzt eine
Spracherkennungsvorrichtung ein, die Merkmale, wie beispielsweise
eine Frequenz, von den Eingabesprachsignalen extrahiert, um die
Eingabesprache zu erkennen. Allgemein besitzt die Spracherkennungsvorrichtung
eine große Anzahl
von Eingabesprachsignalen, um sie zu verarbeiten, was eine Überbelastung
an der Vorrichtung verursachen kann.
-
Ein
bekanntes Sprachwählverfahren
zum Lösen
des Überlastungsproblems
ist dasjenige, eine Freisprecheinrichtung, umfassend einen digitalen
Signalprozessor (DSP) und einen nicht flüchtigen Speicher (z. B. einen
Flash-Speicher oder einen EEPROM (Electrically Erasable and Programmable Read
Only Memory)), zu verwenden. Der DSP in der Freisprecheinrichtung
extrahiert die Merkmaldaten von den Eingabesprachsignalen und speichert
die extrahierten Merkmaldaten in dem nicht flüchtigen Speicher (d. h. einem
Spracherkennungsspeicher) als Referenz-Merkmaldaten. Unter Empfang
eines Sprachwählbefehls
vergleicht der DSP die Merkmaldaten der Eingabesprachsignale mit
den Referenz-Merkmaldaten, registriert in dem Spracherkennungsspeicher,
um Eingabesprachsignale zu erkennen, und liefert die Spracherkennungsergebnisse
zu dem zellularen Telefon. Das zellulare Telefon wählt dann
eine Telefonnummer entsprechend zu den Spracherkennungsergebnissen.
Der Spracherkennungsspeicher ist in drei Speicherbereiche unterteilt; einen
ersten Speicherbereich für
Indexdaten; einen zweiten Speicherbereich zum Speichern von Informationen
der Sprachsignaleingabe von einem Mikrofon des zellularen Telefons;
und einen dritten Speicherbereich zum Speichern von Informationen der
Sprachsignaleingabe von einem Mikrofon der Freisprecheinrichtung.
-
1 stellt
eine Speicherliste für
den Spracherkennungsspeicher gemäß dem Stand
der Technik dar. Wie dargestellt ist, ist der Spracherkennungsspeicher
in drei Speicherbereiche Mi, Mhs und Mhf unterteilt. Der Speicherbereich
Mi speichert die Indexdaten und der Speicherbereich Mhs speichert
die Referenz-Merkmaldaten Fhs1 und Fhs2 und Sprach-Wiedergabedaten
VPI der Sprachsignale, eingegeben von dem Handset des zellularen
Telefons. Der Speicherbereich Mhf speichert die Referenz-Merkmaldaten Fhf1
und Fhf2 und Sprach-Wiedergabedaten VP2 des Sprachsignals, eingegeben von
der Freisprecheinrichtung.
-
Der
Grund, warum der Spracherkennungsspeicher in die Speicherbereiche
Mhs und Mhf, die dieselbe Struktur haben, unterteilt ist, ist derjenige, dass,
obwohl ein bestimmtes Wort durch denselben Benutzer ausgesprochen
wird, die Merkmaldaten, ausgegeben von der Freisprecheinrichtung,
gegenüber
den Merkmaldaten, ausgegeben von dem Handset des zellularen Telefons,
unterschiedlich sein können.
Deshalb werden die Referenz-Merkmaldaten Fhs1 und Fhs2 für das Handset
des zellularen Telefons und die Referenz-Merkmaldaten Fhf1 und Fhf2 für die Freisprecheinrichtung
getrennt in den Speicherbereichen Mhs und Mhf, jeweils, gespeichert.
Weiterhin speichert der herkömmliche
Spracherkennungsspeicher die Sprach-Wiedergabedaten VP1 und VP2
separat in den jeweiligen Speicherbereichen Mhs und Mhf, wodurch
die Effektivität
des Speichers verringert wird.
-
Allerdings
ist es, da die Sprach-Wiedergabedaten VP1 und VP2 beim Abspielen
der Sprache des Worts, das der Benutzer aussprach, verwendet werden,
notwendig, die Sprach-Wiedergabedaten VP1 und VP2 separat zu speichern.
Im Gegensatz dazu ist es bevorzugt, dass ausgewählte solche der Sprach-Wiedergabedaten
VP1 und VP2 in dem Spracherkennungsspeicher gespeichert werden.
-
Allgemein
sind die Speicherbereiche für
die Sprach-Wiedergabedaten VP1 und VP2 viel größer in der Kapazität als die
Speicherbereiche für
die Merkmaldaten Fhs1, Fhs2, Fhf1 und Fhf2. Deshalb ist es nicht
für den
Spracherkennungsspeicher ökonomisch,
zwei Sprach-Wiedergabe-Speicherbereiche VP1 und VP2 für dieselbe
Verwendung zu haben. Zusätzlich
besitzt der Spracherkennungsspeicher mit der hohen Speicherkapazität einen
erhöhten Energieverbrauch,
was eine Verringerung der nutzbaren Dauer der Batterie des Telefons
hervorrufen kann.
-
Die
US 5,239,586 A bezieht
sich auf ein Spracherkennungssystem, das in einem Mobil-Telefongerät verwendet
wird, das dazu geeignet ist, Anrufe ohne ein manuelles Wählen vorzunehmen.
Der Audiosignalpegel wird in Abhängigkeit
davon gesteuert, ob das Audiosignal von einem Handset-Mikrofon oder
einem Freisprech-Mikrofon
kommt. Zum Zeitpunkt der Spracherkennung werden die abgetasteten,
quantisierten, codierten Sprachsignale mit zuvor registrierten Wort-Daten
verglichen.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Es
ist deshalb die Aufgabe der vorliegenden Erfindung, ein zellulares
Telefon und ein entsprechendes Verfahren zu schaffen, die eine Sprachwählfunktion
besitzen, bei der ein Spracherkennungsspeicher effektiv und effizient
verwaltet wird.
-
Diese
Aufgabe wird durch die Erfindung, wie sie in den unabhängigen Ansprüchen beansprucht ist,
gelöst.
-
Bevorzugte
Ausführungsformen
sind in den abhängigen
Ansprüchen
angegeben.
-
Dementsprechend
schafft die vorliegende Erfindung ein zellulares Telefon, das dazu
geeignet ist, mit einer Freisprecheinrichtung verbunden zu werden,
und mit einer Spracherkennungsvorrichtung, um Merkmaldaten von einem
Eingabesprachsignal zu extrahieren, um so das Sprachsignal zu erkennen, und
einen Speicher zum Speichern der Merkmaldaten. Der Speicher ist
in einen ersten Speicherbereich zum Speichern von Indexdaten, einen
zweiten Speicherbereich zum Speichern von Merkmaldaten, eingegeben
von dem zellularen Telefon, einen dritten Speicherbereich zum Speichern,
welche Merkmaldaten von der Freisprecheinrichtung kommen, und einen
vierten Speicherbereich zum Speichern von Sprach-Wiedergabedaten
unterteilt. Der vierte Speicherbereich weist einen Speicherbereich
zum Speichern der Sprach-Wiedergabedaten
und einen anderen Speicherbereich zum Speichern einer Telefonnummer
auf.
-
Vorzugsweise
weisen die Indexdaten eine erste Adresse, wo die Merkmaldaten, eingegeben von
dem zellularen Telefon, gespeichert sind, eine zweite Adresse, wo
die Merkmaldaten, eingegeben von der Freisprecheinrichtung, gespeichert
sind, und eine dritte Adresse, wo die Telefonnummer und die Sprach-Wiedergabedaten
gespeichert sind, auf.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Die
vorstehenden und andere Aufgaben, Merkmale und Vorteile der vorliegenden
Erfindung werden aus der nachfolgenden, detaillierten Beschreibung
ersichtlich werden, wenn sie in Verbindung mit den beigefügten Zeichnungen
herangezogen wird, in denen:
-
1 zeigt
ein Diagramm, das eine Speicherliste für einen Spracherkennungsspeicher
gemäß dem Stand
der Technik darstellt;
-
2 zeigt
ein Blockdiagramm eines zellularen Telefons mit einer Sprachwählfunktion,
bei dem die vorliegende Erfindung angewandt wird;
-
3 zeigt
ein Diagramm, das eine Speicherliste für einen Spracherkennungsspeicher
gemäß einer
Ausführungsform
der vorliegenden Erfindung darstellt;
-
4 zeigt
ein Flussdiagramm zum Steuern des Spracherkennungsspeichers der 3 während eines
Sprachregistrierungsvorgangs; und
-
5 zeigt
ein Flussdiagramm zum Steuern des Spracherkennungsspeichers der 3 während eines
Spracherkennungsvorgangs.
-
DETAILLIERTE BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Eine
bevorzugte Ausführungsform
der vorliegenden Erfindung wird im Detail nachfolgend unter Bezugnahme
auf die beigefügten
Zeichnungen beschrieben. Für
ein umfassenderes Verständnis
der vorliegenden Erfindung wird die vorliegende Erfindung, beschränkt auf
die spezifische Ausführungsform,
erläutert.
Allerdings sollte angemerkt werden, dass die vorliegende Erfindung
in Verbindung mit der Beschreibung durch einen Fachmann auf dem
betreffenden Fachgebiet ausgeführt
werden kann. In der nachfolgenden Beschreibung sind ausreichend bekannte
Funktionen und Anordnungen, die die vorliegende Erfindung in unnötigem Detail
verschleiern könnten,
nicht im Detail beschrieben.
-
Die
vorliegende Erfindung ist darauf gerichtet, ein Eingabesprachsignal
unter Verwendung von Paketdaten, die von dem Vocoder (Sprachcodierer) ausgegeben
werden, umfasst in dem zellularen Telefon, zu erkennen. Deshalb
kann das zellulare Telefon das Sprachsignal ohne Unterstützung des
DSP in der Freisprecheinrichtung erkennen.
-
2 stellt
ein tragbares, zellulares Telefon dar, das eine Sprachwählfunktion
besitzt, bei dem die vorliegende Erfindung angewandt wird. Die RF-(Radio-Frequenz)-Schaltung und eine
DTMF-(Dual-Ton-Mehrfach-Frequenz)-Schaltung sind von der Zeichnung
entfernt worden, da sie sich nicht auf die vorliegende Erfindung
beziehen.
-
Wie 2 zeigt,
wird eine analoge Sprachsignaleingabe von einem Mikrofon 30 in
ein digitales PCM-(Pulse Code Modulation)-Signal durch einen Analog-Digital-(A/D)-Wandler 20 umgewandelt.
Ein Vocoder 45 komprimiert das PCM-Signal, ausgegeben von
dem A/D-Wandler 20, und gibt vorbestimmte Paketdaten PKT
aus. In einem CDMA-Zellulartelefon kann der Vocoder 45 durch
einen 8 Kbps QCELP (Qualcomm Code Excited Linear Predictive Coding), einen
13 Kbps QCELP und einen 8 Kbps EVRC (Enhanced Variable Rate Coding)
Codierer realisiert werden, und in einem GSM (Global System for
Mobile Communications) Zellulartelefon kann er durch einen RPE-LTP
(Regular Pulse Excitation with Long Term Prediction) Codierer realisiert
werden.
-
Die
Paketdaten PKT, ausgegeben von dem Vocoder 45, werden zu
einem Mikroprozessor 50 zugeführt, der den gesamten Betrieb
des zellularen Telefons steuert. Ein erster Speicher 60,
der ein nicht flüchtiger
Speicher ist (z. B. ein Flash-Memory oder ein EEPROM), speichert
ein Steuerprogramm und anfängliche
Service-Daten. Ein zweiter Speicher 65, der ein RAM (Random
Access Memory) ist, speichert temporär verschiedene Daten, erzeugt
während
eines Betriebs des zellularen Telefons, wie beispielsweise Paketdaten,
für Eingabesprachsignale,
und zwar für
eine Registrierung oder eine Erkennung.
-
Eine
Spracherkennungsvorrichtung 45 gibt die Merkmaldaten, extrahiert
von den Paketdaten der Eingabesprachsignale, unter einer Übertragungsrate von
20 Bytes/sec aus. Die Merkmaldaten werden für eine Spracherkennung verwendet
und umfassen einige 10 bis einige 100 Bytes, umfassend das Frequenzmerkmal
und die Intensität
des Eingabesprachsignals. Die Spracherkennungsvorrichtung 85 kann
durch entweder eine Hardware oder eine Software realisiert werden.
Wenn die Spracherkennungsvorrichtung 85 durch eine Software
realisiert wird, kann das Softwareprogramm in dem ersten Speicher 60 gespeichert
werden. Der Mikroprozessor 50 führt die Paketdaten PKT, ausgegeben
von dem Vocoder 45, zu der Spracherkennungsvorrichtung 85 zu
und wählt
eine Telefonnummer entsprechend den Indexdaten, ausgegeben von der
Spracherkennungsvorrichtung 85. Zusätzlich speichert der Mikroprozessor 50,
in einem internen Speicher davon, eine Adresse des ersten Speichers 60,
wo die Paketdaten, ausgegeben von dem Vocoder 45, gespeichert
sind, und liest die Paketdaten von dem ersten Speicher 60 unter
Verwendung der Adresse, um den Benutzer zu informieren, dass die
Sprache vollständig
erkannt ist. Zur Vereinfachung werden die gelesenen Paketdaten als
die Sprach-Wiedergabedaten VP bezeichnet. Der Vocoder 45 wandelt
die Sprach-Wiedergabedaten VP in ein PCM-Signal um und führt es zu
einem Digital-Analog-(D/A)-Wandler 45 zu, der das Eingangs-PCM-Signal in ein
analoges Signal umwandelt und das umgewandelte, analoge Signal über einen Lautsprecher 80 ausgibt.
Anstelle der Sprach-Wiedergabedaten kann eine Nachricht zum Informieren über den
Abschluss der Spracherkennung in dem ersten Speicher 60 gespeichert
werden.
-
Der
Freisprecheinrichtung-Verbinder 500 verbindet das zellulare
Telefon mit einer Freisprecheinrichtung (nicht dargestellt) und
führt das
Sprachsignal, eingegeben von einem Mikrofon der Freisprecheinrichtung,
zu dem A/D-Wandler 20 zu, der das Eingabesprachsignal in
ein digitales Signal umwandelt.
-
Der
Freisprecheinrichtung-Verbinder 500 ist mit einem spezifischen
Anschluss des Mikroprozessors 50 verbunden, um zu ermöglichen,
dass er bestimmt, ob das Eingabesprachsignal von dem Mikrofon 30 des
zellularen Telefons oder dem Mikrofon der Freisprecheinrichtung
empfangen ist. Der Mikroprozessor 50 und der Freisprecheinrichtung-Verbinder 500 bilden
eine Einrichtung, um die Quelle des Eingabesprachsignals zu erfassen.
-
3 stellt
eine Speicherliste des Spracherkennungsspeichers (d. h. des ersten
Speichers 60) gemäß der vorliegenden
Erfindung dar. Wie dargestellt ist, ist der erste Speicher 60 in
einen Speicherbereich SA1 zum Speichern von Indexdaten, einen zweiten
Speicherbereich SA2 zum Speichern von Informationen über die
Sprachsignale, eingegeben von dem zellularen Telefon, einen Speicherbereich
SA4 zum Speichern von Informationen der Sprachsignale, eingegeben
von der Freisprecheinrichtung, und einen gemeinsamen Speicherbereich
SA3 zum Speichern der Sprach-Wiedergabedaten
VP und einer Telefonnummer unterteilt. Der zweite Speicherbereich SA2
speichert die Referenz-Merkmaldaten Fhs1 und Fhs2 der Sprachsignale,
eingegeben von dem Handset des zellularen Telefons, in Zuordnung
zu den Indexdaten. Der dritte Speicherbereich SA3 speichert die
Sprach-Wiedergabedaten VP und die Telefonnummer, und der vierte
Speicherbereich SA4 speichert die Referenz-Merkmaldaten Vhf1 und Fhf2 der Sprachsignale,
eingegeben von der Freisprecheinrichtung, in Zuordnung zu den Indexdaten.
Die Indexdaten I1 können
Adressen umfassen, wo die Merkmaldaten Fhs1, Fhs2, Fhf1 und Fhf2
gespeichert sind, und eine Adresse, wo die Telefonnummer und die
Sprach-Wiedergabedaten VP gespeichert sind. In dem Fall, dass das
zellulare Telefon einen separaten Adressengenerator besitzt, ist
der erste Speicherbereich SA1 nicht notwendig.
-
Wie
in 3 dargestellt ist, ist jeder des ersten und des
vierten Speicherbereichs SA2 und SA4 wiederum in zwei Speicherbereiche
zum Speichern der Referenz-Merkmaldaten Fhs1 und Fhs2, und Fhf1
und Fhf2, jeweils, unterteilt. Dies kommt daher, dass die Sprachsignale,
obwohl sie durch denselben Benutzer ausgesprochen sind, zueinander
unterschiedlich sein können,
wenn der Benutzer sie ausspricht. Deshalb werden die Referenz-Merkmaldaten zweimal
für dasselbe
Wort extrahiert, das der Benutzer ausgesprochen hat, und in den
zwei Speicherbereichen getrennt gespeichert.
-
4 zeigt
ein Flussdiagramm zum Steuern des ersten Speichers 60 während eines
Spracherkennungsvorgangs. Falls der Benutzer ein bestimmtes Wort
(z. B. einen Namen der Person, mit der der Benutzer telefonieren
möchte) über das
Mikrofon 30 ausspricht, erkennt die Spracherkennungsvorrichtung 85 das
Sprachsignal, eingegeben von dem Mikrofon 30. Wenn der
Benutzer das Wort über
das Mikrofon der Freisprecheinrichtung ausspricht, erkennt die Spracherkennungsvorrichtung 85 das
Sprachsignal, empfangen von der Freisprecheinrichtung, über den
Verbinder 500 der Freisprecheinrichtung. Der Mikroprozessor 50 extrahiert
die Referenz-Merkmaldaten von den Eingabesprachsignalen im Schritt 100 und
bestimmt die Quelle der empfangenen Sprachsignale im Schritt 110 durch
Prüfen,
ob das zellulare Telefon mit der Freisprecheinrichtung verbunden
ist oder nicht. Falls das zellulare Telefon nicht mit der Freisprecheinrichtung
verbunden ist, speichert der Mikroprozessor 50 die Referenz-Merkmaldaten
Fhs1 und Fhs2 in dem zweiten Speicherbereich SA2 des ersten Speichers 60 (Schritt 120),
und zwar basierend auf der Bestimmung, dass sie von dem Handset des
zellularen Telefons stammen. Allerdings speichert, falls das zellulare
Telefon mit der Freisprecheinrichtung verbunden ist, der Mikroprozessor 50 die Referenz-Merkmaldaten
Fhf1 und Fhf2 in dem vierten Speicherbereich SA4 des ersten Speichers 60 (Schritt 130).
Nach Speichern der Merkmaldaten steuert der Mikroprozessor 50 die
Spracherkennungsvorrichtung 85, um das Eingabesprachsignal als
die Sprach-Wiedergabedaten VP in dem dritten Speicherbereich SA3,
zusammen mit seiner entsprechenden Telefonnummer, zu speichern (Schritt 140).
-
5 zeigt
ein Flussdiagramm zum Steuern des ersten Speichers 60 während des
Spracherkennungsvorgangs. Falls der Benutzer den Namen, registriert
in dem zellularen Telefon, ausspricht, um die Telefonnummer durch
die Sprache zu wählen,
extrahiert die Spracherkennungsvorrichtung 85 die Merkmaldaten
von dem Eingabesprachsignal und vergleicht dann die Merkmaldaten
mit den Referenz-Merkmaldaten, registriert in dem ersten Speicher 60.
Falls die Eingabe-Merkmaldaten ähnlich
zu den Referenz-Merkmaldaten sind, gibt die Spracherkennungsvorrichtung 85 die
Indexdaten entsprechend zu den Merkmaldaten zusammen mit einem Differenzwert
dazwischen zu dem Mikroprozessor 50 aus.
-
Wie
die 2 und 5 zeigen, extrahiert der Mikroprozessor 50 die
Merkmaldaten des Eingabesprachsignals von der Spracherkennungsvorrichtung 85 (Schritt 209)
und bestimmt die Quelle der Merkmaldaten durch Prüfen, ob
das zellulare Telefon mit der Freisprecheinrichtung verbunden ist
oder nicht (Schritt 210). Falls die empfangenen Merkmaldaten
von dem Handset des zellularen Telefons stammen, steuert der Mikroprozessor 50 die
Spracherkennungsvorrichtung 85 so, um Referenz-Merkmaldaten Fhs1
und Fhs2 von dem zweiten Speicherbereich SA2 des ersten Speichers 60 zu
lesen, und vergleicht sie mit den empfangenen Merkmaldaten, um so
die Indexdaten und einen Referenzwert dazwischen zu erzeugen (Schritt 220).
Allerdings steuert, falls die empfangenen Merkmaldaten von der Freisprecheinrichtung
stammen, der Mikroprozessor 50 die Spracherkennungsvorrichtung 85 so,
um die Referenz-Merkmaldaten Fhf1 und Fhf2 von dem vierten Speicherbereich
SA4 des ersten Speichers 60 zu lesen und um sie mit den
empfangenen Merkmaldaten zu vergleichen, um so die Indexdaten und
den Differenzwert dazwischen zu erzeugen (Schritt 230).
Danach empfängt
der Mikroprozessor 50 die Indexdaten und den Differenzwert
von der Spracherkennungsvorrichtung 85 (Schritt 240)
und liest die Sprach- Wiedergabedaten
VP von dem dritten Speicherbereich SA3 entsprechend zu den Indexdaten,
ausgegeben von der Spracherkennungsvorrichtung 85 (Schritt 250).
Die gelesenen Sprach-Wiedergabedaten VP werden zu dem Lautsprecher 80 ausgegeben.
Darauffolgend liest der Mikroprozessor 50 die Telefonnummer
von dem dritten Speicherbereich SA3 entsprechend zu den Indexdaten
(Schritt 260) und wählt
die gelesene Telefonnummer im Schritt 270.
-
Wie
vorstehend beschrieben ist, verwaltet das zellulare Telefon effektiv
den Spracherkennungsspeicher, um dadurch zu einer Verringerung der
Produktionskosten und des Energieverbrauchs beizutragen.
-
Während diese
Erfindung in Verbindung mit demjenigen beschrieben worden ist, was
derzeit als die praktikabelste und bevorzugteste Ausführungsform
angesehen wird, sollte verständlich
werden, dass die Erfindung nicht auf die offenbarte Ausführungsform
beschränkt
ist, sondern, im Gegensatz dazu, ist vorgesehen, verschiedene Modifikationen
innerhalb des Schutzumfangs der beigefügten Ansprüche abzudecken.