-
HINTERGRUND DER ERFINDUNG
-
Fachgebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf ein Basisbandmodem und ein
Verfahren zur Spracherkennung. Insbesondere bezieht sie sich auf
ein Basisbandmodem und ein Verfahren zur Spracherkennung sowie ein
das Basisbandmodem und das Verfahren einsetzendes mobiles Kommunikationsendgerät. Obwohl
die vorliegende Erfindung für
einen breiten Anwendungsbereich geeignet ist, ist sie besonders
geeignet zur Gewährleistung
einer höheren
Spracherkennungsleistung.
-
Beschreibung des Standes der
Technik
-
Ganz
allgemein umfasst ein herkömmliches Basisbandmodem
einen Audio-Codec. Herkömmliche
Spracherkennungstechniken, wie sie in einem mobilen Kommunikationsendgerät eingesetzt
werden, nutzen die gleiche Abtastrate sowohl für das Vocoding von Sprachkommunikation
als auch für
die Spracherkennung. Es wird deswegen die gleiche Abtastrate verwendet,
weil es nur wenige Basisbandmodems gibt, die in der Lage sind, ein
Eingangssignal eines 16 kHz-Mikrophons zu unterstützen, und weil
die meisten Basisbandmodems Schwierigkeiten mit dem Empfang von
PCM-(Pulscodemodulation)Daten haben.
-
1 ist
ein Blockschaltbild eines herkömmlichen
Basisbandmodems, während 2 ein
Fließdiagramm
eines herkömmlichen
Spracherkennungsverfahrens zeigt, welches das in 1 dargestellte Basisbandmodem
einsetzt.
-
Betrachtet
man 1, so erkennt man, dass ein herkömmliches
Basisbandmodem einen Audio-Codec 13, einen Vocoder 15 und
einen Prozessor 17 umfasst. Wird ein Sprachsignal von einem
Mikrophon empfangen, führt
der Audio-Codec 13 eine Modulation des Sprachsignals mit
einer vorgegebenen Abtastrate durch. So wird beispielsweise eine
PCM (Pulscodemodulation) des Sprachsignals mit einer Abtastrate
von 8 kHz durchgeführt.
-
Der
Vocoder 15 führt
ein Vocoding des Ausgangssignals des Audio-Codecs 13 durch.
So wird beispielsweise eine QCELP (Qualcomm Code Excited Linear
Prediction; deutsch: codeerregte lineare Prädiktion nach Qualcomm) oder
eine EVRC (Enhanced Variable Rate Coding; deutsch: verbesserte Codierung
mit variabler Rate) ausgeführt.
-
Der
Prozessor 17 führt
an einem Ausgangssignal des Vocoders 15 eine Spracherkennung durch.
Insbesondere decodiert der Prozessor 17 vocodierte Daten
und extrahiert dann einen Merkmalsvektor aus den decodierten Daten.
Der Prozessor 17 bewirkt die Spracherkennung, indem er
den extrahierten Merkmalsvektor auf einen zuvor eingerichteten Spracherkennungsalgorithmus
anwendet. Vorzugsweise umfasst der Prozessor 17 eine MPU
(Mikroprozessoreinheit) oder einen DSP (digitaler Signalprozessor).
Wenn dagegen das Sprachsignal für die
Sprachkommunikation dient, führt
der Prozessor 17 an dem Ausgangssignal des Vocoders 15 eine
Kanalcodierung durch, entweder mittels eines Faltungscodes oder
mittels eines Turbocodes.
-
Es
wird nun mit Bezug auf 2 ein herkömmliches Spracherkennungsverfahren
gemäß obiger
Konfiguration erläutert.
-
Wird
von einem Mikrophon ein Sprachsignal empfangen, führt das
herkömmliche
Basisbandmodem an dem Sprachsignal eine Modulation mit einer vorgegebenen
Abtastrate aus (S12). So wird beispielsweise an dem eingegebenen
Sprachsignal eine PCM (Pulscodemodulation) mit einer Abtastrate
von 8 kHz vorgenommen.
-
Sodann
wird eine Vocodierung des modulierten Sprachsignals vorgenommen
(S14). Für
das Vocoding wird beispielsweise eine QCELP (Qualcomm Code Excited
Linear Prediction) oder eine EVRC (Enhanced Variable Rate Coding)
eingesetzt.
-
Die
Spracherkennung an dem vocodierten Signal wird in einer MPU (Mikroprozessoreinheit) oder
einem DSP (digitaler Signalprozessor) ausgeführt. Für die Spracherkennung werden
die vocodierten Daten decodiert (S16); aus den decodierten Daten
wird dann ein Merkmalsvektor extrahiert (S18). Der extrahierte Merkmalsvektor
wird daraufhin auf einen Spracherkennungsalgorithmus angewendet (S20).
-
Bei
dem herkömmlichen
Verfahren ist die Abtastrate für
die Modulation auf 8 kHz eingestellt. Dies deshalb, weil mit einer
Sprachkomponente unter 4 kHz ein Sprachpegel einer Qualität zur Verfügung gestellt
werden kann, die erkannt werden kann.
-
Wenn
in einem mobilen Kommunikationsendgerät gemäß dem herkömmlichen Verfahren eine Spracherkennung
durchgeführt
wird, werden freilich Daten verwendet, die gemäß einer Sprachkommunikationsabtastung
verarbeitet wurden. Daher ist das herkömmliche Verfahren nicht geeignet,
eine zufriedenstellende Spracherkennungsrate zu garantieren. Außerdem werden
bei dem herkömmliche
Verfahren überflüssiges Vocodieren
und Decodieren ausgeführt,
wie dies in 2 dargestellt ist.
-
Wahlweise
können
in dem mobilen Kommunikationsendgerät ein digitaler Signalverarbeitungschip
oder ein Spracherkennungschip für
die Spracherkennung vorgesehen sein. Dies jedoch erhöht die Kosten
des Endgeräts.
-
In
einigen bekannten Basisbandmodems wurde zur Spracherkennung ein
Verfahren wie das DTW (Dynamic Time Warping) eingesetzt. Da die
Daten entsprechend der Abtastung für Sprachkommunikation verarbeitet
werden, gelingt es diesem Verfahren nicht, eine zufriedenstellende
Spracherkennungsrate sicherzustellen. Bei dem bekannten Spracherkennungsverfahren
wird entweder die Abtastrate des im Basisbandmodem vorgesehenen
Audio-Codecs erhöht
oder es wird die Merkmalsvektorsextraktion nicht in Hardware implementiert.
-
Es
gibt ein weiteres bekanntes Verfahren zur Spracherkennung. Bei diesem
Verfahren wird ein separater Audio-Codec mit einer für die Spracherkennung
geeigneten Abtastrate außerhalb
des Basisbandmodems installiert. Die entsprechende Hardware-Implementation
ist jedoch sehr kompliziert.
-
Bekannte
mobile Kommunikationsendgeräte,
die eine Spracherkennung durchführen,
sind nicht dazu geeignet, die Abtastrate des Basisbandmodems durch
Trennen der Sprachkommunikation von der Spracherkennung anzupassen.
Außerdem
haben bekannte Basisbandmodems Schwierigkeiten, PCM-Daten (pulscodemodulierte
Daten) zu erhalten.
-
Die
US Patentschrift 6 411
926 B1 offenbart ein Spracherkennungssystem zur Verwendung
unter anderem, in einem drahtlosen Telefon und umfasst einen digitalen
Signalprozessor, der konfiguriert ist, Parameter aus den digitalisierten
Eingangssignal Sprachsamples zu extrahieren und die extrahierten Parameter
an einen Mikroprozessor zu übergeben. Der
Mikroprozessor vergleicht die Parameter mit gespeicherten Template
Vokabularinhalte zur Bestimmung des gespeicherten Worts, das möglichst
genau den Klang wiedergibt. Nach der Erkennung des Klangs führt der
Mikroprozessor einen Befehl aus, der den gespeicherten Wort zugeordnet
ist, so z. B. das Einleiten eines Telefonanrufs. In einer Ausführungsform
sind die von dem digitalen Signalprozessor extrahierten Parameter
Leistungswerte der digitalisierten Sprachproben in mehreren Frequenzbändern. Es
ist in dieser Druckschrift dargelegt, dass der digitale Signalprozessor
ein bekannter Vocoder sein kann. In diesem Falle können die
extrahierten Parameter Diagnosedaten sein, die durch den Vocoder
erzeugt wurden. In jedem Fall führt
der digitale Signalprozessor Sprachcodierung für eine Sprachkommunikation
aus.
-
Die
US Patentschrift 5 166 971 offenbart
ein Telefonvermittlungssystem, das eine Sprechererkennung auf der
Grundlage von digitalisierten Sprachproben ausführt, die von einer Telefonendgerätanlage
ausgegeben werden, die mit dem Vermittlungssystem über ISDN-Verbindungen verbunden
sind. Die Endgeräteanlage
umfasst einen A/D Konverter, der mit unterschiedlichen Abtastfrequenzen
arbeitet, eine Standardsamplefrequenz zur Sprachkommunikation und
eine höhere
Abtastrate für
die Sprechererkennung. Sprachproben, die mit einer höheren Abtastrate
gesampelt wurden, werden zwischendurch in der Endgerätanlage
bzw. dem Endgerät
gespeichert, mit der Standard-Abtastfrequenz ausgelesen und dann
an das Vermittlungssystem übertragen,
in dem die eigentliche Sprechererkennung ausgeführt wird.
-
Die
US Patentschrift 6 321
195 B1 offenbart ein mobiles Endgerät, das eine automatische Anwahl ausführen kann.
Das Telefon umfasst einen Audio-Codec für eine PCM-Modulation von Spracheingaben
in das Telefon und einen Vocoder zum Vocodieren der PCM codierten
Sprachproben. Die Ausgangsdaten des Vocoders umfassen Line-Spectrum-Pair
(LSP) Parameter, die von einem Kontroller des Telefons für die Spracherkennung
verwendet werden. Es ist in dieser Patentschrift ausgeführt, dass
aufgrund der vom Vocoder zur Verfügung gestellten LSP-Koeffizienten
kein spezielles Verfahren zum Extrahieren von Merkmalen für die Spracherkennung
erforderlich ist.
-
Es
ist ein Ziel der vorliegenden Erfindung, ein Basisbandmodem sowie
ein Verfahren zur Durchführung
von Spracherkennung und Sprachkommunikation in einem solchen Basisbandmodem
zur Verfügung
zu stellen, welche die Verwendung einer optimierten Abtastrate für die Spracherkennung
gestatten, um eine zufriedenzustellende Spracherkennungsrate ohne
Ausführung überflüssigen Vocodierens
und Decodierens zu gewährleisten.
-
Um
die zuvor erwähnten
Ziele zu erreichen, stellt die vorliegende Erfindung ein Basisbandmodem gemäß Anspruch
1 zur Verfügung
und schafft ferner ein Verfahren zur Ausführung von Spracherkennung und
Sprachkommunikation in einem Basisbandmodem entsprechend Anspruch
18. Bevorzugte Ausführungsformen
sind in den anhängigen
Unteransprüchen
angegeben.
-
Die
Erfindung ist auf ein Basisbandmodem und ein Verfahren zur Spracherkennung
sowie auf ein mobiles Kommunikationsendgerät gerichtet, welches das Basisbandmodem
und das Verfahren einsetzt. Indem eine veränderliche Abtastrate verwendet
wird, wird eine für
die Spracherkennung optimierte Rate genutzt, um eine höhere Rate
der Spracherkennung zu erzielen.
-
Das
Basisbandmodem umfasst einen Audio-Codec, der dazu eingerichtet
ist, ein Sprachsignal zu modulieren, das entweder eine erste Abtastrate
oder eine zweite Abtastrate verwendet, Mittel zur Spracherkennung
und Mittel zur Sprachcodierung. Der Audio-Codec codiert das Sprachsignal
unter Verwendung der ersten Abtastrate und die Spracherkennungsmittel
führen
eine Spracherkennung des codierten Sprachsignals aus, wenn das Sprachsignal ein
Sprachbefehl ist. Dagegen codiert der Audio-Codec das Sprachsignal
unter Verwendung der zweiten Abtastrate und führen die Mittel zur Sprachcodierung eine
Vocoder-Funktion an dem codierten Sprachsignal durch, wenn das Sprachsignal
Sprachkommunikation darstellt.
-
Vorzugsweise
umfassen die Mittel zur Spracherkennung einen Merkmalsvektorextraktionsblock, welcher
dazu eingerichtet ist, aus dem codierten Sprachsignal einen oder
mehrere Merkmalsvektoren zu extrahieren, und einen Spracherkennungsblock, der
dazu eingerichtet ist, eine Spracherkennung unter Verwendung eines
extrahierten Merkmalsvektors auszuführen. Es ist denkbar, dass
der Spracherkennungsblock einen Puffer enthält, der dazu eingerichtet ist,
Merkmalsvektoren zu speichern, die aus dem codierten Sprachsignal
extrahiert worden sind.
-
Es
ist vorgesehen, dass ein Puffer zur Speicherung des codierten Sprachsignals
vorhanden ist, z. B. ein Pingpong-Puffer. Vorzugsweise extrahiert der
Merkmalsvektorextraktionsblock die Merkmalsvektoren aus den in dem
Puffer gespeicherten Daten.
-
Der
Merkmalsvektorextraktionsblock ist vorzugsweise in Hardware implementiert.
Alternativ kann der Merkmalsvektorextraktionsblock in Software implementiert
sein.
-
Das
Basisbandmodem umfasst eine Steuereinheit zur Bestimmung, ob das
Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist. Die Steuereinheit
kann Register des Merkmalsvektorextraktionsblocks und des Spracherkennungsblocks einschalten,
wenn das Sprachsignal ein Sprachbefehl ist, und Register des Merkmalsvektorextraktionsblocks
und des Spracherkennungsblocks abschalten, wenn das Sprachsignal
Sprachkommunikation ist. Die Steuereinheit bestimmt die von dem
Audio-Codec verwendete Abtastrate.
-
Die
Mittel zur Sprachcodierung umfassen vorzugsweise einen Vocoder,
der dazu eingerichtet ist, eine Vocoder-Funktion an dem codierten
Sprachsignal vorzunehmen. Es ist vorgesehen, dass die zweite Abtastrate
für Sprachkommunikation
optimiert ist, z. B. 8 kHz beträgt.
-
Die
erste Abtastrate ist vorzugsweise für die Spracherkennung optimiert.
Es ist vorgesehen, dass die erste Abtastrate in einem Bereich von
etwa 12 kHz bis etwa 32 kHz liegt, beispielsweise bei 16 kHz.
-
Der
Audio-Codec nimmt vorzugsweise eine Pulscodemodulation an dem Sprachsignal
vor. Vorzugsweise ist das Basisbandmodem in einem mobilen Kommunikationsendgerät implementiert.
-
Das
Verfahren zur Ausführung
einer Spracherkennung und Sprachkommunikation in einem Basisbandmodem
umfasst die Bestimmung, ob ein Sprachsignal ein Sprachbefehl oder
Sprachkommunikation ist, und moduliert das Sprachsignal unter Anwendung
einer ersten Abtastrate und führt
eine Spracherkennung des modulierten Sprachsignals durch, wenn das
Sprachsignal als ein Sprachbefehl erkannt wird, und moduliert das
Sprachsignal unter Verwendung einer zweiten Abtastrate und führt ein
Vocodieren des modulierten Sprachsignals durch, wenn das Sprachsignal
als Sprachkommunikation erkannt wird.
-
Die
Spracherkennung wird durch Extrahieren eines oder mehrerer Merkmalsvektoren
aus dem modulierten Sprachsignal und Ausführen einer Spracherkennung
unter Verwendung eines extrahierten Merkmalvektors durchgeführt. Es
ist vorgesehen, dass die extrahierten Merkmalsvektoren in einem Puffer
gespeichert werden können.
-
Es
ist ferner vorgesehen, dass das modulierte Sprachsignal in einem
Puffer gespeichert werden kann. Vorzugsweise werden die Merkmalsvektoren aus
den in dem Puffer gespeicherten Daten extrahiert.
-
Die
Vektorextraktion ist vorzugsweise in Hardware implementiert. Alternativ
kann die Merkmalsvektorextraktion in Software implementiert werden.
-
Die
Bestimmung, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation
ist, erfolgt anhand einer benutzerseitigen Auswahl. Es ist vorgesehen,
dass eine Aktivierung eines Merkmalsvektorextraktionsblocks und
eines Spracherkennungsblocks derart gesteuert werden kann, dass
der Merkmalsvektorextraktionsblock und der Spracherkennungsblock
aktiviert werden, wenn das Sprachsignal ein Sprachbefehl ist, und
dass der Merkmalsvektorextraktionsblock und der Spracherkennungsblock deaktiviert
werden, wenn das Sprachsignal Sprachkommunikation ist. Register
des Merkmalsvektorextraktionsblocks und des Spracherkennungsblocks werden
vorzugsweise eingeschaltet, wenn das Sprachsignal ein Sprachbefehl
ist, und werden abgeschaltet, wenn das Sprachsignal Sprachkommunikation
ist.
-
Es
ist vorgesehen, dass das Sprachsignal mit einer für die Spracherkennung
optimierten ersten Abtastrate moduliert wird. Es ist ferner vorgesehen, dass
die erste Abtastrate sich in einem Bereich von etwa 12 kHz bis etwa
32 kHz, z. B. 16 kHz befindet.
-
Es
ist vorgesehen, dass das Sprachsignal mit einer für Sprachkommunikation
optimierten zweiten Abtastrate abgetastet wird. Vorzugsweise wird eine
Rate von 8 kHz eingesetzt.
-
An
dem Sprachsignal wird vorzugsweise eine Pulscodemodulation vorgenommen.
Das Basisbandmodem ist vorzugsweise in einem mobilen Kommunikationsendgerät implementiert.
-
Weitere
Merkmale und Vorteile der Erfindung werden in der nachfolgenden
Beschreibung angegeben und ergeben sich zum Teil aus der Beschreibung oder
können
durch Ausführung
der Erfindung erkannt werden. Es versteht sich, dass sowohl die
zuvor gegebene allgemeine Beschreibung und die nachfolgende ausführliche
Beschreibung der Erfindung nur beispielhaft und erläuternd und
dazu bestimmt sind, eine weitere Erläuterung der beanspruchten Erfin dung
zu geben.
-
Diese
und andere Ausführungsformen
ergeben sich auch für
den Fachmann auf dem vorliegenden Gebiet aus der nachfolgenden ausführlichen
Beschreibung von Ausführungsformen
unter Bezugnahme auf die beigefügten
Zeichnungen, wobei die Erfindung auf keine der offenbarten besonderen
Ausführungsformen
beschränkt
ist.
-
Kurze Beschreibung der Zeichnungen
-
Die
beigefügten
Zeichnungen, die zum weiteren Verständnis der Erfindung beigefügt sind,
zeigen Ausführungsformen
der Erfindung und dienen zusammen mit der Beschreibung zur Erläuterung
der Grundlagen der Erfindung.
-
1 ist
ein Blockschaltbild, das ein bekanntes Basisbandmodem zeigt.
-
2 ist
ein Flussdiagramm eines bekannten Verfahrens zur Spracherkennung,
das das in 1 dargestellte Basisbandmodem
verwendet.
-
3 ist
ein Blockschaltbild eines Basisbandmodems gemäß einer Ausführungsform
der vorliegenden Erfindung.
-
4 ist
ein Flussdiagramm eines Verfahrens zur Spracherkennung gemäß einer
Ausführungsform
der vorliegenden Erfindung.
-
Ausführliche Beschreibung von bevorzugten
Ausführungsformen
-
Die
vorliegende Erfindung bezieht sich auf ein Basisbandmodem und ein
Verfahren zur Spracherkennung sowie auf ein mobiles Kommunikationsendgerät, welches
das Basisbandmodem und das Verfahren einsetzt. Auch wenn die vorliegende Erfindung
mit Bezug auf ein mobiles Kommunikationsgerät dargestellt ist, ist vorgesehen,
dass die vorliegende Erfindung überall
dort eingesetzt werden kann, wo der Wunsch besteht, Spracherkennung
und Sprachkommunikation mit optimierten Abtastraten durchzuführen, um
eine hohe Spracherkennungsrate zu gewährleisten.
-
Es
wird nun im einzelnen auf bevorzugte Ausführungsformen der vorliegenden
Erfindung eingegangen, von der Beispiele in den beigefügten Zeichnungen
dargestellt sind.
-
Mit
Bezug auf 3 werden ein Basisbandmodem
zur Spracherkennung sowie ein mobiles Kommunikationsendgerät mit dem
Basisbandmodem gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung erläutert. 3 ist
ein Blockschaltbild, das ein Basisbandmodem gemäß einer Ausführungsform
der vorliegenden Erfindung zeigt, in der das Basisbandmodem vorzugsweise
in einem mobilen Kommunikationsendgerät vorgesehen ist. Unter Bezugnahme
auf 3 umfasst ein Basisbandmodem einen Audio-Codec 22,
eine Steuereinheit bzw. einen Kontroller 27, einen Vocoder 28,
einen Merkmalsvektorextraktionsblock 24, mehrere Puffer 23 und 25 und
einen Spracherkennungsblock 26.
-
Wenn
von einem Mikrophon ein Sprachsignal empfangen wird, führt der
Audio-Codec 22 an dem eingehenden Sprachsignal eine Modulation
mit einer gewählten
Abtastrate durch. Das Mikrophon wandelt die Sprache eines Benutzers
in ein elektrisches Signal um. Insbesondere führt der Audio-Codec 22 eine
PCM (Pulscodemodulation) an dem Sprachsignal mit einer gewählten Abtastrate
durch.
-
Je
nachdem, ob das Sprachsignal einem Signal zur Spracherkennung oder
einem Signal zur Sprachkommunikation entspricht, ändert der
Audio-Codec 22 die Abtastrate für die Durchführung der PCM.
Der Audio-Codec 22 wendet eine Abtastrate von etwa 8 kHz
für die
an dem Sprachsignal zur Sprachkommunikation durchgeführte PCM
an. Dagegen wendet der Audio-Codec 22 eine Abtastrate von 12
bis 32 kHz für
die an dem Sprachsignal zur Spracherkennung durchgeführte PCM
an.
-
Vorzugsweise
setzt der Audio-Codec 22 eine Abtastrate von 16 kHz für die an
dem Signal zur Spracherkennung durchgeführte PCM ein. Dies deshalb,
weil es bekannt ist, dass eine Abtastrate von 16 kHz die Spracherkennungsgenauigkeit
erhöht.
-
Der
Benutzer wählt
eine Anwendung, um anzuzeigen, ob das Sprachsignal einem Signal
für die Spracherkennung
oder einem Sprachsignal für Sprachkommunikation
entspricht. Wenn der Benutzer die Anwendung zur Sprachkommunikation
auswählt,
entspricht ein von dem Audio-Codec 22 empfangenes Signal
danach einem Sprachsignal zur Sprachkommunikation. Wenn der Benutzer
die Anwendung zur Spracherkennung auswählt, korrespondiert ein von dem
Audio-Codec 22 empfangenes Signal anschließend einem
Sprachsignal zur Spracherkennung.
-
Durch
Ermittlung, welchen Typ von Anwendung der Benutzer auswählt, aktiviert
der Kontroller 27 bei der vorliegenden Erfindung entweder
einen Signalübertragungspfad
für Sprachkommunikation oder
einen Signalübertragungspfad
für Spracherkennung.
Insbesondere aktiviert oder deaktiviert der Kontroller 27 die
Elemente 23, 24 und 25 des Signalübertragungsweges
für Spracherkennung.
-
Wenn
der Benutzer die Anwendung zur Spracherkennung auswählt, aktiviert
der Kontroller 27 die Elemente 23, 24 und 25 des
Signalübertragungspfads
für Spracherkennung.
Wenn der Benutzer die Anwendung zur Spracherkennung nicht auswählt, deaktiviert
der Kontroller 27 die Elemente 23, 24 und 25 des
Signalübertragungspfads
für Spracherkennung,
was bewirkt, dass das Ausgangssignal des Audio-Codecs 22 zu
dem Vocoder 28 übertragen wird.
-
Der
Kontroller 27 steuert ferner die Abtastrate des Audio-Codecs 22.
Der Kontroller 27 kann insbesondere ermitteln, ob das von
dem Audio-Codec 22 empfangene Signal zur Sprachkommunikation oder
für die
Spracherkennung dient, je nachdem, welchen Anwendungstyp der Benutzer
auswählt.
Der Kontroller 27 steuert den Audio-Codec 22 zur
Ausführung
der PCM unter Verwendung der für
den jeweiligen Anwendungstyp geeigneten Abtastrate.
-
Ein
Beispiel eines Steuervorgangs des Kontrollers 27 wird nachfolgend
erläutert.
Hat der Benutzer eine Anwendung zur Spracherkennung ausgewählt, um
beispielsweise eine automatische Nummernwahl, eine Menuauswahl oder
eine Namenssuche vorzunehmen, schaltet der Kontroller 27 bestimmte
Register des Basisbandmodems ein, die für einen Spracherkennungsmodus
eingesetzt werden. Der Kontroller 27 stellt die Abtastrate
für den
Audio-Codec 22 auf eine Abtastrate für die Spracherkennung ein,
z. B. 16 kHz. Der Kontroller 27 schaltet dann den Teil
des Basisbandmodems ein, der für
den Spracherkennungsmodus verwendet wird, insbesondere den Puffer 23,
den Merkmalsvektorextraktionsblock 24 und den Merkmalsvektorpuffer 25.
-
Kurz
gesagt, verändert
der Kontroller 27 die vom Audio-Codec eingesetzte Abtastrate
und bestimmt einen Pfad zur Übertragung
des Ausgangssignals des Audio-Codecs 22 nach Maßgabe der
benutzerseitig gewählten
Anwendung.
-
In
dem Signalübertragungspfad
zur Spracherkennung ist ein Ausgang des Puffers 23 mit
einem Eingang des Merkmalsvektorextraktionsblocks 24 verbunden.
Der Puffer 23 speichert ein Sprachsignal (PCM-Daten) zur
Spracherkennung. Der Puffer 23 ist vorzugsweise ein Pingpong-Puffer.
-
Der
Pingpong-Puffer hat insbesondere die Struktur eines Doppelpuffers.
Bei einem in zwei Speicherbereiche aufgeteilten Doppelpuffer speichert
einer der beiden Speicherbereiche Daten, während der andere Speicherbereich
die im ersteren Speicherbereich gespeicherten Daten ausgibt. Die Erfindung
verwendet vorzugsweise einen Doppelpuffer oder eine Struktur mit
wenigstens drei getrennten Speicherbereichen, die einen Ring bilden.
Der Puffer 23 umfasst ferner einen 20 bis 40 ms Puffer.
-
Der
Merkmalsvektorextraktionsblock 24 empfängt die PCM-Daten aus dem Puffer 23 und
extrahiert aus den empfangenen PCM-Daten Merkmalsvektoren. Der Merkmalsvektorextraktionsblock 24 setzt
MFCC (mel-frequency cepstral coefficients; deutsch: Mel-Frequenz-Cepstrum-Koeffizienten), PLP
(Perceptual Linear Prediction; deutsch: lineare Wahrnehmungsprädiktion),
LPC (Linear Predictive Coding; deutsch: lineare Prädiktionscodierung)
oder LPCC (Linear Predictive Cepstral Coefficients; deutsch: lineare
prädiktive
Cepstrum-Koeffizienten). Der
Merkmalsvektorpuffer 25 speichert die von dem Merkmalsvektorextraktionsblock 24 extrahierten Merkmalsvektoren.
Gemäß der vorliegenden
Erfindung werden die Merkmalsvektoren wiederholt in Kurzzeiteinheiten
von 20 bis 40 ms extrahiert und die extrahierten Merkmalsvektoren
in Form eines Felds (array) in dem Merkmalsvektorpuffer 25 gespeichert.
-
Ganz
allgemein sollten beim Extrahieren von Merkmalsvektoren eine Filterbank-Filterung,
eine FFT (schnelle Fourier-Transformation), eine DCT (diskrete Cosinus-Transformation)
und eine IFFT (inverse schnelle Fourier-Transformation) ausgeführt werden.
Daher ist eine große
Anzahl von Operationen zum Extrahieren der Merkmalsvektoren erforderlich;
der Merkmalsvektorextraktionsprozess zeigt deshalb eine starke Wiederholbarkeit.
-
Vorzugsweise
implementiert die vorliegende Erfindung den Merkmalsvektorextraktionsblock 24 in Hardware.
Die Merkmalsvektorextraktion kann jedoch auch in Form von Software
implementiert sein.
-
Der
Spracherkennungsblock 26 führt eine Spracherkennung unter
Verwendung der in dem Merkmalsvektorpuffer 25 gespeichert
Merkmalsvektoren aus. Vorzugsweise umfasst der Spracherkennungsblock 26 eine
MPU (Mikroprozessoreinheit) oder einen DSP (digitaler Signalprozessor),
die mit einem Spracherkennungsalgorithmus ausgestattet sind.
-
Die
Variabilität
des Spracherkennungsalgorithmus ist sehr hoch. Ein Unterschied der
Festpunkt-Implementation kann entsprechend einer Trainingsdatei
und von Parametern existieren. Zu einer Viterbi-Decordierung entsprechende
Teile, Sprachmodelierung oder Grammatik zur Verbesserung des Algorithmus
werden eingesetzt. Daher werden Teile einer Festpunkt-Implementation oder
Algorithmusverbesserung in dem Spracherkennungsalgorithmus über die
zuvor erwähnte
MPU oder den DSP implementiert.
-
Über die
MPU oder den DSP kann bei der vorliegenden Erfindung ferner eine
Rausch- bzw. Störungsunterdrückung für die Spracherkennung durchgeführt werden.
Vorzugsweise wird die Rauschunterdrückung über die MPU oder DSP ausgeführt.
-
Der
Vocoder 28 führt
an dem Ausgangssignal (PCM-Daten mit einer Abtastrate von 8 kHz)
des Audio-Codecs 22 für
die Sprachkommunikation eine Vocoder-Funktion aus. Wenn ein Sprachsignal
zur Sprachkommunikation empfangen wird, führt der Vocoder 28 insbesondere
die Vocoder-Funktion unter Verwendung mittels QCELP (Qualcomm Code
Excited Linear Prediction), EVRC (Enhanced Variable Rate Coding),
VSELP (Vector Sum Excited Linear Prediction) oder RPE-LTP (Residual
Pulse Excitation/Long Term Prediction; deutsch: Restpulserregung/Langzeitprädiktion)
aus. An dem Ausgangssignal des Vocoders 28 wird eine Kanalcodierung
mittels eines Faltungscodes oder eines Turbocodes vorgenommen. Nach
Abschluss der Kanalcodierung erfolgt noch eine Funkmodulation.
-
4 zeigt
ein Verfahren zur Durchführung einer
Spracherkennung gemäß der vorliegenden
Erfindung. Das Verfahren umfasst das Empfangen eines Sprachsignals
(S100), das Bestimmen, ob das Sprachsignal ein Sprachbefehl oder
Sprachkommunikation ist (S102), und entweder das Modulieren des Sprachsignals
mit einer zur Spracherkennung optimierten Abtastrate (S104) und
das Speichern des modulierten Sprachsignals (S106), das Extrahieren eines
Merkmalvektors aus dem modulierten Sprachsignal (S108), das Speichern
des extrahierten Merkmalsvektors (S110) und das Durchführen einer
Spracherkennung unter Verwen dung des extrahierten Merkmalvektors
(S112) oder das Modulieren des Sprachsignals unter Verwendung einer
für die Sprachkommunikation
optimierten Abtastrate (S114) und die Ausführung einer Vocoder-Funktion
an dem modulierten Sprachsignal (S116).
-
Die
Extraktion eines Merkmalvektors aus dem modulierten Sprachsignal
(S108) wird vorzugsweise in Hardware implementiert. Alternativ kann
die Extraktion eines Merkmalvektors aus dem modulierten Sprachsignal
(S108) in Form von Software implementiert werden.
-
Die
Ermittlung, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation
ist (S108), erfolgt abhängig
von der benutzerseitigen Wahl der Art der Anwendung. Vorzugsweise
wird eine Pulscodemodulation an dem Sprachsignal durchgeführt.
-
Die
Auswahl eines der beiden Pfade (S104-S112 und S114-S116) wird vorzugsweise durch
Steuerung bestimmter Register vorgenommen, die der Merkmalsvektorextraktion
und der Spracherkennung zugeordnet sind. Insbesondere werden die
der Merkmalsvektorextraktion und Spracherkennung zugeordneten Register
durch Einschalten aktiviert, wenn ein Sprachsignal als ein Sprachbefehl
erkannt wird (S102), und werden deaktiviert durch Abschalten des
Stroms, wenn das Sprachsignal als Sprachkommunikation erkannt wird.
-
Wenn
das Sprachsignal als ein Sprachbefehl (S102) erkannt wird, wird
eine Abtastrate von näherungsweise
12 kHz bis näherungsweise
32 kHz zur Modulation des Sprachsignals verwendet, vorzugsweise
16 kHz. Wenn das Sprachsignal als Sprachkommunikation (S102) bestimmt
wird, wird vorzugsweise eine Abtastrate von 8 kHz zur Modulation
des Sprachsignals verwendet.
-
Das
Basisbandmodem wird in einem mobilen Kommunikationsendgerät vorzugsweise
als ein inneres Element bei der Herstellung des mobilen Kommunikationsendgerät eingebaut.
Alternativ kann das Basisbandmodem als ein unabhängiges Modul implementiert
werden, das als Teil einer mobilen Kommunikationsendgeräteschicht
montiert wird. Daher versteht es sich, dass der Schutzbereich der
vorliegenden Erfindung beide der zuvor erwähnten Alternativen umfasst.
-
Die
vorliegende Erfindung stellt verschiedene Wirkungen und Vorteile
zur Verfügung.
Zunächst, da
eine für
die Spracherkennung geeignete Abtastrate bei der Modulation durch
den Audio-Codec eingesetzt wird, kann die Abtastrate der Spracherkennung verbessert
werden. Zweitens, durch Implementierung der Merkmalsvektorextraktion
in Hardware kann die vorliegende Erfindung den Umfang der Operationen
der Prozessoreinheit zur Spracherkennung vermindern und den Stromverbrauch
reduzieren. Drittens, durch Implementierung der Festpunkt-Implementation
oder der Algorithmusverbesserung mit der MPU oder dem DSP im Spracherkennungsalgorithmus
erleichtert die vorliegende Erfindung die Erweiterung entsprechend
zukünftiger
Anforderungen.