DE602005001995T2

DE602005001995T2 - Basisband-Modem und Verfahren zur Spracherkennung und verwendendes Mobilkommunikationsendgerät

Info

Publication number: DE602005001995T2
Application number: DE602005001995T
Authority: DE
Inventors: Chan Woo Ilsan-gu Goyang-si Kim
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-09-07
Filing date: 2005-09-07
Publication date: 2008-05-15
Anticipated expiration: 2025-09-08
Also published as: KR20060022490A; JP2006079089A; ATE370494T1; US7593853B2; EP1632934B1; CN1797542B; DE602005001995D1; CN1797542A; EP1632934A1; US20060053011A1; KR100640893B1

Description

HINTERGRUND DER ERFINDUNG
Fachgebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Basisbandmodem und ein Verfahren zur Spracherkennung. Insbesondere bezieht sie sich auf ein Basisbandmodem und ein Verfahren zur Spracherkennung sowie ein das Basisbandmodem und das Verfahren einsetzendes mobiles Kommunikationsendgerät. Obwohl die vorliegende Erfindung für einen breiten Anwendungsbereich geeignet ist, ist sie besonders geeignet zur Gewährleistung einer höheren Spracherkennungsleistung.
Beschreibung des Standes der Technik
Ganz allgemein umfasst ein herkömmliches Basisbandmodem einen Audio-Codec. Herkömmliche Spracherkennungstechniken, wie sie in einem mobilen Kommunikationsendgerät eingesetzt werden, nutzen die gleiche Abtastrate sowohl für das Vocoding von Sprachkommunikation als auch für die Spracherkennung. Es wird deswegen die gleiche Abtastrate verwendet, weil es nur wenige Basisbandmodems gibt, die in der Lage sind, ein Eingangssignal eines 16 kHz-Mikrophons zu unterstützen, und weil die meisten Basisbandmodems Schwierigkeiten mit dem Empfang von PCM-(Pulscodemodulation)Daten haben.
1 ist ein Blockschaltbild eines herkömmlichen Basisbandmodems, während 2 ein Fließdiagramm eines herkömmlichen Spracherkennungsverfahrens zeigt, welches das in 1 dargestellte Basisbandmodem einsetzt.
Betrachtet man 1, so erkennt man, dass ein herkömmliches Basisbandmodem einen Audio-Codec 13, einen Vocoder 15 und einen Prozessor 17 umfasst. Wird ein Sprachsignal von einem Mikrophon empfangen, führt der Audio-Codec 13 eine Modulation des Sprachsignals mit einer vorgegebenen Abtastrate durch. So wird beispielsweise eine PCM (Pulscodemodulation) des Sprachsignals mit einer Abtastrate von 8 kHz durchgeführt.
Der Vocoder 15 führt ein Vocoding des Ausgangssignals des Audio-Codecs 13 durch. So wird beispielsweise eine QCELP (Qualcomm Code Excited Linear Prediction; deutsch: codeerregte lineare Prädiktion nach Qualcomm) oder eine EVRC (Enhanced Variable Rate Coding; deutsch: verbesserte Codierung mit variabler Rate) ausgeführt.
Der Prozessor 17 führt an einem Ausgangssignal des Vocoders 15 eine Spracherkennung durch. Insbesondere decodiert der Prozessor 17 vocodierte Daten und extrahiert dann einen Merkmalsvektor aus den decodierten Daten. Der Prozessor 17 bewirkt die Spracherkennung, indem er den extrahierten Merkmalsvektor auf einen zuvor eingerichteten Spracherkennungsalgorithmus anwendet. Vorzugsweise umfasst der Prozessor 17 eine MPU (Mikroprozessoreinheit) oder einen DSP (digitaler Signalprozessor). Wenn dagegen das Sprachsignal für die Sprachkommunikation dient, führt der Prozessor 17 an dem Ausgangssignal des Vocoders 15 eine Kanalcodierung durch, entweder mittels eines Faltungscodes oder mittels eines Turbocodes.
Es wird nun mit Bezug auf 2 ein herkömmliches Spracherkennungsverfahren gemäß obiger Konfiguration erläutert.
Wird von einem Mikrophon ein Sprachsignal empfangen, führt das herkömmliche Basisbandmodem an dem Sprachsignal eine Modulation mit einer vorgegebenen Abtastrate aus (S12). So wird beispielsweise an dem eingegebenen Sprachsignal eine PCM (Pulscodemodulation) mit einer Abtastrate von 8 kHz vorgenommen.
Sodann wird eine Vocodierung des modulierten Sprachsignals vorgenommen (S14). Für das Vocoding wird beispielsweise eine QCELP (Qualcomm Code Excited Linear Prediction) oder eine EVRC (Enhanced Variable Rate Coding) eingesetzt.
Die Spracherkennung an dem vocodierten Signal wird in einer MPU (Mikroprozessoreinheit) oder einem DSP (digitaler Signalprozessor) ausgeführt. Für die Spracherkennung werden die vocodierten Daten decodiert (S16); aus den decodierten Daten wird dann ein Merkmalsvektor extrahiert (S18). Der extrahierte Merkmalsvektor wird daraufhin auf einen Spracherkennungsalgorithmus angewendet (S20).
Bei dem herkömmlichen Verfahren ist die Abtastrate für die Modulation auf 8 kHz eingestellt. Dies deshalb, weil mit einer Sprachkomponente unter 4 kHz ein Sprachpegel einer Qualität zur Verfügung gestellt werden kann, die erkannt werden kann.
Wenn in einem mobilen Kommunikationsendgerät gemäß dem herkömmlichen Verfahren eine Spracherkennung durchgeführt wird, werden freilich Daten verwendet, die gemäß einer Sprachkommunikationsabtastung verarbeitet wurden. Daher ist das herkömmliche Verfahren nicht geeignet, eine zufriedenstellende Spracherkennungsrate zu garantieren. Außerdem werden bei dem herkömmliche Verfahren überflüssiges Vocodieren und Decodieren ausgeführt, wie dies in 2 dargestellt ist.
Wahlweise können in dem mobilen Kommunikationsendgerät ein digitaler Signalverarbeitungschip oder ein Spracherkennungschip für die Spracherkennung vorgesehen sein. Dies jedoch erhöht die Kosten des Endgeräts.
In einigen bekannten Basisbandmodems wurde zur Spracherkennung ein Verfahren wie das DTW (Dynamic Time Warping) eingesetzt. Da die Daten entsprechend der Abtastung für Sprachkommunikation verarbeitet werden, gelingt es diesem Verfahren nicht, eine zufriedenstellende Spracherkennungsrate sicherzustellen. Bei dem bekannten Spracherkennungsverfahren wird entweder die Abtastrate des im Basisbandmodem vorgesehenen Audio-Codecs erhöht oder es wird die Merkmalsvektorsextraktion nicht in Hardware implementiert.
Es gibt ein weiteres bekanntes Verfahren zur Spracherkennung. Bei diesem Verfahren wird ein separater Audio-Codec mit einer für die Spracherkennung geeigneten Abtastrate außerhalb des Basisbandmodems installiert. Die entsprechende Hardware-Implementation ist jedoch sehr kompliziert.
Bekannte mobile Kommunikationsendgeräte, die eine Spracherkennung durchführen, sind nicht dazu geeignet, die Abtastrate des Basisbandmodems durch Trennen der Sprachkommunikation von der Spracherkennung anzupassen. Außerdem haben bekannte Basisbandmodems Schwierigkeiten, PCM-Daten (pulscodemodulierte Daten) zu erhalten.
Die US Patentschrift 6 411 926 B1 offenbart ein Spracherkennungssystem zur Verwendung unter anderem, in einem drahtlosen Telefon und umfasst einen digitalen Signalprozessor, der konfiguriert ist, Parameter aus den digitalisierten Eingangssignal Sprachsamples zu extrahieren und die extrahierten Parameter an einen Mikroprozessor zu übergeben. Der Mikroprozessor vergleicht die Parameter mit gespeicherten Template Vokabularinhalte zur Bestimmung des gespeicherten Worts, das möglichst genau den Klang wiedergibt. Nach der Erkennung des Klangs führt der Mikroprozessor einen Befehl aus, der den gespeicherten Wort zugeordnet ist, so z. B. das Einleiten eines Telefonanrufs. In einer Ausführungsform sind die von dem digitalen Signalprozessor extrahierten Parameter Leistungswerte der digitalisierten Sprachproben in mehreren Frequenzbändern. Es ist in dieser Druckschrift dargelegt, dass der digitale Signalprozessor ein bekannter Vocoder sein kann. In diesem Falle können die extrahierten Parameter Diagnosedaten sein, die durch den Vocoder erzeugt wurden. In jedem Fall führt der digitale Signalprozessor Sprachcodierung für eine Sprachkommunikation aus.
Die US Patentschrift 5 166 971 offenbart ein Telefonvermittlungssystem, das eine Sprechererkennung auf der Grundlage von digitalisierten Sprachproben ausführt, die von einer Telefonendgerätanlage ausgegeben werden, die mit dem Vermittlungssystem über ISDN-Verbindungen verbunden sind. Die Endgeräteanlage umfasst einen A/D Konverter, der mit unterschiedlichen Abtastfrequenzen arbeitet, eine Standardsamplefrequenz zur Sprachkommunikation und eine höhere Abtastrate für die Sprechererkennung. Sprachproben, die mit einer höheren Abtastrate gesampelt wurden, werden zwischendurch in der Endgerätanlage bzw. dem Endgerät gespeichert, mit der Standard-Abtastfrequenz ausgelesen und dann an das Vermittlungssystem übertragen, in dem die eigentliche Sprechererkennung ausgeführt wird.
Die US Patentschrift 6 321 195 B1 offenbart ein mobiles Endgerät, das eine automatische Anwahl ausführen kann. Das Telefon umfasst einen Audio-Codec für eine PCM-Modulation von Spracheingaben in das Telefon und einen Vocoder zum Vocodieren der PCM codierten Sprachproben. Die Ausgangsdaten des Vocoders umfassen Line-Spectrum-Pair (LSP) Parameter, die von einem Kontroller des Telefons für die Spracherkennung verwendet werden. Es ist in dieser Patentschrift ausgeführt, dass aufgrund der vom Vocoder zur Verfügung gestellten LSP-Koeffizienten kein spezielles Verfahren zum Extrahieren von Merkmalen für die Spracherkennung erforderlich ist.
Es ist ein Ziel der vorliegenden Erfindung, ein Basisbandmodem sowie ein Verfahren zur Durchführung von Spracherkennung und Sprachkommunikation in einem solchen Basisbandmodem zur Verfügung zu stellen, welche die Verwendung einer optimierten Abtastrate für die Spracherkennung gestatten, um eine zufriedenzustellende Spracherkennungsrate ohne Ausführung überflüssigen Vocodierens und Decodierens zu gewährleisten.
Um die zuvor erwähnten Ziele zu erreichen, stellt die vorliegende Erfindung ein Basisbandmodem gemäß Anspruch 1 zur Verfügung und schafft ferner ein Verfahren zur Ausführung von Spracherkennung und Sprachkommunikation in einem Basisbandmodem entsprechend Anspruch 18. Bevorzugte Ausführungsformen sind in den anhängigen Unteransprüchen angegeben.
Die Erfindung ist auf ein Basisbandmodem und ein Verfahren zur Spracherkennung sowie auf ein mobiles Kommunikationsendgerät gerichtet, welches das Basisbandmodem und das Verfahren einsetzt. Indem eine veränderliche Abtastrate verwendet wird, wird eine für die Spracherkennung optimierte Rate genutzt, um eine höhere Rate der Spracherkennung zu erzielen.
Das Basisbandmodem umfasst einen Audio-Codec, der dazu eingerichtet ist, ein Sprachsignal zu modulieren, das entweder eine erste Abtastrate oder eine zweite Abtastrate verwendet, Mittel zur Spracherkennung und Mittel zur Sprachcodierung. Der Audio-Codec codiert das Sprachsignal unter Verwendung der ersten Abtastrate und die Spracherkennungsmittel führen eine Spracherkennung des codierten Sprachsignals aus, wenn das Sprachsignal ein Sprachbefehl ist. Dagegen codiert der Audio-Codec das Sprachsignal unter Verwendung der zweiten Abtastrate und führen die Mittel zur Sprachcodierung eine Vocoder-Funktion an dem codierten Sprachsignal durch, wenn das Sprachsignal Sprachkommunikation darstellt.
Vorzugsweise umfassen die Mittel zur Spracherkennung einen Merkmalsvektorextraktionsblock, welcher dazu eingerichtet ist, aus dem codierten Sprachsignal einen oder mehrere Merkmalsvektoren zu extrahieren, und einen Spracherkennungsblock, der dazu eingerichtet ist, eine Spracherkennung unter Verwendung eines extrahierten Merkmalsvektors auszuführen. Es ist denkbar, dass der Spracherkennungsblock einen Puffer enthält, der dazu eingerichtet ist, Merkmalsvektoren zu speichern, die aus dem codierten Sprachsignal extrahiert worden sind.
Es ist vorgesehen, dass ein Puffer zur Speicherung des codierten Sprachsignals vorhanden ist, z. B. ein Pingpong-Puffer. Vorzugsweise extrahiert der Merkmalsvektorextraktionsblock die Merkmalsvektoren aus den in dem Puffer gespeicherten Daten.
Der Merkmalsvektorextraktionsblock ist vorzugsweise in Hardware implementiert. Alternativ kann der Merkmalsvektorextraktionsblock in Software implementiert sein.
Das Basisbandmodem umfasst eine Steuereinheit zur Bestimmung, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist. Die Steuereinheit kann Register des Merkmalsvektorextraktionsblocks und des Spracherkennungsblocks einschalten, wenn das Sprachsignal ein Sprachbefehl ist, und Register des Merkmalsvektorextraktionsblocks und des Spracherkennungsblocks abschalten, wenn das Sprachsignal Sprachkommunikation ist. Die Steuereinheit bestimmt die von dem Audio-Codec verwendete Abtastrate.
Die Mittel zur Sprachcodierung umfassen vorzugsweise einen Vocoder, der dazu eingerichtet ist, eine Vocoder-Funktion an dem codierten Sprachsignal vorzunehmen. Es ist vorgesehen, dass die zweite Abtastrate für Sprachkommunikation optimiert ist, z. B. 8 kHz beträgt.
Die erste Abtastrate ist vorzugsweise für die Spracherkennung optimiert. Es ist vorgesehen, dass die erste Abtastrate in einem Bereich von etwa 12 kHz bis etwa 32 kHz liegt, beispielsweise bei 16 kHz.
Der Audio-Codec nimmt vorzugsweise eine Pulscodemodulation an dem Sprachsignal vor. Vorzugsweise ist das Basisbandmodem in einem mobilen Kommunikationsendgerät implementiert.
Das Verfahren zur Ausführung einer Spracherkennung und Sprachkommunikation in einem Basisbandmodem umfasst die Bestimmung, ob ein Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist, und moduliert das Sprachsignal unter Anwendung einer ersten Abtastrate und führt eine Spracherkennung des modulierten Sprachsignals durch, wenn das Sprachsignal als ein Sprachbefehl erkannt wird, und moduliert das Sprachsignal unter Verwendung einer zweiten Abtastrate und führt ein Vocodieren des modulierten Sprachsignals durch, wenn das Sprachsignal als Sprachkommunikation erkannt wird.
Die Spracherkennung wird durch Extrahieren eines oder mehrerer Merkmalsvektoren aus dem modulierten Sprachsignal und Ausführen einer Spracherkennung unter Verwendung eines extrahierten Merkmalvektors durchgeführt. Es ist vorgesehen, dass die extrahierten Merkmalsvektoren in einem Puffer gespeichert werden können.
Es ist ferner vorgesehen, dass das modulierte Sprachsignal in einem Puffer gespeichert werden kann. Vorzugsweise werden die Merkmalsvektoren aus den in dem Puffer gespeicherten Daten extrahiert.
Die Vektorextraktion ist vorzugsweise in Hardware implementiert. Alternativ kann die Merkmalsvektorextraktion in Software implementiert werden.
Die Bestimmung, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist, erfolgt anhand einer benutzerseitigen Auswahl. Es ist vorgesehen, dass eine Aktivierung eines Merkmalsvektorextraktionsblocks und eines Spracherkennungsblocks derart gesteuert werden kann, dass der Merkmalsvektorextraktionsblock und der Spracherkennungsblock aktiviert werden, wenn das Sprachsignal ein Sprachbefehl ist, und dass der Merkmalsvektorextraktionsblock und der Spracherkennungsblock deaktiviert werden, wenn das Sprachsignal Sprachkommunikation ist. Register des Merkmalsvektorextraktionsblocks und des Spracherkennungsblocks werden vorzugsweise eingeschaltet, wenn das Sprachsignal ein Sprachbefehl ist, und werden abgeschaltet, wenn das Sprachsignal Sprachkommunikation ist.
Es ist vorgesehen, dass das Sprachsignal mit einer für die Spracherkennung optimierten ersten Abtastrate moduliert wird. Es ist ferner vorgesehen, dass die erste Abtastrate sich in einem Bereich von etwa 12 kHz bis etwa 32 kHz, z. B. 16 kHz befindet.
Es ist vorgesehen, dass das Sprachsignal mit einer für Sprachkommunikation optimierten zweiten Abtastrate abgetastet wird. Vorzugsweise wird eine Rate von 8 kHz eingesetzt.
An dem Sprachsignal wird vorzugsweise eine Pulscodemodulation vorgenommen. Das Basisbandmodem ist vorzugsweise in einem mobilen Kommunikationsendgerät implementiert.
Weitere Merkmale und Vorteile der Erfindung werden in der nachfolgenden Beschreibung angegeben und ergeben sich zum Teil aus der Beschreibung oder können durch Ausführung der Erfindung erkannt werden. Es versteht sich, dass sowohl die zuvor gegebene allgemeine Beschreibung und die nachfolgende ausführliche Beschreibung der Erfindung nur beispielhaft und erläuternd und dazu bestimmt sind, eine weitere Erläuterung der beanspruchten Erfin dung zu geben.
Diese und andere Ausführungsformen ergeben sich auch für den Fachmann auf dem vorliegenden Gebiet aus der nachfolgenden ausführlichen Beschreibung von Ausführungsformen unter Bezugnahme auf die beigefügten Zeichnungen, wobei die Erfindung auf keine der offenbarten besonderen Ausführungsformen beschränkt ist.
Kurze Beschreibung der Zeichnungen
Die beigefügten Zeichnungen, die zum weiteren Verständnis der Erfindung beigefügt sind, zeigen Ausführungsformen der Erfindung und dienen zusammen mit der Beschreibung zur Erläuterung der Grundlagen der Erfindung.
1 ist ein Blockschaltbild, das ein bekanntes Basisbandmodem zeigt.
2 ist ein Flussdiagramm eines bekannten Verfahrens zur Spracherkennung, das das in 1 dargestellte Basisbandmodem verwendet.
3 ist ein Blockschaltbild eines Basisbandmodems gemäß einer Ausführungsform der vorliegenden Erfindung.
4 ist ein Flussdiagramm eines Verfahrens zur Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung.
Ausführliche Beschreibung von bevorzugten Ausführungsformen
Die vorliegende Erfindung bezieht sich auf ein Basisbandmodem und ein Verfahren zur Spracherkennung sowie auf ein mobiles Kommunikationsendgerät, welches das Basisbandmodem und das Verfahren einsetzt. Auch wenn die vorliegende Erfindung mit Bezug auf ein mobiles Kommunikationsgerät dargestellt ist, ist vorgesehen, dass die vorliegende Erfindung überall dort eingesetzt werden kann, wo der Wunsch besteht, Spracherkennung und Sprachkommunikation mit optimierten Abtastraten durchzuführen, um eine hohe Spracherkennungsrate zu gewährleisten.
Es wird nun im einzelnen auf bevorzugte Ausführungsformen der vorliegenden Erfindung eingegangen, von der Beispiele in den beigefügten Zeichnungen dargestellt sind.
Mit Bezug auf 3 werden ein Basisbandmodem zur Spracherkennung sowie ein mobiles Kommunikationsendgerät mit dem Basisbandmodem gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung erläutert. 3 ist ein Blockschaltbild, das ein Basisbandmodem gemäß einer Ausführungsform der vorliegenden Erfindung zeigt, in der das Basisbandmodem vorzugsweise in einem mobilen Kommunikationsendgerät vorgesehen ist. Unter Bezugnahme auf 3 umfasst ein Basisbandmodem einen Audio-Codec 22, eine Steuereinheit bzw. einen Kontroller 27, einen Vocoder 28, einen Merkmalsvektorextraktionsblock 24, mehrere Puffer 23 und 25 und einen Spracherkennungsblock 26.
Wenn von einem Mikrophon ein Sprachsignal empfangen wird, führt der Audio-Codec 22 an dem eingehenden Sprachsignal eine Modulation mit einer gewählten Abtastrate durch. Das Mikrophon wandelt die Sprache eines Benutzers in ein elektrisches Signal um. Insbesondere führt der Audio-Codec 22 eine PCM (Pulscodemodulation) an dem Sprachsignal mit einer gewählten Abtastrate durch.
Je nachdem, ob das Sprachsignal einem Signal zur Spracherkennung oder einem Signal zur Sprachkommunikation entspricht, ändert der Audio-Codec 22 die Abtastrate für die Durchführung der PCM. Der Audio-Codec 22 wendet eine Abtastrate von etwa 8 kHz für die an dem Sprachsignal zur Sprachkommunikation durchgeführte PCM an. Dagegen wendet der Audio-Codec 22 eine Abtastrate von 12 bis 32 kHz für die an dem Sprachsignal zur Spracherkennung durchgeführte PCM an.
Vorzugsweise setzt der Audio-Codec 22 eine Abtastrate von 16 kHz für die an dem Signal zur Spracherkennung durchgeführte PCM ein. Dies deshalb, weil es bekannt ist, dass eine Abtastrate von 16 kHz die Spracherkennungsgenauigkeit erhöht.
Der Benutzer wählt eine Anwendung, um anzuzeigen, ob das Sprachsignal einem Signal für die Spracherkennung oder einem Sprachsignal für Sprachkommunikation entspricht. Wenn der Benutzer die Anwendung zur Sprachkommunikation auswählt, entspricht ein von dem Audio-Codec 22 empfangenes Signal danach einem Sprachsignal zur Sprachkommunikation. Wenn der Benutzer die Anwendung zur Spracherkennung auswählt, korrespondiert ein von dem Audio-Codec 22 empfangenes Signal anschließend einem Sprachsignal zur Spracherkennung.
Durch Ermittlung, welchen Typ von Anwendung der Benutzer auswählt, aktiviert der Kontroller 27 bei der vorliegenden Erfindung entweder einen Signalübertragungspfad für Sprachkommunikation oder einen Signalübertragungspfad für Spracherkennung. Insbesondere aktiviert oder deaktiviert der Kontroller 27 die Elemente 23, 24 und 25 des Signalübertragungsweges für Spracherkennung.
Wenn der Benutzer die Anwendung zur Spracherkennung auswählt, aktiviert der Kontroller 27 die Elemente 23, 24 und 25 des Signalübertragungspfads für Spracherkennung. Wenn der Benutzer die Anwendung zur Spracherkennung nicht auswählt, deaktiviert der Kontroller 27 die Elemente 23, 24 und 25 des Signalübertragungspfads für Spracherkennung, was bewirkt, dass das Ausgangssignal des Audio-Codecs 22 zu dem Vocoder 28 übertragen wird.
Der Kontroller 27 steuert ferner die Abtastrate des Audio-Codecs 22. Der Kontroller 27 kann insbesondere ermitteln, ob das von dem Audio-Codec 22 empfangene Signal zur Sprachkommunikation oder für die Spracherkennung dient, je nachdem, welchen Anwendungstyp der Benutzer auswählt. Der Kontroller 27 steuert den Audio-Codec 22 zur Ausführung der PCM unter Verwendung der für den jeweiligen Anwendungstyp geeigneten Abtastrate.
Ein Beispiel eines Steuervorgangs des Kontrollers 27 wird nachfolgend erläutert. Hat der Benutzer eine Anwendung zur Spracherkennung ausgewählt, um beispielsweise eine automatische Nummernwahl, eine Menuauswahl oder eine Namenssuche vorzunehmen, schaltet der Kontroller 27 bestimmte Register des Basisbandmodems ein, die für einen Spracherkennungsmodus eingesetzt werden. Der Kontroller 27 stellt die Abtastrate für den Audio-Codec 22 auf eine Abtastrate für die Spracherkennung ein, z. B. 16 kHz. Der Kontroller 27 schaltet dann den Teil des Basisbandmodems ein, der für den Spracherkennungsmodus verwendet wird, insbesondere den Puffer 23, den Merkmalsvektorextraktionsblock 24 und den Merkmalsvektorpuffer 25.
Kurz gesagt, verändert der Kontroller 27 die vom Audio-Codec eingesetzte Abtastrate und bestimmt einen Pfad zur Übertragung des Ausgangssignals des Audio-Codecs 22 nach Maßgabe der benutzerseitig gewählten Anwendung.
In dem Signalübertragungspfad zur Spracherkennung ist ein Ausgang des Puffers 23 mit einem Eingang des Merkmalsvektorextraktionsblocks 24 verbunden. Der Puffer 23 speichert ein Sprachsignal (PCM-Daten) zur Spracherkennung. Der Puffer 23 ist vorzugsweise ein Pingpong-Puffer.
Der Pingpong-Puffer hat insbesondere die Struktur eines Doppelpuffers. Bei einem in zwei Speicherbereiche aufgeteilten Doppelpuffer speichert einer der beiden Speicherbereiche Daten, während der andere Speicherbereich die im ersteren Speicherbereich gespeicherten Daten ausgibt. Die Erfindung verwendet vorzugsweise einen Doppelpuffer oder eine Struktur mit wenigstens drei getrennten Speicherbereichen, die einen Ring bilden. Der Puffer 23 umfasst ferner einen 20 bis 40 ms Puffer.
Der Merkmalsvektorextraktionsblock 24 empfängt die PCM-Daten aus dem Puffer 23 und extrahiert aus den empfangenen PCM-Daten Merkmalsvektoren. Der Merkmalsvektorextraktionsblock 24 setzt MFCC (mel-frequency cepstral coefficients; deutsch: Mel-Frequenz-Cepstrum-Koeffizienten), PLP (Perceptual Linear Prediction; deutsch: lineare Wahrnehmungsprädiktion), LPC (Linear Predictive Coding; deutsch: lineare Prädiktionscodierung) oder LPCC (Linear Predictive Cepstral Coefficients; deutsch: lineare prädiktive Cepstrum-Koeffizienten). Der Merkmalsvektorpuffer 25 speichert die von dem Merkmalsvektorextraktionsblock 24 extrahierten Merkmalsvektoren. Gemäß der vorliegenden Erfindung werden die Merkmalsvektoren wiederholt in Kurzzeiteinheiten von 20 bis 40 ms extrahiert und die extrahierten Merkmalsvektoren in Form eines Felds (array) in dem Merkmalsvektorpuffer 25 gespeichert.
Ganz allgemein sollten beim Extrahieren von Merkmalsvektoren eine Filterbank-Filterung, eine FFT (schnelle Fourier-Transformation), eine DCT (diskrete Cosinus-Transformation) und eine IFFT (inverse schnelle Fourier-Transformation) ausgeführt werden. Daher ist eine große Anzahl von Operationen zum Extrahieren der Merkmalsvektoren erforderlich; der Merkmalsvektorextraktionsprozess zeigt deshalb eine starke Wiederholbarkeit.
Vorzugsweise implementiert die vorliegende Erfindung den Merkmalsvektorextraktionsblock 24 in Hardware. Die Merkmalsvektorextraktion kann jedoch auch in Form von Software implementiert sein.
Der Spracherkennungsblock 26 führt eine Spracherkennung unter Verwendung der in dem Merkmalsvektorpuffer 25 gespeichert Merkmalsvektoren aus. Vorzugsweise umfasst der Spracherkennungsblock 26 eine MPU (Mikroprozessoreinheit) oder einen DSP (digitaler Signalprozessor), die mit einem Spracherkennungsalgorithmus ausgestattet sind.
Die Variabilität des Spracherkennungsalgorithmus ist sehr hoch. Ein Unterschied der Festpunkt-Implementation kann entsprechend einer Trainingsdatei und von Parametern existieren. Zu einer Viterbi-Decordierung entsprechende Teile, Sprachmodelierung oder Grammatik zur Verbesserung des Algorithmus werden eingesetzt. Daher werden Teile einer Festpunkt-Implementation oder Algorithmusverbesserung in dem Spracherkennungsalgorithmus über die zuvor erwähnte MPU oder den DSP implementiert.
Über die MPU oder den DSP kann bei der vorliegenden Erfindung ferner eine Rausch- bzw. Störungsunterdrückung für die Spracherkennung durchgeführt werden. Vorzugsweise wird die Rauschunterdrückung über die MPU oder DSP ausgeführt.
Der Vocoder 28 führt an dem Ausgangssignal (PCM-Daten mit einer Abtastrate von 8 kHz) des Audio-Codecs 22 für die Sprachkommunikation eine Vocoder-Funktion aus. Wenn ein Sprachsignal zur Sprachkommunikation empfangen wird, führt der Vocoder 28 insbesondere die Vocoder-Funktion unter Verwendung mittels QCELP (Qualcomm Code Excited Linear Prediction), EVRC (Enhanced Variable Rate Coding), VSELP (Vector Sum Excited Linear Prediction) oder RPE-LTP (Residual Pulse Excitation/Long Term Prediction; deutsch: Restpulserregung/Langzeitprädiktion) aus. An dem Ausgangssignal des Vocoders 28 wird eine Kanalcodierung mittels eines Faltungscodes oder eines Turbocodes vorgenommen. Nach Abschluss der Kanalcodierung erfolgt noch eine Funkmodulation.
4 zeigt ein Verfahren zur Durchführung einer Spracherkennung gemäß der vorliegenden Erfindung. Das Verfahren umfasst das Empfangen eines Sprachsignals (S100), das Bestimmen, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist (S102), und entweder das Modulieren des Sprachsignals mit einer zur Spracherkennung optimierten Abtastrate (S104) und das Speichern des modulierten Sprachsignals (S106), das Extrahieren eines Merkmalvektors aus dem modulierten Sprachsignal (S108), das Speichern des extrahierten Merkmalsvektors (S110) und das Durchführen einer Spracherkennung unter Verwen dung des extrahierten Merkmalvektors (S112) oder das Modulieren des Sprachsignals unter Verwendung einer für die Sprachkommunikation optimierten Abtastrate (S114) und die Ausführung einer Vocoder-Funktion an dem modulierten Sprachsignal (S116).
Die Extraktion eines Merkmalvektors aus dem modulierten Sprachsignal (S108) wird vorzugsweise in Hardware implementiert. Alternativ kann die Extraktion eines Merkmalvektors aus dem modulierten Sprachsignal (S108) in Form von Software implementiert werden.
Die Ermittlung, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist (S108), erfolgt abhängig von der benutzerseitigen Wahl der Art der Anwendung. Vorzugsweise wird eine Pulscodemodulation an dem Sprachsignal durchgeführt.
Die Auswahl eines der beiden Pfade (S104-S112 und S114-S116) wird vorzugsweise durch Steuerung bestimmter Register vorgenommen, die der Merkmalsvektorextraktion und der Spracherkennung zugeordnet sind. Insbesondere werden die der Merkmalsvektorextraktion und Spracherkennung zugeordneten Register durch Einschalten aktiviert, wenn ein Sprachsignal als ein Sprachbefehl erkannt wird (S102), und werden deaktiviert durch Abschalten des Stroms, wenn das Sprachsignal als Sprachkommunikation erkannt wird.
Wenn das Sprachsignal als ein Sprachbefehl (S102) erkannt wird, wird eine Abtastrate von näherungsweise 12 kHz bis näherungsweise 32 kHz zur Modulation des Sprachsignals verwendet, vorzugsweise 16 kHz. Wenn das Sprachsignal als Sprachkommunikation (S102) bestimmt wird, wird vorzugsweise eine Abtastrate von 8 kHz zur Modulation des Sprachsignals verwendet.
Das Basisbandmodem wird in einem mobilen Kommunikationsendgerät vorzugsweise als ein inneres Element bei der Herstellung des mobilen Kommunikationsendgerät eingebaut. Alternativ kann das Basisbandmodem als ein unabhängiges Modul implementiert werden, das als Teil einer mobilen Kommunikationsendgeräteschicht montiert wird. Daher versteht es sich, dass der Schutzbereich der vorliegenden Erfindung beide der zuvor erwähnten Alternativen umfasst.
Die vorliegende Erfindung stellt verschiedene Wirkungen und Vorteile zur Verfügung. Zunächst, da eine für die Spracherkennung geeignete Abtastrate bei der Modulation durch den Audio-Codec eingesetzt wird, kann die Abtastrate der Spracherkennung verbessert werden. Zweitens, durch Implementierung der Merkmalsvektorextraktion in Hardware kann die vorliegende Erfindung den Umfang der Operationen der Prozessoreinheit zur Spracherkennung vermindern und den Stromverbrauch reduzieren. Drittens, durch Implementierung der Festpunkt-Implementation oder der Algorithmusverbesserung mit der MPU oder dem DSP im Spracherkennungsalgorithmus erleichtert die vorliegende Erfindung die Erweiterung entsprechend zukünftiger Anforderungen.

Claims

Basisbandmodem, umfassend: – einen Audio-Codec (22) welcher dazu eingerichtet ist, ein Sprachsignal zu modulieren, – Mittel (23, 24, 25, 26) zur Spracherkennung, – Mittel (28) zur Sprachkodierung, – eine Steuereinheit (27), welche dazu eingerichtet ist, nach Maßgabe einer benutzerseitigen Wahl festzustellen, ob das Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist, gekennzeichnet durch einen ersten und einen zweiten Signalübertragungsweg, welche mit dem Audio-Codec (22) gekoppelt sind, wobei der erste Signalübertragungsweg die Spracherkennungsmittel (23, 24, 25, 26) enthält und der zweite Signalübertragungsweg die Sprachkodiermittel (28) enthält, wobei die Steuereinheit (27) dazu eingerichtet ist: – im Fall, dass das Sprachsignal als Sprachbefehl festgestellt wird, den Audio-Codec (22) derart zu steuern, dass er das Sprachsignal mit einer ersten Abtastrate kodiert und den ersten Signalweg aktiviert, so dass die Spracherkennungsmittel (23, 24, 25, 26) eine Spracherkennung an dem kodierten Sprachsignal durchführen, – im Fall, dass das Sprachsignal als Sprachkommunikation festgestellt wird, den Audio-Codec (22) derart zu steuern, dass er das Sprachsignal mit einer zweiten Abtastrate kodiert und den zweiten Signalübertragungsweg aktiviert, so dass die Sprachkodiermittel eine Vocoder-Funktion an dem kodierten Sprachsignal ausführen.
Basisbandmodem nach Anspruch 1, wobei die Spracherkennungsmittel (23, 24, 25, 26) ferner umfassen: – einen Merkmalsvektorextraktionsblock (24), welcher dazu eingerichtet ist, aus dem kodierten Sprachsignal wenigstens einen Merkmalsvektor zu extrahieren, und – einen Spracherkennungsblock (26), welcher dazu eingerichtet ist, unter Verwendung des wenigstens einen mittels des Merkmalsvektorextraktionsblocks extrahierten Merkmalsvektors eine Spracherkennung durchzuführen.
Basisbandmodem nach Anspruch 2, wobei die Spracherkennungsmittel (23, 24, 25, 26) ferner einen Puffer (23) umfassen, welcher dazu eingerichtet ist, das kodierte Sprachsignal zu speichern.
Basisbandmodem nach Anspruch 3, wobei der Merkmalsvektorextraktionsblock (24) ferner dazu eingerichtet ist, den wenigstens einen Merkmalsvektor aus Daten zu extrahieren, die in dem Puffer (23) gespeichert sind.
Basisbandmodem nach Anspruch 3 oder 4, wobei der Puffer einen Pingpong-Puffer umfasst.
Basisbandmodem nach einem der Ansprüche 2 bis 5, wobei die Spracherkennungsmittel (23, 24, 25, 26) ferner einen Puffer (25) umfassen, welcher dazu eingerichtet ist, den wenigstens einen aus dem kodierten Sprachsignal extrahierten Merkmalsvektor zu speichern.
Basisbandmodem nach einem der Ansprüche 2 bis 6, wobei der Merkmalsvektorextraktionsblock (24) in Hardware implementiert ist.
Basisbandmodem nach einem der Ansprüche 2 bis 6, wobei der Merkmalsvektorextraktionsblock (24) in Software implementiert ist.
Basisbandmodem nach einem der Ansprüche 2 bis 8, wobei die Steuereinheit (27) dazu eingerichtet ist, Register des Merkmalsvektorextraktionsblocks (24) und des Spracherkennungsblocks (26) einzuschalten, wenn das Sprachsignal ein Sprachbefehl ist, und Register des Merkmalsvektorextraktionsblocks (24) und des Spracherkennungsblocks (26) abzuschalten, wenn das Sprachsignal Sprachkommunikation ist.
Basisbandmodem nach einem der vorhergehenden Ansprüche, wobei die Sprachkodiermittel (28) ferner einen Vocoder umfassen, welcher dazu eingerichtet ist, das kodierte Sprachsignal vocodermäßig zu kodieren.
Basisbandmodem nach einem der vorhergehenden Ansprüche, wobei die erste Abtastrate für Spracherkennung optimiert ist.
Basisbandmodem nach Anspruch 11, wobei die erste Abtastrate in einem Bereich von annähernd 12 kHz bis annähernd 32 kHz liegt.
Basisbandmodem nach Anspruch 12, wobei die erste Abtastrate näherungsweise 16 kHz beträgt.
Basisbandmodem nach einem der vorhergehenden Ansprüche, wobei die zweite Abtastrate für Sprachkommunikation optimiert ist.
Basisbandmodem nach Anspruch 14, wobei die zweite Abtastrate näherungsweise 8 kHz beträgt.
Basisbandmodem nach einem der vorhergehenden Ansprüche, wobei der Audio-Codec (22) ferner dazu eingerichtet ist, eine Pulscodemodulation an dem Sprachsignal vorzunehmen.
Basisbandmodem nach einem der vorhergehenden Ansprüche, wobei das Basisbandmodem in ein mobiles Kommunikationsendgerät eingebaut ist.
Verfahren zur Durchführung von Spracherkennung und Sprachkommunikation in einem Basisbandmodem, wobei das Verfahren umfasst: – Ermitteln (S102) anhand einer benutzerseitigen Wahl, ob ein Sprachsignal ein Sprachbefehl oder Sprachkommunikation ist, gekennzeichnet durch: – falls das Sprachsignal als Sprachbefehl festgestellt wird, Modulieren (S104) des Sprachsignals mit einer ersten Abtastrate und Aktivieren eines ersten Signalübertragungswegs, so dass in dem ersten Signalübertragungsweg enthaltene Spracherkennungsmittel (23, 24, 25, 26) eine Spracherkennung (S106-S112) an den modulierten Sprachsignal vornehmen, – falls das Sprachsignal als Sprachkommunikation festgestellt wird, Modulieren (S114) des Sprachsignals mit einer zweiten Abtastrate und Aktivieren eines zweiten Signalübertragungswegs, so dass in dem zweiten Signalübertragungsweg enthaltene Sprachkodiermittel (28) eine Vocoder-Funktion an dem modulierten Sprachsignal durchführen (S116).
Verfahren nach Anspruch 18, wobei die Durchführung der Spracherkennung an dem modulierten Sprachsignal umfasst: – Extrahieren (S108) wenigstens eines Merkmalsvektors aus dem modulierten Sprachsignal und – Durchführen (S112) einer Spracherkennung unter Verwendung des wenigstens einen Merkmalsvektors.
Verfahren nach Anspruch 19, wobei die Durchführung der Spracherkennung an dem modulierten Sprachsignal ferner umfasst: – Speichern (S106) des modulierten Sprachsignals in einem Puffer (23) und – Extrahieren (S108) des wenigstens einen Merkmalsvektors aus Daten, die in dem Puffer (23) gespeichert sind.
Verfahren nach Anspruch 19 oder 20, wobei die Durchführung der Spracherkennung an dem modulierten Sprachsignal ferner das Speichern (S110) des wenigstens einen aus dem modulierten Sprachsignal extrahierten Merkmalsvektors in einem Puffer (25) umfasst.
Verfahren nach einem der Ansprüche 19 bis 21, wobei das Extrahieren (S108) des wenigstens einen Merkmalsvektors aus dem modulierten Sprachsignal in Hardware implementiert ist.
Verfahren nach einem der Ansprüche 19 bis 21, wobei das Extrahieren (S108) des wenigstens einen Merkmalsvektors aus dem modulierten Sprachsignal in Software implementiert ist.
Verfahren nach einem der Ansprüche 18 bis 23, ferner umfassend ein derartiges Steuern der Aktivierung eines Merkmalsvektorextraktionsblocks (24) und eines Spracherkennungsblocks (26), dass der Merkmalsvektorextraktionsblock und der Spracherkennungsblock aktiviert werden, wenn das Sprachsignal ein Sprachbefehl ist, und der Merkmalsvektorextraktionsblock und der Spracherkennungsblock deaktiviert werden, wenn das Sprachsignal Sprachkommunikation ist.
Verfahren nach Anspruch 24, ferner umfassend das Einschalten von Registern des Merkmalsvektorextraktionsblocks (24) und des Spracherkennungsblocks (26), wenn das Sprachsignal eins Sprachbefehl ist, und das Abschalten von Registern des Merkmalsvektorextraktionsblocks und des Spracherkennungsblocks, wenn das Sprachsignal Sprachkommunikation ist.
Verfahren nach einem der Ansprüche 18 bis 23, ferner umfassend das Modulieren (S104) des Sprachsignals mit einer ersten Abtastrate, welche für Spracherkennung optimiert ist.
Verfahren nach Anspruch 26, ferner umfassend das Modulieren (S104) des Sprachsignals mit einer ersten Abtastrate in einem Bereich von näherungsweise 12 kHz bis näherungsweise 32 kHz.
Verfahren nach Anspruch 27, ferner umfassend das Modulieren (S104) des Sprachsignals mit einer ersten Abtastrate von näherungsweise 16 kHz.
Verfahren nach einem der Ansprüche 18 bis 28, ferner umfassend das Modulieren (S114) des Sprachsignals mit einer zweiten Abtastrate, welche für Sprachkommunikation optimiert ist.
Verfahren nach Anspruch 29, ferner umfassend das Modulieren (S114) des Sprachsignals mit einer zweiten Abtastrate von näherungsweise 8 kHz.
Verfahren nach einem der Ansprüche 18 bis 30, ferner umfassend das Durchführen einer Pulscodemodulation an dem Sprachsignal.
Verfahren nach einem der Ansprüche 18 bis 31, wobei das Basisbandmodem in ein mobiles Kommunikationsendgerät eingebaut ist.