DE60200932T2

DE60200932T2 - Vorrichtung und verfahren zur analyse eines sprachsignals

Info

Publication number: DE60200932T2
Application number: DE60200932T
Authority: DE
Inventors: Karl Hellwig; Hans-Günter Hirsch; Rainer Klisch; Volker Springer
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2001-01-26
Filing date: 2002-01-16
Publication date: 2005-03-10
Anticipated expiration: 2022-01-17
Also published as: US20020156622A1; EP1354313A1; US7062431B2; ATE273552T1; EP1354313B1; EP1229519A1; DE60200932D1; WO2002059873A1

Description

HINTERGRUND DER ERFINDUNG Technisches Gebiet der Erfindung
Die Erfindung betrifft das Gebiet der automatischen Spracherkennung und insbesondere eine sprachanalysierende Stufe sowie ein Verfahren zum Analysieren eines Sprachsignals, welches bei einer von wenigstens zwei in einem automatischen Spracherkennungssystem verwendeten unterschiedlichen Systemabtastraten abgetastet wird.
Diskussion des Standes der Technik
Die automatische Spracherkennung entwickelt sich zu einer Technologie, die zum Steuern aller Arten von elektronischen Vorrichtungen, z.B. Mobiltelefone, verwendet wird bzw. um Zugriff auf Dienste über ein Telekommunikationsnetz zu erhalten.
Automatische Spracherkennungssysteme können sich mit Bezug auf den spektralen Bereich, in dem Eingangssprachsignale analysiert werden, unterscheiden. Heutzutage konzentrieren sich viele telekommunikative Endgeräte mit automatischen Spracherkennungsfähigkeiten auf den spektralen Bereich bis zu 4 kHz, durch Abtasten eines analogen Eingangssprachsignals mittels eines Analog-/Digitalwandlers, der mit einer Abtastgeschwindigkeit von 8 kHz arbeitet. Ein standardmäßiger Ansatz zum Analysieren und Erkennen solcher digitalisierter Sprachsignale in einem automatischen Spracherkennungssystem 100 wird in der 1 dargestellt.
Das digitalisierte Eingangssprachsignal wird mittels eines Spektralanalysators in Form einer MEL-Filterbank 110 analysiert. In der MEL-Filterbank 110 wird das Spektralband des Eingangssprachsignals in eine Vielzahl von Teilbändern geteilt, die in der MEL-spektralen Domäne äquidistant angeordnet sind. Die MEL-Filterbank 110 führt dann eine Kurzzeitspektralanalyse mit Bezug auf die kurzzeitige Sprachenergie für jedes Teilband durch. Die Spektralanalyse in dem MEL-spektralen Bereich berücksichtigt Eigenschaften der menschlichen Sprachwahrnehmung, da das mensch liche Gehörsystem eine höhere spektrale Auflösung bei niedrigen Frequenzen aufweist.
Das MEL-gefilterte Sprachsignal wird dann in einen nichtlinearen Transformationsblock 120 eingegeben, der für jedes von der MEL-Filterbank 110 analysierte Teilband eine individuelle nichtlineare Transformationseinheit umfaßt. Jede der nichtlinearen Transformationseinheiten des nichtlinearen Transformationsblockes 120 wandelt die in dem jeweiligen Teilband enthaltene Sprachenergie von der linearen spektralen Domäne in die logarithmische Domäne um. Die Ausgabe von dem nichtlinearen Transformationsblock 120 wird in einen DCT-Block (Discrete Cosine Transformation) 130 eingegeben, welcher das Sprachsignal in die cepstrale Domäne umwandelt. Die Ausgabe des DCT-Blocks 130 besteht aus L akustischen Parametern in der cepstralen Domäne (cepstrale Parameter). Die cepstralen Parameter werden als Eingabe für die Erkennungseinheit 140 genommen, in der ein Musterabgleich stattfindet. Durch den Musterabgleich werden die cepstralen Parameter des Sprachsignals mit entsprechenden Parametern verglichen, die als im voraus trainierte Referenzmodelle in einer Referenzmodel-Datenbank 150 gespeichert sind. Hidden Markov Models (HMM) werden sehr häufig als Referenzmodelle verwendet. Die Referenzmodelle sind im voraus trainiert, um so die spektralen Charakteristika z.B. von Wörtern oder Phonemen darzustellen. Durch den Musterabgleich kann ein Erkennungsergebnis erhalten werden, das anschließend von der Erkennungseinheit 140 ausgegeben wird.
Aus dem obigen geht hervor, daß das in der 1 dargestellte herkömmliche automatische Spracherkennungssystem 100 das Eingangssprachsignal in einem spektralen Bereich bis zu 4 kHz durch Abtasten des analogen Eingangssprachsignals bei 8 kHz analysiert. Selbstverständlich können auch höhere Abtastraten verwendet werden. PC's verwenden beispielsweise häufig eine Abtastrate von 11 kHz, was ¼ der für das Abtasten von CD's verwendeten 44,1 kHz ausmacht. Es ist offensichtlich, daß eine höhere Abtastbandbreite mit mehr spektralen Informationen verbunden ist, so daß die Leistung automatischer Spracherkennungssysteme im allgemeinen steigt, wenn höhere Abtastraten angewendet werden.
Für die Zukunft wird erwartet, daß elektronische Geräte, die mit mehreren Abtastraten arbeiten, und Netzwerksysteme, die Endgeräte umfassen, welche mit einer von unterschiedlichen Systemabtastraten funktionsfähig sind, entwickelt werden. Folglich wird sich die Frage stellen, wie ein automatisches Spracherkennungssystem konstruiert werden soll, das die Analyse von mit unterschiedlichen Abtastraten abgetasteten Sprachsignalen ermöglicht.
Aus „Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Front-End Feature Extraction Algorithm", ETSI Standard Document ETSI ES 201 108 v1.1.2 (2000-04), April 2000 ist ein Vorschlag für ein Netzwerksystem mit einem automatischen Spracherkennungssystem bekannt, das drei unterschiedliche Abtastraten von 8, 11 und 16 kHz unterstützt.
Die Sprachanalyse in diesem Netzwerksystem basiert auf einer MEL-Filterbank mit 23 Teilbändern. Die Anzahl der 23 MEL-Teilbänder wird für alle drei Abtastraten konstant gehalten. Dies bedeutet, daß die Teilbänder in unterschiedlicher Weise über jeden der drei zu analysierenden spektralen Bereiche von 4, 5,5 und 8 kHz (entsprechend den Abtastraten von 8, 11 und 16 kHz) verteilt wird.
Es ist offensichtlich, daß durch die unterschiedliche Verteilung der 23 Teilbänder über die drei spektralen Bereiche die Spektralanalyse für jede Abtastrate verschieden ist. Als Folge sieht ein und dasselbe Referenzmodel in Abhängigkeit der Abtastrate, bei der das jeweilige Referenzmodel trainiert wurde, verschieden aus. Hieraus geht hervor, daß die Referenzmodelle für jede Abtastrate individuell trainiert werden müssen, um eine optimale Erkennungsleistung zu gewährleisten. Somit werden der Trainingsaufwand und die Speicheranforderungen für ein automatisches Spracherkennungssystem, das mit drei unterschiedlichen Abtastraten arbeitet, wenigstens um einen Faktor Drei erhöht.
Aus diesem Grunde besteht ein Bedarf an einer sprachanalysierenden Stufe sowie an einem Verfahren zum Analysieren eines Sprachsignals, welches bei einer von wenigstens zwei in einem automatischen Spracherkennungssystem verwendeten unterschiedlichen Systemabtastraten abgetastet wird, die anwenderfreundlich sind und die Vereinfachung der Hardware-Anforderungen des automatischen Spracherkennungssystems ermöglichen.
ZUSAMMENFASSUNG DER ERFINDUNG
Erfindungsgemäß wird eine sprachanalysierende Stufe gemäß Anspruch 1 vorgeschlagen, ein Endgerät gemäß Anspruch 11, ein verteiltes Spracherkennungssystem gemäß Anspruch 12, ein Datensignal gemäß Anspruch 13 sowie ein Verfahren gemäß Anspruch 14.
Gemäß der Erfindung wird eine sprachanalysierende Stufe eines automatischen Spracherkennungssystems zum Analysieren eines Sprachsignals in der spektralen Domäne, welches bei einer von wenigstens zwei unterschiedlichen Systemabtastraten abgetastet wird, vorgeschlagen, wobei die sprachanalysierende Stufe einen ersten Spektralanalysator zum Analysieren des Sprachsignals bis zu einer ersten Frequenz sowie einen zweiten Spektralanalysator zum Analysieren des Sprachsignals wenigstens oberhalb der ersten Frequenz umfaßt.
Ein erfindungsgemäßes Verfahren zum Analysieren eines Sprachsignals in der spektralen Domäne, welches bei einer von wenigstens zwei unterschiedlichen Systemabtastraten eines automatischen Spracherkennungssystems abgetastet wird, umfaßt einen ersten Analyseschritt zum Analysieren des Sprachsignals bis zu einer ersten Frequenz sowie einen zweiten Analyseschritt zum Analysieren des Sprachsignals wenigstens oberhalb der ersten Frequenz.
Erfindungsgemäß werden wenigstens zwei Spektralanalysatoren vorgesehen, von denen jeder Spektralanalysator das Sprachsignal in der spektralen Domäne analysiert. Der erste Spektralanalysator analysiert das Sprachsignal in einem niedrigeren Spektralbereich mit einer oberen Frequenzgrenze, die durch eine erste Frequenz definiert ist. Die erste Frequenz wird vorzugsweise aus der untersten Systemabtastrate abgeleitet. Die unterste Systemabtastrate ist die unterste Abtastrate, die in einem automatischen Spracherkennungssystem auftritt, in dem wenigstens zwei unterschiedliche Abtastraten verwendet werden.
Beispielsweise kann die erste Frequenz so ausgewählt werden, daß sie etwa gleich der Hälfte der untersten Systemabtastrate oder weniger als der Hälfte der untersten Abtastrate ist. Die Auswahl der ersten Frequenz derart, daß sie gleich der Hälfte der untersten Systemabtastrate oder weniger als der Hälfte der untersten Systemabtastrate ist, ist vorteilhaft, weil ein bei der untersten Systemabtastrate abgetastetes Sprachsignal keine spektralen Informationen in einen Frequenzbereich oberhalb der Hälfte der untersten Systemabtastrate enthält. Trotzdem kann es in bestimmten Fällen angebracht sein, die erste Frequenz derart auszuwählen, daß sie mehr als der Hälfte der untersten Systemabtastrate gleichgestellt ist.
Der erste Spektralanalysator gemäß der Erfindung gewährleistet eine hohe Kompatibilität unter den Komponenten eines automatischen Spracherkennungssystems, das mit mehreren Systemabtastraten arbeitet, da für sämtliche Abtastraten ein kompatibles Set an akustischen Parametern erhalten werden kann. Dieses kompatible Set akustischer Parameter wird von dem ersten Spektralanalysator erzeugt, der, unabhängig von der Abtastrate, d.h. selbst bei der untersten Abtastrate, immer einen identischen Spektralbereich bis zur ersten Frequenz parametrisiert.
Das kompatible Set akustischer Parameter ermöglicht somit die Durchführung einer automatischen Spracherkennung basierend auf einem einzigen Set an Referenzmodellen. Dies hat den Vorteil, daß beispielsweise kein Bedarf besteht, ein individuelles Set an Referenzmodellen für jede Abtastrate, die von dem automatischen Spracherkennungssystem unterstützt wird, zu trainieren. Mit anderen Worten wird das Trainieren von Referenzmodellen auf Daten bei einer Abtastrate auch eine zuverlässige Erkennung von Sprachsignalen ermöglichen, die bei unterschiedlichen Abtastraten abgetastet wurden. Vorzugsweise werden die Referenzmodelle unter Verwendung von Sprachdaten erzeugt, die bei der höchsten Systemabtastrate abgetastet wurden.
Ein weiterer Vorteil der Erfindung liegt in der Tatsache, daß die Erkennungsstufe eines automatischen Spracherkennungssystems vereinfacht werden kann, weil das kompatible Set an akustischen Parametern die Durchführung eines Musterabgleichs ermöglicht, wobei ein und dieselbe Musterabgleichseinheit für bei unterschiedlichen Abtastraten abgetastete akustische Parameter verwendet wird.
Oben wurde herausgestellt, daß der erste Spektralanalysator das Sprachsignal unabhängig von der Abtastrate des Sprachsignals bis zu einer ersten Frequenz analysiert, die vorzugsweise aus der untersten Systemabtastrate abgeleitet wird. Um die Qualität der Spracherkennung zu steigern ist es vorteilhaft, auch zusätzliche spektrale Informationen oberhalb der ersten Frequenz zu analysieren, die in Sprachsignalen vorliegen, welche bei Abtastraten abgetastet wurden, die höher als die unterste Systemabtastrate waren. Eine derartige Analyse wird von dem zweiten Spektralanalysator durchgeführt, der das Sprachsignal wenigstens in einem Spektralbereich oberhalb der ersten Frequenz analysiert. Der zweite Spektralanalysator kann so zusätzliche akustische Parameter erzeugen, die Informationen über den oberen Spektralbereich des Sprachsignals enthalten.
Der zweite Spektralanalysator kann derart konfiguriert sein, daß er nicht nur das Sprachsignal oberhalb der ersten Frequenz analysiert, sondern auch das Sprachsignal unterhalb der ersten Frequenz. Dies resultiert in redundanten Informationen, da der letztere Spektralbereich auch von dem ersten Spektralanalysator analysiert wird. Gemäß einer bevorzugten Ausführungsform analysiert der zweite Spektralanalysator deshalb das Sprachsignal im wesentlichen nur oberhalb der ersten Frequenz. Dies beinhaltet eine geringfügige Überlappung der von dem ersten und dem zweiten Spektralanalysator analysierten Spektralbereiche.
Überlappen sich die von unterschiedlichen Spektralanalysatoren analysierten Spektralbereiche, so wird die Überlappung in vorteilhafter Weise so ausgewählt, daß kein Spektralanalysator einen Spektralbereich, der auch von einem weiteren Spektralanalysator analysiert wird, komplett analysiert. Dies bedeutet, daß, obgleich sich die von unterschiedlichen Spektralanalysatoren analysierten Spektralbereiche überlappen können, jeder Spektralanalysator ein Frequenzband analysiert, das nicht von verschiedenen Spektralanalysatoren analysiert wird.
Die Analyse des Sprachsignals kann in einer gestuften Art und Weise erfolgen, derart, daß mehr als zwei individuelle Spektralanalysatoren das Sprachsignal analysieren. Vorzugsweise analysiert jeder individuelle Spektralanalysator das Sprachsignal bis zu einer individuellen Frequenz, wobei die höchste der individuellen Frequenzen von der höchsten Systemabtastrate abgeleitet wird. So kann beispielsweise ein drit ter Spektralanalysator zum Analysieren des Sprachsignals wenigstens oberhalb einer zweiten Frequenz vorgesehen sein, bis zu welcher der zweite Spektralanalysator das Sprachsignal analysiert. Das Vorsehen weiterer Spektralanalysatoren ist ebenfalls möglich.
Die von den individuellen Spektralanalysatoren analysierten individuellen Spektralbereiche können überlappend oder nicht überlappend sein. Vorzugsweise analysiert jeder individuelle Spektralanalysator einen individuellen Spektralbereich, der nicht von einem anderen Spektralanalysator analysiert wird. Dies bedeutet, daß der erste Spektralanalysator das Sprachsignal bis zu der ersten Frequenz analysieren kann, daß der zweite Spektralanalysator das Sprachsignal zwischen der ersten Frequenz und der zweiten Frequenz analysieren kann und daß der dritte Spektralanalysator das Sprachsignal nur oberhalb der zweiten Frequenz analysiert.
Die individuellen Spektralanalysatoren können mit Bezug aufeinander in unterschiedlicher Weise angeordnet sein. Gemäß einer bevorzugten Ausführungsform sind die Spektralanalysatoren parallel angeordnet. Hierdurch kann ein einziges Sprachsignal gleichzeitig in die individuellen Spektralanalysatoren eingegeben werden, und die individuellen Spektralanalysatoren können gleichzeitig entsprechende akustische Parameter für den von dem jeweiligen Spektralanalysator analysierten Spektralbereich ausgeben.
Die individuellen Spektralanalysatoren können eine identische oder unterschiedliche Konstruktionen aufweisen. Beispielsweise können ein oder mehrere Spektralanalysatoren als Energieanalysatoren konfiguriert sein, die die Sprachenergie bestimmen, die innerhalb des ganzen von einem individuellen Spektralanalysator analysierten Spektralbereiches oder innerhalb eines oder mehrerer Teilbänder dieses Spektralbereiches enthalten sein kann. Vorzugsweise ist wenigstens der erste Spektralanalysator (der das Sprachsignal bis zur ersten Frequenz analysiert) eine Filterbank, z.B. eine MEL-Filterbank, die zwei oder mehrere Teilbänder des Eingangssprachsignals in Bezug auf die in jedem Teilband enthaltene Sprachenergie analysiert. Der eine bzw. die mehreren Spektralanalysatoren, die dem ersten Spektralanalysator folgen, z.B. der zweite und der dritte Spektralanalysator, können ebenfalls jeweils als Filterbank konfiguriert sein. Allerdings sind die dem ersten Spektralanalysator folgenden Spektralanalysatoren vorzugsweise als Energieanalysatoren konfiguriert, die die in dem von dem jeweiligen Energieanalysator analysierten Spektralbereich enthaltene Sprachenergie nur integral bestimmen. Dadurch können Hardwareanforderungen für die sprachanalysierende Stufe reduziert werden.
Die die Vielzahl an Spektralanalysatoren enthaltende sprachanalysierende Stufe kann für sämtliche Arten von automatischen Spracherkennungssystemen angewendet werden. Vorzugsweise ist die sprachanalysierende Stufe in einem mobilen oder nicht mobilen Endgerät angeordnet, welches Teil eines größeren Netzwerkes mit einem Netzwerkserver und einer Vielzahl an Endgeräten bildet. Alternativ kann die sprachanalysierende Stufe auch auf Seiten des Netzwerkservers angeordnet sein. Eine Spracherkennungsstufe des automatischen Spracherkennungssystems kann ebenfalls entweder endgeräteseitig oder auf Seiten des Netzwerkservers angeordnet sein.
Sind die sprachanalysierende Stufe und die Spracherkennungsstufe nicht innerhalb derselben Vorrichtung ortsgleich angebracht, so wird ein verteiltes Spracherkennungssystem (Distributed Speech Recognition – DSR) geschaffen. In einem solchen DSR-System erfolgt die Analyse des Sprachsignals (d.h. die Merkmalsextraktion) im Endgerät, und die extrahierten Merkmale werden dann an einen zentralen Netzwerkserver übertragen, der eine gemeinsame Spracherkennungsstufe für sämtliche Endgeräte aufweist.
Gemäß einer bevorzugten Ausführungsform ist das automatische Spracherkennungssystem ein DSR-System, das mit zwei oder mehreren unterschiedlichen Systemabtastraten arbeitet. Gemäß einer ersten Ausführung eines derartigen DSR-Systems umfaßt dieses wenigstens ein Endgerät, das mit mehr als einer Abtastrate funktioniert. Gemäß einer zweiten Ausführung umfaßt das DSR-System wenigstens ein erstes Endgerät, das mit einer ersten Abtastrate arbeitet sowie wenigstens ein weiteres Endgerät, das mit einer sich von der ersten Abtastrate unterscheidenden zweiten Abtastrate arbeitet.
Aus dem obigen geht hervor, daß die Analyse des Sprachsignals in einem DSR-System in den Endgeräten stattfindet und der Musterabgleich in einem zentralen Netzwerkserver. Um die Übertragung der von der spektralen Analysestufe erzeugten akustischen Parameter vom Endgerät zum Netzwerkserver zu ermöglichen, kann die sprachanalysierende Stufe weiterhin eine Kodiereinheit zum Kodieren akustischer Parameter gemäß einem speziellen Übertragungsformat enthalten. Ferner kann eine Schnittstelle zum Übertragen der kodierten akustischen Parameter an den Netzwerkserver vorgesehen sein. Der Netzwerkserver kann eine entsprechende Schnittstelle sowie eine Dekodiereinheit zum Dekodieren der empfangenen kodierten akustischen Parameter umfassen.
Die Erfindung betrifft auch ein Datensignal, das vom Endgerät an den Netzwerkserver mit einer zentralen Spracherkennungsstufe übertragen wird, wobei das Datensignal eine erste Datenstruktur umfaßt, die auf die Abtastrate bezogen ist, sowie eine zweite Datenstruktur, die wenigstens einen Codebuch-Index enthält, der von einem Codebuch für eine spezifische Kombination eines oder mehrerer akustischer Parameter, welche durch Analysieren des Sprachsignals bis zu einer ersten Frequenz erhalten wurden, und eines oder mehrerer weiterer akustischer Parameter, welche durch Analysieren des Sprachsignals wenigstens oberhalb der ersten Frequenz erhalten wurden, abgeleitet wurde.
Aus der ersten Datenstruktur des Datensignals kann der Netzwerkserver die Rate ableiten, bei der das Sprachsignal abgetastet worden ist. Hierdurch ist es dem Netzwerkserver möglich, Schlußfolgerungen aus der ersten Datenstruktur über das Format der in der zweiten Datenstruktur enthaltenen analysierten Sprache zu ziehen. Die zweite Datenstruktur enthält einen oder mehrere Codebuch-Indexe, die zur Identifizierung der für das Musterabgleichsverfahren im Netzwerkserver verwendeten akustischen Parameter erforderlich sind. Vorzugsweise weist die zweite Datenstruktur eine individuelle Datenteilstruktur auf, beispielsweise für Paare, Dreier- oder Vierergruppen akustischer Parameter.
Die Erfindung kann beispielsweise als eine Hardwarelösung oder als ein Computerprogrammproduktimplementiert werden, mit Programmcodebereichen zur Durchführung individueller Schritte der Erfindung, wenn das Computerprogrammprodukt auf einem automatischen Spracherkennungssystem ausgeführt wird. Das Computerprogrammprodukt kann auf einem computerlesbaren Speichermedium wie einem Daten träger gespeichert sein, das an einer Systemkomponente angebracht bzw. von dieser entfernt werden kann.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Weitere Aspekte und Vorteile der Erfindung gehen aus der folgenden detaillierten Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung sowie den Zeichnungen hervor, in denen
1 ein Blockdiagramm eines herkömmlichen automatischen Spracherkennungssystems ist,
2 ein Blockdiagramm einer möglichen Ausführung eines automatischen Spracherkennungssystems, das mit einer Vielzahl an unterschiedlichen Systemabtastfrequenzen arbeitet, ist;
3 ein Blockdiagramm eines automatischen Spracherkennungssystems umfassend eine erste Ausführungsform einer sprachanalysierenden Stufe gemäß der Erfindung ist;
4 ein Blockdiagramm eines verteilten Spracherkennungssystems gemäß der Erfindung ist;
5 ein Blockdiagramm einer zweiten Ausführungsform einer sprachanalysierenden Stufe gemäß der Erfindung, die in einem DSR-System gemäß 4 Verwendung finden kann, ist;
6a bis 6c Blockdiagramme, die die Verwendung von Codebüchern in sprachanalysierenden Stufen gemäß der Erfindung zeigen, sind; sowie
7 ein schematisches Diagramm eines Datensignals gemäß der Erfindung, zur Verwendung in dem DSR-System gemäß 4 ist.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
In der 2 wird eine mögliche Ausführung eines automatischen Spracherkennungssystems 100 dargestellt, das mit einer Vielzahl an Abtastraten arbeitet. Das in der 2 gezeigte automatische Spracherkennungssystem wurde aus dem obengenannten Dokument „Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Front-End Feature Extraction Algorithms", ETSI Standard Document ETSI ES 201 108 v1.1.2 (2000-04), April 2000 abgeleitet und gehört nicht zur Erfindung. Auf der Grundlage des automatischen Spracherkennungssystems gemäß 2 wird das erfindungsgemäße Konzept jedoch besser verständlich.
Das in der 2 gezeigte automatische Spracherkennungssystem 100 ist so konfiguriert, daß es bei drei verschiedenen Systemabtastfrequenzen arbeiten kann, nämlich 8, 11 und 16 kHz. Zur Unterstützung der automatischen Spracherkennung bei drei verschiedenen Abtastraten umfaßt das in der 2 gezeigte automatische Spracherkennungssystem drei individuelle Spracherkennungszweige 100a, 100b, 100c, ähnlich dem in der 1 gezeigten einzigen Spracherkennungszweig. Jeder dieser drei Spracherkennungszweige 100a, 100b, 100c ist so konfiguriert, daß er ein bei einer bestimmten Abtastrate abgetastetes Sprachsignal empfangen kann. So empfängt der Zweig 100a ein bei 8 kHz abgetastetes Sprachsignal, der Zweig 100b empfängt ein bei 11 kHz abgetastetes Sprachsignal und der Zweig 100c empfängt ein bei 16 kHz abgetastetes Sprachsignal.
Gemäß Absatz 4.2.9 des obengenannten ETSI-Standard-Dokumentes umfaßt jeder Zweig 100a, 100b, 100c einen Spektralanalysator in Form einer MEL-Filterbank 110a, 110b, 110c, die eine MEL-Filterung in einem Spektralband bis zur Hälfte der jeweiligen Abtastrate durchführt, wobei jedes Spektralband in 23 Teilbänder geteilt ist, die äquidistant in der MEL-spektralen Domäne angeordnet sind. Die individuellen MEL-Filterbänke 110a, 110b, 110c unterscheiden sich somit für jede Abtastrate. Dies bedeutet, daß die Spektralanalyse (und die nachfolgend für den Musterabgleich verwendeten akustischen Parameter) ebenfalls unterschiedlich ist. Da die innerhalb jedes der drei Spracherkennungszweige 100a, 100b, 100c erzeugten akustischen Pa rameter nicht kompatibel sind, muß jede Erkennungsstufe 100a, 100b, 100c mit einer separaten Musterabgleichseinheit 140a, 140b, 140c versehen werden. Dies wiederum erfordert, daß jede Musterabgleichseinheit 140a, 140b, 140c separat bei der jeweiligen Abtastrate des Eingangssprachsignals trainiert werden muß, um optimale Erkennungsqualität zu gewährleisten. Hierdurch werden sowohl der Trainingsaufwand als auch die Speicheranforderungen wenigstens um einen Faktor Drei erhöht.
Die bei dem in der 2 gezeigten automatischen Spracherkennungssystem anzutreffenden Probleme werden durch das in der 3 gezeigte automatische Spracherkennungssystem 10 überwunden, welches eine erste Ausführungsform einer sprachanalysierenden Stufe 12 gemäß der Erfindung umfaßt. Das automatische Spracherkennungssystem 10 umfaßt weiterhin eine Erkennungsstufe 14 mit einer einzigen Musterabgleichseinheit 16. Die Musterabgleichseinheit 16 führt einen Musterabgleich auf der Grundlage der akustischen Parameter durch, die von der sprachanalysierenden Stufe 12 empfangen werden, sowie aufgrund von Referenzmodellen, die in einer in der 3 nicht dargestellten Datenbank gespeichert sind.
Aus der 3 ist ersichtlich, daß, obwohl die sprachanalysierende Stufe 12 eine Vielzahl von sprachanalysierenden Zweigen 12a, 12b aufweist, die Erkennungsstufe 14 nur eine einzige Musterabgleichseinheit 16 mit einem in der 3 nicht dargestellten einzigen Referenzmodell aufweist. Die Anzahl der sprachanalysierenden Zweige 12a, 12b innerhalb der sprachanalysierenden Stufe 12 ist gleich der Anzahl der Abtastfrequenzen, die in dem automatischen Spracherkennungssystem 10 angewendet werden. Jeder sprachanalysierende Zweig 12a, 12b umfaßt einen individuellen Spektralanalysator 18a, 18b in Form einer MEL-Filterbank, einen individuellen nichtlinearen Transformationsblock 20a, 20b sowie einen individuellen DCT-Block 22a, 22b.
Im folgenden wird angenommen, daß die sprachanalysierende Stufe 12 des automatischen Spracherkennungssystems 10 innerhalb eines Endgerätes angeordnet ist, in dem ein Sprachsignal bei einer Abtastrate von 2 × f_high1 abgetastet wird. Die Erkennungsstufe 14 des automatischen Spracherkennungssystems 10 kann sich entweder im selben Endgerät oder in einem abgesetzten Netzwerkserver befinden. Es wird weiterhin angenommen, daß das in der 3 gezeigte automatische Spracherken nungssystem 10 weitere Abtastraten von 2 × f_lowest, 2 × f_high2 etc. unterstützt. Diese weiteren Abtastraten können beispielsweise durch ein Endgerät unterstützt werden, das Sprache ebenfalls bei einer Abtastrate von 2 × f_high1 abtastet, bzw. durch ein anderes Endgerät, das so konfiguriert ist, daß nur eine einzige sich von 2 × f_high1 unterscheidende Abtastrate unterstützt wird.
Der erste in dem ersten sprachanalysierenden Zweig 12a der sprachanalysierenden Stufe 12 angeordnete Spektralanalysator 18a ist so konfiguriert, daß er das Sprachsignal in einem Spektralbereich bis zu f_lowest analysiert. Diese obere Spektralgrenze des vom ersten Spektralanalysator 18a analysierten Spektralbereiches wurde aus der untersten Systemabtastrate 2 × f_lowest durch Multiplizieren der untersten Systemabtastrate 2 × f_lowest mit 0,5 abgeleitet. Die obere Spektralgrenze des vom ersten Spektralanalysator 18a analysierten Spektralbereiches könnte auch so ausgewählt werden, daß sie weniger als der Hälfte der untersten Systemabtastrate gleichgestellt ist. Beträgt beispielsweise die unterste Systemabtastrate 8 kHz, so könnte f_lowest gleich 3,5 kHz sein.
Der erste als eine MEL-Filterbank konfigurierte Spektralanalysator 18a analysiert das Sprachsignal mit Blick auf die kurzzeitige Sprachenergie, die in jedem der L' Teilbänder enthalten ist, und gibt L' akustische Parameter aus. Die L' akustischen Parameter werden anschließend mittels des nichtlinearen Transformationsblocks 20a von der linearen spektralen Domäne in die logarithmische spektrale Domäne umgewandelt, und die Ausgabe des nichtlinearen Transformationsblocks 20a wird einer DCT (Discrete Cosine Transformation) innerhalb des DCT-Blocks 22a unterworfen. Im DCT-Block 22a werden die L' logarithmischen akustischen Parameter in die cepstrale Domäne umgewandelt. Die umgewandelten L akustischen Parameter werden dann der Musterabgleichseinheit 16 der Erkennungsstufe 14 zugeführt. Gewöhnlich unterscheidet sich die von dem DCT-Block 22a ausgegebene Anzahl L der akustischen Parameter von der Anzahl L' der akustischen Parameter, die mittels des nichtlinearen Transformationsblocks 20a in den DCT-Block 22a eingegeben werden (z.B. L < L'). Die Anzahl L akustischer Parameter, die vom DCT-Block 22a ausgegeben werden, ist normalerweise etwa der Hälfte der Anzahl akustischer Parameter L', die in den DCT-Block 22a eingegeben werden, gleichgestellt.
Da die sprachanalysierende Stufe 12 ein Sprachsignal empfängt, das bei einer Abtastrate von 2 × f_high1 abgetastet wurde, und da der erste Spektralanalysator 18a nur einen Spektralbereich bis zu f_lowest analysiert, enthält das Sprachsignal Spektralinformationen, die nicht in den von dem ersten Spektralanalysator 18a ausgegebenen L' akustischen Parametern enthalten sind. Deshalb umfaßt die sprachanalysierende Stufe 12 den zweiten sprachanalysierenden Zweig 12b mit dem zweiten Spektralanalysator 18b. Der zweite Spektralanalysator 18b ist parallel zum ersten Spektralanalysator 18a angeordnet und empfängt das Sprachsignal gleichzeitig mit dem ersten Spektralanalysator 18a.
Wie aus der 3 ersichtlich ist, analysiert der zweite Spektralanalysator 18b das Sprachsignal in einem Spektralbereich zwischen f_lowest und f_high1. Da ein bei einer Abtastrate von 2 × f_high1 abgetastetes Sprachsignal keine spektralen Informationen oberhalb × f_high1, d.h. oberhalb der Hälfte der Abtastrate enthält, analysiert der zweite Spektralanalysator 18b sämtliche zusätzlichen spektralen Informationen, die in dem Sprachsignal enthalten sind und nicht von dem ersten Spektralanalysator 18a analysiert werden.
Der zweite Spektralanalysator 18b analysiert M' Teilbänder im Spektralbereich zwischen f_lowest und × f_high1 und gibt M' (M' ≥ 1) akustische Parameter aus. Diese M' akustischen Parameter werden dann dem nichtlinearen Transformationsblock 20b zugeführt und von der linearen spektralen Domäne in die logarithmische spektrale Domäne umgewandelt. Die Ausgabe des nichtlinearen Transformationsblocks 20b wird dem DCT-Block 22b zugeführt, und die vom DCT-Block 22b ausgegebenen M (M ≤ M') akustischen Parameter werden der Musterabgleichseinheit 16 der Erkennungsstufe 14 zugeführt.
Die in der 3 dargestellte sprachanalysierende Stufe 12 ist Teil eines Endgerätes, das ein analoges Sprachsignal bei einer Abtastrate von 2 × f_high1 abtastet. Wie oben ausgeführt, kann das in der 3 dargestellte automatische Spracherkennungssystem 10 weiterhin ein Endgerät umfassen, das ein analoges Sprachsignal bei einer Abtastrate von 2 × f_lowest, 2 × f_lowest abtastet, welches die unterste Abtastrate in dem automatischen Spracherkennungssystem 10 ist. Obwohl ein derartiges Endgerät mit der in 3 dargestellten sprachanalysierenden Stufe 12 ausgestattet sein kann, wäre es ausreichend, ein derartiges Endgerät mit einer sprachanalysierenden Stufe auszustatten, die nur einen einzigen sprachanalysierenden Zweig ähnlich dem in der 2 gezeigten sprachanalysierenden Zweig 12a umfaßt. Dies deshalb, weil ein bei einer Abtastrate von 2 × f_lowest abgetastetes Sprachsignal keine spektralen Informationen oberhalb f_lowest enthält.
Ein derartiges Endgerät mit lediglich einem einzigen sprachanalysierenden Zweig ähnlich dem in der 3 gezeigten sprachanalysierenden Zweig 12a würde ein Set von L akustischen Parametern erzeugen, welches mit dem Set der L akustischen Parameter kompatibel ist, das von dem ersten sprachanalysierenden Zweig 12a der in der 3 gezeigten sprachanalysierenden Stufe 12 erzeugt wurde. Dies bedeutet, daß, obgleich das automatische Spracherkennungssystem 10 Endgeräte enthalten kann, die mit unterschiedlichen Abtastraten arbeiten, jedes Endgerät unabhängig von der eigentlichen Abtastrate einen sprachanalysierenden Zweig aufweist, der dem in der 3 gezeigten sprachanalysierenden Zweig 12a ähnlich ist und der somit eine kompatible Ausgabe erzeugt. Hierdurch wird eine hohe Kompatibilität innerhalb des automatischen Spracherkennungssystems 10 gewährleistet.
In der 4 ist ein DSR-System 200 gemäß der Erfindung dargestellt. Das DSR-System 200 umfaßt einen einzigen Netzwerkserver 210 mit einer zentralen Erkennungsstufe 210a. Der Netzwerkserver 210 kommuniziert über drahtgebundene oder drahtlose Datenübermittlungsabschnitte 212 mit drei Endgeräten 214, 216, 218, z.B. Mobiltelefonen.
Jedes Endgerät 214, 216, 218 umfaßt eine jeweilige sprachanalysierende Stufe 214a, 216a, 218a. Die drei Endgeräte 214, 216, 218 arbeiten bei unterschiedlichen Abtastraten, d.h. das erste Endgerät 214 arbeitet bei einer Abtastrate von 8 kHz, das zweite 216 bei einer Abtastrate von 11 kHz und das dritte 218 bei einer Abtastrate von 16 kHz. Im folgenden soll die sprachanalysierende Stufe 218a des bei einer Abtastrate von 16 kHz arbeitenden dritten Endgerätes 218 mit Bezug auf die 5 näher erläutert werden.
In der 5 ist die sprachanalysierende Stufe 218a des in der 4 gezeigten dritten Endgerätes 218 näher dargestellt. Die in der 5 dargestellte sprachanalysie rende Stufe 218a weist einige Ähnlichkeiten mit der sprachanalysierenden Stufe gemäß 3 auf. Entsprechende Elemente weisen deshalb gleiche Bezugszeichen auf.
Die in der 5 dargestellte sprachanalysierende Stufe 218a umfaßt drei verschiedene sprachanalysierende Zweige 12a, 12b 12c entsprechend der Anzahl der verschiedenen Abtastraten, die im DSR-System 200 gemäß 4 verwendet werden. Der erste sprachanalysierende Zweig 12a ist mit dem ersten sprachanalysierenden Zweig der in der 3 dargestellten sprachanalysierenden Stufe identisch. Der erste Spektralanalysator 18a, der das Sprachsignal bis zu 4 kHz analysiert, ist wiederum als eine MEL-Filterbank konfiguriert. Dies bedeutet, daß der Spektralanalysator 18a die innerhalb des Spektralbereiches bis zu 4 kHz enthaltene kurzzeitige Sprachenergie nicht integral bestimmt. Statt dessen teilt der erste Spektralanalysator 18a den Spektralbereich bis zu 4 kHz in eine Vielzahl von Teilbändern und bestimmt die jeweilige kurzzeitige Sprachenergie für jedes Teilband individuell.
Die weiteren sprachanalysierenden Zweige 12b, 12c der sprachanalysierenden Stufe 218a weichen von den in der 3 gezeigten sprachanalysierenden Zweigen dadurch ab, daß der zweite und dritte Spektralanalysator 18b, 18c als Energieanalysatoren konfiguriert sind, die die Sprachenergie in den jeweiligen Spektralbereichen integral bestimmen. Ferner enthalten die sprachanalysierenden Zweige 12b, 12c keine DCT-Einheiten. Hierdurch können die Aufwendungen für die Hardware bei der sprachanalysierenden Stufe 218a im Vergleich zur sprachanalysierenden Stufe gemäß 2 reduziert werden.
Wie aus 5 ersichtlich, analysiert der zweite Spektralanalysator 18b den Spektralbereich zwischen 4 und 5,5 kHz und gibt M (M ≥ 1) zusätzliche, auf die Sprachenergie in diesem Spektralbereich bezogene akustische Parameter aus. Der dritte Spektralanalysator 18c analysiert den Spektralbereich zwischen 5,5 und 8 kHz und gibt N (N ≥ 1) zusätzliche, auf die Sprachenergie in diesem Spektralbereich bezogene akustische Parameter aus.
Zusammenfassend geben die drei Spektralanalysatoren 18a, 18b, 18c der sprachanalysierenden Stufe 218 L + M + N akustische Parameter aus, die aufgrund des DSR-Konzepts zur zentralen Erkennungsstufe 210a des abgesetzten Netzwerkservers 210 gemäß 4 übertragen werden müssen. Zum Zwecke der Übertragung der akustischen Parameter an den abgesetzten Netzwerkserver umfaßt die sprachanalysierende Stufe 218a eine Kodiereinheit 24 zur Quantisierung und Kodierung der an den Netzwerkserver zu übertragenden akustischen Parameter. Die von der Kodiereinheit 24 ausgegebenen quantisierten und kodierten akustischen Parameter werden an eine Schnittstelle 26 der sprachanalysierenden Stufe 218a übertragen und über die Schnittstelle 26 mittels drahtgebundener oder drahtloser Datenübermittlungsabschnitte 212 an den Netzwerkserver 210 gemäß 4 übertragen. Die Erkennungsstufe 210a des Netzwerkservers 210 umfaßt ein in der 4 nicht dargestellte Schnittstelle zum Empfangen der quantisierten und kodierten akustischen Parameter über die Datenübermittlungsabschnitte 212 von den Endgeräten 214, 216, 218. Die Erkennungsstufe 210a des Netzwerkservers 210 umfaßt weiterhin eine Dekodiereinheit zur Dequantisierung der empfangenen akustischen Parameter. Die Dekodiereinheit der Erkennungsstufe 210a ist in der 4 nicht dargestellt.
Die Schnittstelle 26 und die Kodiereinheit 24 der sprachanalysierenden Stufe 218a gemäß 4 könnten weggelassen werden, wenn auf den DSR-Ansatz verzichtet wird und wenn die sprachanalysierende Stufe 218a sowie die entsprechende Erkennungsstufe 210a beide entweder im Endgerät 218 oder, alternativ, im Netzwerkserver 210 angeordnet werden.
Wie oben erwähnt, bildet die in der 5 dargestellte sprachanalysierende Stufe 218a Teil des DSR-Systems 200, das drei verschiedene Abtastraten von 8 kHz, 11 kHz und 16 kHz unterstützt. Die in der 5 dargestellte sprachanalysierende Stufe 218a mit drei sprachanalysierenden Zweigen 12a, 12b, 12c bildet Teil des Endgerätes 218, das wenigstens bei einer Abtastrate von 16 kHz arbeiten kann.
Das weitere Endgerät 216, welches mit einer Abtastrate von 11 kHz arbeitet, könnte unter Verwendung einer sprachanalysierenden Stufe 216a mit lediglich den ersten beiden in der 5 dargestellten sprachanalysierenden Zweigen 12a, 12b konstruiert werden, da ein bei 11 kHz abgetastete Sprachsignal keine spektralen Informationen oberhalb 5,5 kHz aufweist. Aus demselben Grund würde die sprachanalysierende Stufe 214a des bei einer Abtastrate von 8 kHz arbeitenden Endgerätes 214 lediglich einen einzigen sprachanalysierenden Zweig ähnlich dem in der 5 dargestellten sprachanalysierenden Zweig 12a benötigen.
Auf Seiten des Netzwerkservers 210 gemäß 4 könnte die Erkennungsstufe 210a eine individuelle Musterabgleichseinheit für jede durch das DSR-System 200 unterstützte Abtastrate aufweisen. Allerdings wäre eine einzige Musterabgleichseinheit für sämtliche Abtastraten ausreichend. Die Referenzmodelle für diese einzige Musterabgleichseinheit kann auf Sprachsignale trainiert werden, die mit der höchsten Abtastrate, d.h. 16 kHz, verarbeitet werden. Diese Sprachmodelle enthalten ganze Sets möglicher akustischer Parameter. Muß ein bei einer niedrigeren Abtastrate abgetastetes Sprachsignal erkannt werden, so wendet die Musterabgleichseinheit lediglich eine entsprechende Anzahl akustischer Parameter für den Musterabgleich an.
Somit wird offensichtlich, daß in einem unterschiedliche Abtastraten unterstützenden DSR-System Endgeräte, die mit unterschiedlichen Abtastraten arbeiten, unterschiedliche Anzahlen akustischer Parameter an den Netzwerkserver übertragen. Als ein aus der 5 abgeleitetes Beispiel würde ein Endgerät, das mit einer Abtastrate von 16 kHz arbeitet, L + M + N akustische Parameter an den Netzwerkserver übertragen, während ein mit einer Abtastrate von 11 kHz arbeitendes Endgerät L + M akustische Parameter übertragen würde, und ein Endgerät, das mit einer Abtastrate von 8 kHz arbeitet, würde lediglich L akustische Parameter übertragen. Dies bedeutet aber nicht notwendigerweise, daß die Datenrate des Datenflusses zwischen den Endgeräten und dem Netzwerkserver für die Endgeräte, die mit höheren Abtastraten arbeiten, höher wird. Die Datenrate könnte durch Anpassung des Quantisierungsschemas an die unterschiedliche Anzahl von Parametern, wie unten dargelegt, konstant gehalten werden.
Gemäß einer möglichen Ausführung des DSR-Systems 200 gemäß 4 und der sprachanalysierenden Stufe 218a gemäß 5 wird ein Set von 13, 14 und 15 akustischen Parametern für jeden Sprachrahmen von 25 ms bei einer Abtastrate von 8 kHz, 11 kHz bzw. 16 kHz bestimmt. Somit ist L gleich 13, und sowohl M als auch N sind gleich 1.
Ein erster der von dem DCT-Block 22a ausgegebenen L = 13 akustischen Parametern stellt die logarithmische Rahmenenergie dar und wird linear von der Kodiereinheit 24 mit 8 Bit quantisiert. Somit wird der Bereich der Energiewerte in 256 Intervalle entsprechend der 8-Bit-Auflösung geteilt. Die anderen zwölf vom DCT-Block 22a ausgegebenen akustischen Parameter werden in Paaren quantisiert, mit 7 Bit für die ersten beiden Paare, 6 Bit für die zweiten beiden Paare und 5 Bit für die dritten beiden Paare, wie in der folgenden Tabelle gezeigt ist:
Wie aus der Tabelle ersichtlich ist, wird eine höhere Bitanzahl, d.h. Ebenen, für die akustischen Parameter niedrigerer Ordnung ausgewählt, da diese akustischen Parameter spektrale Informationen höherer Wichtigkeit enthalten. Insgesamt sind 44 Bit zur Kodierung der in einem akustischen Vektor mit 13 akustischen Parametern enthaltenen akustischen Parameter notwendig (8 Bit für die auf die logarithmische Rahmenenergie bezogenen akustischen Parameter, zweimal 7 Bit für die ersten beiden Paare der akustischen Parameter, zweimal 6 Bit für die zweiten beiden Paare der akustischen Parameter und zweimal 5 Bit für das dritte Paar der akustischen Parameter).
Die in der obigen Tabelle gezeigten akustischen Parameter werden durch die Verwendung von geteilten Vektor-Codebüchern kodiert. Die sechs Paare akustischer Parameter werden derart kodiert, daß für jedes Paar akustischer Parameter ein Kodierindex aus einem entsprechenden Codebuch erhalten wird. Somit sind sechs Codebücher für die Kodierung der sechs Paare akustischer Parameter erforderlich. Jedes Codebuch wird durch die Anwendung eines Vektorquantisierungsalgorithmus gemäß dem Stand der Technik erzeugt.
In den 6a, 6b und 6c sind jeweils die Codebücher 28a, 28b und 28c dargestellt, die zum Kodieren von bei einer Abtastrate von 8 kHz, 11 kHz und 16 kHz erhaltenen akustischen Parametern verwendet werden. In der 6a wird die Bestimmung eines Codebuch-Indexes für die akustischen Parameter c₁ und c₂ gezeigt, die bei einer Abtastrate von 8 kHz in dem Endgerät gemäß 4 erhalten wurden. Aufgrund der von dem DCT-Block 22a ausgegebenen beiden akustischen Parametern c₁, c₂ sucht die Kodiereinheit 24 nach dem in dem Codebuch 28a enthaltenen entsprechenden Eintrag, der der Ausgabe c₁, c₂ des DCT-Blocks 22a am nächsten kommt. Daraufhin wird der Codebuch-Index des am nächsten kommenden Eintrages bestimmt. Fünf weitere Codebuch-Indexe werden in derselben Art und Weise für die fünf weiteren Paare akustischer Parameter erhalten, die von dem DCT-Block 22a ausgegeben werden. Somit müssen fünf weitere, in der 6a nicht dargestellte Codebücher vorgesehen sein. Die sechs von der Kodiereinheit 24 bestimmten individuellen Codebuch-Indexe werden dann mit einem Datensignal kombiniert, was im folgenden mit Bezugnahme auf die 7 näher erläutert wird.
In der 6b wird die Bestimmung eines Codebuch-Indexes für die akustischen Parameter c₁ und c₂ gezeigt, die bei einer Abtastrate von 11 kHz im Endgerät 216 erhalten wurden. Das Codebuch 28b weicht von dem in der 6a dargestellten Codebuch 28a dahingehend ab, daß das Codebuch 28b eine weitere Spalte E_4–5,5 bezogen auf die in dem Sprachsignal enthaltene Sprachenergie in einem Frequenzbereich zwischen 4 kHz und 5,5 kHz umfaßt. Der Wert von E_4–5,5 wird von einem sprachanalysierenden Zweig ähnlich dem in der 5 dargestellten sprachanalysierenden Zweig 12b bestimmt.
Die Kodiereinheit 24 gemäß 6b empfängt nicht nur die akustischen Parameter c₁ und c₂, sondern auch die weiteren akustischen Parameter E_4–5,5 Aufgrund dieser Dreiergruppe akustischer Parameter bestimmt die Kodiereinheit 24 den am nächsten kommenden Eintrag innerhalb des Codebuches 28b. Hierdurch wird ein entsprechender Codebuch-Index erhalten. Fünf weitere Codebücher, die zum Kodieren der fünf weiteren Paare akustischer Parameter verwendet werden, werden genauso dargestellt, wie die fünf entsprechenden Codebücher, die zum Kodieren der fünf weiteren bei einer Abtastrate von 8 kHz (6a) erhaltenen akustischen Parameter verwendet werden.
In der 6c wird die Bestimmung eines Codebuch-Indexes für die akustischen Parameter c₁ und c₂, E_4–5,5 und E_5,5–8 gezeigt, die bei einer Abtastrate von 16 kHz im Endgerät 218 erhalten wurden. Das in der 6c dargestellte Codebuch 28c weicht von dem in der 6b dargestellten Codebuch 28b dahingehend ab, daß es eine weitere Spalte für die akustischen Parameter E_5,5–8 umfaßt. Der Codebuch-Index für die Vierergruppe der akustischen Parameter c₁ und c₂, E_4–5,5 und E_5,5–8 wird in ähnlicher Weise wie oben mit Bezugnahme auf die 6b beschrieben bestimmt.
Wird das in den 6a, 6b und 6c dargestellte Kodierungskonzept in dem in der 4 gezeigten DSR-System 200 angewendet, so werden acht verschiedene Codebücher verwendet und müssen erzeugt werden. Drei dieser Codebücher 28a, 28b, 28c sind jeweils in den 6a, 6b, 6c dargestellt. Fünf weitere Codebücher werden zum Kodieren der fünf weiteren Paare akustischer Parameter benötigt. Auf Seiten des Netzwerkservers 210 müssen alle acht verschiedenen Codebücher vorgesehen sein. Auf Seiten der Endgeräte 214, 216, 218 ist das Vorsehen von sechs Codebüchern pro Endgerät 214, 216, 218 ausreichend. Jedes der Endgeräte 214, 216, 218 umfaßt das entsprechende jeweils in den 6a, 6b, 6c dargestellte Codebuch 28a, 28b, 28c sowie ein Set fünf weiterer Codebücher zum Kodieren der fünf weiteren Paare akustischer Parameter. Im Prinzip funktionieren sowohl das Kodieren als auch des Dekodieren des ersten Paares akustischer Parameter bei sämtlichen Abtastraten und lediglich mit dem Codebuch, das vier Komponenten pro Eintrag, wie in der 6c gezeigt, enthält. Das bedeutet, daß es ausreichend wäre, jedes der in der 4 gezeigten Endgeräte 214, 216, 218 mit dem Codebuch 28c gemäß 6c und einem Set fünf weiterer Codebücher zum Kodieren der fünf weiteren Paare akustischer Parameter auszustatten.
Jedes der in den 6a bis 6c dargestellten verschiedenen drei Codebücher muß individuell auf Sprachdaten trainiert werden, die mit der entsprechenden Abtastrate abgetastet werden, und können nach der Herstellung der Endgeräte 214, 216, 218 und des Netzwerkservers 210 gemäß 4 in einem EPROM vorgespeichert werden.
Durch das oben im Zusammenhang mit den 6a bis 6c beschriebene Kodierungskonzept wird gewährleistet, daß jedes in der 4 gezeigte individuelle Endge rät 214, 216, 218 eine individuelle Anzahl an akustischen Parametern mit 44 Bit kodiert. Hierdurch wird eine hohe Kompatibilität und ein konstanter Datenfluß innerhalb des DSR-Systems 200 gewährleistet. Vorzugsweise beträgt die innerhalb des DSR-Systems 200 verwendete Datenrate 4,800 Bit/s.
In der 7 wird die Gesamtdatenstruktur eines von einem der Endgeräte 214, 216, 218 an den Netzwerkserver 210 zu übertragenden Datensignals 50 gezeigt. Das Datensignal 50 umfaßt eine erste Datenstruktur 52, die Synchronisationsinformationen sowie Headerinformationen bezogen auf die Abtastrate enthält, bei der das entsprechende Sprachsignal abgetastet worden ist. Eine zweite Datenstruktur 54 des Datensignals 50 enthält eine Vielzahl von Datenteilstrukturen 56 und 68. Die erste Datenteilstruktur 56 bezieht sich auf die logarithmische Rahmenenergie, die linear mit 8 Bit quantisiert wurde. Die sechs verbleibenden Datenstrukturen beziehen sich auf Codebuch-Indexe für die sechs Paare der akustischen Parameter C₁ bis C₂ (s. Tabelle oben). Die zweite Datenteilstruktur 58 enthält den 7-Bit-Codebuch-Index, der wie oben im Zusammenhang mit den 6a bis 6c beschrieben erzeugt wurde. Dies bedeutet, daß der in der zweiten Datenteilstruktur 58 enthaltene Codebuch-Index aus einem der Codebücher 28a, 28b, 28c für eine bestimmte Kombination der ersten beiden akustischen Parameter c₁, c₂ mit dem einen bzw. den beiden weiteren akustischen Parametern E_4–5,5, E_5,5–8 abgeleitet wurde, die durch Analysieren des Sprachsignals in oberen Frequenzbereichen erhalten wurden. Die fünf weiteren Datenteilstrukturen 60 bis 68 gemäß 7 beziehen sich auf die fünf weiteren Paare akustischer Parameter, die in der obigen Tabelle dargestellt sind. Insgesamt enthalten die sieben Datenteilstrukturen 56 bis 68 44 Bit an Informationen.
Die Durchführung eines DSR-Systems 200, wie dasjenige, das in der 4 dargestellt ist, wurde theoretisch modelliert, unter Verwendung der Sprachdatenbank „TI-Digits". Diese Sprachdatenbank umfaßt 8,700 Ziffernsequenzen (insgesamt umfassend 28,000 gesprochene Ziffern), die für Trainingszwecke von verschiedenen Sprechern gesprochen wurden, sowie ungefähr dieselbe Anzahl für Testzwecke.
In einem ersten Schritt wurden die TIDigits von 20 kHz bis 8 kHz, 11 kHz and 16 kHz entsprechend den Abtastraten, die in dem in der 4 gezeigten DSR-System 200 verwendet werden, unterabgetastet. Eine Tiefpaßfilterung wurde dann auf die unter abgetasteten Sprachdaten bei ungefähr der Hälfte jeder Abtastrate angewendet. Ein Set von 13, 14 und 15 akustischen Parametern wurde für jeden Sprachrahmen von 25 ms bestimmt. Somit ist L gleich 13, und sowohl M als auch N sind gleich 1. Die standardmäßigen Delta-Parameter sowie zwei zusätzliche durch LDA-abgeleitete Filterung erzeugte Parameter wurden als Inhalte jedes Merkmalsvektors genommen. Ein Merkmalsvektor besteht somit aus 39 Komponenten bei einer Abtastrate von 8 kHz, aus 42 Komponenten bei 11 kHz und aus 45 Komponenten bei 16 kHz.
Referenzmodelle (HMM) wurden bei jeder Abtastfrequenz ohne Hinzufügen irgendeines Hintergrundrauschens zur Sprache bestimmt. Somit wurde die Experimente nur mit sauberen Sprachdaten durchgeführt. In der folgenden Tabelle werden die Wortfehlerraten für sämtliche möglichen Kombinationen von Systemtrainings bei einer der drei Abtastraten und Sprachdatenerkennung bei einer der drei Abtastraten aufgeführt.
Aus der Tabelle wird ersichtlich, daß bei HMM, die bei einer Abtastrate von 16 kHz trainiert wurden, eine hohe Erkennungsgenauigkeit (Wortfehlerraten von unter 1,07 %) unabhängig von der Abtastrate des Sprachsignals erwartet werden kann. Ferner kann ein Gewinn gesehen werden, wenn eine Bewegung von der untersten Abtastrate zur höheren Abtastrate stattfindet und die bei der jeweiligen Abtastrate trainierten HMM angewendet werden. Kein weiterer Gewinn kann erzielt werden, wenn eine Bewegung von 11 kHz zu 16 kHz stattfindet. Dies überrascht jedoch nicht, da nur wenige Spektralinformationen in Sprachsignalen oberhalb 5,5 kHz vorliegen. Aus der Tabelle wird ebenfalls offensichtlich, daß, unabhängig von der Abtastrate eines Endgerätes, eine hohe Erkennungsqualität für sämtliche HMM erhalten werden kann.

Claims

Sprachanalysierende Stufe (12, 214a, 216a, 218a) eines automatischen Spracherkennungssystems (10, 200) zum Analysieren eines Sprachsignals in der spektralen Domäne, welches bei einer von wenigstens zwei unterschiedlichen Systemabtastraten abgetastet wird, umfassend – einen ersten Spektralanalysator (18a) zum Analysieren des Sprachsignals bis zu einer ersten Frequenz; – einen zweiten Spektralanalysator (18b) zum Analysieren des Sprachsignals wenigstens oberhalb der ersten Frequenz.
Sprachanalysierende Stufe nach Anspruch 1, wobei die erste Frequenz aus der untersten Abtastrate abgeleitet wird.
Sprachanalysierende Stufe nach Anspruch 1 oder 2, wobei der zweite Spektralanalysator (18b) das Sprachsignal nur oberhalb der ersten Frequenz analysiert.
Sprachanalysierende Stufe nach einem der Ansprüche 1 bis 3, wobei der zweite Spektralanalysator (18b) das Sprachsignal bis zu einer zweiten Frequenz analysiert und weiterhin einen dritten Spektralanalysator (18c) zum Analysieren des Sprachsignals wenigstens oberhalb der zweiten Frequenz umfaßt.
Sprachanalysierende Stufe nach Anspruch 4, wobei der dritte Spektralanalysator (18c) das Sprachsignal nur oberhalb der zweiten Frequenz analysiert.
Sprachanalysierende Stufe nach einem der Ansprüche 1 bis 5, wobei die Spektralanalysatoren (18a, 18b, 18c) parallel angeordnet sind.
Sprachanalysierende Stufe nach einem der Ansprüche 1 bis 6, wobei wenigstens einer der Spektralanalysatoren (18a, 18b, 18c) ein Energieanalysator ist.
Sprachanalysierende Stufe nach Anspruch 7, wobei wenigstens ein Energieanalysator (18a, 18b, 18c) als Filterbank konfiguriert ist.
Sprachanalysierende Stufe nach einem der Ansprüche 1 bis 8, weiterhin umfassend wenigstens eine Kodiereinheit (24) zum Kodieren akustischer Parameter des abgetasteten Sprachsignals.
Sprachanalysierende Stufe nach Anspruch 9, weiterhin umfassend eine Schnittstelle (26) zum Übertragen der kodierten akustischen Parameter an einen abgesetzten Netzwerkserver (210).
Endgerät (214, 216, 218) umfassend eine sprachanalysierende Stufe (10, 214a, 216a, 218a) gemäß einem der Ansprüche 1 bis 10.
Verteiltes Spracherkennungssystem (200) zum Erkennen von Sprachsignalen, die bei einer von wenigstens zwei unterschiedlichen Systemabtastraten abgetastet werden, wobei das System (200) wenigstens ein Endgerät (214, 216, 218) gemäß Anspruch 11 sowie einen Netzwerkserver (210) mit einer zentralen Spracherkennungsstufe (210a) umfaßt.
Datensignal (50), welches von einem Endgerät (214, 216, 218) an einen Netzwerkserver (210) in einem automatischen Spracherkennungssystem (200) übertragen wird, in dem Sprachsignale bei zwei oder mehreren unterschiedlichen Systemabtastraten abgetastet werden, wobei das Datensignal (50) eine erste Datenstruktur (52) umfaßt, die auf die Abtastrate bezogen ist, bei der ein Sprachsignal abgetastet wurde, sowie eine zweite Datenstruktur (54), die einen Codebuch-Index enthält, der von einem Codebuch für eine spezifische Kombination eines oder mehrerer akustischer Parameter, welche durch Analysieren des Sprachsignals bis zu einer ersten Frequenz erhalten wurden, und eines oder mehrerer weiterer akustischer Parameter, welche durch Analysieren des Sprachsignals wenigstens oberhalb der ersten Frequenz erhalten wurden, abgeleitet wurde.
Verfahren zum Analysieren eines Sprachsignals, welches bei einer von wenigstens zwei unterschiedlichen Systemabtastraten eines automatischen Spracherkennungssystems abgetastet wird, umfassend – einen ersten Analyseschritt zum Analysieren des Sprachsignals bis zu einer ersten Frequenz; – einen zweiten Analyseschritt zum Analysieren des Sprachsignals wenigstens oberhalb der ersten Frequenz.
Verfahren nach Anspruch 14, wobei das Sprachsignal in dem zweiten Analyseschritt nur oberhalb der ersten Frequenz analysiert wird.
Verfahren nach Anspruch 14 oder 15, wobei das Sprachsignal in dem zweiten Analyseschritt bis zu einer zweiten Frequenz analysiert wird und weiterhin einen dritten Analyseschritt zum Analysieren des Sprachsignals wenigstens oberhalb der zweiten Frequenz umfaßt.
Verfahren nach Anspruch 16, wobei das Sprachsignal in dem dritten Analyseschritt nur oberhalb der zweiten Frequenz analysiert wird.
Verfahren nach einem der Ansprüche 14 bis 17, wobei die Analyseschritte für das Sprachsignal parallel durchgeführt werden.
Verfahren nach einem der Ansprüche 14 bis 18, weiterhin umfassend das Erhalten akustischer Parameter aus dem analysierten Sprachsignal, Kodieren der akustischen Parameter sowie Übertragen der kodierten akustischen Parameter an einen Netzwerkserver (210).
Computerprogrammprodukt umfassend Programmcodebereiche zum Durchführen der Schritte nach einem der Ansprüche 14 bis 19, wenn das Computerprogrammprodukt auf einem System zur Durchführung automatischer Spracherkennung ausgeführt wird.
Computerprogrammprodukt nach Anspruch 20, gespeichert auf einem computerlesbaren Speichermedium.