-
HINTERGRUND
DER ERFINDUNG Technisches Gebiet der Erfindung
-
Die
Erfindung betrifft das Gebiet der automatischen Spracherkennung
und insbesondere eine sprachanalysierende Stufe sowie ein Verfahren
zum Analysieren eines Sprachsignals, welches bei einer von wenigstens
zwei in einem automatischen Spracherkennungssystem verwendeten unterschiedlichen
Systemabtastraten abgetastet wird.
-
Diskussion
des Standes der Technik
-
Die
automatische Spracherkennung entwickelt sich zu einer Technologie,
die zum Steuern aller Arten von elektronischen Vorrichtungen, z.B.
Mobiltelefone, verwendet wird bzw. um Zugriff auf Dienste über ein
Telekommunikationsnetz zu erhalten.
-
Automatische
Spracherkennungssysteme können
sich mit Bezug auf den spektralen Bereich, in dem Eingangssprachsignale
analysiert werden, unterscheiden. Heutzutage konzentrieren sich
viele telekommunikative Endgeräte
mit automatischen Spracherkennungsfähigkeiten auf den spektralen
Bereich bis zu 4 kHz, durch Abtasten eines analogen Eingangssprachsignals
mittels eines Analog-/Digitalwandlers, der mit einer Abtastgeschwindigkeit
von 8 kHz arbeitet. Ein standardmäßiger Ansatz zum Analysieren
und Erkennen solcher digitalisierter Sprachsignale in einem automatischen
Spracherkennungssystem 100 wird in der 1 dargestellt.
-
Das
digitalisierte Eingangssprachsignal wird mittels eines Spektralanalysators
in Form einer MEL-Filterbank 110 analysiert. In der MEL-Filterbank 110 wird
das Spektralband des Eingangssprachsignals in eine Vielzahl von
Teilbändern
geteilt, die in der MEL-spektralen Domäne äquidistant angeordnet sind.
Die MEL-Filterbank 110 führt dann eine Kurzzeitspektralanalyse
mit Bezug auf die kurzzeitige Sprachenergie für jedes Teilband durch. Die
Spektralanalyse in dem MEL-spektralen Bereich berücksichtigt
Eigenschaften der menschlichen Sprachwahrnehmung, da das mensch liche
Gehörsystem
eine höhere
spektrale Auflösung
bei niedrigen Frequenzen aufweist.
-
Das
MEL-gefilterte Sprachsignal wird dann in einen nichtlinearen Transformationsblock 120 eingegeben,
der für
jedes von der MEL-Filterbank 110 analysierte Teilband eine
individuelle nichtlineare Transformationseinheit umfaßt. Jede
der nichtlinearen Transformationseinheiten des nichtlinearen Transformationsblockes 120 wandelt
die in dem jeweiligen Teilband enthaltene Sprachenergie von der
linearen spektralen Domäne
in die logarithmische Domäne
um. Die Ausgabe von dem nichtlinearen Transformationsblock 120 wird
in einen DCT-Block (Discrete Cosine Transformation) 130 eingegeben,
welcher das Sprachsignal in die cepstrale Domäne umwandelt. Die Ausgabe des
DCT-Blocks 130 besteht aus L akustischen Parametern in
der cepstralen Domäne
(cepstrale Parameter). Die cepstralen Parameter werden als Eingabe
für die
Erkennungseinheit 140 genommen, in der ein Musterabgleich
stattfindet. Durch den Musterabgleich werden die cepstralen Parameter des
Sprachsignals mit entsprechenden Parametern verglichen, die als
im voraus trainierte Referenzmodelle in einer Referenzmodel-Datenbank 150 gespeichert
sind. Hidden Markov Models (HMM) werden sehr häufig als Referenzmodelle verwendet.
Die Referenzmodelle sind im voraus trainiert, um so die spektralen
Charakteristika z.B. von Wörtern
oder Phonemen darzustellen. Durch den Musterabgleich kann ein Erkennungsergebnis erhalten
werden, das anschließend
von der Erkennungseinheit 140 ausgegeben wird.
-
Aus
dem obigen geht hervor, daß das
in der 1 dargestellte
herkömmliche
automatische Spracherkennungssystem 100 das Eingangssprachsignal
in einem spektralen Bereich bis zu 4 kHz durch Abtasten des analogen
Eingangssprachsignals bei 8 kHz analysiert. Selbstverständlich können auch
höhere
Abtastraten verwendet werden. PC's
verwenden beispielsweise häufig
eine Abtastrate von 11 kHz, was ¼ der für das Abtasten von CD's verwendeten 44,1
kHz ausmacht. Es ist offensichtlich, daß eine höhere Abtastbandbreite mit mehr
spektralen Informationen verbunden ist, so daß die Leistung automatischer
Spracherkennungssysteme im allgemeinen steigt, wenn höhere Abtastraten
angewendet werden.
-
Für die Zukunft
wird erwartet, daß elektronische
Geräte,
die mit mehreren Abtastraten arbeiten, und Netzwerksysteme, die
Endgeräte
umfassen, welche mit einer von unterschiedlichen Systemabtastraten
funktionsfähig
sind, entwickelt werden. Folglich wird sich die Frage stellen, wie
ein automatisches Spracherkennungssystem konstruiert werden soll,
das die Analyse von mit unterschiedlichen Abtastraten abgetasteten Sprachsignalen
ermöglicht.
-
Aus „Speech
Processing, Transmission and Quality Aspects (STQ); Distributed
Speech Recognition; Front-End Feature Extraction Algorithm", ETSI Standard Document
ETSI ES 201 108 v1.1.2 (2000-04), April 2000 ist ein Vorschlag für ein Netzwerksystem
mit einem automatischen Spracherkennungssystem bekannt, das drei
unterschiedliche Abtastraten von 8, 11 und 16 kHz unterstützt.
-
Die
Sprachanalyse in diesem Netzwerksystem basiert auf einer MEL-Filterbank
mit 23 Teilbändern. Die
Anzahl der 23 MEL-Teilbänder
wird für
alle drei Abtastraten konstant gehalten. Dies bedeutet, daß die Teilbänder in
unterschiedlicher Weise über
jeden der drei zu analysierenden spektralen Bereiche von 4, 5,5
und 8 kHz (entsprechend den Abtastraten von 8, 11 und 16 kHz) verteilt
wird.
-
Es
ist offensichtlich, daß durch
die unterschiedliche Verteilung der 23 Teilbänder über die drei spektralen Bereiche
die Spektralanalyse für
jede Abtastrate verschieden ist. Als Folge sieht ein und dasselbe
Referenzmodel in Abhängigkeit
der Abtastrate, bei der das jeweilige Referenzmodel trainiert wurde,
verschieden aus. Hieraus geht hervor, daß die Referenzmodelle für jede Abtastrate
individuell trainiert werden müssen,
um eine optimale Erkennungsleistung zu gewährleisten. Somit werden der
Trainingsaufwand und die Speicheranforderungen für ein automatisches Spracherkennungssystem,
das mit drei unterschiedlichen Abtastraten arbeitet, wenigstens
um einen Faktor Drei erhöht.
-
Aus
diesem Grunde besteht ein Bedarf an einer sprachanalysierenden Stufe
sowie an einem Verfahren zum Analysieren eines Sprachsignals, welches
bei einer von wenigstens zwei in einem automatischen Spracherkennungssystem
verwendeten unterschiedlichen Systemabtastraten abgetastet wird,
die anwenderfreundlich sind und die Vereinfachung der Hardware-Anforderungen
des automatischen Spracherkennungssystems ermöglichen.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Erfindungsgemäß wird eine
sprachanalysierende Stufe gemäß Anspruch
1 vorgeschlagen, ein Endgerät
gemäß Anspruch
11, ein verteiltes Spracherkennungssystem gemäß Anspruch 12, ein Datensignal
gemäß Anspruch
13 sowie ein Verfahren gemäß Anspruch
14.
-
Gemäß der Erfindung
wird eine sprachanalysierende Stufe eines automatischen Spracherkennungssystems
zum Analysieren eines Sprachsignals in der spektralen Domäne, welches
bei einer von wenigstens zwei unterschiedlichen Systemabtastraten
abgetastet wird, vorgeschlagen, wobei die sprachanalysierende Stufe
einen ersten Spektralanalysator zum Analysieren des Sprachsignals
bis zu einer ersten Frequenz sowie einen zweiten Spektralanalysator
zum Analysieren des Sprachsignals wenigstens oberhalb der ersten
Frequenz umfaßt.
-
Ein
erfindungsgemäßes Verfahren
zum Analysieren eines Sprachsignals in der spektralen Domäne, welches
bei einer von wenigstens zwei unterschiedlichen Systemabtastraten
eines automatischen Spracherkennungssystems abgetastet wird, umfaßt einen
ersten Analyseschritt zum Analysieren des Sprachsignals bis zu einer
ersten Frequenz sowie einen zweiten Analyseschritt zum Analysieren
des Sprachsignals wenigstens oberhalb der ersten Frequenz.
-
Erfindungsgemäß werden
wenigstens zwei Spektralanalysatoren vorgesehen, von denen jeder
Spektralanalysator das Sprachsignal in der spektralen Domäne analysiert.
Der erste Spektralanalysator analysiert das Sprachsignal in einem
niedrigeren Spektralbereich mit einer oberen Frequenzgrenze, die
durch eine erste Frequenz definiert ist. Die erste Frequenz wird
vorzugsweise aus der untersten Systemabtastrate abgeleitet. Die
unterste Systemabtastrate ist die unterste Abtastrate, die in einem
automatischen Spracherkennungssystem auftritt, in dem wenigstens
zwei unterschiedliche Abtastraten verwendet werden.
-
Beispielsweise
kann die erste Frequenz so ausgewählt werden, daß sie etwa
gleich der Hälfte
der untersten Systemabtastrate oder weniger als der Hälfte der
untersten Abtastrate ist. Die Auswahl der ersten Frequenz derart,
daß sie
gleich der Hälfte
der untersten Systemabtastrate oder weniger als der Hälfte der
untersten Systemabtastrate ist, ist vorteilhaft, weil ein bei der
untersten Systemabtastrate abgetastetes Sprachsignal keine spektralen
Informationen in einen Frequenzbereich oberhalb der Hälfte der
untersten Systemabtastrate enthält.
Trotzdem kann es in bestimmten Fällen
angebracht sein, die erste Frequenz derart auszuwählen, daß sie mehr
als der Hälfte
der untersten Systemabtastrate gleichgestellt ist.
-
Der
erste Spektralanalysator gemäß der Erfindung
gewährleistet
eine hohe Kompatibilität
unter den Komponenten eines automatischen Spracherkennungssystems,
das mit mehreren Systemabtastraten arbeitet, da für sämtliche
Abtastraten ein kompatibles Set an akustischen Parametern erhalten
werden kann. Dieses kompatible Set akustischer Parameter wird von
dem ersten Spektralanalysator erzeugt, der, unabhängig von der
Abtastrate, d.h. selbst bei der untersten Abtastrate, immer einen
identischen Spektralbereich bis zur ersten Frequenz parametrisiert.
-
Das
kompatible Set akustischer Parameter ermöglicht somit die Durchführung einer
automatischen Spracherkennung basierend auf einem einzigen Set an
Referenzmodellen. Dies hat den Vorteil, daß beispielsweise kein Bedarf
besteht, ein individuelles Set an Referenzmodellen für jede Abtastrate,
die von dem automatischen Spracherkennungssystem unterstützt wird,
zu trainieren. Mit anderen Worten wird das Trainieren von Referenzmodellen
auf Daten bei einer Abtastrate auch eine zuverlässige Erkennung von Sprachsignalen ermöglichen,
die bei unterschiedlichen Abtastraten abgetastet wurden. Vorzugsweise
werden die Referenzmodelle unter Verwendung von Sprachdaten erzeugt,
die bei der höchsten
Systemabtastrate abgetastet wurden.
-
Ein
weiterer Vorteil der Erfindung liegt in der Tatsache, daß die Erkennungsstufe
eines automatischen Spracherkennungssystems vereinfacht werden kann,
weil das kompatible Set an akustischen Parametern die Durchführung eines
Musterabgleichs ermöglicht,
wobei ein und dieselbe Musterabgleichseinheit für bei unterschiedlichen Abtastraten
abgetastete akustische Parameter verwendet wird.
-
Oben
wurde herausgestellt, daß der
erste Spektralanalysator das Sprachsignal unabhängig von der Abtastrate des
Sprachsignals bis zu einer ersten Frequenz analysiert, die vorzugsweise
aus der untersten Systemabtastrate abgeleitet wird. Um die Qualität der Spracherkennung
zu steigern ist es vorteilhaft, auch zusätzliche spektrale Informationen
oberhalb der ersten Frequenz zu analysieren, die in Sprachsignalen
vorliegen, welche bei Abtastraten abgetastet wurden, die höher als
die unterste Systemabtastrate waren. Eine derartige Analyse wird
von dem zweiten Spektralanalysator durchgeführt, der das Sprachsignal wenigstens
in einem Spektralbereich oberhalb der ersten Frequenz analysiert.
Der zweite Spektralanalysator kann so zusätzliche akustische Parameter
erzeugen, die Informationen über
den oberen Spektralbereich des Sprachsignals enthalten.
-
Der
zweite Spektralanalysator kann derart konfiguriert sein, daß er nicht
nur das Sprachsignal oberhalb der ersten Frequenz analysiert, sondern
auch das Sprachsignal unterhalb der ersten Frequenz. Dies resultiert
in redundanten Informationen, da der letztere Spektralbereich auch
von dem ersten Spektralanalysator analysiert wird. Gemäß einer
bevorzugten Ausführungsform
analysiert der zweite Spektralanalysator deshalb das Sprachsignal
im wesentlichen nur oberhalb der ersten Frequenz. Dies beinhaltet
eine geringfügige Überlappung
der von dem ersten und dem zweiten Spektralanalysator analysierten
Spektralbereiche.
-
Überlappen
sich die von unterschiedlichen Spektralanalysatoren analysierten
Spektralbereiche, so wird die Überlappung
in vorteilhafter Weise so ausgewählt,
daß kein
Spektralanalysator einen Spektralbereich, der auch von einem weiteren
Spektralanalysator analysiert wird, komplett analysiert. Dies bedeutet,
daß, obgleich
sich die von unterschiedlichen Spektralanalysatoren analysierten
Spektralbereiche überlappen
können, jeder
Spektralanalysator ein Frequenzband analysiert, das nicht von verschiedenen
Spektralanalysatoren analysiert wird.
-
Die
Analyse des Sprachsignals kann in einer gestuften Art und Weise
erfolgen, derart, daß mehr
als zwei individuelle Spektralanalysatoren das Sprachsignal analysieren.
Vorzugsweise analysiert jeder individuelle Spektralanalysator das
Sprachsignal bis zu einer individuellen Frequenz, wobei die höchste der
individuellen Frequenzen von der höchsten Systemabtastrate abgeleitet
wird. So kann beispielsweise ein drit ter Spektralanalysator zum
Analysieren des Sprachsignals wenigstens oberhalb einer zweiten
Frequenz vorgesehen sein, bis zu welcher der zweite Spektralanalysator
das Sprachsignal analysiert. Das Vorsehen weiterer Spektralanalysatoren
ist ebenfalls möglich.
-
Die
von den individuellen Spektralanalysatoren analysierten individuellen
Spektralbereiche können überlappend
oder nicht überlappend
sein. Vorzugsweise analysiert jeder individuelle Spektralanalysator
einen individuellen Spektralbereich, der nicht von einem anderen
Spektralanalysator analysiert wird. Dies bedeutet, daß der erste
Spektralanalysator das Sprachsignal bis zu der ersten Frequenz analysieren
kann, daß der
zweite Spektralanalysator das Sprachsignal zwischen der ersten Frequenz
und der zweiten Frequenz analysieren kann und daß der dritte Spektralanalysator
das Sprachsignal nur oberhalb der zweiten Frequenz analysiert.
-
Die
individuellen Spektralanalysatoren können mit Bezug aufeinander
in unterschiedlicher Weise angeordnet sein. Gemäß einer bevorzugten Ausführungsform
sind die Spektralanalysatoren parallel angeordnet. Hierdurch kann
ein einziges Sprachsignal gleichzeitig in die individuellen Spektralanalysatoren
eingegeben werden, und die individuellen Spektralanalysatoren können gleichzeitig
entsprechende akustische Parameter für den von dem jeweiligen Spektralanalysator
analysierten Spektralbereich ausgeben.
-
Die
individuellen Spektralanalysatoren können eine identische oder unterschiedliche
Konstruktionen aufweisen. Beispielsweise können ein oder mehrere Spektralanalysatoren
als Energieanalysatoren konfiguriert sein, die die Sprachenergie
bestimmen, die innerhalb des ganzen von einem individuellen Spektralanalysator
analysierten Spektralbereiches oder innerhalb eines oder mehrerer
Teilbänder
dieses Spektralbereiches enthalten sein kann. Vorzugsweise ist wenigstens
der erste Spektralanalysator (der das Sprachsignal bis zur ersten
Frequenz analysiert) eine Filterbank, z.B. eine MEL-Filterbank,
die zwei oder mehrere Teilbänder
des Eingangssprachsignals in Bezug auf die in jedem Teilband enthaltene
Sprachenergie analysiert. Der eine bzw. die mehreren Spektralanalysatoren,
die dem ersten Spektralanalysator folgen, z.B. der zweite und der
dritte Spektralanalysator, können
ebenfalls jeweils als Filterbank konfiguriert sein. Allerdings sind
die dem ersten Spektralanalysator folgenden Spektralanalysatoren
vorzugsweise als Energieanalysatoren konfiguriert, die die in dem
von dem jeweiligen Energieanalysator analysierten Spektralbereich
enthaltene Sprachenergie nur integral bestimmen. Dadurch können Hardwareanforderungen
für die
sprachanalysierende Stufe reduziert werden.
-
Die
die Vielzahl an Spektralanalysatoren enthaltende sprachanalysierende
Stufe kann für
sämtliche Arten
von automatischen Spracherkennungssystemen angewendet werden. Vorzugsweise
ist die sprachanalysierende Stufe in einem mobilen oder nicht mobilen
Endgerät
angeordnet, welches Teil eines größeren Netzwerkes mit einem
Netzwerkserver und einer Vielzahl an Endgeräten bildet. Alternativ kann
die sprachanalysierende Stufe auch auf Seiten des Netzwerkservers
angeordnet sein. Eine Spracherkennungsstufe des automatischen Spracherkennungssystems
kann ebenfalls entweder endgeräteseitig
oder auf Seiten des Netzwerkservers angeordnet sein.
-
Sind
die sprachanalysierende Stufe und die Spracherkennungsstufe nicht
innerhalb derselben Vorrichtung ortsgleich angebracht, so wird ein
verteiltes Spracherkennungssystem (Distributed Speech Recognition – DSR) geschaffen.
In einem solchen DSR-System erfolgt die Analyse des Sprachsignals
(d.h. die Merkmalsextraktion) im Endgerät, und die extrahierten Merkmale
werden dann an einen zentralen Netzwerkserver übertragen, der eine gemeinsame
Spracherkennungsstufe für
sämtliche
Endgeräte
aufweist.
-
Gemäß einer
bevorzugten Ausführungsform
ist das automatische Spracherkennungssystem ein DSR-System, das
mit zwei oder mehreren unterschiedlichen Systemabtastraten arbeitet.
Gemäß einer
ersten Ausführung
eines derartigen DSR-Systems
umfaßt
dieses wenigstens ein Endgerät,
das mit mehr als einer Abtastrate funktioniert. Gemäß einer
zweiten Ausführung
umfaßt
das DSR-System wenigstens ein erstes Endgerät, das mit einer ersten Abtastrate
arbeitet sowie wenigstens ein weiteres Endgerät, das mit einer sich von der ersten
Abtastrate unterscheidenden zweiten Abtastrate arbeitet.
-
Aus
dem obigen geht hervor, daß die
Analyse des Sprachsignals in einem DSR-System in den Endgeräten stattfindet und der Musterabgleich
in einem zentralen Netzwerkserver. Um die Übertragung der von der spektralen
Analysestufe erzeugten akustischen Parameter vom Endgerät zum Netzwerkserver
zu ermöglichen,
kann die sprachanalysierende Stufe weiterhin eine Kodiereinheit
zum Kodieren akustischer Parameter gemäß einem speziellen Übertragungsformat
enthalten. Ferner kann eine Schnittstelle zum Übertragen der kodierten akustischen
Parameter an den Netzwerkserver vorgesehen sein. Der Netzwerkserver
kann eine entsprechende Schnittstelle sowie eine Dekodiereinheit
zum Dekodieren der empfangenen kodierten akustischen Parameter umfassen.
-
Die
Erfindung betrifft auch ein Datensignal, das vom Endgerät an den
Netzwerkserver mit einer zentralen Spracherkennungsstufe übertragen
wird, wobei das Datensignal eine erste Datenstruktur umfaßt, die auf
die Abtastrate bezogen ist, sowie eine zweite Datenstruktur, die
wenigstens einen Codebuch-Index enthält, der von einem Codebuch
für eine
spezifische Kombination eines oder mehrerer akustischer Parameter,
welche durch Analysieren des Sprachsignals bis zu einer ersten Frequenz
erhalten wurden, und eines oder mehrerer weiterer akustischer Parameter,
welche durch Analysieren des Sprachsignals wenigstens oberhalb der
ersten Frequenz erhalten wurden, abgeleitet wurde.
-
Aus
der ersten Datenstruktur des Datensignals kann der Netzwerkserver
die Rate ableiten, bei der das Sprachsignal abgetastet worden ist.
Hierdurch ist es dem Netzwerkserver möglich, Schlußfolgerungen
aus der ersten Datenstruktur über
das Format der in der zweiten Datenstruktur enthaltenen analysierten
Sprache zu ziehen. Die zweite Datenstruktur enthält einen oder mehrere Codebuch-Indexe,
die zur Identifizierung der für das
Musterabgleichsverfahren im Netzwerkserver verwendeten akustischen
Parameter erforderlich sind. Vorzugsweise weist die zweite Datenstruktur
eine individuelle Datenteilstruktur auf, beispielsweise für Paare,
Dreier- oder Vierergruppen akustischer Parameter.
-
Die
Erfindung kann beispielsweise als eine Hardwarelösung oder als ein Computerprogrammproduktimplementiert
werden, mit Programmcodebereichen zur Durchführung individueller Schritte
der Erfindung, wenn das Computerprogrammprodukt auf einem automatischen
Spracherkennungssystem ausgeführt
wird. Das Computerprogrammprodukt kann auf einem computerlesbaren
Speichermedium wie einem Daten träger gespeichert
sein, das an einer Systemkomponente angebracht bzw. von dieser entfernt
werden kann.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Weitere
Aspekte und Vorteile der Erfindung gehen aus der folgenden detaillierten
Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung
sowie den Zeichnungen hervor, in denen
-
1 ein Blockdiagramm eines
herkömmlichen
automatischen Spracherkennungssystems ist,
-
2 ein Blockdiagramm einer
möglichen
Ausführung
eines automatischen Spracherkennungssystems, das mit einer Vielzahl
an unterschiedlichen Systemabtastfrequenzen arbeitet, ist;
-
3 ein Blockdiagramm eines
automatischen Spracherkennungssystems umfassend eine erste Ausführungsform
einer sprachanalysierenden Stufe gemäß der Erfindung ist;
-
4 ein Blockdiagramm eines
verteilten Spracherkennungssystems gemäß der Erfindung ist;
-
5 ein Blockdiagramm einer
zweiten Ausführungsform
einer sprachanalysierenden Stufe gemäß der Erfindung, die in einem
DSR-System gemäß 4 Verwendung finden kann,
ist;
-
6a bis 6c Blockdiagramme, die die Verwendung
von Codebüchern
in sprachanalysierenden Stufen gemäß der Erfindung zeigen, sind;
sowie
-
7 ein schematisches Diagramm
eines Datensignals gemäß der Erfindung,
zur Verwendung in dem DSR-System gemäß 4 ist.
-
DETAILLIERTE
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
In
der 2 wird eine mögliche Ausführung eines
automatischen Spracherkennungssystems 100 dargestellt,
das mit einer Vielzahl an Abtastraten arbeitet. Das in der 2 gezeigte automatische
Spracherkennungssystem wurde aus dem obengenannten Dokument „Speech
Processing, Transmission and Quality Aspects (STQ); Distributed
Speech Recognition; Front-End Feature Extraction Algorithms", ETSI Standard Document
ETSI ES 201 108 v1.1.2 (2000-04), April 2000 abgeleitet und gehört nicht
zur Erfindung. Auf der Grundlage des automatischen Spracherkennungssystems
gemäß 2 wird das erfindungsgemäße Konzept jedoch
besser verständlich.
-
Das
in der 2 gezeigte automatische
Spracherkennungssystem 100 ist so konfiguriert, daß es bei drei
verschiedenen Systemabtastfrequenzen arbeiten kann, nämlich 8,
11 und 16 kHz. Zur Unterstützung
der automatischen Spracherkennung bei drei verschiedenen Abtastraten
umfaßt
das in der 2 gezeigte
automatische Spracherkennungssystem drei individuelle Spracherkennungszweige 100a, 100b, 100c, ähnlich dem
in der 1 gezeigten einzigen
Spracherkennungszweig. Jeder dieser drei Spracherkennungszweige 100a, 100b, 100c ist
so konfiguriert, daß er
ein bei einer bestimmten Abtastrate abgetastetes Sprachsignal empfangen
kann. So empfängt
der Zweig 100a ein bei 8 kHz abgetastetes Sprachsignal,
der Zweig 100b empfängt
ein bei 11 kHz abgetastetes Sprachsignal und der Zweig 100c empfängt ein
bei 16 kHz abgetastetes Sprachsignal.
-
Gemäß Absatz
4.2.9 des obengenannten ETSI-Standard-Dokumentes umfaßt jeder
Zweig 100a, 100b, 100c einen Spektralanalysator
in Form einer MEL-Filterbank 110a, 110b, 110c,
die eine MEL-Filterung in einem Spektralband bis zur Hälfte der
jeweiligen Abtastrate durchführt,
wobei jedes Spektralband in 23 Teilbänder geteilt ist, die äquidistant
in der MEL-spektralen Domäne
angeordnet sind. Die individuellen MEL-Filterbänke 110a, 110b, 110c unterscheiden
sich somit für
jede Abtastrate. Dies bedeutet, daß die Spektralanalyse (und
die nachfolgend für
den Musterabgleich verwendeten akustischen Parameter) ebenfalls
unterschiedlich ist. Da die innerhalb jedes der drei Spracherkennungszweige 100a, 100b, 100c erzeugten
akustischen Pa rameter nicht kompatibel sind, muß jede Erkennungsstufe 100a, 100b, 100c mit
einer separaten Musterabgleichseinheit 140a, 140b, 140c versehen
werden. Dies wiederum erfordert, daß jede Musterabgleichseinheit 140a, 140b, 140c separat
bei der jeweiligen Abtastrate des Eingangssprachsignals trainiert
werden muß,
um optimale Erkennungsqualität
zu gewährleisten.
Hierdurch werden sowohl der Trainingsaufwand als auch die Speicheranforderungen
wenigstens um einen Faktor Drei erhöht.
-
Die
bei dem in der 2 gezeigten
automatischen Spracherkennungssystem anzutreffenden Probleme werden
durch das in der 3 gezeigte
automatische Spracherkennungssystem 10 überwunden, welches eine erste
Ausführungsform
einer sprachanalysierenden Stufe 12 gemäß der Erfindung umfaßt. Das
automatische Spracherkennungssystem 10 umfaßt weiterhin
eine Erkennungsstufe 14 mit einer einzigen Musterabgleichseinheit 16.
Die Musterabgleichseinheit 16 führt einen Musterabgleich auf
der Grundlage der akustischen Parameter durch, die von der sprachanalysierenden
Stufe 12 empfangen werden, sowie aufgrund von Referenzmodellen,
die in einer in der 3 nicht
dargestellten Datenbank gespeichert sind.
-
Aus
der 3 ist ersichtlich,
daß, obwohl
die sprachanalysierende Stufe 12 eine Vielzahl von sprachanalysierenden
Zweigen 12a, 12b aufweist, die Erkennungsstufe 14 nur
eine einzige Musterabgleichseinheit 16 mit einem in der 3 nicht dargestellten einzigen
Referenzmodell aufweist. Die Anzahl der sprachanalysierenden Zweige 12a, 12b innerhalb
der sprachanalysierenden Stufe 12 ist gleich der Anzahl
der Abtastfrequenzen, die in dem automatischen Spracherkennungssystem 10 angewendet
werden. Jeder sprachanalysierende Zweig 12a, 12b umfaßt einen
individuellen Spektralanalysator 18a, 18b in Form
einer MEL-Filterbank, einen individuellen nichtlinearen Transformationsblock 20a, 20b sowie
einen individuellen DCT-Block 22a, 22b.
-
Im
folgenden wird angenommen, daß die
sprachanalysierende Stufe 12 des automatischen Spracherkennungssystems 10 innerhalb
eines Endgerätes
angeordnet ist, in dem ein Sprachsignal bei einer Abtastrate von
2 × fhigh1 abgetastet wird. Die Erkennungsstufe 14 des
automatischen Spracherkennungssystems 10 kann sich entweder
im selben Endgerät
oder in einem abgesetzten Netzwerkserver befinden. Es wird weiterhin
angenommen, daß das
in der 3 gezeigte automatische
Spracherken nungssystem 10 weitere Abtastraten von 2 × flowest, 2 × fhigh2 etc.
unterstützt.
Diese weiteren Abtastraten können
beispielsweise durch ein Endgerät unterstützt werden,
das Sprache ebenfalls bei einer Abtastrate von 2 × fhigh1 abtastet, bzw. durch ein anderes Endgerät, das so
konfiguriert ist, daß nur
eine einzige sich von 2 × fhigh1 unterscheidende Abtastrate unterstützt wird.
-
Der
erste in dem ersten sprachanalysierenden Zweig 12a der
sprachanalysierenden Stufe 12 angeordnete Spektralanalysator 18a ist
so konfiguriert, daß er
das Sprachsignal in einem Spektralbereich bis zu flowest analysiert.
Diese obere Spektralgrenze des vom ersten Spektralanalysator 18a analysierten
Spektralbereiches wurde aus der untersten Systemabtastrate 2 × flowest durch Multiplizieren der untersten
Systemabtastrate 2 × flowest mit 0,5 abgeleitet. Die obere Spektralgrenze
des vom ersten Spektralanalysator 18a analysierten Spektralbereiches
könnte
auch so ausgewählt
werden, daß sie
weniger als der Hälfte
der untersten Systemabtastrate gleichgestellt ist. Beträgt beispielsweise
die unterste Systemabtastrate 8 kHz, so könnte flowest gleich 3,5
kHz sein.
-
Der
erste als eine MEL-Filterbank konfigurierte Spektralanalysator 18a analysiert
das Sprachsignal mit Blick auf die kurzzeitige Sprachenergie, die
in jedem der L' Teilbänder enthalten
ist, und gibt L' akustische
Parameter aus. Die L' akustischen
Parameter werden anschließend
mittels des nichtlinearen Transformationsblocks 20a von
der linearen spektralen Domäne
in die logarithmische spektrale Domäne umgewandelt, und die Ausgabe
des nichtlinearen Transformationsblocks 20a wird einer
DCT (Discrete Cosine Transformation) innerhalb des DCT-Blocks 22a unterworfen.
Im DCT-Block 22a werden
die L' logarithmischen
akustischen Parameter in die cepstrale Domäne umgewandelt. Die umgewandelten
L akustischen Parameter werden dann der Musterabgleichseinheit 16 der
Erkennungsstufe 14 zugeführt. Gewöhnlich unterscheidet sich die
von dem DCT-Block 22a ausgegebene Anzahl L der akustischen
Parameter von der Anzahl L' der
akustischen Parameter, die mittels des nichtlinearen Transformationsblocks 20a in
den DCT-Block 22a eingegeben werden (z.B. L < L'). Die Anzahl L akustischer
Parameter, die vom DCT-Block 22a ausgegeben werden, ist
normalerweise etwa der Hälfte
der Anzahl akustischer Parameter L', die in den DCT-Block 22a eingegeben
werden, gleichgestellt.
-
Da
die sprachanalysierende Stufe 12 ein Sprachsignal empfängt, das
bei einer Abtastrate von 2 × fhigh1 abgetastet wurde, und da der erste
Spektralanalysator 18a nur einen Spektralbereich bis zu
flowest analysiert, enthält das Sprachsignal Spektralinformationen,
die nicht in den von dem ersten Spektralanalysator 18a ausgegebenen
L' akustischen Parametern
enthalten sind. Deshalb umfaßt
die sprachanalysierende Stufe 12 den zweiten sprachanalysierenden
Zweig 12b mit dem zweiten Spektralanalysator 18b.
Der zweite Spektralanalysator 18b ist parallel zum ersten
Spektralanalysator 18a angeordnet und empfängt das
Sprachsignal gleichzeitig mit dem ersten Spektralanalysator 18a.
-
Wie
aus der 3 ersichtlich
ist, analysiert der zweite Spektralanalysator 18b das Sprachsignal
in einem Spektralbereich zwischen flowest und
fhigh1. Da ein bei einer Abtastrate von
2 × fhigh1 abgetastetes Sprachsignal keine spektralen
Informationen oberhalb × fhigh1, d.h. oberhalb der Hälfte der
Abtastrate enthält,
analysiert der zweite Spektralanalysator 18b sämtliche
zusätzlichen
spektralen Informationen, die in dem Sprachsignal enthalten sind
und nicht von dem ersten Spektralanalysator 18a analysiert
werden.
-
Der
zweite Spektralanalysator 18b analysiert M' Teilbänder im
Spektralbereich zwischen flowest und × fhigh1 und gibt M' (M' ≥ 1) akustische
Parameter aus. Diese M' akustischen
Parameter werden dann dem nichtlinearen Transformationsblock 20b zugeführt und
von der linearen spektralen Domäne
in die logarithmische spektrale Domäne umgewandelt. Die Ausgabe
des nichtlinearen Transformationsblocks 20b wird dem DCT-Block 22b zugeführt, und
die vom DCT-Block 22b ausgegebenen M (M ≤ M') akustischen Parameter
werden der Musterabgleichseinheit 16 der Erkennungsstufe 14 zugeführt.
-
Die
in der 3 dargestellte
sprachanalysierende Stufe 12 ist Teil eines Endgerätes, das
ein analoges Sprachsignal bei einer Abtastrate von 2 × fhigh1 abtastet. Wie oben ausgeführt, kann
das in der 3 dargestellte
automatische Spracherkennungssystem 10 weiterhin ein Endgerät umfassen,
das ein analoges Sprachsignal bei einer Abtastrate von 2 × flowest, 2 × flowest abtastet,
welches die unterste Abtastrate in dem automatischen Spracherkennungssystem 10 ist.
Obwohl ein derartiges Endgerät
mit der in 3 dargestellten
sprachanalysierenden Stufe 12 ausgestattet sein kann, wäre es ausreichend,
ein derartiges Endgerät
mit einer sprachanalysierenden Stufe auszustatten, die nur einen
einzigen sprachanalysierenden Zweig ähnlich dem in der 2 gezeigten sprachanalysierenden
Zweig 12a umfaßt.
Dies deshalb, weil ein bei einer Abtastrate von 2 × flowest abgetastetes Sprachsignal keine spektralen
Informationen oberhalb flowest enthält.
-
Ein
derartiges Endgerät
mit lediglich einem einzigen sprachanalysierenden Zweig ähnlich dem
in der 3 gezeigten sprachanalysierenden
Zweig 12a würde
ein Set von L akustischen Parametern erzeugen, welches mit dem Set
der L akustischen Parameter kompatibel ist, das von dem ersten sprachanalysierenden Zweig 12a der
in der 3 gezeigten sprachanalysierenden
Stufe 12 erzeugt wurde. Dies bedeutet, daß, obgleich
das automatische Spracherkennungssystem 10 Endgeräte enthalten
kann, die mit unterschiedlichen Abtastraten arbeiten, jedes Endgerät unabhängig von
der eigentlichen Abtastrate einen sprachanalysierenden Zweig aufweist,
der dem in der 3 gezeigten
sprachanalysierenden Zweig 12a ähnlich ist und der somit eine kompatible
Ausgabe erzeugt. Hierdurch wird eine hohe Kompatibilität innerhalb
des automatischen Spracherkennungssystems 10 gewährleistet.
-
In
der 4 ist ein DSR-System 200 gemäß der Erfindung
dargestellt. Das DSR-System 200 umfaßt einen
einzigen Netzwerkserver 210 mit einer zentralen Erkennungsstufe 210a.
Der Netzwerkserver 210 kommuniziert über drahtgebundene oder drahtlose
Datenübermittlungsabschnitte 212 mit
drei Endgeräten 214, 216, 218,
z.B. Mobiltelefonen.
-
Jedes
Endgerät 214, 216, 218 umfaßt eine
jeweilige sprachanalysierende Stufe 214a, 216a, 218a.
Die drei Endgeräte 214, 216, 218 arbeiten
bei unterschiedlichen Abtastraten, d.h. das erste Endgerät 214 arbeitet bei
einer Abtastrate von 8 kHz, das zweite 216 bei einer Abtastrate
von 11 kHz und das dritte 218 bei einer Abtastrate von
16 kHz. Im folgenden soll die sprachanalysierende Stufe 218a des
bei einer Abtastrate von 16 kHz arbeitenden dritten Endgerätes 218 mit
Bezug auf die 5 näher erläutert werden.
-
In
der 5 ist die sprachanalysierende
Stufe 218a des in der 4 gezeigten
dritten Endgerätes 218 näher dargestellt.
Die in der 5 dargestellte
sprachanalysie rende Stufe 218a weist einige Ähnlichkeiten
mit der sprachanalysierenden Stufe gemäß 3 auf. Entsprechende Elemente weisen
deshalb gleiche Bezugszeichen auf.
-
Die
in der 5 dargestellte
sprachanalysierende Stufe 218a umfaßt drei verschiedene sprachanalysierende
Zweige 12a, 12b 12c entsprechend der
Anzahl der verschiedenen Abtastraten, die im DSR-System 200 gemäß 4 verwendet werden. Der
erste sprachanalysierende Zweig 12a ist mit dem ersten
sprachanalysierenden Zweig der in der 3 dargestellten
sprachanalysierenden Stufe identisch. Der erste Spektralanalysator 18a,
der das Sprachsignal bis zu 4 kHz analysiert, ist wiederum als eine
MEL-Filterbank konfiguriert. Dies bedeutet, daß der Spektralanalysator 18a die
innerhalb des Spektralbereiches bis zu 4 kHz enthaltene kurzzeitige
Sprachenergie nicht integral bestimmt. Statt dessen teilt der erste
Spektralanalysator 18a den Spektralbereich bis zu 4 kHz
in eine Vielzahl von Teilbändern
und bestimmt die jeweilige kurzzeitige Sprachenergie für jedes
Teilband individuell.
-
Die
weiteren sprachanalysierenden Zweige 12b, 12c der
sprachanalysierenden Stufe 218a weichen von den in der 3 gezeigten sprachanalysierenden
Zweigen dadurch ab, daß der
zweite und dritte Spektralanalysator 18b, 18c als
Energieanalysatoren konfiguriert sind, die die Sprachenergie in
den jeweiligen Spektralbereichen integral bestimmen. Ferner enthalten
die sprachanalysierenden Zweige 12b, 12c keine DCT-Einheiten.
Hierdurch können
die Aufwendungen für
die Hardware bei der sprachanalysierenden Stufe 218a im
Vergleich zur sprachanalysierenden Stufe gemäß 2 reduziert werden.
-
Wie
aus 5 ersichtlich, analysiert
der zweite Spektralanalysator 18b den Spektralbereich zwischen 4
und 5,5 kHz und gibt M (M ≥ 1)
zusätzliche,
auf die Sprachenergie in diesem Spektralbereich bezogene akustische
Parameter aus. Der dritte Spektralanalysator 18c analysiert
den Spektralbereich zwischen 5,5 und 8 kHz und gibt N (N ≥ 1) zusätzliche,
auf die Sprachenergie in diesem Spektralbereich bezogene akustische
Parameter aus.
-
Zusammenfassend
geben die drei Spektralanalysatoren 18a, 18b, 18c der
sprachanalysierenden Stufe 218 L + M + N akustische Parameter
aus, die aufgrund des DSR-Konzepts zur zentralen Erkennungsstufe 210a des
abgesetzten Netzwerkservers 210 gemäß 4 übertragen
werden müssen.
Zum Zwecke der Übertragung
der akustischen Parameter an den abgesetzten Netzwerkserver umfaßt die sprachanalysierende
Stufe 218a eine Kodiereinheit 24 zur Quantisierung
und Kodierung der an den Netzwerkserver zu übertragenden akustischen Parameter.
Die von der Kodiereinheit 24 ausgegebenen quantisierten
und kodierten akustischen Parameter werden an eine Schnittstelle 26 der
sprachanalysierenden Stufe 218a übertragen und über die Schnittstelle 26 mittels
drahtgebundener oder drahtloser Datenübermittlungsabschnitte 212 an
den Netzwerkserver 210 gemäß 4 übertragen.
Die Erkennungsstufe 210a des Netzwerkservers 210 umfaßt ein in
der 4 nicht dargestellte
Schnittstelle zum Empfangen der quantisierten und kodierten akustischen
Parameter über
die Datenübermittlungsabschnitte 212 von
den Endgeräten 214, 216, 218.
Die Erkennungsstufe 210a des Netzwerkservers 210 umfaßt weiterhin
eine Dekodiereinheit zur Dequantisierung der empfangenen akustischen
Parameter. Die Dekodiereinheit der Erkennungsstufe 210a ist
in der 4 nicht dargestellt.
-
Die
Schnittstelle 26 und die Kodiereinheit 24 der
sprachanalysierenden Stufe 218a gemäß 4 könnten
weggelassen werden, wenn auf den DSR-Ansatz verzichtet wird und
wenn die sprachanalysierende Stufe 218a sowie die entsprechende
Erkennungsstufe 210a beide entweder im Endgerät 218 oder,
alternativ, im Netzwerkserver 210 angeordnet werden.
-
Wie
oben erwähnt,
bildet die in der 5 dargestellte
sprachanalysierende Stufe 218a Teil des DSR-Systems 200,
das drei verschiedene Abtastraten von 8 kHz, 11 kHz und 16 kHz unterstützt. Die
in der 5 dargestellte
sprachanalysierende Stufe 218a mit drei sprachanalysierenden
Zweigen 12a, 12b, 12c bildet Teil des
Endgerätes 218,
das wenigstens bei einer Abtastrate von 16 kHz arbeiten kann.
-
Das
weitere Endgerät 216,
welches mit einer Abtastrate von 11 kHz arbeitet, könnte unter
Verwendung einer sprachanalysierenden Stufe 216a mit lediglich
den ersten beiden in der 5 dargestellten
sprachanalysierenden Zweigen 12a, 12b konstruiert
werden, da ein bei 11 kHz abgetastete Sprachsignal keine spektralen
Informationen oberhalb 5,5 kHz aufweist. Aus demselben Grund würde die
sprachanalysierende Stufe 214a des bei einer Abtastrate
von 8 kHz arbeitenden Endgerätes 214 lediglich
einen einzigen sprachanalysierenden Zweig ähnlich dem in der 5 dargestellten sprachanalysierenden
Zweig 12a benötigen.
-
Auf
Seiten des Netzwerkservers 210 gemäß 4 könnte
die Erkennungsstufe 210a eine individuelle Musterabgleichseinheit
für jede
durch das DSR-System 200 unterstützte Abtastrate aufweisen.
Allerdings wäre
eine einzige Musterabgleichseinheit für sämtliche Abtastraten ausreichend.
Die Referenzmodelle für
diese einzige Musterabgleichseinheit kann auf Sprachsignale trainiert
werden, die mit der höchsten
Abtastrate, d.h. 16 kHz, verarbeitet werden. Diese Sprachmodelle
enthalten ganze Sets möglicher
akustischer Parameter. Muß ein
bei einer niedrigeren Abtastrate abgetastetes Sprachsignal erkannt
werden, so wendet die Musterabgleichseinheit lediglich eine entsprechende
Anzahl akustischer Parameter für
den Musterabgleich an.
-
Somit
wird offensichtlich, daß in
einem unterschiedliche Abtastraten unterstützenden DSR-System Endgeräte, die
mit unterschiedlichen Abtastraten arbeiten, unterschiedliche Anzahlen
akustischer Parameter an den Netzwerkserver übertragen. Als ein aus der 5 abgeleitetes Beispiel
würde ein
Endgerät,
das mit einer Abtastrate von 16 kHz arbeitet, L + M + N akustische
Parameter an den Netzwerkserver übertragen,
während
ein mit einer Abtastrate von 11 kHz arbeitendes Endgerät L + M
akustische Parameter übertragen
würde, und
ein Endgerät,
das mit einer Abtastrate von 8 kHz arbeitet, würde lediglich L akustische
Parameter übertragen.
Dies bedeutet aber nicht notwendigerweise, daß die Datenrate des Datenflusses
zwischen den Endgeräten
und dem Netzwerkserver für
die Endgeräte,
die mit höheren
Abtastraten arbeiten, höher
wird. Die Datenrate könnte
durch Anpassung des Quantisierungsschemas an die unterschiedliche
Anzahl von Parametern, wie unten dargelegt, konstant gehalten werden.
-
Gemäß einer
möglichen
Ausführung
des DSR-Systems 200 gemäß 4 und der sprachanalysierenden
Stufe 218a gemäß 5 wird ein Set von 13, 14
und 15 akustischen Parametern für
jeden Sprachrahmen von 25 ms bei einer Abtastrate von 8 kHz, 11
kHz bzw. 16 kHz bestimmt. Somit ist L gleich 13, und sowohl M als
auch N sind gleich 1.
-
Ein
erster der von dem DCT-Block 22a ausgegebenen L = 13 akustischen
Parametern stellt die logarithmische Rahmenenergie dar und wird
linear von der Kodiereinheit 24 mit 8 Bit quantisiert.
Somit wird der Bereich der Energiewerte in 256 Intervalle entsprechend
der 8-Bit-Auflösung
geteilt. Die anderen zwölf
vom DCT-Block 22a ausgegebenen akustischen Parameter werden
in Paaren quantisiert, mit 7 Bit für die ersten beiden Paare,
6 Bit für
die zweiten beiden Paare und 5 Bit für die dritten beiden Paare,
wie in der folgenden Tabelle gezeigt ist:
-
-
Wie
aus der Tabelle ersichtlich ist, wird eine höhere Bitanzahl, d.h. Ebenen,
für die
akustischen Parameter niedrigerer Ordnung ausgewählt, da diese akustischen Parameter
spektrale Informationen höherer Wichtigkeit
enthalten. Insgesamt sind 44 Bit zur Kodierung der in einem akustischen
Vektor mit 13 akustischen Parametern enthaltenen akustischen Parameter
notwendig (8 Bit für
die auf die logarithmische Rahmenenergie bezogenen akustischen Parameter,
zweimal 7 Bit für
die ersten beiden Paare der akustischen Parameter, zweimal 6 Bit
für die
zweiten beiden Paare der akustischen Parameter und zweimal 5 Bit
für das
dritte Paar der akustischen Parameter).
-
Die
in der obigen Tabelle gezeigten akustischen Parameter werden durch
die Verwendung von geteilten Vektor-Codebüchern kodiert. Die sechs Paare
akustischer Parameter werden derart kodiert, daß für jedes Paar akustischer Parameter
ein Kodierindex aus einem entsprechenden Codebuch erhalten wird.
Somit sind sechs Codebücher
für die
Kodierung der sechs Paare akustischer Parameter erforderlich. Jedes
Codebuch wird durch die Anwendung eines Vektorquantisierungsalgorithmus
gemäß dem Stand
der Technik erzeugt.
-
In
den 6a, 6b und 6c sind
jeweils die Codebücher 28a, 28b und 28c dargestellt,
die zum Kodieren von bei einer Abtastrate von 8 kHz, 11 kHz und
16 kHz erhaltenen akustischen Parametern verwendet werden. In der 6a wird die Bestimmung eines
Codebuch-Indexes für
die akustischen Parameter c1 und c2 gezeigt, die bei einer Abtastrate von 8
kHz in dem Endgerät
gemäß 4 erhalten wurden. Aufgrund
der von dem DCT-Block 22a ausgegebenen beiden akustischen
Parametern c1, c2 sucht
die Kodiereinheit 24 nach dem in dem Codebuch 28a enthaltenen
entsprechenden Eintrag, der der Ausgabe c1,
c2 des DCT-Blocks 22a am nächsten kommt.
Daraufhin wird der Codebuch-Index des am nächsten kommenden Eintrages
bestimmt. Fünf weitere
Codebuch-Indexe werden in derselben Art und Weise für die fünf weiteren
Paare akustischer Parameter erhalten, die von dem DCT-Block 22a ausgegeben
werden. Somit müssen
fünf weitere,
in der 6a nicht dargestellte
Codebücher
vorgesehen sein. Die sechs von der Kodiereinheit 24 bestimmten
individuellen Codebuch-Indexe werden dann mit einem Datensignal
kombiniert, was im folgenden mit Bezugnahme auf die 7 näher
erläutert
wird.
-
In
der 6b wird die Bestimmung
eines Codebuch-Indexes für
die akustischen Parameter c1 und c2 gezeigt, die bei einer Abtastrate von 11
kHz im Endgerät 216 erhalten
wurden. Das Codebuch 28b weicht von dem in der 6a dargestellten Codebuch 28a dahingehend
ab, daß das
Codebuch 28b eine weitere Spalte E4–5,5 bezogen
auf die in dem Sprachsignal enthaltene Sprachenergie in einem Frequenzbereich
zwischen 4 kHz und 5,5 kHz umfaßt.
Der Wert von E4–5,5 wird von einem sprachanalysierenden
Zweig ähnlich
dem in der 5 dargestellten
sprachanalysierenden Zweig 12b bestimmt.
-
Die
Kodiereinheit 24 gemäß 6b empfängt nicht nur die akustischen
Parameter c1 und c2,
sondern auch die weiteren akustischen Parameter E4–5,5 Aufgrund
dieser Dreiergruppe akustischer Parameter bestimmt die Kodiereinheit 24 den
am nächsten
kommenden Eintrag innerhalb des Codebuches 28b. Hierdurch
wird ein entsprechender Codebuch-Index erhalten. Fünf weitere
Codebücher,
die zum Kodieren der fünf
weiteren Paare akustischer Parameter verwendet werden, werden genauso
dargestellt, wie die fünf
entsprechenden Codebücher,
die zum Kodieren der fünf
weiteren bei einer Abtastrate von 8 kHz (6a) erhaltenen akustischen Parameter
verwendet werden.
-
In
der 6c wird die Bestimmung
eines Codebuch-Indexes für
die akustischen Parameter c1 und c2, E4–5,5 und E5,5–8 gezeigt,
die bei einer Abtastrate von 16 kHz im Endgerät 218 erhalten wurden.
Das in der 6c dargestellte
Codebuch 28c weicht von dem in der 6b dargestellten Codebuch 28b dahingehend ab,
daß es
eine weitere Spalte für
die akustischen Parameter E5,5–8 umfaßt. Der
Codebuch-Index für
die Vierergruppe der akustischen Parameter c1 und
c2, E4–5,5 und E5,5–8 wird
in ähnlicher
Weise wie oben mit Bezugnahme auf die 6b beschrieben
bestimmt.
-
Wird
das in den 6a, 6b und 6c dargestellte Kodierungskonzept in
dem in der 4 gezeigten DSR-System 200 angewendet,
so werden acht verschiedene Codebücher verwendet und müssen erzeugt werden.
Drei dieser Codebücher 28a, 28b, 28c sind
jeweils in den 6a, 6b, 6c dargestellt. Fünf weitere Codebücher werden
zum Kodieren der fünf
weiteren Paare akustischer Parameter benötigt. Auf Seiten des Netzwerkservers 210 müssen alle
acht verschiedenen Codebücher
vorgesehen sein. Auf Seiten der Endgeräte 214, 216, 218 ist
das Vorsehen von sechs Codebüchern
pro Endgerät 214, 216, 218 ausreichend.
Jedes der Endgeräte 214, 216, 218 umfaßt das entsprechende
jeweils in den 6a, 6b, 6c dargestellte Codebuch 28a, 28b, 28c sowie
ein Set fünf
weiterer Codebücher
zum Kodieren der fünf
weiteren Paare akustischer Parameter. Im Prinzip funktionieren sowohl
das Kodieren als auch des Dekodieren des ersten Paares akustischer
Parameter bei sämtlichen
Abtastraten und lediglich mit dem Codebuch, das vier Komponenten
pro Eintrag, wie in der 6c gezeigt,
enthält.
Das bedeutet, daß es
ausreichend wäre,
jedes der in der 4 gezeigten
Endgeräte 214, 216, 218 mit
dem Codebuch 28c gemäß 6c und einem Set fünf weiterer
Codebücher
zum Kodieren der fünf
weiteren Paare akustischer Parameter auszustatten.
-
Jedes
der in den 6a bis 6c dargestellten verschiedenen
drei Codebücher
muß individuell
auf Sprachdaten trainiert werden, die mit der entsprechenden Abtastrate
abgetastet werden, und können
nach der Herstellung der Endgeräte 214, 216, 218 und
des Netzwerkservers 210 gemäß 4 in einem EPROM vorgespeichert werden.
-
Durch
das oben im Zusammenhang mit den 6a bis 6c beschriebene Kodierungskonzept
wird gewährleistet,
daß jedes
in der 4 gezeigte individuelle
Endge rät 214, 216, 218 eine
individuelle Anzahl an akustischen Parametern mit 44 Bit kodiert.
Hierdurch wird eine hohe Kompatibilität und ein konstanter Datenfluß innerhalb
des DSR-Systems 200 gewährleistet.
Vorzugsweise beträgt
die innerhalb des DSR-Systems 200 verwendete
Datenrate 4,800 Bit/s.
-
In
der 7 wird die Gesamtdatenstruktur
eines von einem der Endgeräte 214, 216, 218 an
den Netzwerkserver 210 zu übertragenden Datensignals 50 gezeigt.
Das Datensignal 50 umfaßt eine erste Datenstruktur 52,
die Synchronisationsinformationen sowie Headerinformationen bezogen
auf die Abtastrate enthält,
bei der das entsprechende Sprachsignal abgetastet worden ist. Eine
zweite Datenstruktur 54 des Datensignals 50 enthält eine
Vielzahl von Datenteilstrukturen 56 und 68. Die
erste Datenteilstruktur 56 bezieht sich auf die logarithmische
Rahmenenergie, die linear mit 8 Bit quantisiert wurde. Die sechs
verbleibenden Datenstrukturen beziehen sich auf Codebuch-Indexe
für die
sechs Paare der akustischen Parameter C1 bis
C2 (s. Tabelle oben). Die zweite Datenteilstruktur 58 enthält den 7-Bit-Codebuch-Index,
der wie oben im Zusammenhang mit den 6a bis 6c beschrieben erzeugt wurde.
Dies bedeutet, daß der
in der zweiten Datenteilstruktur 58 enthaltene Codebuch-Index aus einem der
Codebücher 28a, 28b, 28c für eine bestimmte
Kombination der ersten beiden akustischen Parameter c1,
c2 mit dem einen bzw. den beiden weiteren
akustischen Parametern E4–5,5, E5,5–8 abgeleitet
wurde, die durch Analysieren des Sprachsignals in oberen Frequenzbereichen
erhalten wurden. Die fünf
weiteren Datenteilstrukturen 60 bis 68 gemäß 7 beziehen sich auf die
fünf weiteren
Paare akustischer Parameter, die in der obigen Tabelle dargestellt
sind. Insgesamt enthalten die sieben Datenteilstrukturen 56 bis
68 44 Bit an Informationen.
-
Die
Durchführung
eines DSR-Systems 200, wie dasjenige, das in der 4 dargestellt ist, wurde
theoretisch modelliert, unter Verwendung der Sprachdatenbank „TI-Digits". Diese Sprachdatenbank
umfaßt
8,700 Ziffernsequenzen (insgesamt umfassend 28,000 gesprochene Ziffern),
die für
Trainingszwecke von verschiedenen Sprechern gesprochen wurden, sowie
ungefähr
dieselbe Anzahl für
Testzwecke.
-
In
einem ersten Schritt wurden die TIDigits von 20 kHz bis 8 kHz, 11
kHz and 16 kHz entsprechend den Abtastraten, die in dem in der 4 gezeigten DSR-System 200 verwendet
werden, unterabgetastet. Eine Tiefpaßfilterung wurde dann auf die
unter abgetasteten Sprachdaten bei ungefähr der Hälfte jeder Abtastrate angewendet.
Ein Set von 13, 14 und 15 akustischen Parametern wurde für jeden
Sprachrahmen von 25 ms bestimmt. Somit ist L gleich 13, und sowohl
M als auch N sind gleich 1. Die standardmäßigen Delta-Parameter sowie
zwei zusätzliche
durch LDA-abgeleitete Filterung erzeugte Parameter wurden als Inhalte
jedes Merkmalsvektors genommen. Ein Merkmalsvektor besteht somit
aus 39 Komponenten bei einer Abtastrate von 8 kHz, aus 42 Komponenten
bei 11 kHz und aus 45 Komponenten bei 16 kHz.
-
Referenzmodelle
(HMM) wurden bei jeder Abtastfrequenz ohne Hinzufügen irgendeines
Hintergrundrauschens zur Sprache bestimmt. Somit wurde die Experimente
nur mit sauberen Sprachdaten durchgeführt. In der folgenden Tabelle
werden die Wortfehlerraten für
sämtliche
möglichen
Kombinationen von Systemtrainings bei einer der drei Abtastraten
und Sprachdatenerkennung bei einer der drei Abtastraten aufgeführt.
-
-
Aus
der Tabelle wird ersichtlich, daß bei HMM, die bei einer Abtastrate
von 16 kHz trainiert wurden, eine hohe Erkennungsgenauigkeit (Wortfehlerraten
von unter 1,07 %) unabhängig
von der Abtastrate des Sprachsignals erwartet werden kann. Ferner
kann ein Gewinn gesehen werden, wenn eine Bewegung von der untersten
Abtastrate zur höheren
Abtastrate stattfindet und die bei der jeweiligen Abtastrate trainierten
HMM angewendet werden. Kein weiterer Gewinn kann erzielt werden,
wenn eine Bewegung von 11 kHz zu 16 kHz stattfindet. Dies überrascht
jedoch nicht, da nur wenige Spektralinformationen in Sprachsignalen
oberhalb 5,5 kHz vorliegen. Aus der Tabelle wird ebenfalls offensichtlich,
daß, unabhängig von
der Abtastrate eines Endgerätes,
eine hohe Erkennungsqualität
für sämtliche
HMM erhalten werden kann.