-
Erfindungsgebiet
-
Die vorliegende Erfindung betrifft
automatische Sprach-/Sprechererkennung (ASR – Automatic Speech/Speaker
Recognition) und insbesondere ASR über drahtlose Kommunikationskanäle.
-
Stand der
Technik
-
Die automatische Sprach-/Sprechererkennung
(ASR – Automatic
Speech/Speaker Recognition) hat sich immer mehr durchgesetzt, mit
Verbesserungen bei der Technik, der Modellierung und Erkennungsalgorithmen.
Zu vielen wichtigen Anwendungen der ASR-Technologie gehören diejenigen
auf dem Gebiet des Fernsprechwesens und anderer Kommunikationstechniken.
Beispielsweise hat sich die Verwendung von ASR als wertvoll bei
der Bereitstellung von Auskunftsdienst, automatischem Anrufen und
sonstigen Sprachtelefonieanwendungen über Drahtverbindungen erwiesen.
Auf einem parallelen Entwicklungsgebiet hat sich die Verwendung
von zellularen Systemen, persönlichen
Kommunikationssystemen (PCS) und sonstigen drahtlosen Systemen (in
der Folge zusammen als „drahtlose" bezeichnet) weiter
vermehrt. Es ist daher naturgemäß, in drahtgebundenen
Systemen erreichte Verbesserungen bei der ASR auch auf drahtlose
Systeme anwenden zu wollen.
-
ASR über drahtlose Kanäle ist aufgrund
des zusätzlichen
Rauschens und der zusätzlichen
Verzerrung, die während
der Codierungs-, Übertragungs-
(z. B. aufgrund von Schwund oder Paketverlusten) und Decodierungsstufen
in Sprachsignale eingeführt
werden, problematisch. In drahtlosen Umgebungen vorhandene, durch
Rauschen verschlechterte Sprachsignale unterscheiden sich oft wesentlich
von dem ursprünglichen Sprachsignal,
was zur Verminderung von ASR-Leistungen führt, wenn standardmäßige ASR-Verfahren
angewandt werden. Mit Versuchen zur Erstellung von fortschrittlichen
auf ASR basierenden Diensten wie beispielsweise intelligenten Agentendiensten
oder Spracherkennungsdiensten mit großem Vokabular über digitale drahtlose
Kanäle
hat sich dieses Problem zugespitzt. Vorherige Ansätze konzentrierten
sich hauptsächlich
auf Rauschverringerungsverfahren, aber die Ergebnisse liegen weit
vom Ideal und weisen aufgrund der vielen Unterschiede in drahtlosen
Umgebungen (z. B. TDMA, CDMA, GSM, usw.) begrenzte Anwendbarkeit
auf.
-
Bei neueren Untersuchungen hat sich
herausgestellt, daß,
wenn die Merkmalsvektoren für
ASR-Zwecke am Handapparat abgeleitet und digital über einen
sekundären
Digitalkanal übertragen
werden können, beinahe
keine Leistungsminderung der ASR-Leistung in der drahtlosen Umgebung
im Vergleich mit dem drahtgebundenen Telefonnetz vorkommt. In der 1 ist ein typisches Doppelkanalsystem
des Stands der Technik dargestellt.
-
Hier wird ein zellularer Handapparat 101 von
einem Mobilteilnehmer zur Codierung von normaler Sprache und Übertragung
des codierten Signals mit entsprechenden Codiererparametern über den
primären (Sprach-)
Kanal 105 zur zellularen Basisstation 120 benutzt.
Die Basisstation 120 decodiert dann das empfangene codierte
Signal, um eine Sprachausgabe zu erzeugen, die für die Kommunikation über das öffentliche Wählnetz (PSTN)
oder sonstiges Sprachkommunikationsnetz, das durch die öffentliche
Vermittlung 130 dargestellt wird, und ihre Ausgabe an ein
Netz geeignet ist. In „The
influence of speech coding algorithms on automatic speech recognition" (Der Einfluß von Sprachcodierungsalgorithmen
auf automatische Spracherkennung) von Euler et al. in ICASSP '94 besteht eine Lösung darin,
codeangepaßte
Sprachmodelle zu benutzen. 1 zeigt
auch die Erzeugung am zellularen Handapparat 101 einer
zweiten Menge von Signalen entsprechend den durch eine ASR-Anwendung
zu benutzenden ASR-Parametern. Diese zweite Menge von Signalen wird über einen
zweiten Digitalkanal 110 zur zellularen Basisstation 120 übertragen,
wo sie an das ASR-System 140 weitergeleitet werden.
-
Durch die experimentelle Verwendung
von Systemen der in 1 gezeigten
Art ist Interesse an der Erzeugung einer standardmäßigen ASR-Merkmalsmenge
entstanden, die am Handapparat abgeleitet und über ein drahtloses Netz als
ein Digitalsignal unter Verwendung einer sekundären digitalen Strecke gesendet werden
kann. Da die Bitrate für
die Übertragung
von ASR-Merkmalsvektoren ganz niedrig sein kann (> 4Kb/s), ist es möglich, eine
sekundäre
digitale Strecke wie die für
die Verwendung in neuen drahtlosen Standards, wie beispielsweise
IS-134 vorgeschlagene
zu verwenden. Obwohl diese Lösung
mit sekundärem
Kanal vielversprechend zu sein scheint, weist sie eine Anzahl ernsthafter
Nachteile auf. Insbesondere erfordert dieser Ansatz:
- 1. Einen neuen Standard und wesentliche Veränderungen in Kommunikationsprotokollen.
Selbst dann würden
Unverträglichkeiten
mit vielen gegenwärtigen
drahtlosen Kommunikationsstandards Abänderungen an oder die Aufgabe
von existierenden Standard-konformen Netzgeräten erfordern.
- 2. Zusätzliche
Bandbreite zur Übertragung
von ASR-Merkmalsvektoren
vom Handapparat zur Basisstation. Synchronisieren des primären Digitalkanals
für die Übertragung
von Sprache und des sekundären
Digitalkanals für
die Übertragung
der abgeleiteten ASR-Merkmalsvektoren
kann ebenfalls ein ernsthaftes Problem darstellen.
- 3. Wesentliche Änderungen
an gegenwärtigen
Handapparaten.
- 4. Eine Vielzahl von Doppelkanal-Lösungen. Das heißt Abhängigkeit
von bestimmten gegenwärtigen
drahtlosen Standards oder Formaten (CDMA, TDMA, GSM, IS-94, IS-134
usw.) und zugehörigen
Zeichengabe- und Modulationsanordnungen machen eine universelle
Lösung
für alle
verfügbaren
Standards undurchführbar.
- 5. Hohe Anfangsinvestitionen zur Einführung von auf diesem Verfahren
basierenden Diensten.
-
Kurze Beschreibung
der Erfindung
-
Die Beschränkungen des Standes der Technik
werden bei Systemen entsprechend den Ansprüchen 15 und 16 und einem Verfahren
entsprechend dem Anspruch 1 zur wirksamen und wirtschaftlichen Ermöglichung
von ASR-Fähigkeiten
in drahtlosen Zusammenhängen
wie unten in Verbindung mit beispielhaften Ausführungsformen beschrieben, überwunden
und ein technischer Fortschritt wird erreicht.
-
So werden zuverlässige ASR-Merkmalsvektorfolgen
an einer Basisstation (oder sonstigen Netz- oder Systemeinheit)
direkt aus den digital übertragenen
Sprachcodiererparametern abgeleitet. Bei vielen Anwendungen werden
die ASR-Funktionen in einer öffentlichen
Vermittlung oder sonstwo in einem Netz durchgeführt. Bei diesem Ansatz bearbeitet
eine neuartige ASR-Merkmalsentnahmevorrichtung die empfangenen Sprachcodiererparameter
vom Handapparat, ohne daß zusätzliche
Verarbeitung oder Signalmodifikation am Handapparat erforderlich
ist. So werden an einer Basisstation empfangene Sprachcodiererparameter
nicht nur für die
Wiedergabe des Sprachsignals wie gegenwärtig, sondern auch zur Erzeugung
der Merkmalsvektorfolge für
ASR-Anwendungen benutzt.
-
Eine beispielhafte ASR-Merkmalsvektorentnahmevorrichtung
an der Basisstation vermeidet dadurch, daß sie digital übertragene
Sprachcodiererparameter vor der Rückwandlung dieser Codiererparameter
in ein Sprachsignal bearbeitet, den verlustbehafteten Umwandlungsvorgang
und die zugehörige
Sprachverzerrung. Bei der Verwendung von Ausführungsformen der vorliegenden
Erfindung besteht kein Erfordernis, drahtlose Handapparate abzuändern, da
die ASR-Merkmalsvektoren von derselben Menge von Sprachcodiererparametern
abgeleitet werden, die normalerweise am Handapparat entnommen werden.
Bestehende Handapparate stellen daher eine Vorstufe für die ASR-Merkmalsvektorentnahmevorrichtung
an der Basisstation bereit.
-
Weiterhin ist die Verbindung vom
Handapparat zur Basisstation in digitalen drahtlosen Umgebungen voll
digital und enthält
Fehlerschutz für
zu einer Basisstation übermittelte
Datensignale. Die Übertragung
vom Handapparat zur gegenwärtigen
erfindungsgemäßen Merkmalsentnahmevorrichtung
an einer Basisstation oder einer sonstigen Stelle weist daher dieselbe
digitale Übertragungsgüte wie bei
Anordnungen mit sekundärem
Kanal auf.
-
Obwohl Sprachcodiererparameter sich
sehr von den für
ASR-Zwecke benötigten
Merkmalsvektoren unterscheiden, stellt die vorliegende Erfindung
beispielhafte Verfahren zur Realisierung einer Sprachmerkmalsentnahmevorrichtung
auf Grundlage normaler Sprachcodiererparameter bereit.
-
Insgesamt bietet die vorliegende
Erfindung Systeme und Verfahren für verbesserte ASR ohne Bedarf an
einem sekundären
Kanal und ohne wesentliche Änderungen
an gegenwärtigen
drahtlosen Standards. Änderungen,
Erweiterungen und betriebliche Unterschiede an Basisstationen sind
ebenfalls minimal. Vorteilhafterweise wird der Digitalkanal für ASR- Anwendungen (über Abänderungen
an der Software) als zweites Ziel für eine Sprachverbindung erstellt.
-
Bei alternativen Ausführungsformen
wird die ASR-Merkmalsentnahme
und die ASR-Funktionen an einer Vermittlung durchgeführt, die
(direkt oder über
Netzverbindungen) mit der Empfangs-Basisstation verbunden ist. In
weiteren Ausführungsformen
werden die an einer Basisstation vom übertragenden Handapparat empfangenen
codierten Sprachsignale (mit oder ohne decodierte Sprachsignale)
zu einer Netzstelle mit einem Endgerät oder Speichersystem weitergeleitet.
-
Kurze Beschreibung
der Zeichnung
-
1 zeigt
ein System des Stands der Technik mit einem sekundären Digitalkanal
zur Übertragung von
ASR-Parametern zu
einer Basisstation zur nachfolgenden Verwendung durch ein ASR-System.
-
2 zeigt
eine Darstellung des gesamten Systems einer beispielhaften Ausführungsform
der vorliegenden Erfindung mit einzelnem Kanal.
-
3 zeigt
beispielhafte Verarbeitungsschritte, die bei der Umwandlung von
an einer Basisstation empfangenen codierten Sprachsignalen in ASR-Merkmalsparameter
nützlich
sind.
-
4 zeigt
ein beispielhaftes ASR-System, das ASR-Merkmalsparameter der in 4 dargestellten beispielhaften
Verarbeitung bearbeitet.
-
5 ist
ein Blockschaltbild, das zum Verständnis der Umwandlung von LPC-Werten
in Korrelationskoeffizienten nach einem Aspekt des beispielhaften
Vorgangs der 3 nützlich ist.
-
Ausführliche
Beschreibung
-
2 zeigt
eine beispielhafte Ausführungsform
des Systems der vorliegenden Erfindung. In der 2 ist ein Handapparat 201 dargestellt,
der Sprachcodiererparameter zur Übertragung
an die drahtlose Basisstation 220 als Reaktion auf gesprochene
Benutzereingaben erzeugt. Die auf dem Übertragungskanal 205 gesendeten
codierten Sprachsignale sind in jeder Hinsicht (für dieselbe
gesprochene Eingabe) mit codierten Sprachsignalen identisch, die
für Sprachkommunikationen
bei normalem (nicht-ASR-)Gebrauch des drahtlosen Systems der 2 benutzt werden. Zusätzlich sind
diese codierten Sprachsignale derselben Art wie die auf dem Sprachkanal 105 im
System der 1 übertragenen.
Es ist kein sekundärer
Digitalkanal wie im System der 1 dazu
erforderlich, eine Menge von ASR-bezogenen Parametern zu führen. Stattdessen
werden die empfangenen codierten Sprachsignale an der drahtlosen
Basisstation 220 einerseits auf dem Weg 222 zur Abgabe
an die öffentliche
Vermittlung 230, wie bei der normalen Leistung des drahtlosen
Systems (und im System der 1)
bereitgestellt. Normalerweise wird die Decodierung der am Handapparat
codierten Sprachsignale an einer Vermittlung wie beispielsweise
der öffentlichen
Vermittlung 230 durchgeführt, jedoch kann diese Decodierung
in Sprachsignale an der Basisstation 120 oder über die
Vermittlung 230 und den Weg 231 sonstwo im PSTN-
(oder sonstigen) Netz stattfinden.
-
Zusätzlich werden die an der drahtlosen
Basisstation 220 empfangenen codierten Sprachsignale für das ASR-Merkmalsentnahmesystem 235 und
das ASR-System 240 bereitgestellt, die sich beispielhafterweise an
der Basisstation 220 befinden. Dort werden die gleichen
codierten Darstellungen, die zur Erzeugung von Sprachsignalen decodiert
werden, stattdessen zur Entnahme von ASR-Merkmalsparametern in der ASR- Merkmalsentnahmeeinheit 235 zur
Verwendung durch ASR-Systeme
wie beispielsweise 240 benutzt. Die vom Handapparat 205 empfangenen
Sprachcodiererparameter werden auch beispielhafterweise auf der Leitung 225 für die öffentliche
Vermittlung 230 bereitgestellt, wo sie als Alternative
(oder zusätzlich)
zur Abgabe als Digitalsignale an die Merkmalsentnahme- und ASR-Einheiten an der
Vermittlung 230 oder sonstwo in einem Netz zur Verfügung stehen.
Die Verbindung von der Basisstation 220 zum ASR-Merkmalsentnahmesystem 235 und
von dort zum ASR-System 240 ist für einige Anwendungen vorteilhafterweise
als getrennte Vermittlungsverbindung angeordnet, wie beispielsweise
zur Verbindung des normalen Sprachweges mit der öffentlichen Vermittlung 230 benutzt
wird. In anderen Anwendungen erweist es sich als zweckdienlich,
daß die codierten
Parameter denselben Weg zu einer Vermittlung 230 gesendet
werden, wo Merkmalsentnahme (und ASR) zusätzlich zur Sprachdecodierung
durchgeführt
werden.
-
So stellt die Basisstation 220 in
einer typischen Anwendung der vorliegenden erfindungsgemäßen Grundsätze die
codierten Sprachparameter direkt für die ASR-Merkmalsentnahmeeinheit 235 und
das ASR-System 240 bereit. Als Alternative kann der Weg
zur ASR-Merkmalsentnahmevorrichtung 235 und/oder dem
ASR-System 240 an der Vermittlung 230 oder einer
sonstigen zentralisierten Einrichtung zur Anwendung der erkannten
Sprache unterhalten werden. Beispielsweise kann die erkannte Sprache
zur Authentifizierung des Sprechers oder als Befehls- oder sonstige
Eingabe in ein auf Text reagierendes System benutzt werden. Eine
Anwendung einer solchen erkannten Sprache ist die Übertragung
einer Textversion der Sprache an ein darauf reagierendes System,
z. B. für
Sprecher-Maschinendialog, obwohl zahlreiche und verschiedenartige andere
Anwendungen von Spracherkennung in der Technik bekannt sind. Die
Art und Weise der Umwandlung von standardmäßigen sprachcodierten Signalen
zur Erzeugung von ASR-Merkmalsparametern wird ausführlicher
unten beschrieben.
-
Eine nützliche Eigenschaft von digitalen
drahtlosen Umgebungen besteht darin, daß die Sprache eines Benutzers
nach Umwandlung in eine Folge von digitalen Codiererparametern am
Handapparat vorteilhafterweise durch Kanalcodierungsverfahren während der Übertragung über das
drahtlose Medium fehlergeschützt
ist. Diese Kanalcodierung wird typischerweise ungleich an unterschiedliche
Teile der Übertragung
angelegt. Das heißt,
es ist bräuchlich,
daß die
wichtigsten Codiererparameter mit vollständigerem Schutz übertragen
werden, während
unwichtigere Parameter nicht so voll geschützt werden. Zu diesen wichtigsten
Parametern gehören
die, die auf Signalsynchronisierung und die Spektralform der Sprachsignale
bezogen sind.
-
Obwohl Kanalschwund und -störung den
Verlust gewisser Codiererparameter verursachen kann und das wiedergegebene
Sprachsignal verzerren kann, trifft es dann gewöhnlich zu, daß die wichtigsten
Codiererparameter aufgrund dieses ihnen bei der Kanalcodierung gewährten zusätzlichen
Fehlerschutzes erhalten bleiben. So werden entsprechend der vorliegenden
Erfindung ASR-Merkmalsvektorsignale vorteilhafterweise aus diesen
besser geschützten
Sprachcodiererparametern entnommen. Informationen für die ASR-Merkmalsentnahme
werden daher digital und mit hoher Zuverlässigkeit unter Verwendung von
nur der normalerweise zum Schützen
ursprünglicher
Sprachcodiererparameter benutzten Kanalcodierungsanordnung empfangen.
-
Entsprechend der vorliegenden Erfindung
wird ASR-Merkmalsentnahme
vorteilhafterweise aus den Sprachcodiererparametern bewirkt, ehe
sie in Sprachsignale zurückgewandelt
werden. Ein Grund dafür
besteht darin, daß das
umgewandelte Sprachsignal im Decodierungsvorgang verzerrt wird.
Selbst ohne Kanaleffekte beträgt
das Verhältnis
Signalsegment zu Quantisierungsrauschen (SSNR – Segmental Signal to Quantization
Noise Ratio) der decodierten Sprache oft nur annähernd 20 dB in typischen drahtlosen
Umgebungen. Man siehe beispielsweise B. S. Atal, V. Cuperman und
A. Gersho „Advances
in Speech Coding" (Fortschritte bei
der Sprachcodierung) Kluwer Academic Publisher. Dieser letztere
Signalzustand entsteht, da bei der Suche danach, Bedingungen niedriger
Bitrate zu entsprechen, viele Merkmale, z. B. Erregungssignale,
nicht ausreichend codiert und dargestellt sind. Zusätzlich bewirken
Kanalschwund und Störung,
daß viele
Sprachcodiererparameter für
hochwertige Rückwandlung
in Sprachsignale unzuverlässig
sind.
-
Ein weiterer Vorteil, der aus der
Verwendung von Codierungsparametern als Grundlage für ASR-Merkmalsentnahme
stammt, besteht darin, daß das
umgewandelte Sprachsignal normalerweise ein synthetisiertes Sprachsignal
ist. So weist das umgewandelte Sprachsignal eine starke Abhängigkeit
von dem im Sprachcodierer benutzten Codierungsschema auf. Insbesondere
unterscheidet sich die synthetisierte Sprache vom Sprachcodierer
gewöhnlich
sehr von der menschlichen Sprache, die zur Herstellung des Spracherkennungsmodells
benutzt wird; typischerweise sind viele Eigenschaften der Sprache
eines Sprechers verändert
oder im Synthesevorgang verlorengegangen.
-
Aus dem obigen sollte klar sein,
daß die
Auslegung und Funktionsweise einer direkt auf digital übertragenen
Codiererparametern basierenden ASR-Merkmalsentnahmevorrichtung wesentliche
Vorteile in beispielhaften Ausführungsformen
der vorliegenden Erfindung bietet. Dementsprechend wird durch gegenwärtige beispielhafte
erfindungsgemäße Konstruktionen
eine Menge von Parametern vorteilhafterweise aus gegenwärtigen Sprachcodiererparametern
identifiziert und ausgewählt,
aus denen zuverlässige
ASR-Merkmalsvektoren abgeleitet werden können. Es wird nunmehr eine
Konstruktion einer beispielhaften Merkmalsentnahmevorrichtung beschrieben.
-
Typischerweise in drahtlosen Umgebungen
benutzte Sprachcodierer unterscheiden sich in vieler Hinsicht von
einem System zum anderem. Man siehe beispielsweise R. Steele, „Speech
codecs for Personal Communications" (Sprach-Codecs für persönliche Kommunikation), IEEE
Communications Magazine, November 1994, Seiten 76–83. Trotzdem
benutzen viele der am weitesten verbreiteten Codierer Verfahren
der Analyse durch Synthese, die beispielsweise in J. Flanagan „Speech
Analysis, Synthesis and Reproduction" (Sprachanalyse, Synthese und -wiedergabe)
Springer-Verlag, beschrieben sind. Darüber hinaus benutzen diese Codierer
typischerweise Analyse mit linearer Prädiktionscodierung (LPC – Linear
Predicative Coding) zur Kennzeichnung der Spektralform von ausschnittsweise
dargestellten Sprachrahmen. Zu Beispielen dieser LPC-basierten Codierer
gehören
verschiedene Varianten der wohlbekannten CELP-Verfahren.
-
Trotz einiger allgemeiner Ähnlichkeiten
gewöhnlich
benutzter Codierer gibt es oft bedeutsame Unterschiede bei Codierern
für verschiedene
drahtlose Anwendungen. Beispielsweise ändert sich die Ordnung des Analysefilters
A(z) und der parametrischen Darstellungen für Sprachsignale typischerweise
von Codierer zu Codierer. Insbesondere sind derartige Analysefilter
typischerweise durch verschiedene Mengen von Parametern einschließlich von
Reflexionskoeffizienten, Koeffizienten des Verhältnisses von Logarithmus zu
Bereich, Spektrallinienpaaren (LSPs Line Spectral Pairs) und Spektrallinienfrequenzen
(LSFs Line Spectrum Frequencies) unter anderem gekennzeichnet. Obwohl
kein Sprachcodierer Autokorrelationskoeffizienten direkt überträgt (da sie
sehr empfindlich für
Fehler sind), können
alle parametrischen Darstellungen von durch gegenwärtige Sprachcodierer
in einer drahtlosen Umgebung benutzten Analysefiltern durch wohlbekannte
Transformationen in Autokorrelationskoeffizienten umgewandelt werden.
Man siehe beispielsweise K. Feher, Herausgeber „Advanced Digital Communication" (Fortgeschrittene
digitale Kommunikation), Prentice-Hall. Umwandlung von auf Analysefilter
A(z) bezogenen Codiererparametern in ihre Autokorrelationskoeffizienten
wird vorteilhafterweise in beispielhaften Ausführungsformen der vorgeschlagenen
Erfindung eingesetzt.
-
Autokorrelationskoeffizienten führen herausragende
Informationen, aus denen die am weitesten benutzten ASR-Merkmalsparameter,
LPC-Cepstrum-Koeffizienten abgeleitet werden können. Man siehe beispielsweise
L. Rabiner und B.-H. Juang Fundamentals of Speech Recognition (Grundlagen
der Spracherkennung), Prentice-Hall,
1993. Darüber
hinaus ist die Ordnung der LPC-Analyse
bei Sprachcodierern oft höher
als die Ordnung der für
typische ASR-Anwendungen benötigten
LPC-Analyse. Der
Grund dafür
ist, daß bei
der Sprachcodierung die Form der spektralen Hüllkurve genau verfolgt werden
muß, um
die Sprachwellenform genau wiederzugeben. Demgegenüber haben
die kleineren Einzelheiten der spektralen Hüllkurve geringen Wert bei der
ASR. Da die Autokorrelationskoeffizienten niederer Ordnung stets
Teil der Autokorrelationskoeffizienten sind, die aus der LPC-Analysecharakteristik
höherer
Ordnung drahtloser Codierer erhalten werden, können sie stets aus den Sprachcodiererparametern
entnommen werden.
-
Die 3 zeigt
in einer beispielhaften ASR-Merkmalsentnahmevorrichtung
(wie beispielsweise 235 in der 1) entsprechend der vorliegenden Erfindung
durchgeführte
Operationen. Nach der Darstellung in 3 werden
die Codiererparameter aus der Übertragung
von Handapparat zur Basisstation entnommen und als Eingabe
300 in
der 3 angelegt. Diese
empfangenen Sprachcodiererparameter werden typischerweise in Mengen
für zusammenhängende Sprachzeiträume von
jeweils 10– 20
msek Dauer bereitgestellt. Diese empfangenen Mengen von Codiererparametern
werden zuerst verarbeitet, um die auf das Analysefilter bezogenen
Parameter aus der größeren Menge
empfangener Parameterwerte abzurufen.
-
Die ausgewählte Codiererparametermenge
wird weiterhin im Schritt 310 mittels einer entsprechenden in
der Merkmalsentnahmevorrichtung implementierten Transformation in
Autokorrelationskoeffizienten umgewandelt. Ein bestimmtes Beispiel
wird unten für
den beispielhaften Fall des drahtlosen CDMA-Standards IS-124 gegeben. Nach
Transformation in Autokorrelationskoeffizienten {rl(t)|l
= 0, 1, ..., K} wird eine Reduktion der Ordnungen an den Autokorrelationskoeffizienten
durchgeführt
und die Autokorrelationskoeffizienten {rl(t)|l =
0, 1, ..., 10} niedrigerer Ordnung werden im Schritt 320 für den Zweck
der Erzeugung von ASR-Merkmalsvektoren entnommen.
-
Die Autokorrelationskoeffizienten
rl(t) niederer Ordnung werden dann im Schritt 330 in
der 3 verarbeitet, um
sie in Koeffizienten der linearen Prädiktionscodierung a(t) = {al(t)|l
= 0, 1, ..., 10} umzuwandeln. In vielen Fällen erweist es sich als zweckdienlich,
diese letztere Umwandlung unter Verwendung des wohlbekannten Levison-Durbin-Rekursionsalgorithmus
durchzuführen,
der beispielsweise bei L. Rabiner und B-H Juang, Fundamentals of
Speech Recognition (Grundlagen der Spracherkennung), Prentice-Hall 1993 beschrieben
ist. Die vom Schritt 330 ausgegebenen LPC-Koeffizienten a(t) werden dann im Schritt 340 in LPC-Cepstrum-Koeffizienten c(t) = (c1(t),
c2(t), ..., c12(t)
umgewandelt. Diese LPC-Cepstrum-Koeffizienten
bieten vorteilhafterweise die Grundlage von ASR-Merkmalsvektoren,
wie in der Technik wohlbekannt ist. Beim typischen Betrieb werden
die LPC- Cepstrum-Koeffizienten
dann im Schritt 350 in der 3 durch
Gewichte wc(m) gewichtet und dazu benutzt, c zu bilden, eine beispielhafte
ASR-Merkmalsmenge, mit 39 Parametern {ĉ = <c, Δc, ΔΔc, Δe, ΔΔe, e>}, wobei Δ und ΔΔ Differenzoperatoren
erster und zweiter Ordnung sind und e die normierte Energie ist,
die aus r0(t), dem Autokorrelationskoeffizienten
der 0-ten Ordnung, erzeugt wird.
-
4 zeigt
ein typisches Spracherkennungssystem (240 in der 2), das den Ausgangsmerkmalsvektor ĉ aus einer
Merkmalsentnahmeeinheit (z. B. 235 in 2, 3)
am Eingang 400 empfängt.
Das beispielhafte ASR-System
der 4 benutzt durch 455 in
der 4 dargestellte Teilwortmodelle
zur Verwendung in Verbindung mit im Lexikonspeicher 457 gespeicherten
Lexikoninformationen. Die Teilwortmodelle basieren auf lautähnlichen
Einheiten und werden typischerweise unter Verwendung von von Sprechern
eingesammelten Trainingdaten aufgebaut. Die Teilwortmodelle werden
aneinander gereiht, um Modelle für
Worte in einem Lexikon zu bilden, das von einem Wörterbuch
oder einer sonstigen bekannten Quelle bereitgestellt wird. Wenn Teilworteinheiten
entsprechend einer vollständigen
Menge von Phonemen in Englisch ausgewählt werden, kann die Teilwortmodellmenge
beliebig gegebene Worte in Englisch modellieren. Die Kombination
dieser Modellierungsquellen ist in 4 durch
den Wortmodellzusammensetzungsblock 450 dargestellt. Die
durch den Zusammensetzungsblock 450 bereitgestellten Wortmodelle
werden dann entsprechend wohlbekannter HMM-Verfahren (Hidden Markov
Model) verarbeitet, die beispielsweise in der obenaufgeführten Literaturstelle Rabiner
und Juang beschrieben werden. Das in 4 gezeigte
Grammatik-Sprachmodell 460 und Semantikmodell 465 können zur
Einschränkung
der in dieser HMM-Verarbeitung durchgeführten Durchsuchungen benutzt
werden. Typischerweise wird die beste Wortfolge im System der 4 durch Verwendung eines
Viterbi-Decodierungs prozesses erhalten, der auf allen Wissensquellen
basiert, während
ASR-Sprachmerkmalvektorfolgen aus der ASR-Merkmalsvektorentnahmevorrichtung 235 in
der 2 benutzt werden.
-
Beispiel der
Umwandlung von Sprachcodiererparametern in Korrelationskoeffizienten
-
In diesem Abschnitt wird ein beispielhafter
Vorgang mit Pseudocodeauflistungen für die Umwandlung von an einer
Merkmalsentnahmevorrichtung (wie 235 in der 2) empfangenen Sprachcodiererparametern in
Korrelationskoeffizienten dargestellt, die beim Aufbauen der Merkmalsvektoren
zur Eingabe in ein ASR-System (wie beispielsweise 240 in
der 2 und in der 4) nützlich sind.
-
Wie oben bemerkt arbeiten für die Verwendung
in digitalen drahtlosen Telekommunikationssystemen standardisierte
Sprachcodieralgorithmen an digital abgetasteten Tonwellenformen.
Die abgetasteten Wellenformen werden in diskreten Zeitabständen (Rahmen)
verarbeitet und der Sprachcodierer am Senderende der Kommunikationsstrecke
benutzt eine Anzahl von Operationen zur Bestimmung der Werte für eine Menge
von Parametern, die die Tonwellenform in dem verarbeiteten Rahmen
am besten beschreiben würde.
Diese Parameter werden codiert, oft in der Form eines Indexes zu
einer Tabelle oder einem Codebuch, und über die Luftschnittstelle zum
Empfänger übertragen.
Der Sprachdecodierer am Empfänger
besitzt dieselben Codebücher wie
der Codierer am Sender und führt
eine Reihe von Operationen unter Verwendung der codierten Parameter durch,
um eine Annäherung
an die ursprüngliche
Wellenform zu erzeugen, die dem Codierer am Sender dargeboten wurde.
-
Viele der gegenwärtig zur Verwendung in digitalen
drahtlosen Kommunikationssystemen standardisierten Sprachcodierer
basieren auf dem CELP-Modell (Code Excited Linear Prediction). Unter
den durch diese Codierer übertragenen
Parametern befindet sich eine Menge von Werten, die die spektrale
Hüllkurve
der Tonwellenform in dem verarbeiteten Rahmen beschreibt. Diese
Parameter können
auf eine Anzahl verschiedener Weisen dargestellt werden, einschließlich von
(aber nicht beschränkt
auf) LPC (Linear Predictor Coefficient), Reflexionskoeffizienten,
Spektrallinienpaare (LSP) und Spektrallinienfrequenzen (LSF). Diese
Parameter können
zur Erzeugung von Korrelationskoeffizienten zur Verwendung als Eingabe
in ein automatisches Spracherkennungssystem (ASR) benutzt werden.
Das folgende Beispiel zeigt, wie diese Transformation für den EVRC
(Enhanced Variable Rate Coder – Codierer
mit erweiterter veränderlicher
Rate) erreicht werden kann, der in Nordamerika als IS-127 von der
Telecommunications Industry Association (TIA) veröffentlicht
und gegenwärtig
zur Verwendung mit IS-95x-konformen
CDMA-Kommunikationssystemen (Code Division Multiple Access) standardisiert
ist. Die beschriebenen Verfahren sind gleicherweise auf einen beliebigen
Sprachcodierungsalgorithmus anwendbar, der auf dem CELP-Modell oder
einer beliebigen Form linearer Prädiktionscodierung (LPC) basiert.
-
In dem bestimmten Fall eines Codierers
mit erweiterter veränderlicher
Rate nach IS-127 arbeitet der Codierungsalgorithmus an digital abgetasteten
Tonwellenformen in 20-msek-Zeitabständen (Rahmen), zur Erzeugung
und Übertragung
einer Menge von Parametern, die die Wellenform für den verarbeiteten Rahmen
beschreibt. Die übertragenen
Parameter enthalten Codes, die die Werte der LSP für den Rahmen
darstellen. Die LSP-Codes umfassen eine Menge von drei Codebuchindizes,
die jeweils eine bestimmte Menge von LSP-Werten kennzeichnen, die
in einem der drei LSP-Codebüchern
enthalten sind, die sowohl vom Sprachcodierer als auch Sprachdecodierer
unterhalten werden. Diese LSP-Codes werden in einen Vektor von zehn
LSP umgesetzt, die dann zur Verwendung im Synthesefilter des Decodierers
in LPC umgewandelt werden. Beginnend mit den LPC kann der Vorgang
der Erzeugung von Korellationskoeffizienten auf verschiedene Weisen
ausgeführt
werden. Eine Weise besteht darin, die LPC zuerst in Reflexionskoeffizienten
(RC) umzuwandeln und dann die RC in Autokorrelationskoeffizienten
(CC) umzuwandeln.
-
5 ist
ein Blockschaltbild von in diesem beispielhaften Vorgang durchgeführten Funktionen.
So werden bei 501 Eingangs-LPC empfangen und an den Funktionsblock
LPC-zu-RC 510 angelegt. Die Eingangs-LPC werden auch an
den Funktionsblock RC-zu-CC über
den Weg 515 angelegt. Die letztere Eingabe und die Ausgabe
des Blocks 510 werden in Block 520 zur Erzeugung
der gewünschten
Korrelationskoeffizienten auf dem Ausgangsweg 530 benutzt.
-
Einzelheiten der Transformation LPC-zu-RC
sind im nachfolgenden Pseudocode-Segment dargestellt.
-
-
-
Man beachte, daß die Konstante LPC_ORDER für den Sprachcodierer
nach IS-127 nominell gleich 10 ist, obwohl andere bestimmte Werte
den Umständen
entsprechend benutzt werden können.
Auch ist tmp eine zeitweilige Variable und tmp ist ein zeitweiliges
Feld der Dimension LPC_ORDER. Das Feld lpc der Dimension LPC_ORDER
ist eine Eingabe in diese Transformation und enthält die durch
den Sprachdecodierer nach IS-127 berechneten LPC. Das Feld rc der
Dimension LPC_ORDER ist die Ausgabe der Transformation und enthält die RC.
-
Die Umwandlung von RC in CC ist in
dem nachfolgenden Pseudocode-Segment dargestellt:
-
-
-
In diesem Beispiel ist LPC_ORDER
eine Konstante, deren Wert wiederum für IS-127 nominell gleich 10
ist, tmp ist eine zeitweilige Variable, dummy ist ein zeitweiliges
Feld der Dimension LPC_ORDER + 1. Die Eingaben in die Transformation
sind die Felder lpc und rc, beide mit der Dimension LPC_ORDER +
1, die die LPC bzw. RC enthalten. Die Ausgabe der Transformation
ist das Feld cc, ebenfalls mit der Dimension LPC_ORDER + 1, das
die durch das ASR-System zu benutzenden Korrelationskoeffizienten
enthält.
-
Man beachte, daß die LPC intern durch den
Decodierer nach IS-127 erzeugt werden; die Operationen zur Berechnung
und Ausgabe der obenbesprochenen CC werden vorteilhafterweise an
der Stelle unmittelbar nach der LPC-Berechnung in den Decodierer
eingefügt.
-
Obwohl bei den obenbeschriebenen
Ausführungsformen
die Betonung auf gewöhnlich
heute benutzten CELP-basierten Codierern lag, ist für die vorliegende
Erfindung keine derartige Begrenzung erforderlich. Durch eine Vielzahl
von Codierungsverfahren werden vorteilhafterweise fehlergeschützte (und
auch sonst hochzuverlässige)
empfangene Sprachcodierungsparameter bereitgestellt, aus denen nützliche
ASR-Merkmalsvektoren nach der Lehre der vorliegenden Offenbarung
abgeleitet werden können.
-
Während
das in 4 dargestellte
beispielhafte ASR-System
besondere Modellierungs- und Verarbeitungsschritte und -funktionen
benutzt, sind keine von diesen von wesentlicher Bedeutung für die weiteren Aspekte
der vorliegenden Erfindung. Vom Fachmann werden andere bestimmte
Spracherkennungsvorrichtungen angewandt werden und entsprechende
Merkmalsinformationen werden auf die obenbeschriebene Weise aus
empfangenen Signalen abgeleitet werden und in Abänderungen und Erweiterungen
davon, was alles angesichts der vorliegenden Erfindung dem Fachmann
offenbar sein wird.
-
Während
weiterhin die Betonung auf Verarbeitung von automatischer Spracherkennung
(ASR) lag, wird der Fachmann erkennen, daß Sprechererkennung und Authentifizierung
ebenfalls unter Verwendung der hier beschriebenen erfindungsgemäßen Grundsätze vorteilhafterweise
durchgeführt
werden können.
Nützliche
Anpassungen und Abänderungen
der vorliegenden Lehren für
Ausführungsformen
mit diesen zusätzlichen oder
alternativen Funktionen sind in der Technik wohlbekannt. So werden
beispielsweise für
die Authentifizierung bestimmter Sprecher Informationen über die
Spracheigenschaften dieser Sprecher gespeichert oder sonstwie zur
Verwendung in den eingesetzten Sprachmodellen zur Verfügung gestellt.
-
Die Merkmalsableitungs- und/oder
ASR-Einheiten können
sich an der empfangenden Basisstation, der mit der Basisstation
verbundenen Vermittlung (oder einer sonstigen über diese erste Vermittlung
angeschlossenen Netzvermittlung) oder einer anderen Stelle befinden,
die an dem Netz (den Netzen) angeschlossen ist, mit dem (denen)
diese Elemente verbunden sind. Die digitalen codierten Handapparatsignale
können an
jede zweckdienliche Stelle zwecks Merkmalsableitungs- und ASR-Operationen übermittelt
werden. In manchen Fällen
wird es nützlich
sein, daß die
Merkmalsableitungs- und ASR-Operationen an unterschiedlichen Stellen
durchgeführt
werden.