DE69911723T2

DE69911723T2 - Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle

Info

Publication number: DE69911723T2
Application number: DE69911723T
Authority: DE
Inventors: Wu Berkeley Heights Chou; Michael Charles Nutley Recchione; Qiru Scotch Plains Zhou
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1998-11-30
Filing date: 1999-11-23
Publication date: 2004-08-12
Anticipated expiration: 2019-11-24
Also published as: JP2000187496A; US6336090B1; AU5958599A; DE69911723D1; EP1006509B1; JP2006099124A; KR100594670B1; KR20000062175A; CA2287025A1; EP1006509A1

Description

Erfindungsgebiet
Die vorliegende Erfindung betrifft automatische Sprach-/Sprechererkennung (ASR – Automatic Speech/Speaker Recognition) und insbesondere ASR über drahtlose Kommunikationskanäle.
Stand der Technik
Die automatische Sprach-/Sprechererkennung (ASR – Automatic Speech/Speaker Recognition) hat sich immer mehr durchgesetzt, mit Verbesserungen bei der Technik, der Modellierung und Erkennungsalgorithmen. Zu vielen wichtigen Anwendungen der ASR-Technologie gehören diejenigen auf dem Gebiet des Fernsprechwesens und anderer Kommunikationstechniken. Beispielsweise hat sich die Verwendung von ASR als wertvoll bei der Bereitstellung von Auskunftsdienst, automatischem Anrufen und sonstigen Sprachtelefonieanwendungen über Drahtverbindungen erwiesen. Auf einem parallelen Entwicklungsgebiet hat sich die Verwendung von zellularen Systemen, persönlichen Kommunikationssystemen (PCS) und sonstigen drahtlosen Systemen (in der Folge zusammen als „drahtlose" bezeichnet) weiter vermehrt. Es ist daher naturgemäß, in drahtgebundenen Systemen erreichte Verbesserungen bei der ASR auch auf drahtlose Systeme anwenden zu wollen.
ASR über drahtlose Kanäle ist aufgrund des zusätzlichen Rauschens und der zusätzlichen Verzerrung, die während der Codierungs-, Übertragungs- (z. B. aufgrund von Schwund oder Paketverlusten) und Decodierungsstufen in Sprachsignale eingeführt werden, problematisch. In drahtlosen Umgebungen vorhandene, durch Rauschen verschlechterte Sprachsignale unterscheiden sich oft wesentlich von dem ursprünglichen Sprachsignal, was zur Verminderung von ASR-Leistungen führt, wenn standardmäßige ASR-Verfahren angewandt werden. Mit Versuchen zur Erstellung von fortschrittlichen auf ASR basierenden Diensten wie beispielsweise intelligenten Agentendiensten oder Spracherkennungsdiensten mit großem Vokabular über digitale drahtlose Kanäle hat sich dieses Problem zugespitzt. Vorherige Ansätze konzentrierten sich hauptsächlich auf Rauschverringerungsverfahren, aber die Ergebnisse liegen weit vom Ideal und weisen aufgrund der vielen Unterschiede in drahtlosen Umgebungen (z. B. TDMA, CDMA, GSM, usw.) begrenzte Anwendbarkeit auf.
Bei neueren Untersuchungen hat sich herausgestellt, daß, wenn die Merkmalsvektoren für ASR-Zwecke am Handapparat abgeleitet und digital über einen sekundären Digitalkanal übertragen werden können, beinahe keine Leistungsminderung der ASR-Leistung in der drahtlosen Umgebung im Vergleich mit dem drahtgebundenen Telefonnetz vorkommt. In der 1 ist ein typisches Doppelkanalsystem des Stands der Technik dargestellt.
Hier wird ein zellularer Handapparat 101 von einem Mobilteilnehmer zur Codierung von normaler Sprache und Übertragung des codierten Signals mit entsprechenden Codiererparametern über den primären (Sprach-) Kanal 105 zur zellularen Basisstation 120 benutzt. Die Basisstation 120 decodiert dann das empfangene codierte Signal, um eine Sprachausgabe zu erzeugen, die für die Kommunikation über das öffentliche Wählnetz (PSTN) oder sonstiges Sprachkommunikationsnetz, das durch die öffentliche Vermittlung 130 dargestellt wird, und ihre Ausgabe an ein Netz geeignet ist. In „The influence of speech coding algorithms on automatic speech recognition" (Der Einfluß von Sprachcodierungsalgorithmen auf automatische Spracherkennung) von Euler et al. in ICASSP '94 besteht eine Lösung darin, codeangepaßte Sprachmodelle zu benutzen. 1 zeigt auch die Erzeugung am zellularen Handapparat 101 einer zweiten Menge von Signalen entsprechend den durch eine ASR-Anwendung zu benutzenden ASR-Parametern. Diese zweite Menge von Signalen wird über einen zweiten Digitalkanal 110 zur zellularen Basisstation 120 übertragen, wo sie an das ASR-System 140 weitergeleitet werden.
Durch die experimentelle Verwendung von Systemen der in 1 gezeigten Art ist Interesse an der Erzeugung einer standardmäßigen ASR-Merkmalsmenge entstanden, die am Handapparat abgeleitet und über ein drahtloses Netz als ein Digitalsignal unter Verwendung einer sekundären digitalen Strecke gesendet werden kann. Da die Bitrate für die Übertragung von ASR-Merkmalsvektoren ganz niedrig sein kann (> 4Kb/s), ist es möglich, eine sekundäre digitale Strecke wie die für die Verwendung in neuen drahtlosen Standards, wie beispielsweise IS-134 vorgeschlagene zu verwenden. Obwohl diese Lösung mit sekundärem Kanal vielversprechend zu sein scheint, weist sie eine Anzahl ernsthafter Nachteile auf. Insbesondere erfordert dieser Ansatz:

1. Einen neuen Standard und wesentliche Veränderungen in Kommunikationsprotokollen. Selbst dann würden Unverträglichkeiten mit vielen gegenwärtigen drahtlosen Kommunikationsstandards Abänderungen an oder die Aufgabe von existierenden Standard-konformen Netzgeräten erfordern.
2. Zusätzliche Bandbreite zur Übertragung von ASR-Merkmalsvektoren vom Handapparat zur Basisstation. Synchronisieren des primären Digitalkanals für die Übertragung von Sprache und des sekundären Digitalkanals für die Übertragung der abgeleiteten ASR-Merkmalsvektoren kann ebenfalls ein ernsthaftes Problem darstellen.
3. Wesentliche Änderungen an gegenwärtigen Handapparaten.
4. Eine Vielzahl von Doppelkanal-Lösungen. Das heißt Abhängigkeit von bestimmten gegenwärtigen drahtlosen Standards oder Formaten (CDMA, TDMA, GSM, IS-94, IS-134 usw.) und zugehörigen Zeichengabe- und Modulationsanordnungen machen eine universelle Lösung für alle verfügbaren Standards undurchführbar.
5. Hohe Anfangsinvestitionen zur Einführung von auf diesem Verfahren basierenden Diensten.

Kurze Beschreibung der Erfindung
Die Beschränkungen des Standes der Technik werden bei Systemen entsprechend den Ansprüchen 15 und 16 und einem Verfahren entsprechend dem Anspruch 1 zur wirksamen und wirtschaftlichen Ermöglichung von ASR-Fähigkeiten in drahtlosen Zusammenhängen wie unten in Verbindung mit beispielhaften Ausführungsformen beschrieben, überwunden und ein technischer Fortschritt wird erreicht.
So werden zuverlässige ASR-Merkmalsvektorfolgen an einer Basisstation (oder sonstigen Netz- oder Systemeinheit) direkt aus den digital übertragenen Sprachcodiererparametern abgeleitet. Bei vielen Anwendungen werden die ASR-Funktionen in einer öffentlichen Vermittlung oder sonstwo in einem Netz durchgeführt. Bei diesem Ansatz bearbeitet eine neuartige ASR-Merkmalsentnahmevorrichtung die empfangenen Sprachcodiererparameter vom Handapparat, ohne daß zusätzliche Verarbeitung oder Signalmodifikation am Handapparat erforderlich ist. So werden an einer Basisstation empfangene Sprachcodiererparameter nicht nur für die Wiedergabe des Sprachsignals wie gegenwärtig, sondern auch zur Erzeugung der Merkmalsvektorfolge für ASR-Anwendungen benutzt.
Eine beispielhafte ASR-Merkmalsvektorentnahmevorrichtung an der Basisstation vermeidet dadurch, daß sie digital übertragene Sprachcodiererparameter vor der Rückwandlung dieser Codiererparameter in ein Sprachsignal bearbeitet, den verlustbehafteten Umwandlungsvorgang und die zugehörige Sprachverzerrung. Bei der Verwendung von Ausführungsformen der vorliegenden Erfindung besteht kein Erfordernis, drahtlose Handapparate abzuändern, da die ASR-Merkmalsvektoren von derselben Menge von Sprachcodiererparametern abgeleitet werden, die normalerweise am Handapparat entnommen werden. Bestehende Handapparate stellen daher eine Vorstufe für die ASR-Merkmalsvektorentnahmevorrichtung an der Basisstation bereit.
Weiterhin ist die Verbindung vom Handapparat zur Basisstation in digitalen drahtlosen Umgebungen voll digital und enthält Fehlerschutz für zu einer Basisstation übermittelte Datensignale. Die Übertragung vom Handapparat zur gegenwärtigen erfindungsgemäßen Merkmalsentnahmevorrichtung an einer Basisstation oder einer sonstigen Stelle weist daher dieselbe digitale Übertragungsgüte wie bei Anordnungen mit sekundärem Kanal auf.
Obwohl Sprachcodiererparameter sich sehr von den für ASR-Zwecke benötigten Merkmalsvektoren unterscheiden, stellt die vorliegende Erfindung beispielhafte Verfahren zur Realisierung einer Sprachmerkmalsentnahmevorrichtung auf Grundlage normaler Sprachcodiererparameter bereit.
Insgesamt bietet die vorliegende Erfindung Systeme und Verfahren für verbesserte ASR ohne Bedarf an einem sekundären Kanal und ohne wesentliche Änderungen an gegenwärtigen drahtlosen Standards. Änderungen, Erweiterungen und betriebliche Unterschiede an Basisstationen sind ebenfalls minimal. Vorteilhafterweise wird der Digitalkanal für ASR- Anwendungen (über Abänderungen an der Software) als zweites Ziel für eine Sprachverbindung erstellt.
Bei alternativen Ausführungsformen wird die ASR-Merkmalsentnahme und die ASR-Funktionen an einer Vermittlung durchgeführt, die (direkt oder über Netzverbindungen) mit der Empfangs-Basisstation verbunden ist. In weiteren Ausführungsformen werden die an einer Basisstation vom übertragenden Handapparat empfangenen codierten Sprachsignale (mit oder ohne decodierte Sprachsignale) zu einer Netzstelle mit einem Endgerät oder Speichersystem weitergeleitet.
Kurze Beschreibung der Zeichnung
1 zeigt ein System des Stands der Technik mit einem sekundären Digitalkanal zur Übertragung von ASR-Parametern zu einer Basisstation zur nachfolgenden Verwendung durch ein ASR-System.
2 zeigt eine Darstellung des gesamten Systems einer beispielhaften Ausführungsform der vorliegenden Erfindung mit einzelnem Kanal.
3 zeigt beispielhafte Verarbeitungsschritte, die bei der Umwandlung von an einer Basisstation empfangenen codierten Sprachsignalen in ASR-Merkmalsparameter nützlich sind.
4 zeigt ein beispielhaftes ASR-System, das ASR-Merkmalsparameter der in 4 dargestellten beispielhaften Verarbeitung bearbeitet.
5 ist ein Blockschaltbild, das zum Verständnis der Umwandlung von LPC-Werten in Korrelationskoeffizienten nach einem Aspekt des beispielhaften Vorgangs der 3 nützlich ist.
Ausführliche Beschreibung
2 zeigt eine beispielhafte Ausführungsform des Systems der vorliegenden Erfindung. In der 2 ist ein Handapparat 201 dargestellt, der Sprachcodiererparameter zur Übertragung an die drahtlose Basisstation 220 als Reaktion auf gesprochene Benutzereingaben erzeugt. Die auf dem Übertragungskanal 205 gesendeten codierten Sprachsignale sind in jeder Hinsicht (für dieselbe gesprochene Eingabe) mit codierten Sprachsignalen identisch, die für Sprachkommunikationen bei normalem (nicht-ASR-)Gebrauch des drahtlosen Systems der 2 benutzt werden. Zusätzlich sind diese codierten Sprachsignale derselben Art wie die auf dem Sprachkanal 105 im System der 1 übertragenen. Es ist kein sekundärer Digitalkanal wie im System der 1 dazu erforderlich, eine Menge von ASR-bezogenen Parametern zu führen. Stattdessen werden die empfangenen codierten Sprachsignale an der drahtlosen Basisstation 220 einerseits auf dem Weg 222 zur Abgabe an die öffentliche Vermittlung 230, wie bei der normalen Leistung des drahtlosen Systems (und im System der 1) bereitgestellt. Normalerweise wird die Decodierung der am Handapparat codierten Sprachsignale an einer Vermittlung wie beispielsweise der öffentlichen Vermittlung 230 durchgeführt, jedoch kann diese Decodierung in Sprachsignale an der Basisstation 120 oder über die Vermittlung 230 und den Weg 231 sonstwo im PSTN- (oder sonstigen) Netz stattfinden.
Zusätzlich werden die an der drahtlosen Basisstation 220 empfangenen codierten Sprachsignale für das ASR-Merkmalsentnahmesystem 235 und das ASR-System 240 bereitgestellt, die sich beispielhafterweise an der Basisstation 220 befinden. Dort werden die gleichen codierten Darstellungen, die zur Erzeugung von Sprachsignalen decodiert werden, stattdessen zur Entnahme von ASR-Merkmalsparametern in der ASR- Merkmalsentnahmeeinheit 235 zur Verwendung durch ASR-Systeme wie beispielsweise 240 benutzt. Die vom Handapparat 205 empfangenen Sprachcodiererparameter werden auch beispielhafterweise auf der Leitung 225 für die öffentliche Vermittlung 230 bereitgestellt, wo sie als Alternative (oder zusätzlich) zur Abgabe als Digitalsignale an die Merkmalsentnahme- und ASR-Einheiten an der Vermittlung 230 oder sonstwo in einem Netz zur Verfügung stehen. Die Verbindung von der Basisstation 220 zum ASR-Merkmalsentnahmesystem 235 und von dort zum ASR-System 240 ist für einige Anwendungen vorteilhafterweise als getrennte Vermittlungsverbindung angeordnet, wie beispielsweise zur Verbindung des normalen Sprachweges mit der öffentlichen Vermittlung 230 benutzt wird. In anderen Anwendungen erweist es sich als zweckdienlich, daß die codierten Parameter denselben Weg zu einer Vermittlung 230 gesendet werden, wo Merkmalsentnahme (und ASR) zusätzlich zur Sprachdecodierung durchgeführt werden.
So stellt die Basisstation 220 in einer typischen Anwendung der vorliegenden erfindungsgemäßen Grundsätze die codierten Sprachparameter direkt für die ASR-Merkmalsentnahmeeinheit 235 und das ASR-System 240 bereit. Als Alternative kann der Weg zur ASR-Merkmalsentnahmevorrichtung 235 und/oder dem ASR-System 240 an der Vermittlung 230 oder einer sonstigen zentralisierten Einrichtung zur Anwendung der erkannten Sprache unterhalten werden. Beispielsweise kann die erkannte Sprache zur Authentifizierung des Sprechers oder als Befehls- oder sonstige Eingabe in ein auf Text reagierendes System benutzt werden. Eine Anwendung einer solchen erkannten Sprache ist die Übertragung einer Textversion der Sprache an ein darauf reagierendes System, z. B. für Sprecher-Maschinendialog, obwohl zahlreiche und verschiedenartige andere Anwendungen von Spracherkennung in der Technik bekannt sind. Die Art und Weise der Umwandlung von standardmäßigen sprachcodierten Signalen zur Erzeugung von ASR-Merkmalsparametern wird ausführlicher unten beschrieben.
Eine nützliche Eigenschaft von digitalen drahtlosen Umgebungen besteht darin, daß die Sprache eines Benutzers nach Umwandlung in eine Folge von digitalen Codiererparametern am Handapparat vorteilhafterweise durch Kanalcodierungsverfahren während der Übertragung über das drahtlose Medium fehlergeschützt ist. Diese Kanalcodierung wird typischerweise ungleich an unterschiedliche Teile der Übertragung angelegt. Das heißt, es ist bräuchlich, daß die wichtigsten Codiererparameter mit vollständigerem Schutz übertragen werden, während unwichtigere Parameter nicht so voll geschützt werden. Zu diesen wichtigsten Parametern gehören die, die auf Signalsynchronisierung und die Spektralform der Sprachsignale bezogen sind.
Obwohl Kanalschwund und -störung den Verlust gewisser Codiererparameter verursachen kann und das wiedergegebene Sprachsignal verzerren kann, trifft es dann gewöhnlich zu, daß die wichtigsten Codiererparameter aufgrund dieses ihnen bei der Kanalcodierung gewährten zusätzlichen Fehlerschutzes erhalten bleiben. So werden entsprechend der vorliegenden Erfindung ASR-Merkmalsvektorsignale vorteilhafterweise aus diesen besser geschützten Sprachcodiererparametern entnommen. Informationen für die ASR-Merkmalsentnahme werden daher digital und mit hoher Zuverlässigkeit unter Verwendung von nur der normalerweise zum Schützen ursprünglicher Sprachcodiererparameter benutzten Kanalcodierungsanordnung empfangen.
Entsprechend der vorliegenden Erfindung wird ASR-Merkmalsentnahme vorteilhafterweise aus den Sprachcodiererparametern bewirkt, ehe sie in Sprachsignale zurückgewandelt werden. Ein Grund dafür besteht darin, daß das umgewandelte Sprachsignal im Decodierungsvorgang verzerrt wird. Selbst ohne Kanaleffekte beträgt das Verhältnis Signalsegment zu Quantisierungsrauschen (SSNR – Segmental Signal to Quantization Noise Ratio) der decodierten Sprache oft nur annähernd 20 dB in typischen drahtlosen Umgebungen. Man siehe beispielsweise B. S. Atal, V. Cuperman und A. Gersho „Advances in Speech Coding" (Fortschritte bei der Sprachcodierung) Kluwer Academic Publisher. Dieser letztere Signalzustand entsteht, da bei der Suche danach, Bedingungen niedriger Bitrate zu entsprechen, viele Merkmale, z. B. Erregungssignale, nicht ausreichend codiert und dargestellt sind. Zusätzlich bewirken Kanalschwund und Störung, daß viele Sprachcodiererparameter für hochwertige Rückwandlung in Sprachsignale unzuverlässig sind.
Ein weiterer Vorteil, der aus der Verwendung von Codierungsparametern als Grundlage für ASR-Merkmalsentnahme stammt, besteht darin, daß das umgewandelte Sprachsignal normalerweise ein synthetisiertes Sprachsignal ist. So weist das umgewandelte Sprachsignal eine starke Abhängigkeit von dem im Sprachcodierer benutzten Codierungsschema auf. Insbesondere unterscheidet sich die synthetisierte Sprache vom Sprachcodierer gewöhnlich sehr von der menschlichen Sprache, die zur Herstellung des Spracherkennungsmodells benutzt wird; typischerweise sind viele Eigenschaften der Sprache eines Sprechers verändert oder im Synthesevorgang verlorengegangen.
Aus dem obigen sollte klar sein, daß die Auslegung und Funktionsweise einer direkt auf digital übertragenen Codiererparametern basierenden ASR-Merkmalsentnahmevorrichtung wesentliche Vorteile in beispielhaften Ausführungsformen der vorliegenden Erfindung bietet. Dementsprechend wird durch gegenwärtige beispielhafte erfindungsgemäße Konstruktionen eine Menge von Parametern vorteilhafterweise aus gegenwärtigen Sprachcodiererparametern identifiziert und ausgewählt, aus denen zuverlässige ASR-Merkmalsvektoren abgeleitet werden können. Es wird nunmehr eine Konstruktion einer beispielhaften Merkmalsentnahmevorrichtung beschrieben.
Typischerweise in drahtlosen Umgebungen benutzte Sprachcodierer unterscheiden sich in vieler Hinsicht von einem System zum anderem. Man siehe beispielsweise R. Steele, „Speech codecs for Personal Communications" (Sprach-Codecs für persönliche Kommunikation), IEEE Communications Magazine, November 1994, Seiten 76–83. Trotzdem benutzen viele der am weitesten verbreiteten Codierer Verfahren der Analyse durch Synthese, die beispielsweise in J. Flanagan „Speech Analysis, Synthesis and Reproduction" (Sprachanalyse, Synthese und -wiedergabe) Springer-Verlag, beschrieben sind. Darüber hinaus benutzen diese Codierer typischerweise Analyse mit linearer Prädiktionscodierung (LPC – Linear Predicative Coding) zur Kennzeichnung der Spektralform von ausschnittsweise dargestellten Sprachrahmen. Zu Beispielen dieser LPC-basierten Codierer gehören verschiedene Varianten der wohlbekannten CELP-Verfahren.
Trotz einiger allgemeiner Ähnlichkeiten gewöhnlich benutzter Codierer gibt es oft bedeutsame Unterschiede bei Codierern für verschiedene drahtlose Anwendungen. Beispielsweise ändert sich die Ordnung des Analysefilters A(z) und der parametrischen Darstellungen für Sprachsignale typischerweise von Codierer zu Codierer. Insbesondere sind derartige Analysefilter typischerweise durch verschiedene Mengen von Parametern einschließlich von Reflexionskoeffizienten, Koeffizienten des Verhältnisses von Logarithmus zu Bereich, Spektrallinienpaaren (LSPs Line Spectral Pairs) und Spektrallinienfrequenzen (LSFs Line Spectrum Frequencies) unter anderem gekennzeichnet. Obwohl kein Sprachcodierer Autokorrelationskoeffizienten direkt überträgt (da sie sehr empfindlich für Fehler sind), können alle parametrischen Darstellungen von durch gegenwärtige Sprachcodierer in einer drahtlosen Umgebung benutzten Analysefiltern durch wohlbekannte Transformationen in Autokorrelationskoeffizienten umgewandelt werden. Man siehe beispielsweise K. Feher, Herausgeber „Advanced Digital Communication" (Fortgeschrittene digitale Kommunikation), Prentice-Hall. Umwandlung von auf Analysefilter A(z) bezogenen Codiererparametern in ihre Autokorrelationskoeffizienten wird vorteilhafterweise in beispielhaften Ausführungsformen der vorgeschlagenen Erfindung eingesetzt.
Autokorrelationskoeffizienten führen herausragende Informationen, aus denen die am weitesten benutzten ASR-Merkmalsparameter, LPC-Cepstrum-Koeffizienten abgeleitet werden können. Man siehe beispielsweise L. Rabiner und B.-H. Juang Fundamentals of Speech Recognition (Grundlagen der Spracherkennung), Prentice-Hall, 1993. Darüber hinaus ist die Ordnung der LPC-Analyse bei Sprachcodierern oft höher als die Ordnung der für typische ASR-Anwendungen benötigten LPC-Analyse. Der Grund dafür ist, daß bei der Sprachcodierung die Form der spektralen Hüllkurve genau verfolgt werden muß, um die Sprachwellenform genau wiederzugeben. Demgegenüber haben die kleineren Einzelheiten der spektralen Hüllkurve geringen Wert bei der ASR. Da die Autokorrelationskoeffizienten niederer Ordnung stets Teil der Autokorrelationskoeffizienten sind, die aus der LPC-Analysecharakteristik höherer Ordnung drahtloser Codierer erhalten werden, können sie stets aus den Sprachcodiererparametern entnommen werden.
Die 3 zeigt in einer beispielhaften ASR-Merkmalsentnahmevorrichtung (wie beispielsweise 235 in der 1) entsprechend der vorliegenden Erfindung durchgeführte Operationen. Nach der Darstellung in 3 werden die Codiererparameter aus der Übertragung von Handapparat zur Basisstation entnommen und als Eingabe 300 in der 3 angelegt. Diese empfangenen Sprachcodiererparameter werden typischerweise in Mengen für zusammenhängende Sprachzeiträume von jeweils 10– 20 msek Dauer bereitgestellt. Diese empfangenen Mengen von Codiererparametern werden zuerst verarbeitet, um die auf das Analysefilter bezogenen Parameter aus der größeren Menge empfangener Parameterwerte abzurufen.
Die ausgewählte Codiererparametermenge wird weiterhin im Schritt 310 mittels einer entsprechenden in der Merkmalsentnahmevorrichtung implementierten Transformation in Autokorrelationskoeffizienten umgewandelt. Ein bestimmtes Beispiel wird unten für den beispielhaften Fall des drahtlosen CDMA-Standards IS-124 gegeben. Nach Transformation in Autokorrelationskoeffizienten {r_l(t)|l = 0, 1, ..., K} wird eine Reduktion der Ordnungen an den Autokorrelationskoeffizienten durchgeführt und die Autokorrelationskoeffizienten {r_l(t)|l = 0, 1, ..., 10} niedrigerer Ordnung werden im Schritt 320 für den Zweck der Erzeugung von ASR-Merkmalsvektoren entnommen.
Die Autokorrelationskoeffizienten r_l(t) niederer Ordnung werden dann im Schritt 330 in der 3 verarbeitet, um sie in Koeffizienten der linearen Prädiktionscodierung a(t) = {a_l(t)|l = 0, 1, ..., 10} umzuwandeln. In vielen Fällen erweist es sich als zweckdienlich, diese letztere Umwandlung unter Verwendung des wohlbekannten Levison-Durbin-Rekursionsalgorithmus durchzuführen, der beispielsweise bei L. Rabiner und B-H Juang, Fundamentals of Speech Recognition (Grundlagen der Spracherkennung), Prentice-Hall 1993 beschrieben ist. Die vom Schritt 330 ausgegebenen LPC-Koeffizienten a(t) werden dann im Schritt 340 in LPC-Cepstrum-Koeffizienten c(t) = (c₁(t), c₂(t), ..., c₁₂(t) umgewandelt. Diese LPC-Cepstrum-Koeffizienten bieten vorteilhafterweise die Grundlage von ASR-Merkmalsvektoren, wie in der Technik wohlbekannt ist. Beim typischen Betrieb werden die LPC- Cepstrum-Koeffizienten dann im Schritt 350 in der 3 durch Gewichte w_c(m) gewichtet und dazu benutzt, c zu bilden, eine beispielhafte ASR-Merkmalsmenge, mit 39 Parametern {ĉ = <c, Δc, ΔΔc, Δe, ΔΔe, e>}, wobei Δ und ΔΔ Differenzoperatoren erster und zweiter Ordnung sind und e die normierte Energie ist, die aus r₀(t), dem Autokorrelationskoeffizienten der 0-ten Ordnung, erzeugt wird.
4 zeigt ein typisches Spracherkennungssystem (240 in der 2), das den Ausgangsmerkmalsvektor ĉ aus einer Merkmalsentnahmeeinheit (z. B. 235 in 2, 3) am Eingang 400 empfängt. Das beispielhafte ASR-System der 4 benutzt durch 455 in der 4 dargestellte Teilwortmodelle zur Verwendung in Verbindung mit im Lexikonspeicher 457 gespeicherten Lexikoninformationen. Die Teilwortmodelle basieren auf lautähnlichen Einheiten und werden typischerweise unter Verwendung von von Sprechern eingesammelten Trainingdaten aufgebaut. Die Teilwortmodelle werden aneinander gereiht, um Modelle für Worte in einem Lexikon zu bilden, das von einem Wörterbuch oder einer sonstigen bekannten Quelle bereitgestellt wird. Wenn Teilworteinheiten entsprechend einer vollständigen Menge von Phonemen in Englisch ausgewählt werden, kann die Teilwortmodellmenge beliebig gegebene Worte in Englisch modellieren. Die Kombination dieser Modellierungsquellen ist in 4 durch den Wortmodellzusammensetzungsblock 450 dargestellt. Die durch den Zusammensetzungsblock 450 bereitgestellten Wortmodelle werden dann entsprechend wohlbekannter HMM-Verfahren (Hidden Markov Model) verarbeitet, die beispielsweise in der obenaufgeführten Literaturstelle Rabiner und Juang beschrieben werden. Das in 4 gezeigte Grammatik-Sprachmodell 460 und Semantikmodell 465 können zur Einschränkung der in dieser HMM-Verarbeitung durchgeführten Durchsuchungen benutzt werden. Typischerweise wird die beste Wortfolge im System der 4 durch Verwendung eines Viterbi-Decodierungs prozesses erhalten, der auf allen Wissensquellen basiert, während ASR-Sprachmerkmalvektorfolgen aus der ASR-Merkmalsvektorentnahmevorrichtung 235 in der 2 benutzt werden.
Beispiel der Umwandlung von Sprachcodiererparametern in Korrelationskoeffizienten
In diesem Abschnitt wird ein beispielhafter Vorgang mit Pseudocodeauflistungen für die Umwandlung von an einer Merkmalsentnahmevorrichtung (wie 235 in der 2) empfangenen Sprachcodiererparametern in Korrelationskoeffizienten dargestellt, die beim Aufbauen der Merkmalsvektoren zur Eingabe in ein ASR-System (wie beispielsweise 240 in der 2 und in der 4) nützlich sind.
Wie oben bemerkt arbeiten für die Verwendung in digitalen drahtlosen Telekommunikationssystemen standardisierte Sprachcodieralgorithmen an digital abgetasteten Tonwellenformen. Die abgetasteten Wellenformen werden in diskreten Zeitabständen (Rahmen) verarbeitet und der Sprachcodierer am Senderende der Kommunikationsstrecke benutzt eine Anzahl von Operationen zur Bestimmung der Werte für eine Menge von Parametern, die die Tonwellenform in dem verarbeiteten Rahmen am besten beschreiben würde. Diese Parameter werden codiert, oft in der Form eines Indexes zu einer Tabelle oder einem Codebuch, und über die Luftschnittstelle zum Empfänger übertragen. Der Sprachdecodierer am Empfänger besitzt dieselben Codebücher wie der Codierer am Sender und führt eine Reihe von Operationen unter Verwendung der codierten Parameter durch, um eine Annäherung an die ursprüngliche Wellenform zu erzeugen, die dem Codierer am Sender dargeboten wurde.
Viele der gegenwärtig zur Verwendung in digitalen drahtlosen Kommunikationssystemen standardisierten Sprachcodierer basieren auf dem CELP-Modell (Code Excited Linear Prediction). Unter den durch diese Codierer übertragenen Parametern befindet sich eine Menge von Werten, die die spektrale Hüllkurve der Tonwellenform in dem verarbeiteten Rahmen beschreibt. Diese Parameter können auf eine Anzahl verschiedener Weisen dargestellt werden, einschließlich von (aber nicht beschränkt auf) LPC (Linear Predictor Coefficient), Reflexionskoeffizienten, Spektrallinienpaare (LSP) und Spektrallinienfrequenzen (LSF). Diese Parameter können zur Erzeugung von Korrelationskoeffizienten zur Verwendung als Eingabe in ein automatisches Spracherkennungssystem (ASR) benutzt werden. Das folgende Beispiel zeigt, wie diese Transformation für den EVRC (Enhanced Variable Rate Coder – Codierer mit erweiterter veränderlicher Rate) erreicht werden kann, der in Nordamerika als IS-127 von der Telecommunications Industry Association (TIA) veröffentlicht und gegenwärtig zur Verwendung mit IS-95x-konformen CDMA-Kommunikationssystemen (Code Division Multiple Access) standardisiert ist. Die beschriebenen Verfahren sind gleicherweise auf einen beliebigen Sprachcodierungsalgorithmus anwendbar, der auf dem CELP-Modell oder einer beliebigen Form linearer Prädiktionscodierung (LPC) basiert.
In dem bestimmten Fall eines Codierers mit erweiterter veränderlicher Rate nach IS-127 arbeitet der Codierungsalgorithmus an digital abgetasteten Tonwellenformen in 20-msek-Zeitabständen (Rahmen), zur Erzeugung und Übertragung einer Menge von Parametern, die die Wellenform für den verarbeiteten Rahmen beschreibt. Die übertragenen Parameter enthalten Codes, die die Werte der LSP für den Rahmen darstellen. Die LSP-Codes umfassen eine Menge von drei Codebuchindizes, die jeweils eine bestimmte Menge von LSP-Werten kennzeichnen, die in einem der drei LSP-Codebüchern enthalten sind, die sowohl vom Sprachcodierer als auch Sprachdecodierer unterhalten werden. Diese LSP-Codes werden in einen Vektor von zehn LSP umgesetzt, die dann zur Verwendung im Synthesefilter des Decodierers in LPC umgewandelt werden. Beginnend mit den LPC kann der Vorgang der Erzeugung von Korellationskoeffizienten auf verschiedene Weisen ausgeführt werden. Eine Weise besteht darin, die LPC zuerst in Reflexionskoeffizienten (RC) umzuwandeln und dann die RC in Autokorrelationskoeffizienten (CC) umzuwandeln.
5 ist ein Blockschaltbild von in diesem beispielhaften Vorgang durchgeführten Funktionen. So werden bei 501 Eingangs-LPC empfangen und an den Funktionsblock LPC-zu-RC 510 angelegt. Die Eingangs-LPC werden auch an den Funktionsblock RC-zu-CC über den Weg 515 angelegt. Die letztere Eingabe und die Ausgabe des Blocks 510 werden in Block 520 zur Erzeugung der gewünschten Korrelationskoeffizienten auf dem Ausgangsweg 530 benutzt.
Einzelheiten der Transformation LPC-zu-RC sind im nachfolgenden Pseudocode-Segment dargestellt.
Man beachte, daß die Konstante LPC_ORDER für den Sprachcodierer nach IS-127 nominell gleich 10 ist, obwohl andere bestimmte Werte den Umständen entsprechend benutzt werden können. Auch ist tmp eine zeitweilige Variable und tmp ist ein zeitweiliges Feld der Dimension LPC_ORDER. Das Feld lpc der Dimension LPC_ORDER ist eine Eingabe in diese Transformation und enthält die durch den Sprachdecodierer nach IS-127 berechneten LPC. Das Feld rc der Dimension LPC_ORDER ist die Ausgabe der Transformation und enthält die RC.
Die Umwandlung von RC in CC ist in dem nachfolgenden Pseudocode-Segment dargestellt:
In diesem Beispiel ist LPC_ORDER eine Konstante, deren Wert wiederum für IS-127 nominell gleich 10 ist, tmp ist eine zeitweilige Variable, dummy ist ein zeitweiliges Feld der Dimension LPC_ORDER + 1. Die Eingaben in die Transformation sind die Felder lpc und rc, beide mit der Dimension LPC_ORDER + 1, die die LPC bzw. RC enthalten. Die Ausgabe der Transformation ist das Feld cc, ebenfalls mit der Dimension LPC_ORDER + 1, das die durch das ASR-System zu benutzenden Korrelationskoeffizienten enthält.
Man beachte, daß die LPC intern durch den Decodierer nach IS-127 erzeugt werden; die Operationen zur Berechnung und Ausgabe der obenbesprochenen CC werden vorteilhafterweise an der Stelle unmittelbar nach der LPC-Berechnung in den Decodierer eingefügt.
Obwohl bei den obenbeschriebenen Ausführungsformen die Betonung auf gewöhnlich heute benutzten CELP-basierten Codierern lag, ist für die vorliegende Erfindung keine derartige Begrenzung erforderlich. Durch eine Vielzahl von Codierungsverfahren werden vorteilhafterweise fehlergeschützte (und auch sonst hochzuverlässige) empfangene Sprachcodierungsparameter bereitgestellt, aus denen nützliche ASR-Merkmalsvektoren nach der Lehre der vorliegenden Offenbarung abgeleitet werden können.
Während das in 4 dargestellte beispielhafte ASR-System besondere Modellierungs- und Verarbeitungsschritte und -funktionen benutzt, sind keine von diesen von wesentlicher Bedeutung für die weiteren Aspekte der vorliegenden Erfindung. Vom Fachmann werden andere bestimmte Spracherkennungsvorrichtungen angewandt werden und entsprechende Merkmalsinformationen werden auf die obenbeschriebene Weise aus empfangenen Signalen abgeleitet werden und in Abänderungen und Erweiterungen davon, was alles angesichts der vorliegenden Erfindung dem Fachmann offenbar sein wird.
Während weiterhin die Betonung auf Verarbeitung von automatischer Spracherkennung (ASR) lag, wird der Fachmann erkennen, daß Sprechererkennung und Authentifizierung ebenfalls unter Verwendung der hier beschriebenen erfindungsgemäßen Grundsätze vorteilhafterweise durchgeführt werden können. Nützliche Anpassungen und Abänderungen der vorliegenden Lehren für Ausführungsformen mit diesen zusätzlichen oder alternativen Funktionen sind in der Technik wohlbekannt. So werden beispielsweise für die Authentifizierung bestimmter Sprecher Informationen über die Spracheigenschaften dieser Sprecher gespeichert oder sonstwie zur Verwendung in den eingesetzten Sprachmodellen zur Verfügung gestellt.
Die Merkmalsableitungs- und/oder ASR-Einheiten können sich an der empfangenden Basisstation, der mit der Basisstation verbundenen Vermittlung (oder einer sonstigen über diese erste Vermittlung angeschlossenen Netzvermittlung) oder einer anderen Stelle befinden, die an dem Netz (den Netzen) angeschlossen ist, mit dem (denen) diese Elemente verbunden sind. Die digitalen codierten Handapparatsignale können an jede zweckdienliche Stelle zwecks Merkmalsableitungs- und ASR-Operationen übermittelt werden. In manchen Fällen wird es nützlich sein, daß die Merkmalsableitungs- und ASR-Operationen an unterschiedlichen Stellen durchgeführt werden.

Claims

Verfahren zur automatischen Erkennung von als codierte Sprachsignale empfangener Sprache in einer ersten Menge von aus einem drahtlosen Übertragungskanal empfangenen Signalen mit folgenden Schritten: Ableiten einer Mehrzahl von Spracherkennungs-Merkmalsvektoren direkt aus den empfangenen codierten Sprachsignalen getrennt von jeder Umwandlung der empfangenen codierten Sprachsignale in Tonsprachsignale, und Anlegen der Mehrzahl von Spracherkennungs-Merkmalsvektoren an ein Spracherkennungssystem.
Verfahren nach Anspruch 1, wobei die erste Menge empfangener Signale weiterhin Fehlerschutzsignale zur Verbesserung der Zuverlässigkeit der empfangenen codierten Sprachsignale umfaßt.
Verfahren nach Anspruch 1, weiterhin mit folgendem: Umwandeln der empfangenen codierten Sprachsignale in Tonsprachsignale, und Anschalten der Tonsprachsignale an ein Netz.
Verfahren nach Anspruch 1, wobei die empfangenen codierten Sprachsignale eine Mehrzahl von codierten Sprachparametern umfassen und das Ableiten folgendes umfaßt: Auswählen einer Teilmenge der empfangenen codierten Sprachparameter, und Umwandeln der Teilmenge der empfangenen codierten Sprachparameter in die Mehrzahl von Spracherkennungs-Merkmalsvektoren.
Verfahren nach Anspruch 4, wobei die empfangenen codierten Sprachparameter eine Mehrzahl codierter Sprachparameter der spektralen Hüllkurve für die Sprache umfassen und wobei das Auswählen einer Teilmenge der empfangenen codierten Sprachparameter das Auswählen einer Teilmenge der codierten Sprachparameter der spektralen Hüllkurve umfaßt.
Verfahren nach Anspruch 5, wobei die Teilmenge der codierten Sprachparameter der spektralen Hüllkurve Parameter relativ hoher Zuverlässigkeit sind, da sie vor dem Empfang in relativ hohem Maß durch Fehlerschutzmittel geschützt worden sind.
Verfahren nach Anspruch 5, wobei die Teilmenge codierter Sprachparameter der spektralen Hüllkurve eine Mehrzahl von Reflexionskoeffizienten umfaßt.
Verfahren nach Anspruch 5, wobei die Teilmenge codierter Sprachparameter der spektralen Hüllkurve eine Mehrzahl von Spektrallinienpaaren (LSP – Line Spectral Pairs) umfaßt.
Verfahren nach Anspruch 5, wobei die Teilmenge codierter Sprachparameter der spektralen Hüllkurve eine Mehrzahl von Spektrallinienfrequenzen (LSF – Line Spectral Frequencies) umfaßt.
Verfahren nach Anspruch 5, wobei das Umwandeln weiterhin den Schritt des Erzeugens einer Menge von Parametern linearer Prädiktionscodierung (LPC) aus der Teilmenge codierter Sprachparameter der spektralen Hüllkurve umfaßt.
Verfahren nach Anspruch 10, wobei das Umwandeln weiterhin den Schritt des Transformierens der Menge von LPC-Parametern in eine entsprechende Menge von LPC-Cepstrum-Koeffizienten umfaßt.
Verfahren nach Anspruch 11, wobei das Umwandeln weiterhin folgende Schritte umfaßt: Gewichtung der Menge von LPC-Cepstrum-Koeffizienten zum Erzeugen einer Menge von gewichteten LPC-Cepstrum-Koeffizienten, und Ableiten der Menge von Spracherkennungs-Merkmalsvektoren aus den gewichteten LPC-Cepstrum-Koeffizienten.
Verfahren nach Anspruch 1, wobei das Ableiten und Anlegen in einer Basisstation durchgeführt wird.
Verfahren nach Anspruch 1, wobei die erste Menge von Signalen in einer Basisstation empfangen und zum Ableiten und Anlegen an eine zweite Stelle weitergeleitet werden.
System zur automatischen Erkennung von als codierte Sprachsignale empfangener Sprache in einer ersten Menge von aus einem drahtlosen Übertragungskanal empfangenen Signalen mit Mitteln zur Ausführung jedes Schritts eines Verfahrens nach einem beliebigen der vorhergehenden Ansprüche.
System zur automatischen Erkennung des Sprechers von als codierte Sprachsignale empfangener Sprache in einer ersten Menge von Signalen aus einem drahtlosen Übertragungskanal mit folgendem: Mitteln zum Ableiten einer Mehrzahl von Sprechererkennungs-Merkmalsvektoren direkt aus den empfangenen codierten Sprachsignalen getrennt von jeder Umwandlung der empfangenen codierten Sprachsignale in Tonsprachsignale, Mitteln zum Empfangen von Bezugs-Sprechererkennungs-Merkmalsvektoren für eine Mehrzahl von Sprechern und Mitteln zum Anlegen der Mehrzahl von Sprechererkennungs-Merkmalsvektoren und der Bezugs-Sprechererkennungs-Merkmalsvektoren an ein Sprechererkennungssystem.
System nach Anspruch 16, wobei die ersten Signale in einer Basisstation empfangen werden und sich die Mittel zum Ableiten und Mittel zum Anlegen in der Basisstation befinden.
System nach Anspruch 16, wobei die erste Menge von Signalen in einer Basisstation empfangen wird und das System weiterhin Mittel zum Weiterleiten der ersten Menge von Signalen an eine zweite Stelle zum Ableiten und Anlegen umfaßt.