DE69911723T2 - Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle - Google Patents

Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle Download PDF

Info

Publication number
DE69911723T2
DE69911723T2 DE69911723T DE69911723T DE69911723T2 DE 69911723 T2 DE69911723 T2 DE 69911723T2 DE 69911723 T DE69911723 T DE 69911723T DE 69911723 T DE69911723 T DE 69911723T DE 69911723 T2 DE69911723 T2 DE 69911723T2
Authority
DE
Germany
Prior art keywords
speech
signals
parameters
received
coded speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69911723T
Other languages
English (en)
Other versions
DE69911723D1 (de
Inventor
Wu Berkeley Heights Chou
Michael Charles Nutley Recchione
Qiru Scotch Plains Zhou
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of DE69911723D1 publication Critical patent/DE69911723D1/de
Application granted granted Critical
Publication of DE69911723T2 publication Critical patent/DE69911723T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/24Radio transmission systems, i.e. using radiation field for communication between two or more posts
    • H04B7/26Radio transmission systems, i.e. using radiation field for communication between two or more posts at least one of which is mobile
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Erfindungsgebiet
  • Die vorliegende Erfindung betrifft automatische Sprach-/Sprechererkennung (ASR – Automatic Speech/Speaker Recognition) und insbesondere ASR über drahtlose Kommunikationskanäle.
  • Stand der Technik
  • Die automatische Sprach-/Sprechererkennung (ASR – Automatic Speech/Speaker Recognition) hat sich immer mehr durchgesetzt, mit Verbesserungen bei der Technik, der Modellierung und Erkennungsalgorithmen. Zu vielen wichtigen Anwendungen der ASR-Technologie gehören diejenigen auf dem Gebiet des Fernsprechwesens und anderer Kommunikationstechniken. Beispielsweise hat sich die Verwendung von ASR als wertvoll bei der Bereitstellung von Auskunftsdienst, automatischem Anrufen und sonstigen Sprachtelefonieanwendungen über Drahtverbindungen erwiesen. Auf einem parallelen Entwicklungsgebiet hat sich die Verwendung von zellularen Systemen, persönlichen Kommunikationssystemen (PCS) und sonstigen drahtlosen Systemen (in der Folge zusammen als „drahtlose" bezeichnet) weiter vermehrt. Es ist daher naturgemäß, in drahtgebundenen Systemen erreichte Verbesserungen bei der ASR auch auf drahtlose Systeme anwenden zu wollen.
  • ASR über drahtlose Kanäle ist aufgrund des zusätzlichen Rauschens und der zusätzlichen Verzerrung, die während der Codierungs-, Übertragungs- (z. B. aufgrund von Schwund oder Paketverlusten) und Decodierungsstufen in Sprachsignale eingeführt werden, problematisch. In drahtlosen Umgebungen vorhandene, durch Rauschen verschlechterte Sprachsignale unterscheiden sich oft wesentlich von dem ursprünglichen Sprachsignal, was zur Verminderung von ASR-Leistungen führt, wenn standardmäßige ASR-Verfahren angewandt werden. Mit Versuchen zur Erstellung von fortschrittlichen auf ASR basierenden Diensten wie beispielsweise intelligenten Agentendiensten oder Spracherkennungsdiensten mit großem Vokabular über digitale drahtlose Kanäle hat sich dieses Problem zugespitzt. Vorherige Ansätze konzentrierten sich hauptsächlich auf Rauschverringerungsverfahren, aber die Ergebnisse liegen weit vom Ideal und weisen aufgrund der vielen Unterschiede in drahtlosen Umgebungen (z. B. TDMA, CDMA, GSM, usw.) begrenzte Anwendbarkeit auf.
  • Bei neueren Untersuchungen hat sich herausgestellt, daß, wenn die Merkmalsvektoren für ASR-Zwecke am Handapparat abgeleitet und digital über einen sekundären Digitalkanal übertragen werden können, beinahe keine Leistungsminderung der ASR-Leistung in der drahtlosen Umgebung im Vergleich mit dem drahtgebundenen Telefonnetz vorkommt. In der 1 ist ein typisches Doppelkanalsystem des Stands der Technik dargestellt.
  • Hier wird ein zellularer Handapparat 101 von einem Mobilteilnehmer zur Codierung von normaler Sprache und Übertragung des codierten Signals mit entsprechenden Codiererparametern über den primären (Sprach-) Kanal 105 zur zellularen Basisstation 120 benutzt. Die Basisstation 120 decodiert dann das empfangene codierte Signal, um eine Sprachausgabe zu erzeugen, die für die Kommunikation über das öffentliche Wählnetz (PSTN) oder sonstiges Sprachkommunikationsnetz, das durch die öffentliche Vermittlung 130 dargestellt wird, und ihre Ausgabe an ein Netz geeignet ist. In „The influence of speech coding algorithms on automatic speech recognition" (Der Einfluß von Sprachcodierungsalgorithmen auf automatische Spracherkennung) von Euler et al. in ICASSP '94 besteht eine Lösung darin, codeangepaßte Sprachmodelle zu benutzen. 1 zeigt auch die Erzeugung am zellularen Handapparat 101 einer zweiten Menge von Signalen entsprechend den durch eine ASR-Anwendung zu benutzenden ASR-Parametern. Diese zweite Menge von Signalen wird über einen zweiten Digitalkanal 110 zur zellularen Basisstation 120 übertragen, wo sie an das ASR-System 140 weitergeleitet werden.
  • Durch die experimentelle Verwendung von Systemen der in 1 gezeigten Art ist Interesse an der Erzeugung einer standardmäßigen ASR-Merkmalsmenge entstanden, die am Handapparat abgeleitet und über ein drahtloses Netz als ein Digitalsignal unter Verwendung einer sekundären digitalen Strecke gesendet werden kann. Da die Bitrate für die Übertragung von ASR-Merkmalsvektoren ganz niedrig sein kann (> 4Kb/s), ist es möglich, eine sekundäre digitale Strecke wie die für die Verwendung in neuen drahtlosen Standards, wie beispielsweise IS-134 vorgeschlagene zu verwenden. Obwohl diese Lösung mit sekundärem Kanal vielversprechend zu sein scheint, weist sie eine Anzahl ernsthafter Nachteile auf. Insbesondere erfordert dieser Ansatz:
    • 1. Einen neuen Standard und wesentliche Veränderungen in Kommunikationsprotokollen. Selbst dann würden Unverträglichkeiten mit vielen gegenwärtigen drahtlosen Kommunikationsstandards Abänderungen an oder die Aufgabe von existierenden Standard-konformen Netzgeräten erfordern.
    • 2. Zusätzliche Bandbreite zur Übertragung von ASR-Merkmalsvektoren vom Handapparat zur Basisstation. Synchronisieren des primären Digitalkanals für die Übertragung von Sprache und des sekundären Digitalkanals für die Übertragung der abgeleiteten ASR-Merkmalsvektoren kann ebenfalls ein ernsthaftes Problem darstellen.
    • 3. Wesentliche Änderungen an gegenwärtigen Handapparaten.
    • 4. Eine Vielzahl von Doppelkanal-Lösungen. Das heißt Abhängigkeit von bestimmten gegenwärtigen drahtlosen Standards oder Formaten (CDMA, TDMA, GSM, IS-94, IS-134 usw.) und zugehörigen Zeichengabe- und Modulationsanordnungen machen eine universelle Lösung für alle verfügbaren Standards undurchführbar.
    • 5. Hohe Anfangsinvestitionen zur Einführung von auf diesem Verfahren basierenden Diensten.
  • Kurze Beschreibung der Erfindung
  • Die Beschränkungen des Standes der Technik werden bei Systemen entsprechend den Ansprüchen 15 und 16 und einem Verfahren entsprechend dem Anspruch 1 zur wirksamen und wirtschaftlichen Ermöglichung von ASR-Fähigkeiten in drahtlosen Zusammenhängen wie unten in Verbindung mit beispielhaften Ausführungsformen beschrieben, überwunden und ein technischer Fortschritt wird erreicht.
  • So werden zuverlässige ASR-Merkmalsvektorfolgen an einer Basisstation (oder sonstigen Netz- oder Systemeinheit) direkt aus den digital übertragenen Sprachcodiererparametern abgeleitet. Bei vielen Anwendungen werden die ASR-Funktionen in einer öffentlichen Vermittlung oder sonstwo in einem Netz durchgeführt. Bei diesem Ansatz bearbeitet eine neuartige ASR-Merkmalsentnahmevorrichtung die empfangenen Sprachcodiererparameter vom Handapparat, ohne daß zusätzliche Verarbeitung oder Signalmodifikation am Handapparat erforderlich ist. So werden an einer Basisstation empfangene Sprachcodiererparameter nicht nur für die Wiedergabe des Sprachsignals wie gegenwärtig, sondern auch zur Erzeugung der Merkmalsvektorfolge für ASR-Anwendungen benutzt.
  • Eine beispielhafte ASR-Merkmalsvektorentnahmevorrichtung an der Basisstation vermeidet dadurch, daß sie digital übertragene Sprachcodiererparameter vor der Rückwandlung dieser Codiererparameter in ein Sprachsignal bearbeitet, den verlustbehafteten Umwandlungsvorgang und die zugehörige Sprachverzerrung. Bei der Verwendung von Ausführungsformen der vorliegenden Erfindung besteht kein Erfordernis, drahtlose Handapparate abzuändern, da die ASR-Merkmalsvektoren von derselben Menge von Sprachcodiererparametern abgeleitet werden, die normalerweise am Handapparat entnommen werden. Bestehende Handapparate stellen daher eine Vorstufe für die ASR-Merkmalsvektorentnahmevorrichtung an der Basisstation bereit.
  • Weiterhin ist die Verbindung vom Handapparat zur Basisstation in digitalen drahtlosen Umgebungen voll digital und enthält Fehlerschutz für zu einer Basisstation übermittelte Datensignale. Die Übertragung vom Handapparat zur gegenwärtigen erfindungsgemäßen Merkmalsentnahmevorrichtung an einer Basisstation oder einer sonstigen Stelle weist daher dieselbe digitale Übertragungsgüte wie bei Anordnungen mit sekundärem Kanal auf.
  • Obwohl Sprachcodiererparameter sich sehr von den für ASR-Zwecke benötigten Merkmalsvektoren unterscheiden, stellt die vorliegende Erfindung beispielhafte Verfahren zur Realisierung einer Sprachmerkmalsentnahmevorrichtung auf Grundlage normaler Sprachcodiererparameter bereit.
  • Insgesamt bietet die vorliegende Erfindung Systeme und Verfahren für verbesserte ASR ohne Bedarf an einem sekundären Kanal und ohne wesentliche Änderungen an gegenwärtigen drahtlosen Standards. Änderungen, Erweiterungen und betriebliche Unterschiede an Basisstationen sind ebenfalls minimal. Vorteilhafterweise wird der Digitalkanal für ASR- Anwendungen (über Abänderungen an der Software) als zweites Ziel für eine Sprachverbindung erstellt.
  • Bei alternativen Ausführungsformen wird die ASR-Merkmalsentnahme und die ASR-Funktionen an einer Vermittlung durchgeführt, die (direkt oder über Netzverbindungen) mit der Empfangs-Basisstation verbunden ist. In weiteren Ausführungsformen werden die an einer Basisstation vom übertragenden Handapparat empfangenen codierten Sprachsignale (mit oder ohne decodierte Sprachsignale) zu einer Netzstelle mit einem Endgerät oder Speichersystem weitergeleitet.
  • Kurze Beschreibung der Zeichnung
  • 1 zeigt ein System des Stands der Technik mit einem sekundären Digitalkanal zur Übertragung von ASR-Parametern zu einer Basisstation zur nachfolgenden Verwendung durch ein ASR-System.
  • 2 zeigt eine Darstellung des gesamten Systems einer beispielhaften Ausführungsform der vorliegenden Erfindung mit einzelnem Kanal.
  • 3 zeigt beispielhafte Verarbeitungsschritte, die bei der Umwandlung von an einer Basisstation empfangenen codierten Sprachsignalen in ASR-Merkmalsparameter nützlich sind.
  • 4 zeigt ein beispielhaftes ASR-System, das ASR-Merkmalsparameter der in 4 dargestellten beispielhaften Verarbeitung bearbeitet.
  • 5 ist ein Blockschaltbild, das zum Verständnis der Umwandlung von LPC-Werten in Korrelationskoeffizienten nach einem Aspekt des beispielhaften Vorgangs der 3 nützlich ist.
  • Ausführliche Beschreibung
  • 2 zeigt eine beispielhafte Ausführungsform des Systems der vorliegenden Erfindung. In der 2 ist ein Handapparat 201 dargestellt, der Sprachcodiererparameter zur Übertragung an die drahtlose Basisstation 220 als Reaktion auf gesprochene Benutzereingaben erzeugt. Die auf dem Übertragungskanal 205 gesendeten codierten Sprachsignale sind in jeder Hinsicht (für dieselbe gesprochene Eingabe) mit codierten Sprachsignalen identisch, die für Sprachkommunikationen bei normalem (nicht-ASR-)Gebrauch des drahtlosen Systems der 2 benutzt werden. Zusätzlich sind diese codierten Sprachsignale derselben Art wie die auf dem Sprachkanal 105 im System der 1 übertragenen. Es ist kein sekundärer Digitalkanal wie im System der 1 dazu erforderlich, eine Menge von ASR-bezogenen Parametern zu führen. Stattdessen werden die empfangenen codierten Sprachsignale an der drahtlosen Basisstation 220 einerseits auf dem Weg 222 zur Abgabe an die öffentliche Vermittlung 230, wie bei der normalen Leistung des drahtlosen Systems (und im System der 1) bereitgestellt. Normalerweise wird die Decodierung der am Handapparat codierten Sprachsignale an einer Vermittlung wie beispielsweise der öffentlichen Vermittlung 230 durchgeführt, jedoch kann diese Decodierung in Sprachsignale an der Basisstation 120 oder über die Vermittlung 230 und den Weg 231 sonstwo im PSTN- (oder sonstigen) Netz stattfinden.
  • Zusätzlich werden die an der drahtlosen Basisstation 220 empfangenen codierten Sprachsignale für das ASR-Merkmalsentnahmesystem 235 und das ASR-System 240 bereitgestellt, die sich beispielhafterweise an der Basisstation 220 befinden. Dort werden die gleichen codierten Darstellungen, die zur Erzeugung von Sprachsignalen decodiert werden, stattdessen zur Entnahme von ASR-Merkmalsparametern in der ASR- Merkmalsentnahmeeinheit 235 zur Verwendung durch ASR-Systeme wie beispielsweise 240 benutzt. Die vom Handapparat 205 empfangenen Sprachcodiererparameter werden auch beispielhafterweise auf der Leitung 225 für die öffentliche Vermittlung 230 bereitgestellt, wo sie als Alternative (oder zusätzlich) zur Abgabe als Digitalsignale an die Merkmalsentnahme- und ASR-Einheiten an der Vermittlung 230 oder sonstwo in einem Netz zur Verfügung stehen. Die Verbindung von der Basisstation 220 zum ASR-Merkmalsentnahmesystem 235 und von dort zum ASR-System 240 ist für einige Anwendungen vorteilhafterweise als getrennte Vermittlungsverbindung angeordnet, wie beispielsweise zur Verbindung des normalen Sprachweges mit der öffentlichen Vermittlung 230 benutzt wird. In anderen Anwendungen erweist es sich als zweckdienlich, daß die codierten Parameter denselben Weg zu einer Vermittlung 230 gesendet werden, wo Merkmalsentnahme (und ASR) zusätzlich zur Sprachdecodierung durchgeführt werden.
  • So stellt die Basisstation 220 in einer typischen Anwendung der vorliegenden erfindungsgemäßen Grundsätze die codierten Sprachparameter direkt für die ASR-Merkmalsentnahmeeinheit 235 und das ASR-System 240 bereit. Als Alternative kann der Weg zur ASR-Merkmalsentnahmevorrichtung 235 und/oder dem ASR-System 240 an der Vermittlung 230 oder einer sonstigen zentralisierten Einrichtung zur Anwendung der erkannten Sprache unterhalten werden. Beispielsweise kann die erkannte Sprache zur Authentifizierung des Sprechers oder als Befehls- oder sonstige Eingabe in ein auf Text reagierendes System benutzt werden. Eine Anwendung einer solchen erkannten Sprache ist die Übertragung einer Textversion der Sprache an ein darauf reagierendes System, z. B. für Sprecher-Maschinendialog, obwohl zahlreiche und verschiedenartige andere Anwendungen von Spracherkennung in der Technik bekannt sind. Die Art und Weise der Umwandlung von standardmäßigen sprachcodierten Signalen zur Erzeugung von ASR-Merkmalsparametern wird ausführlicher unten beschrieben.
  • Eine nützliche Eigenschaft von digitalen drahtlosen Umgebungen besteht darin, daß die Sprache eines Benutzers nach Umwandlung in eine Folge von digitalen Codiererparametern am Handapparat vorteilhafterweise durch Kanalcodierungsverfahren während der Übertragung über das drahtlose Medium fehlergeschützt ist. Diese Kanalcodierung wird typischerweise ungleich an unterschiedliche Teile der Übertragung angelegt. Das heißt, es ist bräuchlich, daß die wichtigsten Codiererparameter mit vollständigerem Schutz übertragen werden, während unwichtigere Parameter nicht so voll geschützt werden. Zu diesen wichtigsten Parametern gehören die, die auf Signalsynchronisierung und die Spektralform der Sprachsignale bezogen sind.
  • Obwohl Kanalschwund und -störung den Verlust gewisser Codiererparameter verursachen kann und das wiedergegebene Sprachsignal verzerren kann, trifft es dann gewöhnlich zu, daß die wichtigsten Codiererparameter aufgrund dieses ihnen bei der Kanalcodierung gewährten zusätzlichen Fehlerschutzes erhalten bleiben. So werden entsprechend der vorliegenden Erfindung ASR-Merkmalsvektorsignale vorteilhafterweise aus diesen besser geschützten Sprachcodiererparametern entnommen. Informationen für die ASR-Merkmalsentnahme werden daher digital und mit hoher Zuverlässigkeit unter Verwendung von nur der normalerweise zum Schützen ursprünglicher Sprachcodiererparameter benutzten Kanalcodierungsanordnung empfangen.
  • Entsprechend der vorliegenden Erfindung wird ASR-Merkmalsentnahme vorteilhafterweise aus den Sprachcodiererparametern bewirkt, ehe sie in Sprachsignale zurückgewandelt werden. Ein Grund dafür besteht darin, daß das umgewandelte Sprachsignal im Decodierungsvorgang verzerrt wird. Selbst ohne Kanaleffekte beträgt das Verhältnis Signalsegment zu Quantisierungsrauschen (SSNR – Segmental Signal to Quantization Noise Ratio) der decodierten Sprache oft nur annähernd 20 dB in typischen drahtlosen Umgebungen. Man siehe beispielsweise B. S. Atal, V. Cuperman und A. Gersho „Advances in Speech Coding" (Fortschritte bei der Sprachcodierung) Kluwer Academic Publisher. Dieser letztere Signalzustand entsteht, da bei der Suche danach, Bedingungen niedriger Bitrate zu entsprechen, viele Merkmale, z. B. Erregungssignale, nicht ausreichend codiert und dargestellt sind. Zusätzlich bewirken Kanalschwund und Störung, daß viele Sprachcodiererparameter für hochwertige Rückwandlung in Sprachsignale unzuverlässig sind.
  • Ein weiterer Vorteil, der aus der Verwendung von Codierungsparametern als Grundlage für ASR-Merkmalsentnahme stammt, besteht darin, daß das umgewandelte Sprachsignal normalerweise ein synthetisiertes Sprachsignal ist. So weist das umgewandelte Sprachsignal eine starke Abhängigkeit von dem im Sprachcodierer benutzten Codierungsschema auf. Insbesondere unterscheidet sich die synthetisierte Sprache vom Sprachcodierer gewöhnlich sehr von der menschlichen Sprache, die zur Herstellung des Spracherkennungsmodells benutzt wird; typischerweise sind viele Eigenschaften der Sprache eines Sprechers verändert oder im Synthesevorgang verlorengegangen.
  • Aus dem obigen sollte klar sein, daß die Auslegung und Funktionsweise einer direkt auf digital übertragenen Codiererparametern basierenden ASR-Merkmalsentnahmevorrichtung wesentliche Vorteile in beispielhaften Ausführungsformen der vorliegenden Erfindung bietet. Dementsprechend wird durch gegenwärtige beispielhafte erfindungsgemäße Konstruktionen eine Menge von Parametern vorteilhafterweise aus gegenwärtigen Sprachcodiererparametern identifiziert und ausgewählt, aus denen zuverlässige ASR-Merkmalsvektoren abgeleitet werden können. Es wird nunmehr eine Konstruktion einer beispielhaften Merkmalsentnahmevorrichtung beschrieben.
  • Typischerweise in drahtlosen Umgebungen benutzte Sprachcodierer unterscheiden sich in vieler Hinsicht von einem System zum anderem. Man siehe beispielsweise R. Steele, „Speech codecs for Personal Communications" (Sprach-Codecs für persönliche Kommunikation), IEEE Communications Magazine, November 1994, Seiten 76–83. Trotzdem benutzen viele der am weitesten verbreiteten Codierer Verfahren der Analyse durch Synthese, die beispielsweise in J. Flanagan „Speech Analysis, Synthesis and Reproduction" (Sprachanalyse, Synthese und -wiedergabe) Springer-Verlag, beschrieben sind. Darüber hinaus benutzen diese Codierer typischerweise Analyse mit linearer Prädiktionscodierung (LPC – Linear Predicative Coding) zur Kennzeichnung der Spektralform von ausschnittsweise dargestellten Sprachrahmen. Zu Beispielen dieser LPC-basierten Codierer gehören verschiedene Varianten der wohlbekannten CELP-Verfahren.
  • Trotz einiger allgemeiner Ähnlichkeiten gewöhnlich benutzter Codierer gibt es oft bedeutsame Unterschiede bei Codierern für verschiedene drahtlose Anwendungen. Beispielsweise ändert sich die Ordnung des Analysefilters A(z) und der parametrischen Darstellungen für Sprachsignale typischerweise von Codierer zu Codierer. Insbesondere sind derartige Analysefilter typischerweise durch verschiedene Mengen von Parametern einschließlich von Reflexionskoeffizienten, Koeffizienten des Verhältnisses von Logarithmus zu Bereich, Spektrallinienpaaren (LSPs Line Spectral Pairs) und Spektrallinienfrequenzen (LSFs Line Spectrum Frequencies) unter anderem gekennzeichnet. Obwohl kein Sprachcodierer Autokorrelationskoeffizienten direkt überträgt (da sie sehr empfindlich für Fehler sind), können alle parametrischen Darstellungen von durch gegenwärtige Sprachcodierer in einer drahtlosen Umgebung benutzten Analysefiltern durch wohlbekannte Transformationen in Autokorrelationskoeffizienten umgewandelt werden. Man siehe beispielsweise K. Feher, Herausgeber „Advanced Digital Communication" (Fortgeschrittene digitale Kommunikation), Prentice-Hall. Umwandlung von auf Analysefilter A(z) bezogenen Codiererparametern in ihre Autokorrelationskoeffizienten wird vorteilhafterweise in beispielhaften Ausführungsformen der vorgeschlagenen Erfindung eingesetzt.
  • Autokorrelationskoeffizienten führen herausragende Informationen, aus denen die am weitesten benutzten ASR-Merkmalsparameter, LPC-Cepstrum-Koeffizienten abgeleitet werden können. Man siehe beispielsweise L. Rabiner und B.-H. Juang Fundamentals of Speech Recognition (Grundlagen der Spracherkennung), Prentice-Hall, 1993. Darüber hinaus ist die Ordnung der LPC-Analyse bei Sprachcodierern oft höher als die Ordnung der für typische ASR-Anwendungen benötigten LPC-Analyse. Der Grund dafür ist, daß bei der Sprachcodierung die Form der spektralen Hüllkurve genau verfolgt werden muß, um die Sprachwellenform genau wiederzugeben. Demgegenüber haben die kleineren Einzelheiten der spektralen Hüllkurve geringen Wert bei der ASR. Da die Autokorrelationskoeffizienten niederer Ordnung stets Teil der Autokorrelationskoeffizienten sind, die aus der LPC-Analysecharakteristik höherer Ordnung drahtloser Codierer erhalten werden, können sie stets aus den Sprachcodiererparametern entnommen werden.
  • Die 3 zeigt in einer beispielhaften ASR-Merkmalsentnahmevorrichtung (wie beispielsweise 235 in der 1) entsprechend der vorliegenden Erfindung durchgeführte Operationen. Nach der Darstellung in 3 werden die Codiererparameter aus der Übertragung von Handapparat zur Basisstation entnommen und als Eingabe 300 in der 3 angelegt. Diese empfangenen Sprachcodiererparameter werden typischerweise in Mengen für zusammenhängende Sprachzeiträume von jeweils 10– 20 msek Dauer bereitgestellt. Diese empfangenen Mengen von Codiererparametern werden zuerst verarbeitet, um die auf das Analysefilter bezogenen Parameter aus der größeren Menge empfangener Parameterwerte abzurufen.
  • Die ausgewählte Codiererparametermenge wird weiterhin im Schritt 310 mittels einer entsprechenden in der Merkmalsentnahmevorrichtung implementierten Transformation in Autokorrelationskoeffizienten umgewandelt. Ein bestimmtes Beispiel wird unten für den beispielhaften Fall des drahtlosen CDMA-Standards IS-124 gegeben. Nach Transformation in Autokorrelationskoeffizienten {rl(t)|l = 0, 1, ..., K} wird eine Reduktion der Ordnungen an den Autokorrelationskoeffizienten durchgeführt und die Autokorrelationskoeffizienten {rl(t)|l = 0, 1, ..., 10} niedrigerer Ordnung werden im Schritt 320 für den Zweck der Erzeugung von ASR-Merkmalsvektoren entnommen.
  • Die Autokorrelationskoeffizienten rl(t) niederer Ordnung werden dann im Schritt 330 in der 3 verarbeitet, um sie in Koeffizienten der linearen Prädiktionscodierung a(t) = {al(t)|l = 0, 1, ..., 10} umzuwandeln. In vielen Fällen erweist es sich als zweckdienlich, diese letztere Umwandlung unter Verwendung des wohlbekannten Levison-Durbin-Rekursionsalgorithmus durchzuführen, der beispielsweise bei L. Rabiner und B-H Juang, Fundamentals of Speech Recognition (Grundlagen der Spracherkennung), Prentice-Hall 1993 beschrieben ist. Die vom Schritt 330 ausgegebenen LPC-Koeffizienten a(t) werden dann im Schritt 340 in LPC-Cepstrum-Koeffizienten c(t) = (c1(t), c2(t), ..., c12(t) umgewandelt. Diese LPC-Cepstrum-Koeffizienten bieten vorteilhafterweise die Grundlage von ASR-Merkmalsvektoren, wie in der Technik wohlbekannt ist. Beim typischen Betrieb werden die LPC- Cepstrum-Koeffizienten dann im Schritt 350 in der 3 durch Gewichte wc(m) gewichtet und dazu benutzt, c zu bilden, eine beispielhafte ASR-Merkmalsmenge, mit 39 Parametern {ĉ = <c, Δc, ΔΔc, Δe, ΔΔe, e>}, wobei Δ und ΔΔ Differenzoperatoren erster und zweiter Ordnung sind und e die normierte Energie ist, die aus r0(t), dem Autokorrelationskoeffizienten der 0-ten Ordnung, erzeugt wird.
  • 4 zeigt ein typisches Spracherkennungssystem (240 in der 2), das den Ausgangsmerkmalsvektor ĉ aus einer Merkmalsentnahmeeinheit (z. B. 235 in 2, 3) am Eingang 400 empfängt. Das beispielhafte ASR-System der 4 benutzt durch 455 in der 4 dargestellte Teilwortmodelle zur Verwendung in Verbindung mit im Lexikonspeicher 457 gespeicherten Lexikoninformationen. Die Teilwortmodelle basieren auf lautähnlichen Einheiten und werden typischerweise unter Verwendung von von Sprechern eingesammelten Trainingdaten aufgebaut. Die Teilwortmodelle werden aneinander gereiht, um Modelle für Worte in einem Lexikon zu bilden, das von einem Wörterbuch oder einer sonstigen bekannten Quelle bereitgestellt wird. Wenn Teilworteinheiten entsprechend einer vollständigen Menge von Phonemen in Englisch ausgewählt werden, kann die Teilwortmodellmenge beliebig gegebene Worte in Englisch modellieren. Die Kombination dieser Modellierungsquellen ist in 4 durch den Wortmodellzusammensetzungsblock 450 dargestellt. Die durch den Zusammensetzungsblock 450 bereitgestellten Wortmodelle werden dann entsprechend wohlbekannter HMM-Verfahren (Hidden Markov Model) verarbeitet, die beispielsweise in der obenaufgeführten Literaturstelle Rabiner und Juang beschrieben werden. Das in 4 gezeigte Grammatik-Sprachmodell 460 und Semantikmodell 465 können zur Einschränkung der in dieser HMM-Verarbeitung durchgeführten Durchsuchungen benutzt werden. Typischerweise wird die beste Wortfolge im System der 4 durch Verwendung eines Viterbi-Decodierungs prozesses erhalten, der auf allen Wissensquellen basiert, während ASR-Sprachmerkmalvektorfolgen aus der ASR-Merkmalsvektorentnahmevorrichtung 235 in der 2 benutzt werden.
  • Beispiel der Umwandlung von Sprachcodiererparametern in Korrelationskoeffizienten
  • In diesem Abschnitt wird ein beispielhafter Vorgang mit Pseudocodeauflistungen für die Umwandlung von an einer Merkmalsentnahmevorrichtung (wie 235 in der 2) empfangenen Sprachcodiererparametern in Korrelationskoeffizienten dargestellt, die beim Aufbauen der Merkmalsvektoren zur Eingabe in ein ASR-System (wie beispielsweise 240 in der 2 und in der 4) nützlich sind.
  • Wie oben bemerkt arbeiten für die Verwendung in digitalen drahtlosen Telekommunikationssystemen standardisierte Sprachcodieralgorithmen an digital abgetasteten Tonwellenformen. Die abgetasteten Wellenformen werden in diskreten Zeitabständen (Rahmen) verarbeitet und der Sprachcodierer am Senderende der Kommunikationsstrecke benutzt eine Anzahl von Operationen zur Bestimmung der Werte für eine Menge von Parametern, die die Tonwellenform in dem verarbeiteten Rahmen am besten beschreiben würde. Diese Parameter werden codiert, oft in der Form eines Indexes zu einer Tabelle oder einem Codebuch, und über die Luftschnittstelle zum Empfänger übertragen. Der Sprachdecodierer am Empfänger besitzt dieselben Codebücher wie der Codierer am Sender und führt eine Reihe von Operationen unter Verwendung der codierten Parameter durch, um eine Annäherung an die ursprüngliche Wellenform zu erzeugen, die dem Codierer am Sender dargeboten wurde.
  • Viele der gegenwärtig zur Verwendung in digitalen drahtlosen Kommunikationssystemen standardisierten Sprachcodierer basieren auf dem CELP-Modell (Code Excited Linear Prediction). Unter den durch diese Codierer übertragenen Parametern befindet sich eine Menge von Werten, die die spektrale Hüllkurve der Tonwellenform in dem verarbeiteten Rahmen beschreibt. Diese Parameter können auf eine Anzahl verschiedener Weisen dargestellt werden, einschließlich von (aber nicht beschränkt auf) LPC (Linear Predictor Coefficient), Reflexionskoeffizienten, Spektrallinienpaare (LSP) und Spektrallinienfrequenzen (LSF). Diese Parameter können zur Erzeugung von Korrelationskoeffizienten zur Verwendung als Eingabe in ein automatisches Spracherkennungssystem (ASR) benutzt werden. Das folgende Beispiel zeigt, wie diese Transformation für den EVRC (Enhanced Variable Rate Coder – Codierer mit erweiterter veränderlicher Rate) erreicht werden kann, der in Nordamerika als IS-127 von der Telecommunications Industry Association (TIA) veröffentlicht und gegenwärtig zur Verwendung mit IS-95x-konformen CDMA-Kommunikationssystemen (Code Division Multiple Access) standardisiert ist. Die beschriebenen Verfahren sind gleicherweise auf einen beliebigen Sprachcodierungsalgorithmus anwendbar, der auf dem CELP-Modell oder einer beliebigen Form linearer Prädiktionscodierung (LPC) basiert.
  • In dem bestimmten Fall eines Codierers mit erweiterter veränderlicher Rate nach IS-127 arbeitet der Codierungsalgorithmus an digital abgetasteten Tonwellenformen in 20-msek-Zeitabständen (Rahmen), zur Erzeugung und Übertragung einer Menge von Parametern, die die Wellenform für den verarbeiteten Rahmen beschreibt. Die übertragenen Parameter enthalten Codes, die die Werte der LSP für den Rahmen darstellen. Die LSP-Codes umfassen eine Menge von drei Codebuchindizes, die jeweils eine bestimmte Menge von LSP-Werten kennzeichnen, die in einem der drei LSP-Codebüchern enthalten sind, die sowohl vom Sprachcodierer als auch Sprachdecodierer unterhalten werden. Diese LSP-Codes werden in einen Vektor von zehn LSP umgesetzt, die dann zur Verwendung im Synthesefilter des Decodierers in LPC umgewandelt werden. Beginnend mit den LPC kann der Vorgang der Erzeugung von Korellationskoeffizienten auf verschiedene Weisen ausgeführt werden. Eine Weise besteht darin, die LPC zuerst in Reflexionskoeffizienten (RC) umzuwandeln und dann die RC in Autokorrelationskoeffizienten (CC) umzuwandeln.
  • 5 ist ein Blockschaltbild von in diesem beispielhaften Vorgang durchgeführten Funktionen. So werden bei 501 Eingangs-LPC empfangen und an den Funktionsblock LPC-zu-RC 510 angelegt. Die Eingangs-LPC werden auch an den Funktionsblock RC-zu-CC über den Weg 515 angelegt. Die letztere Eingabe und die Ausgabe des Blocks 510 werden in Block 520 zur Erzeugung der gewünschten Korrelationskoeffizienten auf dem Ausgangsweg 530 benutzt.
  • Einzelheiten der Transformation LPC-zu-RC sind im nachfolgenden Pseudocode-Segment dargestellt.
  • Figure 00170001
  • Figure 00180001
  • Man beachte, daß die Konstante LPC_ORDER für den Sprachcodierer nach IS-127 nominell gleich 10 ist, obwohl andere bestimmte Werte den Umständen entsprechend benutzt werden können. Auch ist tmp eine zeitweilige Variable und tmp ist ein zeitweiliges Feld der Dimension LPC_ORDER. Das Feld lpc der Dimension LPC_ORDER ist eine Eingabe in diese Transformation und enthält die durch den Sprachdecodierer nach IS-127 berechneten LPC. Das Feld rc der Dimension LPC_ORDER ist die Ausgabe der Transformation und enthält die RC.
  • Die Umwandlung von RC in CC ist in dem nachfolgenden Pseudocode-Segment dargestellt:
  • Figure 00180002
  • Figure 00190001
  • In diesem Beispiel ist LPC_ORDER eine Konstante, deren Wert wiederum für IS-127 nominell gleich 10 ist, tmp ist eine zeitweilige Variable, dummy ist ein zeitweiliges Feld der Dimension LPC_ORDER + 1. Die Eingaben in die Transformation sind die Felder lpc und rc, beide mit der Dimension LPC_ORDER + 1, die die LPC bzw. RC enthalten. Die Ausgabe der Transformation ist das Feld cc, ebenfalls mit der Dimension LPC_ORDER + 1, das die durch das ASR-System zu benutzenden Korrelationskoeffizienten enthält.
  • Man beachte, daß die LPC intern durch den Decodierer nach IS-127 erzeugt werden; die Operationen zur Berechnung und Ausgabe der obenbesprochenen CC werden vorteilhafterweise an der Stelle unmittelbar nach der LPC-Berechnung in den Decodierer eingefügt.
  • Obwohl bei den obenbeschriebenen Ausführungsformen die Betonung auf gewöhnlich heute benutzten CELP-basierten Codierern lag, ist für die vorliegende Erfindung keine derartige Begrenzung erforderlich. Durch eine Vielzahl von Codierungsverfahren werden vorteilhafterweise fehlergeschützte (und auch sonst hochzuverlässige) empfangene Sprachcodierungsparameter bereitgestellt, aus denen nützliche ASR-Merkmalsvektoren nach der Lehre der vorliegenden Offenbarung abgeleitet werden können.
  • Während das in 4 dargestellte beispielhafte ASR-System besondere Modellierungs- und Verarbeitungsschritte und -funktionen benutzt, sind keine von diesen von wesentlicher Bedeutung für die weiteren Aspekte der vorliegenden Erfindung. Vom Fachmann werden andere bestimmte Spracherkennungsvorrichtungen angewandt werden und entsprechende Merkmalsinformationen werden auf die obenbeschriebene Weise aus empfangenen Signalen abgeleitet werden und in Abänderungen und Erweiterungen davon, was alles angesichts der vorliegenden Erfindung dem Fachmann offenbar sein wird.
  • Während weiterhin die Betonung auf Verarbeitung von automatischer Spracherkennung (ASR) lag, wird der Fachmann erkennen, daß Sprechererkennung und Authentifizierung ebenfalls unter Verwendung der hier beschriebenen erfindungsgemäßen Grundsätze vorteilhafterweise durchgeführt werden können. Nützliche Anpassungen und Abänderungen der vorliegenden Lehren für Ausführungsformen mit diesen zusätzlichen oder alternativen Funktionen sind in der Technik wohlbekannt. So werden beispielsweise für die Authentifizierung bestimmter Sprecher Informationen über die Spracheigenschaften dieser Sprecher gespeichert oder sonstwie zur Verwendung in den eingesetzten Sprachmodellen zur Verfügung gestellt.
  • Die Merkmalsableitungs- und/oder ASR-Einheiten können sich an der empfangenden Basisstation, der mit der Basisstation verbundenen Vermittlung (oder einer sonstigen über diese erste Vermittlung angeschlossenen Netzvermittlung) oder einer anderen Stelle befinden, die an dem Netz (den Netzen) angeschlossen ist, mit dem (denen) diese Elemente verbunden sind. Die digitalen codierten Handapparatsignale können an jede zweckdienliche Stelle zwecks Merkmalsableitungs- und ASR-Operationen übermittelt werden. In manchen Fällen wird es nützlich sein, daß die Merkmalsableitungs- und ASR-Operationen an unterschiedlichen Stellen durchgeführt werden.

Claims (18)

  1. Verfahren zur automatischen Erkennung von als codierte Sprachsignale empfangener Sprache in einer ersten Menge von aus einem drahtlosen Übertragungskanal empfangenen Signalen mit folgenden Schritten: Ableiten einer Mehrzahl von Spracherkennungs-Merkmalsvektoren direkt aus den empfangenen codierten Sprachsignalen getrennt von jeder Umwandlung der empfangenen codierten Sprachsignale in Tonsprachsignale, und Anlegen der Mehrzahl von Spracherkennungs-Merkmalsvektoren an ein Spracherkennungssystem.
  2. Verfahren nach Anspruch 1, wobei die erste Menge empfangener Signale weiterhin Fehlerschutzsignale zur Verbesserung der Zuverlässigkeit der empfangenen codierten Sprachsignale umfaßt.
  3. Verfahren nach Anspruch 1, weiterhin mit folgendem: Umwandeln der empfangenen codierten Sprachsignale in Tonsprachsignale, und Anschalten der Tonsprachsignale an ein Netz.
  4. Verfahren nach Anspruch 1, wobei die empfangenen codierten Sprachsignale eine Mehrzahl von codierten Sprachparametern umfassen und das Ableiten folgendes umfaßt: Auswählen einer Teilmenge der empfangenen codierten Sprachparameter, und Umwandeln der Teilmenge der empfangenen codierten Sprachparameter in die Mehrzahl von Spracherkennungs-Merkmalsvektoren.
  5. Verfahren nach Anspruch 4, wobei die empfangenen codierten Sprachparameter eine Mehrzahl codierter Sprachparameter der spektralen Hüllkurve für die Sprache umfassen und wobei das Auswählen einer Teilmenge der empfangenen codierten Sprachparameter das Auswählen einer Teilmenge der codierten Sprachparameter der spektralen Hüllkurve umfaßt.
  6. Verfahren nach Anspruch 5, wobei die Teilmenge der codierten Sprachparameter der spektralen Hüllkurve Parameter relativ hoher Zuverlässigkeit sind, da sie vor dem Empfang in relativ hohem Maß durch Fehlerschutzmittel geschützt worden sind.
  7. Verfahren nach Anspruch 5, wobei die Teilmenge codierter Sprachparameter der spektralen Hüllkurve eine Mehrzahl von Reflexionskoeffizienten umfaßt.
  8. Verfahren nach Anspruch 5, wobei die Teilmenge codierter Sprachparameter der spektralen Hüllkurve eine Mehrzahl von Spektrallinienpaaren (LSP – Line Spectral Pairs) umfaßt.
  9. Verfahren nach Anspruch 5, wobei die Teilmenge codierter Sprachparameter der spektralen Hüllkurve eine Mehrzahl von Spektrallinienfrequenzen (LSF – Line Spectral Frequencies) umfaßt.
  10. Verfahren nach Anspruch 5, wobei das Umwandeln weiterhin den Schritt des Erzeugens einer Menge von Parametern linearer Prädiktionscodierung (LPC) aus der Teilmenge codierter Sprachparameter der spektralen Hüllkurve umfaßt.
  11. Verfahren nach Anspruch 10, wobei das Umwandeln weiterhin den Schritt des Transformierens der Menge von LPC-Parametern in eine entsprechende Menge von LPC-Cepstrum-Koeffizienten umfaßt.
  12. Verfahren nach Anspruch 11, wobei das Umwandeln weiterhin folgende Schritte umfaßt: Gewichtung der Menge von LPC-Cepstrum-Koeffizienten zum Erzeugen einer Menge von gewichteten LPC-Cepstrum-Koeffizienten, und Ableiten der Menge von Spracherkennungs-Merkmalsvektoren aus den gewichteten LPC-Cepstrum-Koeffizienten.
  13. Verfahren nach Anspruch 1, wobei das Ableiten und Anlegen in einer Basisstation durchgeführt wird.
  14. Verfahren nach Anspruch 1, wobei die erste Menge von Signalen in einer Basisstation empfangen und zum Ableiten und Anlegen an eine zweite Stelle weitergeleitet werden.
  15. System zur automatischen Erkennung von als codierte Sprachsignale empfangener Sprache in einer ersten Menge von aus einem drahtlosen Übertragungskanal empfangenen Signalen mit Mitteln zur Ausführung jedes Schritts eines Verfahrens nach einem beliebigen der vorhergehenden Ansprüche.
  16. System zur automatischen Erkennung des Sprechers von als codierte Sprachsignale empfangener Sprache in einer ersten Menge von Signalen aus einem drahtlosen Übertragungskanal mit folgendem: Mitteln zum Ableiten einer Mehrzahl von Sprechererkennungs-Merkmalsvektoren direkt aus den empfangenen codierten Sprachsignalen getrennt von jeder Umwandlung der empfangenen codierten Sprachsignale in Tonsprachsignale, Mitteln zum Empfangen von Bezugs-Sprechererkennungs-Merkmalsvektoren für eine Mehrzahl von Sprechern und Mitteln zum Anlegen der Mehrzahl von Sprechererkennungs-Merkmalsvektoren und der Bezugs-Sprechererkennungs-Merkmalsvektoren an ein Sprechererkennungssystem.
  17. System nach Anspruch 16, wobei die ersten Signale in einer Basisstation empfangen werden und sich die Mittel zum Ableiten und Mittel zum Anlegen in der Basisstation befinden.
  18. System nach Anspruch 16, wobei die erste Menge von Signalen in einer Basisstation empfangen wird und das System weiterhin Mittel zum Weiterleiten der ersten Menge von Signalen an eine zweite Stelle zum Ableiten und Anlegen umfaßt.
DE69911723T 1998-11-30 1999-11-23 Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle Expired - Lifetime DE69911723T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/201,082 US6336090B1 (en) 1998-11-30 1998-11-30 Automatic speech/speaker recognition over digital wireless channels
US201082 1998-11-30

Publications (2)

Publication Number Publication Date
DE69911723D1 DE69911723D1 (de) 2003-11-06
DE69911723T2 true DE69911723T2 (de) 2004-08-12

Family

ID=22744423

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69911723T Expired - Lifetime DE69911723T2 (de) 1998-11-30 1999-11-23 Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle

Country Status (7)

Country Link
US (1) US6336090B1 (de)
EP (1) EP1006509B1 (de)
JP (2) JP2000187496A (de)
KR (1) KR100594670B1 (de)
AU (1) AU5958599A (de)
CA (1) CA2287025A1 (de)
DE (1) DE69911723T2 (de)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357231B (en) 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
DE60030702T2 (de) * 2000-06-30 2007-01-11 Alcatel Steuerung der Kapazität eines verteilten Spracherkennungssystems
US20020077814A1 (en) * 2000-12-18 2002-06-20 Harinath Garudadri Voice recognition system method and apparatus
USRE46109E1 (en) * 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US6587685B2 (en) * 2001-04-27 2003-07-01 Nokia Corporation Apparatus, and an associated method, by which to provide operation parameters to a mobile station
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
WO2003098946A1 (en) 2002-05-16 2003-11-27 Intellisist, Llc System and method for dynamically configuring wireless network geographic coverage or service levels
US8352248B2 (en) 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus
FR2853127A1 (fr) * 2003-03-25 2004-10-01 France Telecom Systeme de reconnaissance de parole distribuee
US7386443B1 (en) 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
US7881446B1 (en) 2004-09-03 2011-02-01 Confinement Telephony Technology, Llc Telephony system and method with enhanced validation
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
EP1860647B1 (de) * 2006-05-24 2009-12-23 Voice.Trust Ag Robuste Sprechererkennung
JP2009146263A (ja) * 2007-12-17 2009-07-02 Panasonic Corp 本人認証システム
CN103037117B (zh) * 2011-09-29 2016-08-03 中国电信股份有限公司 语音识别方法、系统和语音接入平台
CN103442119A (zh) * 2013-08-16 2013-12-11 上海闻泰电子科技有限公司 在通话过程中自动提取信息的系统及方法
US9672831B2 (en) 2015-02-25 2017-06-06 International Business Machines Corporation Quality of experience for communication sessions
US11138334B1 (en) 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4126882A1 (de) * 1991-08-14 1993-02-18 Philips Patentverwaltung Anordnung zur sprachuebertragung
JP3171973B2 (ja) * 1993-01-07 2001-06-04 株式会社東芝 音声符号化の誤り制御方法
JPH0713593A (ja) * 1993-06-22 1995-01-17 Hitachi Ltd 音声処理システム
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
WO1997007498A1 (fr) * 1995-08-11 1997-02-27 Fujitsu Limited Unite de traitement des signaux vocaux
JPH10145249A (ja) * 1996-11-12 1998-05-29 Kokusai Electric Co Ltd 音声復号方式
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder

Also Published As

Publication number Publication date
JP2006099124A (ja) 2006-04-13
KR20000062175A (ko) 2000-10-25
EP1006509A1 (de) 2000-06-07
KR100594670B1 (ko) 2006-07-03
US6336090B1 (en) 2002-01-01
AU5958599A (en) 2000-06-01
JP2000187496A (ja) 2000-07-04
DE69911723D1 (de) 2003-11-06
CA2287025A1 (en) 2000-05-30
EP1006509B1 (de) 2003-10-01

Similar Documents

Publication Publication Date Title
DE69911723T2 (de) Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE69827667T2 (de) Vokoder basierter spracherkenner
DE60012860T2 (de) Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE60011051T2 (de) Celp-transkodierung
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US8589166B2 (en) Speech content based packet loss concealment
DE69826446T2 (de) Stimmumwandlung
DE60120504T2 (de) Verfahren zur transcodierung von audiosignalen, netzwerkelement, drahtloses kommunikationsnetzwerk und kommunikationssystem
US5664058A (en) Method of training a speaker-dependent speech recognizer with automated supervision of training sufficiency
DE60127550T2 (de) Verfahren und system für adaptive verteilte spracherkennung
DE60200519T2 (de) Verfahren und Vorrichtung zur verteilten Spracherkennung
US7050969B2 (en) Distributed speech recognition with codec parameters
DE10004862B4 (de) Ein schnelles Suchverfahren für LSP-Quantisierung
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60030069T2 (de) Verschleierungsverfahren bei Verlust von Sprachrahmen
DE60115042T2 (de) Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit
DE60027140T2 (de) Sprachsynthetisierer auf der basis von sprachkodierung mit veränderlicher bit-rate
CN114220414A (zh) 语音合成方法以及相关装置、设备
DE4126882A1 (de) Anordnung zur sprachuebertragung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition