DE60122327T2

DE60122327T2 - Verfahren und vorrichtung zur abschwächung von übertragungsfehlern in einem verteilten spracherkennungsverfahren und system

Info

Publication number: DE60122327T2
Application number: DE60122327T
Authority: DE
Inventors: David John Benjamin Basingstoke Pearce
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC
Priority date: 2000-06-05
Filing date: 2001-06-05
Publication date: 2007-09-13
Anticipated expiration: 2021-06-06
Also published as: ZA200208371B; AU2001283839B2; GB2363236A; ATE336778T1; CA2407791C; US7243066B2; DE60122327D1; JP2003536108A; GB0013528D0; WO2001095311A1; EA004378B1; US20040039569A1; CN1437745A; EP1292942B1; CA2407791A1; ES2269443T3; JP5122716B2; AU8383901A; EP1292942A1; EA200201298A1

Description

Bereich der Erfindung
Die vorliegende Erfindung betrifft ein Verfahren zur Abschwächung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungssystem. Des Weiteren betrifft die vorliegende Erfindung eine Vorrichtung zur Abschwächung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungssystem. Die vorliegende Erfindung ist zur Abschwächung der Auswirkung von Übertragungsfehlern geeignet, die Spracherkennungsparameter beeinflussen, wenn sie über eine Funkkommunikationsleitung übertragen werden, aber sie ist nicht darauf beschränkt.
Hintergrund der Erfindung
Die Spracherkennung ist ein Verfahren zur automatischen Erkennung von Geräuschen, Wortteilen, Wörtern oder Sprachwendungen. Ein solches Verfahren kann als eine Schnittstelle zwischen Mensch und Maschine verwendet werden, zusätzlich zu oder anstelle der Verwendung von gebräuchlicheren Vorrichtungen, wie Switches, Tastaturen, einer Maus und dergleichen. Ein Spracherkennungsverfahren kann des Weiteren verwendet werden, um Infor mationen automatisch von einer gesprochenen Kommunikation oder Nachricht abzurufen.
Zur Bereitstellung einer automatischen Spracherkennung wurden zahlreiche Verfahren entwickelt und werden immer noch verbessert. Einige Verfahren basieren auf erweitertem Wissen mit entsprechenden heuristischen Strategien, andere verwenden statistische Modelle.
Bei üblichen Spracherkennungsverfahren wird die zu bearbeitende Sprache im Verlauf eines Abtast-Zeitrahmens eine Anzahl von Malen abgetastet. Bei einem üblichen Verfahren kann die Sprache mit einer Geschwindigkeit im Bereich von 8 bis 20 KHz abgetastet werden, und es können in der Größenordnung von 50 bis 100 Abtastrahmen pro Sekunde vorhanden sein. Die Abtastwerte werden unter Verwendung von Algorithmen verarbeitet, um Spracherkennungsparameter bereizustellen. Beispielsweise weist eine Art von Spracherkennungsparameter einen Koeffizienten auf, der als ein mel-Cepstralkoeffizient bekannt ist. Solche Spracherkennungsparameter sind in Form von Vektoren, auch als Arrays bekannt, angeordnet, die als Gruppen oder Sätze von Parametern, die in einer gewissen Reihenfolge angeordnet sind, betrachtet werden können. Der Abtastvorgang wird für weitere Abtast-Zeitrahmen wiederholt. Es ist ein typisches Format, dass für jeden Abtast-Zeitrahmen ein Vektor erzeugt wird.
Die oben erwähnte Parametrisierung und die Anordnung in Vektoren bildet das, was als Front-End-Betrieb eines Spracherkennungsverfahrens bezeichnet werden kann. Die oben beschriebenen, in Vektoren angeordneten Spracherkennungsparameter werden dann gemäß Spracherkennungstechniken in etwas analysiert, was als der Back-End-Betrieb des Spracherkennungsverfahrens bezeichnet werden kann. Bei einem Spracherkennungsverfahren, in dem der Front-End-Prozess und der Back-End-Prozess an der gleichen Stelle oder in der gleichen Vorrichtung ausgeführt werden, ist die Wahrscheinlichkeit minimal, dass Fehler bei der Übertragung von Front-End zu Back-End in die Spracherkennungsparameter eingebracht werden.
In einem Verfahren, das als ein verteiltes Spracherkennungsverfahren bekannt ist, wird der Front-End-Abschnitt des Spracherkennungsverfahrens jedoch entfernt von dem Back-End-Abschnitt durchgeführt. An einem ersten Ort wird die Sprache abgetastet, parametrisiert und die Spracherkennungsparameter werden in Vektoren angeordnet. Die Spracherkennungsparameter werden quantisiert und dann, beispielsweise über eine Kommunikationsleitung eines hergestellten Kommunikationssystems, an einen zweiten Ort übertragen. Bei dem ersten Ort wird es sich oft um einen entfernten Anschluss und bei dem zweiten Ort um eine zentrale Verarbeitungsstation handeln. Die empfangenen Spracherkennungsparameter werden dann an dem zweiten Ort gemäß Spracherkennungstechniken analysiert.
Es können viele Arten von Kommunikationsleitungen in vielen Arten von Kommunikationssystemen zur Verwendung in einem verteilten Spracherkennungsverfahren in Betracht gezogen werden. Ein Beispiel ist ein herkömmliches drahtgebundenes Kommunikationssystem, beispielsweise ein öffentliches Telefonnetz. Ein weiteres Beispiel ist ein Funkkommunikationssystem, beispielsweise TETRA. Noch ein weiteres Beispiel ist ein mobiles Funkkommunikationssystem. Ein Beispiel für ein geeignetes mobiles Kommunikationssystem ist ein GSM-System, ein weiteres Beispiel sind Systeme wie das UMTS (Universal Mobile Telecommunications System), die gegenwärtig standardisiert werden.
Die Verwendung von jeder beliebigen Kommunikationsleitung in jedem beliebigen Kommunikationssystem hat die Möglichkeit zur Folge, dass Fehler in die Spracherkennungsparameter eingeführt werden, während diese über die Kommunikationsleitung von dem ersten Ort an den zweiten Ort übertragen werden.
Es ist bekannt, dass Fehlererfassungstechniken in Kommunikationssystemen bereitgestellt werden, so dass das Vorhandensein eines Fehlers in einem vorgegebenen Teil übertragener Informationen erfasst werden kann. Ein gut bekanntes Verfahren ist die zyklische Redundanzcodierung.
Bei Erfassung eines Fehlers werden unterschiedliche Abschwächungstechniken verwendet, um die Auswirkung von Fehlern gemäß der Beschaffenheit der übertragenen Informationen zu verringern. Techniken zur Verringerung der Auswirkungen von Fehlern, die während der Übertragung von anderen Arten von Informationen auftreten, sind nicht unbedingt zur Verringerung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsverfahren geeignet. Der Grund hierfür sind die spezialisierten Spracherkennungstechniken, denen die Parameter ausgesetzt sind, und somit ist es wünschenswert, Vorrichtungen zur Abschwächung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsverfahren bereitzustellen.
Die veröffentlichte Britische Patentanmeldung GB-A-2343777 des Standes der Technik betrifft die Abschwächung von Fehlern in einem verteilten Spracherkennungssystem. Das Verfahren identifiziert eine Gruppe, die aus einem oder mehreren Vektoren besteht, welche einem Übertragungsfehler ausgesetzt waren. In einer Ausführungsform werden ganze Vektoren durch eine Kopie des vorangehenden oder nachfolgenden fehlerfreien Vektors ausgetauscht, der an nächster Stelle in der Empfangsreihenfolge des auszutauschenden Vektors ist.
Zusammenfassung der Erfindung
Die vorliegende Erfindung stellt eine Vorrichtung zur Verringerung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsverfahren bereit. Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zur Abschwächung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungssystem bereitgestellt, wie in Anspruch 8 beansprucht ist.
In manchen Ausführungsformen werden die an den Back-End-Decodierer zu sendenden Daten verarbeitet, indem mindestens ein Spracherkennungsparameter ausgetauscht wird, bei dem identifiziert wurde, dass es einem Fehler mit ausgewählten Daten ausgesetzt wurde, damit er von dem Spracherkennungsdecodierer als abnormal zurückgewiesen wird. Solche Ausführungsformen stellen Vorrichtungen zur Abschwächung der Auswirkung von Übertragungsfehlern bereit, die auf dem Betrieb des Spracherkennungs-Back-End-Decodierers basieren, während der Bedarf nach einer Veränderung des Back-End-Codes vermieden wird. Es ist ein alternatives Verfahren zur Verringerung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsverfahren, Fehler in den empfangenen Parametern zu erfassen, und dem Spracherkennungs-Back-End-Decodierer zu signalisieren, wenn ein Fehler erfasst wird. Es wäre jedoch eine Anpassung des Back-Ends nötig, damit dieser auf solche Signale reagiert. In der Praxis würde dies eine Notwendigkeit der Veränderung des Back-End-Codes zur Folge haben.
Weitere Aspekte der Erfindung sind wie in den abhängigen Ansprüchen beansprucht wurde.
Die Erfindung schwächt die Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsverfahren ab. Zusätzliche spezifische Vorteile sind aus der nachfolgenden Beschreibung und den Zeichnungen ersichtlich.
Kurzbeschreibung der Zeichnungen
1 ist eine schematische Darstellung einer Vorrichtung zur verteilten Spracherkennung gemäß der Erfindung;
2 ist eine schematische Darstellung von Spracherkennungsparametern, die gemäß in einem verteilten Spracherkennungsverfahren verwendeten Abtast-Zeitrahmen, in Vektoren angeordnet sind; und
3 ist ein Prozessablaufdiagramm einer Ausführungsform der vorliegenden Erfindung.
Beschreibung von Ausführungsformen der Erfindung
1 stellt auf schematische Weise eine Vorrichtung zur verteilten Spracherkennung zur Verwendung in einer Ausführungsform der vorliegenden Erfindung dar. Die Vorrichtung umfasst im Wesentlichen Front-End-Vearbeitungsvorrichtungen 1 zur Erzeugung von Spracherkennungsparametern auf der Basis eines abgetasteten Sprachsignals, wie nachfolgend mit besonderem Bezug auf 2 ausführlicher beschrieben wird. Ein Ausgang der Front-End-Verarbeitungsvorrichtung 1 ist mit einer Übertragungsvorrichtung verbunden, die so angeordnet ist, dass sie basierend auf den Spracherkennungsparametern arbeitet und die Parameter zusammen mit anderen notwendigen Informationen über eine Kommunikationsleitung an einen entfernten Ort überträgt. Wie in der Einleitung der Anmeldung erwähnt wurde, können viele Arten von Kommunikationsleitungen verwendet werden, wobei jedoch insbesondere vorgesehen ist, dass die vorliegende Erfindung in mobilen Kommunikationssystemen verwendet wird.
An dem entfernten Ort werden die über das Kommunikationsnetz übertragenen Signale von einer Empfangsvorrichtung 3 empfangen, die so angeordnet ist, dass sie die übertragenen Daten an eine Vorrichtung 4 zur Erfassung von Übertragungsfehlern weiterleitet, wobei diese Vorrichtung so angeordnet ist, dass sie jegliche Spracherkennungsparameter identifiziert, die bei ihrem Durchlauf durch das Kommunikationsnetz Übertragungsfehlern ausgesetzt waren. Die Vorrichtung 4 zur Erfassung von Übertragungsfehlern ist mit der Datenverarbeitungsvorrichtung 5 verbunden, die wiederum so angeordnet ist, dass sie die Daten austauscht, die einen Bezug zu jeglichen Spracherkennungsparametern haben, bei denen identifiziert wurde, dass sie einem Übertragungsfehler ausgesetzt waren. Die Datenverarbeitungsvorrichtung 5 ist mit der Back-End-Verarbeitungsvorrichtung 6 verbunden, die einen Decodierer einschließt, der basierend auf den empfangenen Spracherkennungsparametern arbeitet, um das verteilte Spracherkennungsverfahren abzuschließen.
Nachfolgend wird das verteilte Spracherkennungsverfahren detaillierter erläutert.
In einem verteilten Spracherkennungsverfahren, das auf eine Ausführungsform der Erfindung angewandt wird, sind die Spracherkennungsparameter in Vektoren angeordnet, die den in 2 schematisch dargestellten Abtast-Zeitrahmen entsprechen.
In 2 ist ein Teil eines zu verarbeitenden Sprachsignals 110 dargestellt. Ein Sprachsignal 110 ist in sehr vereinfachter Form dargestellt, da es in der Praxis aus einer weit komplizierteren Sequenz von Abtastwerten besteht.
Abtast-Zeitrahmen, von denen in 2 ein erster Abtast-Zeitrahmen 121, ein zweiter Abtast-Zeitrahmen 122, ein dritter Abtast-Zeitrahmen 123 und ein vierter Abtast-Zeitrahmen 124 dargestellt sind, werden auf das in 2 dargestellte Sprachsignal angewandt. In der nachfolgend beschriebenen Ausführungsform gibt es 100 Abtast-Zeitrahmen pro Sekunde. Das Sprachsignal wird im Verlauf jedes Abtast-Zeitrahmens wiederholt abgetastet.
In der nachfolgend beschriebenen Ausführungsform ist das Spracherkennungsverfahren ein Verfahren, bei dem eine Gesamtzahl von vierzehn Spracherkennungsparametern verwendet wird. Die ersten zwölf dieser Parameter sind die ersten zwölf mel-Cepstralkoeffizienten, d.h. c(m)=[c1(m), c2(m), ..., c12(m)]T,wobei m die Anzahl der Abtast-Zeitrahmen bezeichnet. Der dreizehnte verwendete Spracherkennungsparameter ist der nullte Cepstralkoeffizient, d.h. c₀(m). Der vierzehnte verwendete Spracherkennungsparameter ist eine logarithmische Energiegröße, d.h. log[E(m)]. Einzelheiten dieser Koeffizienten und deren Verwen dung in Spracherkennungsverfahren sind in der Technik-gut bekannt und benötigen hier somit keine weitere Erklärung. Des Weiteren sollte erwähnt werden, dass die Erfindung mit anderen Kombinationen von Cepstralkoeffizienten, welche die Spracherkennungsparameter bilden, sowie mit einer anderen Auswahl oder einem anderen Schema von Spracherkennungsparametern anstelle von Cepstralkoeffizienten ausgeführt werden kann.
Wie in 2 dargestellt, werden die vierzehn Parameter für jeden Abtast-Zeitrahmen in einen entsprechenden Vektor, auch als Array bekannt, angeordnet oder formatiert. Der Vektor 131 entspricht dem Abtast-Zeitrahmen 121, der Vektor 132 entspricht dem Abtast-Zeitrahmen 122, der Vektor 133 entspricht dem Abtast-Zeitrahmen 123 und der Vektor 134 entspricht dem Abtast-Zeitrahmen 124. Ein solcher Vektor kann grundsätzlich als
dargestellt werden.
Die Spracherkennungsparameter werden vor der Übertragung von einem ersten Ort an einen zweiten Ort verarbeitet. In der nachfolgend beschriebenen Ausführungsform wird dies wie folgt ausgeführt. Die Parameter von Vektor 131 werden quantisiert. Dies wird durch die direkte Quantisierung des Vektors mit einem Split-Vektor-Quantisierer ausgeführt. Die Koeffizienten werden in Paare zusammengefasst, und jedes Paar wird unter Verwendung eines Vektorquantisierungs-(VQ)-Codebuchs, das für dieses jeweilige Paar vorbestimmt ist, quantisiert. Der resultierende Satz von Indexwerten wird dann verwendet, um den Sprachrahmen darzustellen. Die Koeffizientenpaarung durch Front-End-Parameter ist zusammen mit der für jedes Paar verwendeten Codebuchgröße in Tabelle 1 dargestellt. TABELLE 1
Der naheliegendste VQ-Schwerpunkt wird unter Verwendung einer gewichteten Euklidischen Distanz. gefunden, um den Index
zu bestimmen, wobei q_j ^i,i+1 den j-ten Codevektor in dem Codebuch Q^i,i+1 bezeichnet, N^i,i+1 die Größe des Codebooks ist, W^i,i+1 die (mögliche Identitäts-)Wichtungssmatrix ist, die für das Codebuch Q^i,i+1 angewandt wird, und idx^i,i+1(m) den Codebuchindex darstellt, der ausgewählt wurde, um den Vektor [y_i(m), Y_i+1(m)]^T darzustellen.
Die erzeugten Indizes werden dann in der Form von 44 Bits dargestellt. Diese 44 Bits werden in den ersten 44 Schlitzen eines Bitstromrahmens 150 platziert, wie es in 2 durch die Bezugszahl 141 angezeigt ist. Die entsprechenden 44 Bits, die für den folgenden Vektor, nämlich Vektor 132, erzeugt wurden, werden in die nächsten 44 Schlitze des Bitstromrahmens 150 platziert, wie es in 2 durch die Bezugszahl 142 angezeigt ist. Die restlichen Bits des Bitstromrahmens 150 bestehen aus 4 Bits eines zyklischen Redundanzcodes, wie durch die Bezugszahl 146 in 2 dargestellt ist, wobei der Wert der Bits so bestimmt wird, dass eine Fehlererfassung in bekannter Weise für alle der 88 vorangehenden Bits des Bitstromrahmens 150 bereitgestellt wird. Auf ähnliche Weise werden die 44 Bits, die vom Vektor 133 bereitgestellt werden, in den ersten 44 Schlitzen eines zweiten Bitstromrahmens 155 platziert, wie es in 2 durch die Bezugszahl 143 angezeigt ist. Des Weiteren werden die entsprechenden 44 Bits, die für den anschließenden Vektor, nämlich Vektor 134, erzeugt werden, in den nächsten 44 Schlitzen des Bitstromrahmens 155 platziert-, wie es in 2 durch die Bezugszahl 144 angezeigt ist. Die restlichen Bits des Bitstromrahmens 155 bestehen aus 4 Bits eines zyklischen Redundanzcodes, wie es in 2 durch die Bezugszahl 148 angezeigt ist. Diese Anordnung wird für die anschließenden Vektoren wiederholt. Das oben beschriebene Format der Bitstromrahmen, in denen Bitdaten von zwei Vektoren in einem einzelnen kombinierten Bitstromrahmen angeordnet sind, ist lediglich beispielhaft. Beispielsweise könnten die Daten von jedem Vektor stattdessen in einem einzelnen Bitstromrahmen angeordnet werden, der seine eigenen Fehlererfassungsbits aufweist. Auf ähnliche weise ist die Anzahl der Schlitze pro Bitstrom lediglich beispielhaft. Es sollte auch erwähnt werden, dass die oben beschriebene Technik zur Vektorkomprimierung lediglich beispielhäft ist.
Um jegliche Verwirrung zu vermeiden, wird darauf hingewiesen, dass die oben beschriebenen Bitstromrahmen nicht mit Übertragungsrahmen verwechselt werden sollten, welche dann bei der Übertragung der Bitstromdaten über die Kommunikationsleitung des Kommunikationssystems verwendet werden, in welchem die Daten von einem ersten Ort an einen zweiten Ort übertragen werden, beispielsweise die TDMA-Zeitrahmen eines mobilen GSM-Funkkommunikationssystems, bei dem es sich um das in den hier beschriebenen Ausführungsformen verwendete Kommunikationssystem handelt. In dem vorliegenden Beispiel besteht der erste Ort aus einer entfernten Benutzerstation, und der zweite, d.h. ein Empfangsort aus einer zentralisierten Verarbeitungsstation, die beispiels weise bei einer Basisstation des mobilen Kommunikationssystems vorhanden sein kann. Somit werden in den hierbei beschriebenen Ausführungsformen die Spracherkennungsparameter über eine Funkkommunikationsleitung zwischen dem ersten und dem zweiten Ort übertragen. Man weiß es jedoch zu schätzen, dass die Beschaffenheit des ersten Orts und des zweiten Orts von der Art des in Betrache gezogenen Kommunikationssystems und der Anordnung des verteilten Spracherkennungsverfahrens abhängen werden.
Die Bitstromrahmen werden bei dem zweiten Ort aus ihrem Übertragungsformat wiederhergestellt, nachdem sie dort empfangen wurden.
Somit wurde vorangehend ein verteiltes Spracherkennungsverfahren beschrieben, in dem Spracherkennungsparameter in Vektoren angeordnet sind, die Abtast-Zeitrahmen entsprechen, und in dem die Spracherkennungsparameter bei einem zweiten Ort empfangen werden, nachdem sie von einem ersten Ort übertragen wurden. In dem Prozessablaufdiagramm 200 von 3 ist ein Verfahren zur Verringerung der Auswirkung, von Übertragungsfehlern in einem solchen Spracherkennungsverfahren gemäß der vorliegenden Erfindung dargestellt. Mit Bezug auf 3 stellt der Block 210 den Schritt der Identifizierung einer Gruppe dar, die einen oder mehrere der Vektoren aufweist, die einem Übertragungsfehler ausgesetzt waren. In der vorliegenden Ausführungsform wird die Fehlererfassung durchgeführt, indem ein Vergleich der vier zyklischen Redundanzcodierungsbits 146, 148 mit den Inhalten der entsprechenden Bitstromrahmen 150, 155 unter Verwendung bekannter zyklischer Redundanzcodierungsverfahren durchgeführt wird. In dem vorliegenden Beispiel wird dies jeden beliebigen einzelnen Bitstromrahmen identifizieren, der einem Übertragungsfehler ausgesetzt war. Somit besteht in dem vorliegenden Beispiel die identifizierte Gruppe von Vektoren aus zwei Vektoren, bei denen es sich um das Paar von Vektoren des einzelnen Bitstromrahmens handelt. Wenn in einem anderen Beispiel jeder Bitstromrahmen mit Fehlererfassungsvorrichtungen nur einen Vektor enthalten würde, dann wäre die identifizierte Gruppe von Vektoren ein einzelner Vektor. Man weiß es zu schätzen, dass die exakte Form und die technische Grundlage, mit denen bestimmt wird, wieviele Vektoren in einer solchen identifizierten Gruppe vorhanden sind, von den unterschiedlichen Möglichkeiten abhängen, in denen die Vektoren in Bitströmen angeordnet wurden, und darüber hinaus davon, wie ein Verfahren zur Fehlererfassung zudem verwendet wurde: Insbesondere können andere Fehlererfassungsverfahren als die in der vorliegenden Ausführungsform verwendete zyklische Redundanzcodierung andere Anzahlen von Vektoren in einer identifizierten Gruppe bereitstellen. Für jede beliebige Bitstromanordnung können ergänzende Konstruktionsmöglichkeiten, wie die Fehlerinformationen verarbeitet werden sollen, bei der Bestimmung der Anzahl von Vektoren in einer identifizierten Gruppe ebenfalls eine Rolle spielen. Mit Bezug auf die vorliegende Ausführungsform könnte beispielsweise aus Gründen der Einsparung von Verarbeitungsleistung bestimmt werden, dass nur in Betracht gezogen wird, ob eine Serie von Bitstromrahmen sogar dann einen Fehler aufweisen, wenn die Fehlererfassungsvorrichtungen physikalisch in der Lage waren, den Fehler enger zu erfassen.
Die Spracherkennungsparameter werden von den Bitstromrahmen abgerufen, indem eine umgekehrte Version des oben beschriebenen Vektorquantisierungsvorgangs durchgeführt wird. Genauer gesagt werden Indizes aus dem Bitstrom extrahiert, und unter Verwendung dieser Indizes werden Vektoren in der Form
wiederhergestellt.
Der Block 220 stellt den nächsten Schritt der vorliegenden Ausführungsform dar, nämlich den Schritt des Ersetzens von einem oder mehreren Spracherkennungsparametern in der identifizierten Gruppe von Vektoren durch abnormale Daten, wie nachfolgend ausführlicher beschrieben wird. In der vorliegenden Ausführungsform wird die Reihenfolge der verschiedenen Verarbeitungsschritte so ausgeführt, dass alle der empfangenen Spracherkennungsparameter von den Bitstromrahmen abgerufen werden und kurzzeitig gespeichert werden, bevor ein oder mehrere Spracherkennungsparameter durch abnormale Daten ersetzt werden. Es sollte jedoch erwähnt werden, dass ein oder mehrere Spracherkennungsparameter alternativ ersetzt werden könnten, indem die Bitstrominformation in entsprechender Art und weise verändert wird, bevor die Spracherkennungsparameter, einschließlich den neu eingeführten Austauschparametern, tatsächlich physikalisch von dem Bitstromformat abgerufen werden.
Wie Fachleuten in der Technikgut bekannt ist, sind Spracherkennungsdecodierer, die zur Durchführung der Back-End-Verarbeitung verwendet werden, üblicherweise so angeordnet, dass bei Empfang eines Vektors von Spracherkennungsparametern, die einem Abtast-Zeitrahmen entsprechen, und wenn dies bei einem Vergleich dieses Rahmens mit den Wortmustern des Decodierers zu ungewöhnlich hohen Kosten führt, dieser Rahmen (d.h. der Vektor der Parameter) von dem Decodierer zurückgewiesen wird. Für gewöhnlich wird der Spracherkennungsdecodierer die in Zusammenhang mit diesem Rahmen stehende Auswertung oder Wahrscheinlichkeit durch einen Standardwert ersetzen. Herkömmliche Back-End-Spracherkennungsdecodierer werden im Allgemeinen mit dieser Fähigkeit ausgestattet, Rahmen zurückzuweisen, um Rahmen zu bewältigen, die durch ein plötzlich auftretendes Rauschen stark deformiert sind. In der vorliegenden Erfindung wird diese Fähigkeit von Back-End-Spracherkennungsdecodierern, abnormale Rahmen oder nicht-sprachähnliche Rahmen zurückzuweisen, zur Abschwächung der Auswirkung von Übertragungsfehlern verwendet. Somit hat dieses System den Vorteil, dass es überflüssig wird, den Back-End-Spracherkennungsdecodierer anzupassen, damit er Übertragungsfehler bewältigen kann, wodurch der Bedarf nach einer Veränderung des Back-End-Codes vermieden wird. Gleichzeitig wird die Möglichkeit der nachteiligen Beeinflussung des Spracherkennungsverfahrens unter Verwendung einer aktiveren Fehlerkorrekturtechnik vermieden.
Sobald in der vorliegenden Ausführungsform, wie oben erwähnt, identifiziert wurde, dass ein Bitstromrahmen 150, 155 einem Übertragungsfehler ausgesetzt war, ist es bekannt, dass ein oder mehrere der Spracherkennungsparameter in einem der beiden entsprechenden Vektoren 131, 132; 133, 134 einem Übertragungsfehler ausgesetzt waren. In der vorliegenden Ausführungsform werden alle Sprachparameter in der identifizierten Gruppe zweier Vektoren durch einen Satz im Voraus berechneter Werte ausgetauscht, wobei die Werte so ausgewählt wurden, dass sie weit entfernt von den Werten sind, die in natürlicher Sprache auftauchen würden, und somit von dem Back-End-Decodierer als abnormal zurückgewiesen werden würden. Somit wird der Back-End-Decodierer wie oben beschrieben einen Standardwert austauschen, und folglich wird die Möglichkeit, dass die fehlerhaften Daten das Spracherkennungsverfahren beeinflussen, vermieden.
In dem oben beschriebenen Vektorquantisierungsverfahren arbeiten die Vektorquantisierer basierend auf cepstralen Parameterpaaren. Dieses Verfahren arbeitet so, dass jeder Vektorquantisierer den Bereich möglicher Werte, die für das entsprechende Paar cepstraler Parameter während des oben erwähnten Vektorwiederherstellungsverfahrens decodiert werden können, beschränkt. In der vorliegenden Ausführungsform wird diese Tatsache verwendet, um die abnormalen Daten auszuwählen. Es werden alternative werte für jeden cepstralen Parameter bestimmt, die außerhalb des zugelassenen Bereichs liegen, und die weiter als eine gewisse Schwellenwertdistanz entfernt von allen Quantisiererschwerpunkten liegen. Dies gewährleistet wiederum, dass bei Empfang eines Rahmens, d.h. eines Vektors von Parametern, einschließlich dieser alternativ im Voraus berechneter Werte, der Back-End-Decodierer sehr hohe Kosten erkennen wird und diesen Rahmen aufgrund des oben erwähnten Standardwerts zurückweisen wird.
In der vorliegenden Ausführungsform umfasst jeder Bitstromrahmen 150, 155 zwei Vektoren und die Fehlererfassungstechnik funktioniert so, dass ein erfasster Übertragungsfehler beiden Vektoren zugeordnet wird. Somit werden die berechneten alternativen Werte für die cepstralen Parameter in beiden Vektoren ersetzt, wenn festgestellt wird, dass der Bitstromrahmen 150, 155 einem Übertragungsfehler ausgesetzt war. Wie oben erwähnt, kann es bei Verwendung unterschiedlicher Fehlererfassungstechniken jedoch auch nur notwendig sein, die cepstralen Parameter in einem Vektor zu ersetzen, oder es kann notwendig sein, die Parameter in einer größeren Anzahl von Vektoren zu ersetzen.
Im Fall der oben beschriebenen Ausführungsform werden die beschriebenen Datenverarbeitungsschritte von einer programmierbaren Vorrichtung zur Verarbeitung von digitalen Signalen, beispielsweise eine Vorrichtung, die aus der DSP56xxx (Markenzeichen)-Familie von Motorola ausgewählt wird, ausgeführt. Alternativ kann eine anwendungsspezifische integrierte Schaltung (ASIC) verwendet werden. Es gibt auch andere Möglichkeiten. Beispielsweise kann eine Schnittstelleneinheit verwendet werden, die eine Schnittstelle zwischen einem Funkempfänger und einem Computersystem, das einen Teil des Back-End-Spracherkennungsprozessors ausmacht, bildet.

Claims

Verfahren zur Abschwächung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsprozess, wobei der verteilte Spracherkennungsprozess von der Art ist, in welchem Spracherkennungs-Parameter in Vektoren, welche Abtast-Zeitrahmen an einer ersten Position entsprechen, angeordnet sind, und an einer zweiten Position empfangen werden, um von einem Spracherkennungs-Decoder, der von der ersten Position übermittelt wurde, im Hintergrund oder backend verarbeitet zu werden, wobei das Verfahren durch die folgenden Schritte gekennzeichnet ist: Identifizieren einer Gruppe, welche einen oder mehrere der Vektoren aufweist, bei denen ein Übertragungsfehler aufgetreten ist; und Verarbeiten von Daten, welche an den Spracherkennungs-Decoder gesendet werden sollen, um sicherzustellen, dass mindestens ein Spracherkennungs-Parameter der identifizierten Gruppe von der Hintergrund- oder Backendverarbeitung durch den Spracherkennungs-Decoder ausgeschlossen ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass alle Spracherkennungsparameter eines jeden Vektors der Gruppe von der Hintergrund- oder Backendverarbeitung ausgeschlossen sind.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Schritt der Verarbeitung von Daten, welche an den Spracherkennungs-Decoder gesendet werden sollen, den Schritt des Ersetzens des mindestens einen Spracherkennungs-Parameter durch Daten aufweist, die so gewählt sind, dass sie von dem Spracher kennungs-Decoder als abnormal abgelehnt oder zurückgewiesen werden.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die ausgewählten Daten einen oder mehrere Spracherkennungs-Parameter mit einem Wert aufweisen, der sich von jedem anderen beliebigen in der natürlichen Sprache auftretenden Wert wesentlich unterscheidet.
Verfahren nach Anspruch 3 oder 4, bei welchem die Spracherkennungs-Parameter vor der Übertragung einer Quantisierung und nach der Übertragung einer Wiederherstellung unterzogen werden, dadurch gekennzeichnet, dass die Quantisierung einen Bereich möglicher Werte begrenzt, welche die Parameter nach Wiederherstellung annehmen oder aufweisen können, und dass die ausgewählten Daten einen oder mehrere Werte außerhalb des Bereichs aufweisen.
Verfahren nach Anspruch 5, welches die folgenden Schritte aufweist: Verwendung eines aufgeteilten oder Split-Vektorquantisierungsverfahrens, in welchem jede Quantisierungseinrichtung bei einem Paar von Spracherkennungs-Parametern arbeitet; und Auswahl, dass die gewählten Daten einen oder mehrere Vektoren aufweisen, welche von jedem Quantisierungseinrichtungs-Flächenschwerpunkt um mindestens einen vorbestimmten Betrag versetzt sind.
Verfahren nach einem der Ansprüche 3 bis 6, bei welchem die Hintergrund- oder Backendverarbeitung den Schritt des Ersetzens einer Voreinstellung durch das bei der Verarbeitung der ausgewählten abnormalen Daten erzeugten Ergebnisses aufweist.
Vorrichtung zur Abschwächung der Auswirkung von Übertragungsfehlern in einem verteilten Spracherkennungsprozess, wobei der verteilte Spracherkennungsprozess von der Art ist, in welchem Spracherkennungs-Parameter in Vektoren, welche Abtast-Zeitrahmen an einer ersten Position entsprechen, angeordnet sind, und an einer zweiten Position empfangen werden, um von einem Spracherkennungs-Decoder, der von der ersten Position übermittelt wurde, im Hintergrund oder backend verarbeitet zu werden, wobei die Vorrichtung durch Folgendes gekennzeichnet ist: eine Identifiziervorrichtung zur Identifizierung einer Gruppe, welche einen oder mehrere der Vektoren aufweist, bei denen ein Übertragungsfehler aufgetreten ist; und eine Datenverarbeitungsvorrichtung zur Verarbeitung von Daten, welche an den Spracherkennungs-Decoder gesendet werden sollen, um sicherzustellen, dass mindestens ein Spracherkennungs-Parameter der identifizierten Gruppe von der Hintergrund- oder Backendverarbeitung durch den Spracherkennungs-Decoder ausgeschlossen ist.
Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass die Verarbeitungsvorrichtung derart angeordnet ist, dass sie alle Spracherkennungs-Parameter eines jeden Vektors der Gruppe von der Hintergrund- oder Backendverarbeitung ausschließt.
Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass die Verarbeitungsvorrichtung derart angeordnet ist, dass sie den mindestens einen Spracherkennungs-Parameter durch Daten ersetzt, die so ausgewählt werden, dass sie von dem Spracherkennungs-Decoder als abnormal zurückgewiesen werden.
Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, dass die ausgewählten Daten einen oder mehrere Spracherkennungs-Parameter mit einem Wert aufweisen, der sich wesentlich von jedem beliebigen in natürlicher Sprache auftretenden Wert unterscheidet.
Vorrichtung nach Anspruch 10 oder 11, welche eine Einrichtung zur Quantisierung der Spracherkennungs-Parameter vor der Übertragung und eine Einrichtung zur Wiederherstellung der Parameter nach der Übertragung aufweist, dadurch gekennzeichnet, dass die Quantisierung einen Bereich möglicher Werte, welche die Parameter nach der Wiederherstellung annehmen oder aufweisen können, begrenzt, und die ausgewählten Daten einen oder mehrere Werte außerhalb des Bereichs aufweisen.
Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass die Quantisierungseinrichtung derart angeordnet ist, dass sie eine aufgeteilte oder Split-Vektorquantisierung durchführt, bei der jede Quantisierungseinrichtung bei einem Paar von Spracherkennungs-Parametern arbeitet und die ausgewählten Daten einen oder mehrere Werte aufweisen, die mindestens um einen vorbestimmten Betrag von jedem Quantisierungsvorrichtungs-Flächenschwerpunkt versetzt sind.
Vorrichtung nach einem der Ansprüche 8 bis 13, dadurch gekennzeichnet, dass der Hintergrund- oder Backenddecoder eine Vorrichtung zum Ersetzen einer Voreinstellung durch ein Ergebnis, das bei der Verarbeitung der ausgewählten abnormalen Daten erzeugt wurde, aufweist.