DE102006062774B4

DE102006062774B4 - Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen

Info

Publication number: DE102006062774B4
Application number: DE102006062774A
Authority: DE
Inventors: Norbert Metz; Johann Steger; Thomas Hauser; Martin Krüger
Original assignee: Infineon Technologies AG
Current assignee: Intel Deutschland GmbH
Priority date: 2006-02-09
Filing date: 2006-02-09
Publication date: 2008-08-28
Anticipated expiration: 2026-02-10
Also published as: US20070192096A1; DE102006006066A1; DE102006006066B4; US8065137B2

Abstract

Die Erfindung betrifft eine Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, wobei ein Audio-Signalrahmen an einer vorbestimmten Position eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten enthält, mit einem Auswahlmittel (105) zum Auswählen einer Folge von Bits, die an der vorbestimmten Position in dem empfangenen Signalrahmen angeordnet ist und einem Entscheidungsmittel (103), das den empfangenen Signalrahmen als einen Audio-Signalrahmen kennzeichnet, falls die Folge von Bits die Seiteninformation darstellt.

Description

Die vorliegende Erfindung bezieht sich auf digitale Signalverarbeitung und insbesondere auf die Detektion von Audiodaten in einem empfangenen Signalrahmen.
In Nachrichten-Übertragungssystemen, beispielsweise in einem im Folgenden exemplarisch betrachteten GSM-System, wird bei einer Sprachverbindung während einer Sprachpause kein Funksignal vom Sender zum Empfänger gesendet. Dieses Verfahren wird als Discontinuous Transmission (DTX) bezeichnet und wird sowohl in Uplink-Richtung (von der Mobilstation zur Basisstation) als auch in Downlink-Richtung (von der Basisstation zur Mobilstation) eingesetzt. Die Vorteile des DTX-Verfahrens sind die auf der Sendeseite reduzierte Stromaufnahme und der im gesamten Funknetzwerk reduzierte Interferenz-Pegel.
Bei aktivierter DTX-Funktionalität wird während einer Sprachpause kein Signal vom Sender zum Empfänger gesendet, sodass auf der Empfangsseite nur Rauschen empfangen wird. Der Empfänger versucht dabei kontinuierlich, z. B. ein gültiges GSM-Signal zu empfangen. Wenn der Empfänger ein gültiges GSM-Signal empfängt, gibt er dieses an einen Sprachdecoder weiter. Wenn der Empfänger jedoch kein gültiges GSM-Signal empfängt, so wird angenommen, dass das Sendesignal aufgrund einer senderseitigen Sprachpause abgeschaltet worden ist. Dann gibt der Empfänger an den Sprachdecoder einen Comfort Noise Block weiter, um am Ausgang des Sprachdecoders ein künstliches Hintergrundrauschen zu erzeugen.
Während einer Sprachpause sollte der Empfänger daher nur Rauschen empfangen und dieses im Sprachdecoder durch Comfort Noise (CN) ersetzen. Dabei treten Probleme auf, sofern der Empfänger das keine Sprachdaten enthaltende Empfangssignal irrtümlich als ein gültiges GSM-Signal mit Sprachdaten detektiert. In diesem Fall wird das vermeintliche GSM-Signal nicht durch Comfort Noise ersetzt, sondern an den Sprachdecoder weitergeleitet. Der Informationsgehalt des vermeintlichen GSM-Signals ist aber willkürlich, wodurch sich am Ausgang des Sprachdecoders ein mehr oder weniger lauter Knack-Laut ("Bong") ergibt. Diese Knack-Laute sind im Allgemeinen störend, weil sie während einer Sprachpause, also während einer relativen Ruhepause im Sprachsignal, auftreten.

Die ETSI-Spezifikation 3GPP 46.011, 3 GPP 46.012 und 3GPP 46.031 spezifizieren für die DTX-Behandlung im Fullrate-Sprachdecoder die folgende Standardlösung:
In einem ersten Schritt wird der Typ des gerade empfangenen Sprachrahmens bestimmt. Ein Sprachrahmen entspricht einem Sprachsignal von 20 ms Länge. Dazu werden die in dem Kanaldecoder bestimmten Bits (Flags) BFI (Bad Frame Indication), SID (Silent Descriptor Frame) und TAF (Time Alignment Flag) ausgewertet. Demgemäß kann der Typ des aktuellen Sprachrahmens (im Folgenden als "Frame Type" bezeichnet) einen der folgenden Werte annehmen:

GOOD_SPEECH:	gültiger Sprachrahmen
UNUSABLE:	ungültiger Sprachrahmen
VALID_SID:	gültiger SID-Rahmen
	Mit Hilfe eines SID-Rahmens wird a.) in periodischen Abständen das Comfort Noise (Hintergrundrauschen) parametriert und b.) nach einer Sprachperiode eine DTX Periode eingeleitet.
INVALID_SID:	ungültiger SID-Rahmen

Des Weiteren wird der gerade aktuelle Zustand der DTX-Behandlung betrachtet. Dieser Zustand (im Folgenden als "DTX-State" bezeichnet) kann einen der folgenden beiden Werte annehmen:

SPEECH_STATE:	Die DTX-Behandlung befindet sich in diesem Zustand, wenn gerade eine Sprachperiode vorliegt. D. h. in den vergangenen Sprachrahmen ist vom Sprachdecoder kein Comfort Noise erzeugt worden.
CNI_STATE:	Die DTX-Behandlung befindet sich in diesem Zustand, wenn gerade eine Sprachpause vorliegt, d. h., wenn in den vergangenen Sprachrahmen vom Sprachdecoder Comfort Noise erzeugt worden ist.

In Abhängigkeit von Frame Type und DTX-State werden folgende Daten an den eigentlichen Sprachdecoder weitergeleitet:

– Wenn der Frame-Type vom Wert GOOD_SPEECH ist, wird dieser Frame direkt an den Sprachdecoder weitergeleitet und der DTX-State wird auf den Wert SPEECH_STATE gesetzt. Es wird angenommen, dass man sich in einer Sprachperiode befindet bzw. dass gerade eine solche beginnt.
– Wenn der Frame-Type vom Wert VALID_SID oder INVALID_SID ist, wird dieser Frame zur Comfort-Noise-Erzeugung an den Sprachdecoder weitergeleitet und der DTX-State auf den Wert CNI_STATE gesetzt. Es wird angenommen, dass man sich in einer Sprachpause befindet bzw. dass gerade eine solche beginnt.
– Wenn der Frame-Type vom Wert UNUSABLE ist, hängt die Funktionsweise des Sprachdecoders vom DTX-State ab.
– Ein derartiger Frame-Type im DTX-State SPEECH_STATE (also während einer Sprachperiode) zeigt dem Sprachdecoder an, dass dieser Sprachrahmen verloren gegangen ist und deshalb der "Muting-Mechanismus" aktiviert werden soll.
– Ein derartiger Frame-Type im DTX-State CNI_STATE (also während einer Sprachpause) zeigt dem Sprachdecoder an, dass der Sender abgeschaltet worden ist und deshalb ein Comfort-Noise-Rahmen eingefügt werden soll.

Ein sehr störender Effekt ergibt sich, wenn in einer Sprachpause (DTX-State hat den Wert CNI_STATE) ein Sprachrahmen irrtümlich als GOOD_SPEECH detektiert wird. Dann wird dieser vermeintlich gute Sprachrahmen direkt an den Sprachdecoder weitergeleitet und bewirkt an dessen Ausgang (abhängig von seinem zufälligen Inhalt) einen mehr oder weniger lauten Knack-Laut. Außerdem bewirkt der vermeintlich gute Sprachrahmen, dass der DTX-State nach SPEECH_STATE wechselt (vermeintlicher Beginn einer neuen Sprachperiode). Da in Wirklichkeit die Sprachpause aber noch nicht beendet ist, bleibt der Sender weiterhin ausgeschaltet, weshalb der Empfänger für die weiteren Sprachrahmen wieder den Frame-Type UNUSABLE detektieren wird. Diese Sprachrahmen mit Frame Type UNUSABLE führen aber im DTX-State SPEECH_STATE zu dem oben erwähnten "Muting-Mechanismus", d. h., der zuvor empfangene vermeintlich gültige Sprachrahmen wird jetzt auch noch wiederholt und gedämpft, wodurch der oben erwähnte Knack-Laut (durch die Wiederholung) auch noch metallischen Charakter erhält ("Bong") .
Um diese Schwäche in der Standardlösung der DTX-Behandlung zu kompensieren, hat man in der Vergangenheit mit großem Aufwand versucht, die Basis für die Frame-Type-Bestimmung (BFI, SID und TAF) außerhalb des Sprachdecoders zu verbessern. Dazu sind zusätzliche Parameter, wie z. B. Equalizer- oder Kanaldecoder-Ergebnisse, ausgewertet worden. Diese Lösung hat jedoch den Nachteil, dass sie für jeden Basisband-Chip neu simuliert, implementiert und verifiziert werden muss. Das eigentliche Problem ist jedoch die fehlende robuste Fehlerverschleierung (Error-Concealment) im Fullrate-Sprachdecoder, welche nicht durch den GSM-Standard abgedeckt ist.
Die Druckschrift US 2004/0006462 A1 behandelt eine Vorrichtung und ein Verfahren zur Bestimmung, ob ein Empfänger in einem DTX-Modus umschalten soll und damit seine Funktionalität entsprechend anpasst. Hierbei wird ein empfangener Signalrahmen auf eine bestimmte Kennung überprüft, und bei entsprechender Identifikation schaltet der Empfänger vom DTX-Modus zum Decodieren von Sprachdaten um.
Es ist die Aufgabe der vorliegenden Erfindung, ein effizientes und zuverlässiges Konzept zum Feststellen, ob es sich bei einem empfangenen Signalrahmen um einen Audio-Signalrahmen handelt, zu schaffen.
Diese Aufgabe wird durch die Merkmale der unabhängigen Patentansprüche gelöst.
Die Erfindung basiert auf der Erkenntnis, dass Audio-Signalrahmen oft eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten umfassen. Die Seiteninformation, die durch eine Folge von Bits repräsentiert wird, befindet sich an einer vorbestimmten Position in einem Audio-Signalrahmen. Weist der empfangene Signalrahmen an der vorbestimmten Position eine derartige Seiteninformation auf, so ist der empfangene Signalrahmen ein Audio-Signalrahmen. Weist der empfangene Signalrahmen an der vorbestimmten Position hingegen keine derartige Seiteninformation auf, so ist der empfangene Signalrahmen kein gültiger Audio-Signalrahmen. Zur Detektion der Seiteninformation in dem empfangenen Signalrahmen können erfindungsgemäß (z. B. bei einer Sprache) zu erwartende Eigenschaften der Seiteninformation, wie z. B. deren Größe oder deren als eine Zahl darstellbarer Wert, herangezogen werden.
Eine Seiteninformation kann beispielsweise ein Leistungs-Skalierungsfaktor oder ein Amplituden-Skalierungsfaktor sein, mit dem die decodierten Audiosignale zu beaufschlagen sind, um beispielsweise die gewünschte Lautstärke zu erzielen. Bei GSM-Audio-Signalrahmen (Sprachdaten-Signalrahmen) werden als Seiteninformationen die sogenannten XMAXC-Koeffizienten übertragen, bei denen es sich um Amplituden-Skalierungskoeffizienten handelt.
Die vorliegende Erfindung liefert eine Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten aufweist, wobei ein Audio- Signalrahmen an einer vorbestimmten Position eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten aufweist.
Bevorzugt umfasst die Vorrichtung ein Auswahlmittel zum Auswählen einer Folge von Bits, die an der vorbestimmten Position in dem Signalrahmen, an der die Seiteninformation zu erwarten ist, angeordnet sind.
Die Vorrichtung umfasst ferner ein Entscheidungsmittel, das von dem Auswahlmittel die ausgewählte Folge von Bits empfängt und welches dazu ausgebildet ist, um auf der Basis der ausgewählten Folge von Bits zu entscheiden, ob der empfangene Audio-Signalrahmen ein (gültiger) Audio-Signalrahmen ist. Vorzugsweise kennzeichnet das Entscheidungsmittel den empfangenen Signalrahmen als einen Audio-Signalrahmen, falls die Folge von Bits die Seiteninformation darstellt. Die Kennzeichnung des Audio-Signalrahmens kann beispielsweise durch Anfügen eines Kennzeichnungsfeldes an den empfangenen Signalrahmen, durch Setzen eines oder mehrerer Bits in einem Feld des empfangenen Signalrahmens oder durch Erzeugen eines separaten Informationssignals erfolgen.
Das Entscheidungsmittel kann beispielsweise auf der Basis der ausgewählten Bitfolge zunächst bestimmen, ob diese den Amplituden-Skalierungskoeffizienten bzw. den Leistungskoeffizienten repräsentiert.
Gemäß einem Aspekt der Erfindung ist das Entscheidungsmittel ausgebildet, eine durch die Folge von Bits repräsentierte Zahl, beispielsweise eine Binärzahl, zu bestimmen und diese Zahl mit einem vorgegebenen Schwellwert zu vergleichen. Unterschreitet die durch die Folge von Bits repräsentierte Zahl den vorgegebenen Schwellwert, so kennzeichnet das Entscheidungsmittel den empfangenen Signalrahmen als einen Audio-Signalrahmen.
Erfindungsgemäß ist der vorgegebene Schwellwert stets kleiner als die durch die Folge von Bits maximal darstellbare Zahl. Die beispielsweise durch 6 Bits maximal darstellbare Zahl ist 63.
Handelt es sich bei der Seiteninformation beispielsweise um einen Amplituden-Skalierungskoeffizienten, so wird erfindungsgemäß ausgenutzt, dass der Amplituden-Skalierungskoeffizient sich nicht sprunghaft ändern kann, falls die Audiodaten Sprachdaten sind. Im Falle der GSM-Übertragung kann der Amplituden-Skalierungskoeffizient XMAXC, der durch 6 Bits repräsentiert ist, beispielsweise Werte von 0 bis 63.
Im Rahmen einer weiteren Erkenntnis wurde festgestellt, dass dieser Amplituden-Skalierungskoeffizient im Mittel und insbesondere zu Beginn einer Sprachdatenübertragung geringer als die durch die 6 Bits darstellbare größte Zahl ist. Bei dem Schwellwert kann es sich um einen beispielsweise empirisch festgestellten Mittelwert über eine Mehrzahl von Amplituden-Skalierungskoeffizienten handeln. Im Falle einer GSM-Übertragung kann der Schwellwert bevorzugt Werte zwischen 5 und 30 oder zwischen 8 und 20 oder 8 und 16 annehmen.
Liefert das Ergebnis des durch das Entscheidungsmittel durchgeführten Vergleichs, dass die durch die ausgewählte Folge von Bits repräsentierte Zahl den vorbestimmten Schwellwert überschreitet, so ist das Entscheidungsmittel ausgebildet, um den empfangenen Signalrahmen als einen Nicht-Audio-Signalrahmen zu kennzeichnen oder um den empfangenen Signalrahmen zu verwerfen.
Die erfindungsgemäße Vorrichtung kann beispielsweise einem Sprachdecoder vorgeschaltet sein. 3 zeigt einen Sprachdecoder gemäß dem Standard ETS 300 961 (GSM 06.10 Version 5.1.1, Mai 1998). Der Decoder umfasst eine RPE-Einheit 301 (RPE grid decoding and positioning), einen Summierer 303, ein Kurzzeit-Synthesefilter (short term synthesis filter) 305, eine Weitervearbeitungseinheit 307 (post processing) sowie ein Langzeit-Synthesefilter 309. Das in 3 dargestellte vereinfachte Blockdiagramm eines RPE-LTP-Decoders verarbeitet Eingangsdaten, wie sie in der Spezifikation IT 300 961 (GSM 06.10 Version 5.1.1, Mai 98) spezifiziert und in 2a und 2b dargestellt sind.
Die in 3 dargestellte RPE-Einheit 301 empfängt beispielsweise die RPE-Parameter mit einer Rate von 47 Bits/5 ms. Dabei kann es sich beispielsweise um die Parameter Mc, XMAXC oder xMc[m] handeln. Das Kurzzeit-Synthesefilter 305 empfängt Reflektionskoeffizienten, die als Logarithmus-Flächen-Verhältnisse (LOG.-area ratio) codiert sind und die mit einer Rate von 36 Bits/20 ms übertragen werden. Bei den Reflektionskoeffizienten kann es sich beispielsweise um die in 2a dargestellten LARc[n] Koeffizienten handeln. Das Langzeit-Synthesefilter 309 empfängt die LTP-Parameter Nc, bc beispielsweise mit einer Rate von 9 Bits/5 ms.
Die oben erwähnte ETSI-Spezifikation definiert die notwendigen Performance-Charakteristika der Audiobestandteile, die zu einer richtigen Funktionsweise des Sprachen-Transcoders notwendig sind. Die in dem oben erwähnten Standard angegebenen Performance-Charakteristika beziehen sich auf eine 13-Bit gleichmäßige PCM-Schnittstelle.
Gemäß einem weiteren Aspekt kann die erfindungsgemäße Vorrichtung einem Kanaldecoder nachgeschaltet sein, der ausgebildet ist, um das Empfangssignal mittels einer Kanaldecodierung (beispielsweise mittels der Viterbi-Decodierung) in den empfangenen Signalrahmen umzusetzen. Der Kanaldecoder kann ferner ausgebildet sein, um auf der Basis eines oder mehreren Synchronisationsbits (z. B. TAF), das auf das Vorhandensein von Audiodaten hinweist, eine Audio-Rahmenerkennung durchzuführen.
Erkennt der Decoder Audiosignaldaten in dem empfangenen Signalrahmen, so gibt er das vorstehend erwähnte Signal GOOD_SPEECH, das einen gültigen Sprachrahmen anzeigt, aus. Bei diesem Signal handelt es sich um ein Steuersignal, das eine Aktivierung der erfindungsgemäßen Vorrichtung und eine anschließende Überprüfung der durch den Kanaldecoder getroffenen Entscheidung bewirkt. Vorzugsweise wird das GOOD_SPEECH Signal an das Auswahlmittel weitergeleitet, das darauf ansprechend die Folge der Bits auswählt.
Hat der Decoder hingegen keinen gültigen Audio-Datenrahmen erkannt, so gibt er das Signal UNUSABLE aus, das einen ungültigen Audio-Datenrahmen anzeigt. Beim Vorliegen des Steuersignals, das anzeigt, dass der empfangene Signalrahmen kein Audio-Signalrahmen ist, wird die erfindungsgemäße Vorrichtung nicht aktiviert, sodass die Entscheidung des Kanaldecoders in diesem Falle nicht überprüft wird.
Durch die dem Decoder nachgeschaltete erfindungsgemäße Vorrichtung wird überprüft, ob der empfangene Signalrahmen, der von dem vorgeschalteten Kanaldecoder als ein gültiger Sprachrahmen erkannt wurde, auch tatsächlich ein Sprachrahmen ist, oder ob es sich nur um einen irrtümlicherweise als gültig erkannten Sprachrahmen während der DTX-Phase handelt. Bevorzugt findet diese zusätzliche Überprüfung statt, bevor die Daten an den Sprachdecoder weitergegeben werden.
Im Falle eines Steuersignals, das einen gültigen Audio-Signalrahmen anzeigt, wird die erfindungsgemäße Vorrichtung vorzugsweise nur dann aktiviert, wenn der empfangene Signalrahmen ein erster empfangener Signalrahmen in einer Folge von empfangenen Signalrahmen ist, der von dem vorgeschalteten Kanaldecoder als ein Audio-Signalrahmen erkannt und gekennzeichnet wurde. Die erfindungsgemäße Vorrichtung ist ausgebildet, den nach einer Sprachpause empfangenen ersten Signalrahmen, der von dem vorgeschalteten Kanaldecoder als ein gültiger Sprachrahmen gekennzeichnet wurde, auszuwerten, um die Entscheidung des Kanaldecoders zu verifizieren. Falls die erfindungsgemäße Vorrichtung die Feststellung, ob es sich bei dem bereits als ein Audio-Signalrahmen gekennzeichneten empfangenen Signalrahmen tatsächlich um einen Signalrahmen handelt auf der Basis des Schwellwertvergleichs durchführt, so wird erfindungsgemäß ausgenutzt, dass z. B. im Falle eines GSM-Systems der Amplitudenfaktor XMAXC bei dem ersten oder bei einer Folge von ersten als gültig gekennzeichneten Sprachrahmen gering ist. Dies ist darin begründet, dass die Lautstärke eines Sprachsignals nicht explosionsartig ansteigen kann.
Gemäß einem weiteren Aspekt umfasst die erfindungsgemäße Vorrichtung einen Kanaldecoder, der ausgebildet ist, um ein Empfangssignal durch eine Kanaldecodierung in den empfangenen Signalrahmen umzusetzen und um eine Detektion der Audiodaten durchzuführen. Zur Detektion der Audiodaten kann der Decoder ausgebildet sein, um die bei der Decodierung erfasste Anzahl der Bitfehler mit einem vorgegebenen Schwellwert zu vergleichen (z. B. 10, 20 oder 50 Bitfehler). Überschreitet die Anzahl der Bitfehler den Schwellwert, so wird der Signalrahmen nicht als ein Audio-Signalrahmen gekennzeichnet. Unterschreitet die Anzahl der Bitfehler den Schwellwert, so wird auf das Vorliegen der Audiodaten geschlossen und der Signalrahmen als ein Audio-Signalrahmen gekennzeichnet. Der Kanaldecoder kann ferner ausgebildet sein, um die Audiodaten auf der Basis der CRC-Prüfung zu detektieren. Ergibt die CRC-Prüfung, dass keine oder nur wenige Bitfehler vorliegen, so wird der Signalrahmen als ein Audio-Signalrahmen gekennzeichnet. Bei einem negativen Ergebnis der CRC-Prüfung wird der Signalrahmen hingegen nicht als ein Audio-Signalrahmen gekennzeichnet.
Ist ein Audio-Signalrahmen aus mehreren Sub-Rahmen aufgebaut, wie es beispielsweise im Falle eines GSM-Sprachrahmens der Fall ist, so umfasst ein gültiger Audio-Signalrahmen an einer Anzahl von vorbestimmten Positionen jeweils eine Seiteninformation bezüglich der Audiodaten.
2a zeigt einen Aufbau eines GSM-Sprachrahmens, der vier Sub-Rahmen 1–4 enthält. Jeder Sub-Rahmen beinhaltetet den Amplituden-Skalierungskoeffizienten XMAXC, der stets an einer vorbestimmten Stelle in dem Sprachdatenrahmen als auch in dem jeweiligen Sub-Rahmen angeordnet ist. Wie aus 2a ferner hervorgeht, werden die Amplituden-Skalierungskoeffizienten XMAXC jeweils durch eine Folge von 6 Bits dargestellt.
Gemäß einem Aspekt ist das erfindungsgemäße Auswahlmittel ausgebildet, um die jeweils an den vorbestimmten Positionen angeordneten Folgen von Bits auszuwählen, um die Anzahl von Folgen von Bits, beispielsweise vier Folgen von Bits, zu erhalten und um auf der Basis der Anzahl der Folgen von Bits festzustellen, ob der empfangene Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten enthält.
Um festzustellen, ob der empfangene Signalrahmen ein Audio-Signalrahmen ist, kann das Entscheidungsmittel ausgebildet sein, um die größte Zahl, die durch eine der Folgen von Bits repräsentiert ist (d. h. um die größte der durch die Folgen von Bits repräsentierten Zahlen) mit einem vorgegebenen Schwellwert zu vergleichen und um den empfangenen Signalrahmen als einen Audio-Signalrahmen zu kennzeichnen, falls die größte Zahl den Schwellwert unterschreitet. Der vorgegebene Schwellwert kann beispielsweise Werte zwischen 5 und 20 bzw. 5 bis 18 oder 8 bis 16 annehmen.
Gemäß einem weiteren Aspekt kann das Auswahlmittel ausgebildet sein, um die kleinste durch eine der Folgen von Bits repräsentierte Zahl mit dem vorgegebenen Schwellwert zu vergleichen und um den empfangenen Signalrahmen nicht als einen Audio-Signalrahmen zu behandeln, falls die kleinste Zahl den vorgegebenen Schwellwert überschreitet.
Ein Vorteil des erfindungsgemäßen Konzeptes besteht darin, dass eine Decodierung eines irrtümlich als gültig erkannten Audio-Signalrahmens, beispielsweise eines irrtümlich erkannten GSM-Signals, und somit das Erzeugen eines "Bongs" verhindert werden kann. Die erfindungsgemäße Lösung kann ferner in bestehende Systeme einfach und kostengünstig implementiert werden.
Weitere Ausführungsbeispiele der vorliegenden Erfindung werden bezugnehmend auf die beigefügten Zeichnungen erläutert. Es zeigen:
1 ein Blockdiagramm einer erfindungsgemäßen Vorrichtung gemäß einem Ausführungsbeispiel;
2a, 2b den Aufbau eines GSM-Signals; und
3 einen GSM-Sprachdecoder.
Die in 1 dargestellte Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein gültiger Audio-Signalrahmen ist, umfasst ein Auswahlmittel 101 mit einem Ausgang, der mit einem Eingang eines Entscheidungsmittels 103 gekoppelt ist. Das Auswahlmittel 101 ist ausgebildet, um über einen ersten Eingang die von einem Kanaldecoder 105 stammenden empfangenen Signalrahmen sowie Steuersignale zu empfangen, die das Auswahlmittel 101 aktivieren. Optional kann das Auswahlmittel 101 einen weiteren Eingang 107 aufweisen, an dem die Steuersignale anlegbar sind.
Gemäß einem Aspekt kann die Vorrichtung umfassend das Auswahlmittel 101 und das Entscheidungsmittel 103 dem Kanaldecoder 105 nachgeschaltet sein. Der Kanaldecoder 105 ist in diesem Fall kein Bestandteil der erfindungsgemäßen Vorrichtung. Gemäß einem weiteren Aspekt kann der Kanaldecoder 105 von der erfindungsgemäßen Vorrichtung umfasst sein.
Der Kanaldecoder 105 empfängt über einen in 2 nicht eingezeichneten Eingang Empfangssignale und decodiert diese unter Verwendung eines Kanaldecodierungsschemas. Bei dem Kanaldecodierungsschema kann es sich beispielsweise um eine Viterbi-Detektion handeln. Der Kanaldecoder 105 führt ferner eine Audiodatendetektion durch, um eine erste Entscheidung darüber zu treffen, ob der von dem Kanaldecoder 105 ausgegebene Signalrahmen ein Audio-Signalrahmen ist. Im Falle einer positiven Feststellung gibt der Kanaldecoder 105 ein Steuersignal aus, das den empfangenen Signalrahmen als einen Audio-Signalrahmen kennzeichnet. Der Kanaldecoder 105 führt die Detektion der Audiodaten wie vorstehend beschrieben durch. Gemäß einem weiteren Aspekt kann der Kanaldecoder 105 ausgebildet sein, um das Vorhandensein der Audiodaten in dem empfangenen Signal während der Decodierung beispielsweise auf der Basis einer zwecks Decodierung zu generierenden Metrik festzustellen.
Gemäß einem Aspekt kann der Kanaldecoder 105 ausgebildet sein, um den empfangenen Sprachrahmen zusammen mit dem Steuersignal auszugeben. Gemäß einem weiteren Aspekt kann der Kanaldecoder 105 ausgebildet sein, um das Steuersignal gesondert auszugeben.
Gemäß einem weiteren Aspekt kann der Ausgang des Kanaldecoders 105 direkt mit einem in 1 nicht dargestellten Audio-Decoder verbunden werden. In diesem Falle sind das Auswahlmittel 101 und das Entscheidungsmittel 103 parallel zu dem Ausgabepfad angeordnet, um die Entscheidungen des Kanaldecoders 105 zu verifizieren. Hat der Kanaldecoder 105 beispielsweise einen empfangenen Signalrahmen irrtümlich als einen gültigen Audio-Signalrahmen gekennzeichnet, so kann das Entscheidungsmittel 103 einen Audiodecoder (beispielsweise den in 3 dargestellten Sprachdecoder) mittels einer weiteren Steuerinformation darüber informieren, dass der irrtümlich als ein gültiger Audio-Signaldatenrahmen gekennzeichnete empfangene Signalrahmen kein Audio-Signalrahmen ist, sodass eine Decodierung des empfangenen Signalrahmens unterbunden wird.
Erfindungsgemäß wird die in 1 dargestellte Vorrichtung eingesetzt, um die Entscheidung des Kanaldecoders 105 direkt nach einer Sprachpause zu überprüfen. Wie vorstehend beschrieben führt die Verwendung der aus dem Stand der Technik bekannten Lösung zu einem Problem, wenn im Empfänger während einer Sprachpause ein Sprachrahmen irrtümlicherweise als gültig detektiert wird. Die Sprachpause ist dadurch gekennzeichnet, dass der Sender abgeschaltet ist und dass der Empfänger nur ungültige Sprachrahmen erkennen und folglich das Comfort-Noise erzeugen sollte. Die Fehlerkennung führt während der relativen Ruhepause der Sprachpause zu dem bereits erwähnten störenden Knack-Laut.
Um dieses Problem zu beheben, wird gemäß einem Aspekt der Erfindung dem ersten als gültig erkannten Sprachrahmen nach einer Sprachpause besondere Beachtung geschenkt. In diesem Fall werden die (vorerst) als gültig erkannten Sprachrahmen nicht bedingungslos an den Sprachdecoder weitergeleitet, sondern vorher noch einem zusätzlichen Test unterworfen.
Dieser zusätzliche Test kann nun entweder bestätigen, dass es sich um gültige Sprachrahmen handelt oder nicht. Handelt es sich bei dem Signal um ein GSM-Signal, so kann im Falle einer Bestätigung beispielsweise gemäß der Standardlösung vorgegangen werden.
Der Sprachrahmen wird an den Sprachdecoder weitergeleitet und der DTX-State wechselt von CNI_STATE auf SPEECH_STATE. Die Sprachpause wird für beendet erklärt und man beginnt wieder mit der Decodierung der Sprachdaten.
Im Fall einer Korrektur der ursprünglichen Frame-Type-Entscheidung aber wird der Frame-Type auf UNUSABLE zurückgesetzt. Der DTX-State wechselt nicht von CNI_STATE nach SPEECH_STATE und die Comfort-Noise-Erzeugung wird fortgesetzt.
Der zusätzliche Test für die nachträgliche Frame-Type-Überprüfung sieht folgendermaßen aus:

1. Er wird angewendet, wenn in einer Sprachpause (DTX-State hat den Wert CNI_STATE) ein gültiger Sprachrahmen (Frame-Type hat den Wert GOOD_SPEECH) detektiert worden ist.
2. Wenn einer der vier Amplituden-Skalierungsfaktoren XMAXC für die vier Sub-Frames des betrachteten Sprachrahmens (siehe ETSI-Spezifikation für den Fullrate Sprachcoder 3GPP 46.010) einen vorher festgelegten Schwellwert überschreitet, wird die ursprüngliche Frame-Type-Entscheidung widerrufen und der betrachtete Sprachrahmen als UNUSABLE klassifiziert.
3. Spätestens nach dem n-ten in Folge als gültig detektierten Sprachrahmen kann die ursprüngliche Entscheidung nicht mehr widerrufen werden. Dann wird in jedem Fall von CNI_STATE nach SPEECH_STATE umgeschaltet und die Sprachpause für beendet erklärt. Der Wert "n" kann wählbar eingestellt werden (typische Werte für n: 2 oder 3).

Dieser zusätzliche Test für die nachträgliche Frame-Type-Überprüfung bringt eine deutliche Reduktion der störenden "Bongs". Die resultierende Sprachqualität wird dadurch deutlich verbessert.
Erfindungsgemäß werden somit die ersten empfangenen Sprachrahmen einer mit einer sehr hohen Energie (große Werte von XMAXC) beginnenden Sprachperiode unterdrückt. Daher kann auch eine Übersteuerung im Empfangs- oder Wiedergabepfad verhindert werden.

Claims

Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten aufweist, wobei ein Audio-Signalrahmen an einer Anzahl von vorbestimmten Positionen jeweils eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten enthält, mit folgenden Merkmalen: einem Auswahlmittel (101) zum Auswählen von Folgen von Bits, die an den vorbestimmten Positionen in dem empfangenen Signalrahmen angeordnet sind; und einem Entscheidungsmittel (103), das ausgebildet ist, um den empfangenen Signalrahmen als einen Audio-Signalrahmen zu kennzeichnen, falls die Folge von Bits die Seiteninformation darstellt, und die größte oder die kleinste Zahl, die durch eine der Folgen von Bits repräsentiert ist, mit einem vorgegebenen Schwellwert zu vergleichen.
Vorrichtung gemäß Anspruch 1, wobei die Seiteninformation ein Amplituden-Skalierungskoeffizient oder ein Leistungs-Skalierungskoeffizient ist.
Vorrichtung gemäß Anspruch 1 oder 2, wobei das Auswahlmittel (101) ausgebildet ist, um eine Steuerinformation zu empfangen, und um die Folge von Bits nur dann auszuwählen, wenn die Steuerinformation anzeigt, dass der empfangene Signalrahmen ein Audio-Signalrahmen ist.
Vorrichtung gemäß Anspruch 3, die ausgebildet ist, um die Steuerinformation von einem Kanaldecoder (105) zu empfangen und um die Steuerinformation an das Auswahlmittel (101) weiterzuleiten.
Vorrichtung gemäß Anspruch 3 oder 4, die ferner einen Kanaldecoder (105) aufweist, der ausgebildet ist, um ein Emp fangssignal mittels Kanaldecodierung in den empfangenen Signalrahmen umzusetzen, um Audiodaten zu detektieren und um die Steuerinformation zu erzeugen, falls der Kanaldecoder (105) in dem empfangenen Signalrahmen Audiodaten detektiert hat.
Vorrichtung gemäß einem der Ansprüche 1 bis 5, wobei das Auswahlmittel (101) ausgebildet ist, um die Folge von Bits nur dann auszuwählen, falls der empfangene Signalrahmen ein in einer Folge von empfangenen Signalrahmen ein erster empfangener Signalrahmen ist, der durch die Steuerinformation als ein Audio-Signalrahmen gekennzeichnet ist.
Vorrichtung nach einem der Ansprüche 1 bis 6, wobei das Entscheidungsmittel (103) ausgebildet ist, um zur Kennzeichnung eines Audio-Signalrahmens ein Informationssignal auszugeben.
Vorrichtung nach einem der Ansprüche 1 bis 7, wobei der empfangene Signalrahmen ein GSM-Signalrahmen ist, wobei die Audiodaten Sprachdaten sind, und wobei die Seiteninformation der XMAXC-Amplituden-Skalierungsfaktor ist.
Verfahren zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten enthält, wobei ein Audio-Signalrahmen an einer Anzahl von vorbestimmten Positionen jeweils eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten enthält, mit: Auswählen von Folgen von Bits, die an den vorbestimmten Positionen in dem Signalrahmen angeordnet sind; Kennzeichnen des empfangenen Signalrahmens als einen Audio-Signalrahmen, falls die Folge von Bits die Seiteninformation darstellt; und Vergleichen der größten oder der kleinsten Zahl, die durch eine der Folgen von Bits repräsentiert ist, mit einem vorgegebenen Schwellwert.
Verfahren gemäß Anspruch 9, wobei die Seiteninformation ein Amplituden-Skalierungskoeffizient oder ein Leistungs-Skalierungskoeffizient ist.
Verfahren gemäß Anspruch 9 oder 10, bei dem eine Steuerinformation empfangen wird, und bei dem die Folge von Bits nur dann ausgewählt wird, wenn die Steuerinformation anzeigt, dass der empfangene Signalrahmen ein Audio-Signalrahmen ist.
Verfahren gemäß Anspruch 11, bei dem die Steuerinformation von einem Kanaldecoder (105) empfangen wird.
Verfahren gemäß Anspruch 11 oder 12, bei dem ein Empfangssignal mittels Kanaldecodierung in den empfangenen Signalrahmen umgesetzt wird, bei dem eine Detektion der Audiodaten durchgeführt wird und bei dem die Steuerinformation erzeugt wird, falls das Empfangssignal Audiodaten aufweist.
Verfahren gemäß einem der Ansprüche 9 bis 13, bei dem die Folge von Bits nur dann ausgewählt wird, falls der empfangene Signalrahmen ein in einer Folge von empfangenen Signalrahmen ein erster empfangener Signalrahmen ist, der durch die Steuerinformation als ein Audio-Signalrahmen gekennzeichnet ist.
Verfahren nach einem der Ansprüche 9 bis 14, bei dem zur Kennzeichnung eines Audio-Signalrahmens ein Informationssignal ausgegeben wird.
Verfahren nach einem der Ansprüche 9 bis 15, bei dem der empfangene Signalrahmen ein GSM-Signalrahmen ist, bei dem die Audiodaten Sprachdaten sind, und bei dem die Seiteninformation der XMAXC-Amplituden-Skalierungsfaktor ist.