DE102006062774B4 - Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen - Google Patents
Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen Download PDFInfo
- Publication number
- DE102006062774B4 DE102006062774B4 DE102006062774A DE102006062774A DE102006062774B4 DE 102006062774 B4 DE102006062774 B4 DE 102006062774B4 DE 102006062774 A DE102006062774 A DE 102006062774A DE 102006062774 A DE102006062774 A DE 102006062774A DE 102006062774 B4 DE102006062774 B4 DE 102006062774B4
- Authority
- DE
- Germany
- Prior art keywords
- signal frame
- received signal
- audio
- frame
- bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
Abstract
Description
- Die vorliegende Erfindung bezieht sich auf digitale Signalverarbeitung und insbesondere auf die Detektion von Audiodaten in einem empfangenen Signalrahmen.
- In Nachrichten-Übertragungssystemen, beispielsweise in einem im Folgenden exemplarisch betrachteten GSM-System, wird bei einer Sprachverbindung während einer Sprachpause kein Funksignal vom Sender zum Empfänger gesendet. Dieses Verfahren wird als Discontinuous Transmission (DTX) bezeichnet und wird sowohl in Uplink-Richtung (von der Mobilstation zur Basisstation) als auch in Downlink-Richtung (von der Basisstation zur Mobilstation) eingesetzt. Die Vorteile des DTX-Verfahrens sind die auf der Sendeseite reduzierte Stromaufnahme und der im gesamten Funknetzwerk reduzierte Interferenz-Pegel.
- Bei aktivierter DTX-Funktionalität wird während einer Sprachpause kein Signal vom Sender zum Empfänger gesendet, sodass auf der Empfangsseite nur Rauschen empfangen wird. Der Empfänger versucht dabei kontinuierlich, z. B. ein gültiges GSM-Signal zu empfangen. Wenn der Empfänger ein gültiges GSM-Signal empfängt, gibt er dieses an einen Sprachdecoder weiter. Wenn der Empfänger jedoch kein gültiges GSM-Signal empfängt, so wird angenommen, dass das Sendesignal aufgrund einer senderseitigen Sprachpause abgeschaltet worden ist. Dann gibt der Empfänger an den Sprachdecoder einen Comfort Noise Block weiter, um am Ausgang des Sprachdecoders ein künstliches Hintergrundrauschen zu erzeugen.
- Während einer Sprachpause sollte der Empfänger daher nur Rauschen empfangen und dieses im Sprachdecoder durch Comfort Noise (CN) ersetzen. Dabei treten Probleme auf, sofern der Empfänger das keine Sprachdaten enthaltende Empfangssignal irrtümlich als ein gültiges GSM-Signal mit Sprachdaten detektiert. In diesem Fall wird das vermeintliche GSM-Signal nicht durch Comfort Noise ersetzt, sondern an den Sprachdecoder weitergeleitet. Der Informationsgehalt des vermeintlichen GSM-Signals ist aber willkürlich, wodurch sich am Ausgang des Sprachdecoders ein mehr oder weniger lauter Knack-Laut ("Bong") ergibt. Diese Knack-Laute sind im Allgemeinen störend, weil sie während einer Sprachpause, also während einer relativen Ruhepause im Sprachsignal, auftreten.
- Die ETSI-Spezifikation 3GPP 46.011, 3 GPP 46.012 und 3GPP 46.031 spezifizieren für die DTX-Behandlung im Fullrate-Sprachdecoder die folgende Standardlösung:
In einem ersten Schritt wird der Typ des gerade empfangenen Sprachrahmens bestimmt. Ein Sprachrahmen entspricht einem Sprachsignal von 20 ms Länge. Dazu werden die in dem Kanaldecoder bestimmten Bits (Flags) BFI (Bad Frame Indication), SID (Silent Descriptor Frame) und TAF (Time Alignment Flag) ausgewertet. Demgemäß kann der Typ des aktuellen Sprachrahmens (im Folgenden als "Frame Type" bezeichnet) einen der folgenden Werte annehmen:GOOD_SPEECH: gültiger Sprachrahmen UNUSABLE: ungültiger Sprachrahmen VALID_SID: gültiger SID-Rahmen Mit Hilfe eines SID-Rahmens wird a.) in periodischen Abständen das Comfort Noise (Hintergrundrauschen) parametriert und b.) nach einer Sprachperiode eine DTX Periode eingeleitet. INVALID_SID: ungültiger SID-Rahmen - Des Weiteren wird der gerade aktuelle Zustand der DTX-Behandlung betrachtet. Dieser Zustand (im Folgenden als "DTX-State" bezeichnet) kann einen der folgenden beiden Werte annehmen:
SPEECH_STATE: Die DTX-Behandlung befindet sich in diesem Zustand, wenn gerade eine Sprachperiode vorliegt. D. h. in den vergangenen Sprachrahmen ist vom Sprachdecoder kein Comfort Noise erzeugt worden. CNI_STATE: Die DTX-Behandlung befindet sich in diesem Zustand, wenn gerade eine Sprachpause vorliegt, d. h., wenn in den vergangenen Sprachrahmen vom Sprachdecoder Comfort Noise erzeugt worden ist. - In Abhängigkeit von Frame Type und DTX-State werden folgende Daten an den eigentlichen Sprachdecoder weitergeleitet:
- – Wenn der Frame-Type vom Wert GOOD_SPEECH ist, wird dieser Frame direkt an den Sprachdecoder weitergeleitet und der DTX-State wird auf den Wert SPEECH_STATE gesetzt. Es wird angenommen, dass man sich in einer Sprachperiode befindet bzw. dass gerade eine solche beginnt.
- – Wenn der Frame-Type vom Wert VALID_SID oder INVALID_SID ist, wird dieser Frame zur Comfort-Noise-Erzeugung an den Sprachdecoder weitergeleitet und der DTX-State auf den Wert CNI_STATE gesetzt. Es wird angenommen, dass man sich in einer Sprachpause befindet bzw. dass gerade eine solche beginnt.
- – Wenn der Frame-Type vom Wert UNUSABLE ist, hängt die Funktionsweise des Sprachdecoders vom DTX-State ab.
- – Ein derartiger Frame-Type im DTX-State SPEECH_STATE (also während einer Sprachperiode) zeigt dem Sprachdecoder an, dass dieser Sprachrahmen verloren gegangen ist und deshalb der "Muting-Mechanismus" aktiviert werden soll.
- – Ein derartiger Frame-Type im DTX-State CNI_STATE (also während einer Sprachpause) zeigt dem Sprachdecoder an, dass der Sender abgeschaltet worden ist und deshalb ein Comfort-Noise-Rahmen eingefügt werden soll.
- Ein sehr störender Effekt ergibt sich, wenn in einer Sprachpause (DTX-State hat den Wert CNI_STATE) ein Sprachrahmen irrtümlich als GOOD_SPEECH detektiert wird. Dann wird dieser vermeintlich gute Sprachrahmen direkt an den Sprachdecoder weitergeleitet und bewirkt an dessen Ausgang (abhängig von seinem zufälligen Inhalt) einen mehr oder weniger lauten Knack-Laut. Außerdem bewirkt der vermeintlich gute Sprachrahmen, dass der DTX-State nach SPEECH_STATE wechselt (vermeintlicher Beginn einer neuen Sprachperiode). Da in Wirklichkeit die Sprachpause aber noch nicht beendet ist, bleibt der Sender weiterhin ausgeschaltet, weshalb der Empfänger für die weiteren Sprachrahmen wieder den Frame-Type UNUSABLE detektieren wird. Diese Sprachrahmen mit Frame Type UNUSABLE führen aber im DTX-State SPEECH_STATE zu dem oben erwähnten "Muting-Mechanismus", d. h., der zuvor empfangene vermeintlich gültige Sprachrahmen wird jetzt auch noch wiederholt und gedämpft, wodurch der oben erwähnte Knack-Laut (durch die Wiederholung) auch noch metallischen Charakter erhält ("Bong") .
- Um diese Schwäche in der Standardlösung der DTX-Behandlung zu kompensieren, hat man in der Vergangenheit mit großem Aufwand versucht, die Basis für die Frame-Type-Bestimmung (BFI, SID und TAF) außerhalb des Sprachdecoders zu verbessern. Dazu sind zusätzliche Parameter, wie z. B. Equalizer- oder Kanaldecoder-Ergebnisse, ausgewertet worden. Diese Lösung hat jedoch den Nachteil, dass sie für jeden Basisband-Chip neu simuliert, implementiert und verifiziert werden muss. Das eigentliche Problem ist jedoch die fehlende robuste Fehlerverschleierung (Error-Concealment) im Fullrate-Sprachdecoder, welche nicht durch den GSM-Standard abgedeckt ist.
- Die Druckschrift
US 2004/0006462 A1 - Es ist die Aufgabe der vorliegenden Erfindung, ein effizientes und zuverlässiges Konzept zum Feststellen, ob es sich bei einem empfangenen Signalrahmen um einen Audio-Signalrahmen handelt, zu schaffen.
- Diese Aufgabe wird durch die Merkmale der unabhängigen Patentansprüche gelöst.
- Die Erfindung basiert auf der Erkenntnis, dass Audio-Signalrahmen oft eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten umfassen. Die Seiteninformation, die durch eine Folge von Bits repräsentiert wird, befindet sich an einer vorbestimmten Position in einem Audio-Signalrahmen. Weist der empfangene Signalrahmen an der vorbestimmten Position eine derartige Seiteninformation auf, so ist der empfangene Signalrahmen ein Audio-Signalrahmen. Weist der empfangene Signalrahmen an der vorbestimmten Position hingegen keine derartige Seiteninformation auf, so ist der empfangene Signalrahmen kein gültiger Audio-Signalrahmen. Zur Detektion der Seiteninformation in dem empfangenen Signalrahmen können erfindungsgemäß (z. B. bei einer Sprache) zu erwartende Eigenschaften der Seiteninformation, wie z. B. deren Größe oder deren als eine Zahl darstellbarer Wert, herangezogen werden.
- Eine Seiteninformation kann beispielsweise ein Leistungs-Skalierungsfaktor oder ein Amplituden-Skalierungsfaktor sein, mit dem die decodierten Audiosignale zu beaufschlagen sind, um beispielsweise die gewünschte Lautstärke zu erzielen. Bei GSM-Audio-Signalrahmen (Sprachdaten-Signalrahmen) werden als Seiteninformationen die sogenannten XMAXC-Koeffizienten übertragen, bei denen es sich um Amplituden-Skalierungskoeffizienten handelt.
- Die vorliegende Erfindung liefert eine Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten aufweist, wobei ein Audio- Signalrahmen an einer vorbestimmten Position eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten aufweist.
- Bevorzugt umfasst die Vorrichtung ein Auswahlmittel zum Auswählen einer Folge von Bits, die an der vorbestimmten Position in dem Signalrahmen, an der die Seiteninformation zu erwarten ist, angeordnet sind.
- Die Vorrichtung umfasst ferner ein Entscheidungsmittel, das von dem Auswahlmittel die ausgewählte Folge von Bits empfängt und welches dazu ausgebildet ist, um auf der Basis der ausgewählten Folge von Bits zu entscheiden, ob der empfangene Audio-Signalrahmen ein (gültiger) Audio-Signalrahmen ist. Vorzugsweise kennzeichnet das Entscheidungsmittel den empfangenen Signalrahmen als einen Audio-Signalrahmen, falls die Folge von Bits die Seiteninformation darstellt. Die Kennzeichnung des Audio-Signalrahmens kann beispielsweise durch Anfügen eines Kennzeichnungsfeldes an den empfangenen Signalrahmen, durch Setzen eines oder mehrerer Bits in einem Feld des empfangenen Signalrahmens oder durch Erzeugen eines separaten Informationssignals erfolgen.
- Das Entscheidungsmittel kann beispielsweise auf der Basis der ausgewählten Bitfolge zunächst bestimmen, ob diese den Amplituden-Skalierungskoeffizienten bzw. den Leistungskoeffizienten repräsentiert.
- Gemäß einem Aspekt der Erfindung ist das Entscheidungsmittel ausgebildet, eine durch die Folge von Bits repräsentierte Zahl, beispielsweise eine Binärzahl, zu bestimmen und diese Zahl mit einem vorgegebenen Schwellwert zu vergleichen. Unterschreitet die durch die Folge von Bits repräsentierte Zahl den vorgegebenen Schwellwert, so kennzeichnet das Entscheidungsmittel den empfangenen Signalrahmen als einen Audio-Signalrahmen.
- Erfindungsgemäß ist der vorgegebene Schwellwert stets kleiner als die durch die Folge von Bits maximal darstellbare Zahl. Die beispielsweise durch 6 Bits maximal darstellbare Zahl ist 63.
- Handelt es sich bei der Seiteninformation beispielsweise um einen Amplituden-Skalierungskoeffizienten, so wird erfindungsgemäß ausgenutzt, dass der Amplituden-Skalierungskoeffizient sich nicht sprunghaft ändern kann, falls die Audiodaten Sprachdaten sind. Im Falle der GSM-Übertragung kann der Amplituden-Skalierungskoeffizient XMAXC, der durch 6 Bits repräsentiert ist, beispielsweise Werte von 0 bis 63.
- Im Rahmen einer weiteren Erkenntnis wurde festgestellt, dass dieser Amplituden-Skalierungskoeffizient im Mittel und insbesondere zu Beginn einer Sprachdatenübertragung geringer als die durch die 6 Bits darstellbare größte Zahl ist. Bei dem Schwellwert kann es sich um einen beispielsweise empirisch festgestellten Mittelwert über eine Mehrzahl von Amplituden-Skalierungskoeffizienten handeln. Im Falle einer GSM-Übertragung kann der Schwellwert bevorzugt Werte zwischen 5 und 30 oder zwischen 8 und 20 oder 8 und 16 annehmen.
- Liefert das Ergebnis des durch das Entscheidungsmittel durchgeführten Vergleichs, dass die durch die ausgewählte Folge von Bits repräsentierte Zahl den vorbestimmten Schwellwert überschreitet, so ist das Entscheidungsmittel ausgebildet, um den empfangenen Signalrahmen als einen Nicht-Audio-Signalrahmen zu kennzeichnen oder um den empfangenen Signalrahmen zu verwerfen.
- Die erfindungsgemäße Vorrichtung kann beispielsweise einem Sprachdecoder vorgeschaltet sein.
3 zeigt einen Sprachdecoder gemäß dem Standard ETS 300 961 (GSM 06.10 Version 5.1.1, Mai 1998). Der Decoder umfasst eine RPE-Einheit301 (RPE grid decoding and positioning), einen Summierer303 , ein Kurzzeit-Synthesefilter (short term synthesis filter)305 , eine Weitervearbeitungseinheit307 (post processing) sowie ein Langzeit-Synthesefilter309 . Das in3 dargestellte vereinfachte Blockdiagramm eines RPE-LTP-Decoders verarbeitet Eingangsdaten, wie sie in der Spezifikation IT 300 961 (GSM 06.10 Version 5.1.1, Mai 98) spezifiziert und in2a und2b dargestellt sind. - Die in
3 dargestellte RPE-Einheit301 empfängt beispielsweise die RPE-Parameter mit einer Rate von 47 Bits/5 ms. Dabei kann es sich beispielsweise um die Parameter Mc, XMAXC oder xMc[m] handeln. Das Kurzzeit-Synthesefilter305 empfängt Reflektionskoeffizienten, die als Logarithmus-Flächen-Verhältnisse (LOG.-area ratio) codiert sind und die mit einer Rate von 36 Bits/20 ms übertragen werden. Bei den Reflektionskoeffizienten kann es sich beispielsweise um die in2a dargestellten LARc[n] Koeffizienten handeln. Das Langzeit-Synthesefilter309 empfängt die LTP-Parameter Nc, bc beispielsweise mit einer Rate von 9 Bits/5 ms. - Die oben erwähnte ETSI-Spezifikation definiert die notwendigen Performance-Charakteristika der Audiobestandteile, die zu einer richtigen Funktionsweise des Sprachen-Transcoders notwendig sind. Die in dem oben erwähnten Standard angegebenen Performance-Charakteristika beziehen sich auf eine 13-Bit gleichmäßige PCM-Schnittstelle.
- Gemäß einem weiteren Aspekt kann die erfindungsgemäße Vorrichtung einem Kanaldecoder nachgeschaltet sein, der ausgebildet ist, um das Empfangssignal mittels einer Kanaldecodierung (beispielsweise mittels der Viterbi-Decodierung) in den empfangenen Signalrahmen umzusetzen. Der Kanaldecoder kann ferner ausgebildet sein, um auf der Basis eines oder mehreren Synchronisationsbits (z. B. TAF), das auf das Vorhandensein von Audiodaten hinweist, eine Audio-Rahmenerkennung durchzuführen.
- Erkennt der Decoder Audiosignaldaten in dem empfangenen Signalrahmen, so gibt er das vorstehend erwähnte Signal GOOD_SPEECH, das einen gültigen Sprachrahmen anzeigt, aus. Bei diesem Signal handelt es sich um ein Steuersignal, das eine Aktivierung der erfindungsgemäßen Vorrichtung und eine anschließende Überprüfung der durch den Kanaldecoder getroffenen Entscheidung bewirkt. Vorzugsweise wird das GOOD_SPEECH Signal an das Auswahlmittel weitergeleitet, das darauf ansprechend die Folge der Bits auswählt.
- Hat der Decoder hingegen keinen gültigen Audio-Datenrahmen erkannt, so gibt er das Signal UNUSABLE aus, das einen ungültigen Audio-Datenrahmen anzeigt. Beim Vorliegen des Steuersignals, das anzeigt, dass der empfangene Signalrahmen kein Audio-Signalrahmen ist, wird die erfindungsgemäße Vorrichtung nicht aktiviert, sodass die Entscheidung des Kanaldecoders in diesem Falle nicht überprüft wird.
- Durch die dem Decoder nachgeschaltete erfindungsgemäße Vorrichtung wird überprüft, ob der empfangene Signalrahmen, der von dem vorgeschalteten Kanaldecoder als ein gültiger Sprachrahmen erkannt wurde, auch tatsächlich ein Sprachrahmen ist, oder ob es sich nur um einen irrtümlicherweise als gültig erkannten Sprachrahmen während der DTX-Phase handelt. Bevorzugt findet diese zusätzliche Überprüfung statt, bevor die Daten an den Sprachdecoder weitergegeben werden.
- Im Falle eines Steuersignals, das einen gültigen Audio-Signalrahmen anzeigt, wird die erfindungsgemäße Vorrichtung vorzugsweise nur dann aktiviert, wenn der empfangene Signalrahmen ein erster empfangener Signalrahmen in einer Folge von empfangenen Signalrahmen ist, der von dem vorgeschalteten Kanaldecoder als ein Audio-Signalrahmen erkannt und gekennzeichnet wurde. Die erfindungsgemäße Vorrichtung ist ausgebildet, den nach einer Sprachpause empfangenen ersten Signalrahmen, der von dem vorgeschalteten Kanaldecoder als ein gültiger Sprachrahmen gekennzeichnet wurde, auszuwerten, um die Entscheidung des Kanaldecoders zu verifizieren. Falls die erfindungsgemäße Vorrichtung die Feststellung, ob es sich bei dem bereits als ein Audio-Signalrahmen gekennzeichneten empfangenen Signalrahmen tatsächlich um einen Signalrahmen handelt auf der Basis des Schwellwertvergleichs durchführt, so wird erfindungsgemäß ausgenutzt, dass z. B. im Falle eines GSM-Systems der Amplitudenfaktor XMAXC bei dem ersten oder bei einer Folge von ersten als gültig gekennzeichneten Sprachrahmen gering ist. Dies ist darin begründet, dass die Lautstärke eines Sprachsignals nicht explosionsartig ansteigen kann.
- Gemäß einem weiteren Aspekt umfasst die erfindungsgemäße Vorrichtung einen Kanaldecoder, der ausgebildet ist, um ein Empfangssignal durch eine Kanaldecodierung in den empfangenen Signalrahmen umzusetzen und um eine Detektion der Audiodaten durchzuführen. Zur Detektion der Audiodaten kann der Decoder ausgebildet sein, um die bei der Decodierung erfasste Anzahl der Bitfehler mit einem vorgegebenen Schwellwert zu vergleichen (z. B. 10, 20 oder 50 Bitfehler). Überschreitet die Anzahl der Bitfehler den Schwellwert, so wird der Signalrahmen nicht als ein Audio-Signalrahmen gekennzeichnet. Unterschreitet die Anzahl der Bitfehler den Schwellwert, so wird auf das Vorliegen der Audiodaten geschlossen und der Signalrahmen als ein Audio-Signalrahmen gekennzeichnet. Der Kanaldecoder kann ferner ausgebildet sein, um die Audiodaten auf der Basis der CRC-Prüfung zu detektieren. Ergibt die CRC-Prüfung, dass keine oder nur wenige Bitfehler vorliegen, so wird der Signalrahmen als ein Audio-Signalrahmen gekennzeichnet. Bei einem negativen Ergebnis der CRC-Prüfung wird der Signalrahmen hingegen nicht als ein Audio-Signalrahmen gekennzeichnet.
- Ist ein Audio-Signalrahmen aus mehreren Sub-Rahmen aufgebaut, wie es beispielsweise im Falle eines GSM-Sprachrahmens der Fall ist, so umfasst ein gültiger Audio-Signalrahmen an einer Anzahl von vorbestimmten Positionen jeweils eine Seiteninformation bezüglich der Audiodaten.
-
2a zeigt einen Aufbau eines GSM-Sprachrahmens, der vier Sub-Rahmen 1–4 enthält. Jeder Sub-Rahmen beinhaltetet den Amplituden-Skalierungskoeffizienten XMAXC, der stets an einer vorbestimmten Stelle in dem Sprachdatenrahmen als auch in dem jeweiligen Sub-Rahmen angeordnet ist. Wie aus2a ferner hervorgeht, werden die Amplituden-Skalierungskoeffizienten XMAXC jeweils durch eine Folge von 6 Bits dargestellt. - Gemäß einem Aspekt ist das erfindungsgemäße Auswahlmittel ausgebildet, um die jeweils an den vorbestimmten Positionen angeordneten Folgen von Bits auszuwählen, um die Anzahl von Folgen von Bits, beispielsweise vier Folgen von Bits, zu erhalten und um auf der Basis der Anzahl der Folgen von Bits festzustellen, ob der empfangene Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten enthält.
- Um festzustellen, ob der empfangene Signalrahmen ein Audio-Signalrahmen ist, kann das Entscheidungsmittel ausgebildet sein, um die größte Zahl, die durch eine der Folgen von Bits repräsentiert ist (d. h. um die größte der durch die Folgen von Bits repräsentierten Zahlen) mit einem vorgegebenen Schwellwert zu vergleichen und um den empfangenen Signalrahmen als einen Audio-Signalrahmen zu kennzeichnen, falls die größte Zahl den Schwellwert unterschreitet. Der vorgegebene Schwellwert kann beispielsweise Werte zwischen 5 und 20 bzw. 5 bis 18 oder 8 bis 16 annehmen.
- Gemäß einem weiteren Aspekt kann das Auswahlmittel ausgebildet sein, um die kleinste durch eine der Folgen von Bits repräsentierte Zahl mit dem vorgegebenen Schwellwert zu vergleichen und um den empfangenen Signalrahmen nicht als einen Audio-Signalrahmen zu behandeln, falls die kleinste Zahl den vorgegebenen Schwellwert überschreitet.
- Ein Vorteil des erfindungsgemäßen Konzeptes besteht darin, dass eine Decodierung eines irrtümlich als gültig erkannten Audio-Signalrahmens, beispielsweise eines irrtümlich erkannten GSM-Signals, und somit das Erzeugen eines "Bongs" verhindert werden kann. Die erfindungsgemäße Lösung kann ferner in bestehende Systeme einfach und kostengünstig implementiert werden.
- Weitere Ausführungsbeispiele der vorliegenden Erfindung werden bezugnehmend auf die beigefügten Zeichnungen erläutert. Es zeigen:
-
1 ein Blockdiagramm einer erfindungsgemäßen Vorrichtung gemäß einem Ausführungsbeispiel; -
2a ,2b den Aufbau eines GSM-Signals; und -
3 einen GSM-Sprachdecoder. - Die in
1 dargestellte Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein gültiger Audio-Signalrahmen ist, umfasst ein Auswahlmittel101 mit einem Ausgang, der mit einem Eingang eines Entscheidungsmittels103 gekoppelt ist. Das Auswahlmittel101 ist ausgebildet, um über einen ersten Eingang die von einem Kanaldecoder105 stammenden empfangenen Signalrahmen sowie Steuersignale zu empfangen, die das Auswahlmittel101 aktivieren. Optional kann das Auswahlmittel101 einen weiteren Eingang107 aufweisen, an dem die Steuersignale anlegbar sind. - Gemäß einem Aspekt kann die Vorrichtung umfassend das Auswahlmittel
101 und das Entscheidungsmittel103 dem Kanaldecoder105 nachgeschaltet sein. Der Kanaldecoder105 ist in diesem Fall kein Bestandteil der erfindungsgemäßen Vorrichtung. Gemäß einem weiteren Aspekt kann der Kanaldecoder105 von der erfindungsgemäßen Vorrichtung umfasst sein. - Der Kanaldecoder
105 empfängt über einen in2 nicht eingezeichneten Eingang Empfangssignale und decodiert diese unter Verwendung eines Kanaldecodierungsschemas. Bei dem Kanaldecodierungsschema kann es sich beispielsweise um eine Viterbi-Detektion handeln. Der Kanaldecoder105 führt ferner eine Audiodatendetektion durch, um eine erste Entscheidung darüber zu treffen, ob der von dem Kanaldecoder105 ausgegebene Signalrahmen ein Audio-Signalrahmen ist. Im Falle einer positiven Feststellung gibt der Kanaldecoder105 ein Steuersignal aus, das den empfangenen Signalrahmen als einen Audio-Signalrahmen kennzeichnet. Der Kanaldecoder105 führt die Detektion der Audiodaten wie vorstehend beschrieben durch. Gemäß einem weiteren Aspekt kann der Kanaldecoder105 ausgebildet sein, um das Vorhandensein der Audiodaten in dem empfangenen Signal während der Decodierung beispielsweise auf der Basis einer zwecks Decodierung zu generierenden Metrik festzustellen. - Gemäß einem Aspekt kann der Kanaldecoder
105 ausgebildet sein, um den empfangenen Sprachrahmen zusammen mit dem Steuersignal auszugeben. Gemäß einem weiteren Aspekt kann der Kanaldecoder105 ausgebildet sein, um das Steuersignal gesondert auszugeben. - Gemäß einem weiteren Aspekt kann der Ausgang des Kanaldecoders
105 direkt mit einem in1 nicht dargestellten Audio-Decoder verbunden werden. In diesem Falle sind das Auswahlmittel101 und das Entscheidungsmittel103 parallel zu dem Ausgabepfad angeordnet, um die Entscheidungen des Kanaldecoders105 zu verifizieren. Hat der Kanaldecoder105 beispielsweise einen empfangenen Signalrahmen irrtümlich als einen gültigen Audio-Signalrahmen gekennzeichnet, so kann das Entscheidungsmittel103 einen Audiodecoder (beispielsweise den in3 dargestellten Sprachdecoder) mittels einer weiteren Steuerinformation darüber informieren, dass der irrtümlich als ein gültiger Audio-Signaldatenrahmen gekennzeichnete empfangene Signalrahmen kein Audio-Signalrahmen ist, sodass eine Decodierung des empfangenen Signalrahmens unterbunden wird. - Erfindungsgemäß wird die in
1 dargestellte Vorrichtung eingesetzt, um die Entscheidung des Kanaldecoders105 direkt nach einer Sprachpause zu überprüfen. Wie vorstehend beschrieben führt die Verwendung der aus dem Stand der Technik bekannten Lösung zu einem Problem, wenn im Empfänger während einer Sprachpause ein Sprachrahmen irrtümlicherweise als gültig detektiert wird. Die Sprachpause ist dadurch gekennzeichnet, dass der Sender abgeschaltet ist und dass der Empfänger nur ungültige Sprachrahmen erkennen und folglich das Comfort-Noise erzeugen sollte. Die Fehlerkennung führt während der relativen Ruhepause der Sprachpause zu dem bereits erwähnten störenden Knack-Laut. - Um dieses Problem zu beheben, wird gemäß einem Aspekt der Erfindung dem ersten als gültig erkannten Sprachrahmen nach einer Sprachpause besondere Beachtung geschenkt. In diesem Fall werden die (vorerst) als gültig erkannten Sprachrahmen nicht bedingungslos an den Sprachdecoder weitergeleitet, sondern vorher noch einem zusätzlichen Test unterworfen.
- Dieser zusätzliche Test kann nun entweder bestätigen, dass es sich um gültige Sprachrahmen handelt oder nicht. Handelt es sich bei dem Signal um ein GSM-Signal, so kann im Falle einer Bestätigung beispielsweise gemäß der Standardlösung vorgegangen werden.
- Der Sprachrahmen wird an den Sprachdecoder weitergeleitet und der DTX-State wechselt von CNI_STATE auf SPEECH_STATE. Die Sprachpause wird für beendet erklärt und man beginnt wieder mit der Decodierung der Sprachdaten.
- Im Fall einer Korrektur der ursprünglichen Frame-Type-Entscheidung aber wird der Frame-Type auf UNUSABLE zurückgesetzt. Der DTX-State wechselt nicht von CNI_STATE nach SPEECH_STATE und die Comfort-Noise-Erzeugung wird fortgesetzt.
- Der zusätzliche Test für die nachträgliche Frame-Type-Überprüfung sieht folgendermaßen aus:
- 1. Er wird angewendet, wenn in einer Sprachpause (DTX-State hat den Wert CNI_STATE) ein gültiger Sprachrahmen (Frame-Type hat den Wert GOOD_SPEECH) detektiert worden ist.
- 2. Wenn einer der vier Amplituden-Skalierungsfaktoren XMAXC für die vier Sub-Frames des betrachteten Sprachrahmens (siehe ETSI-Spezifikation für den Fullrate Sprachcoder 3GPP 46.010) einen vorher festgelegten Schwellwert überschreitet, wird die ursprüngliche Frame-Type-Entscheidung widerrufen und der betrachtete Sprachrahmen als UNUSABLE klassifiziert.
- 3. Spätestens nach dem n-ten in Folge als gültig detektierten Sprachrahmen kann die ursprüngliche Entscheidung nicht mehr widerrufen werden. Dann wird in jedem Fall von CNI_STATE nach SPEECH_STATE umgeschaltet und die Sprachpause für beendet erklärt. Der Wert "n" kann wählbar eingestellt werden (typische Werte für n: 2 oder 3).
- Dieser zusätzliche Test für die nachträgliche Frame-Type-Überprüfung bringt eine deutliche Reduktion der störenden "Bongs". Die resultierende Sprachqualität wird dadurch deutlich verbessert.
- Erfindungsgemäß werden somit die ersten empfangenen Sprachrahmen einer mit einer sehr hohen Energie (große Werte von XMAXC) beginnenden Sprachperiode unterdrückt. Daher kann auch eine Übersteuerung im Empfangs- oder Wiedergabepfad verhindert werden.
Claims (16)
- Vorrichtung zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten aufweist, wobei ein Audio-Signalrahmen an einer Anzahl von vorbestimmten Positionen jeweils eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten enthält, mit folgenden Merkmalen: einem Auswahlmittel (
101 ) zum Auswählen von Folgen von Bits, die an den vorbestimmten Positionen in dem empfangenen Signalrahmen angeordnet sind; und einem Entscheidungsmittel (103 ), das ausgebildet ist, um den empfangenen Signalrahmen als einen Audio-Signalrahmen zu kennzeichnen, falls die Folge von Bits die Seiteninformation darstellt, und die größte oder die kleinste Zahl, die durch eine der Folgen von Bits repräsentiert ist, mit einem vorgegebenen Schwellwert zu vergleichen. - Vorrichtung gemäß Anspruch 1, wobei die Seiteninformation ein Amplituden-Skalierungskoeffizient oder ein Leistungs-Skalierungskoeffizient ist.
- Vorrichtung gemäß Anspruch 1 oder 2, wobei das Auswahlmittel (
101 ) ausgebildet ist, um eine Steuerinformation zu empfangen, und um die Folge von Bits nur dann auszuwählen, wenn die Steuerinformation anzeigt, dass der empfangene Signalrahmen ein Audio-Signalrahmen ist. - Vorrichtung gemäß Anspruch 3, die ausgebildet ist, um die Steuerinformation von einem Kanaldecoder (
105 ) zu empfangen und um die Steuerinformation an das Auswahlmittel (101 ) weiterzuleiten. - Vorrichtung gemäß Anspruch 3 oder 4, die ferner einen Kanaldecoder (
105 ) aufweist, der ausgebildet ist, um ein Emp fangssignal mittels Kanaldecodierung in den empfangenen Signalrahmen umzusetzen, um Audiodaten zu detektieren und um die Steuerinformation zu erzeugen, falls der Kanaldecoder (105 ) in dem empfangenen Signalrahmen Audiodaten detektiert hat. - Vorrichtung gemäß einem der Ansprüche 1 bis 5, wobei das Auswahlmittel (
101 ) ausgebildet ist, um die Folge von Bits nur dann auszuwählen, falls der empfangene Signalrahmen ein in einer Folge von empfangenen Signalrahmen ein erster empfangener Signalrahmen ist, der durch die Steuerinformation als ein Audio-Signalrahmen gekennzeichnet ist. - Vorrichtung nach einem der Ansprüche 1 bis 6, wobei das Entscheidungsmittel (
103 ) ausgebildet ist, um zur Kennzeichnung eines Audio-Signalrahmens ein Informationssignal auszugeben. - Vorrichtung nach einem der Ansprüche 1 bis 7, wobei der empfangene Signalrahmen ein GSM-Signalrahmen ist, wobei die Audiodaten Sprachdaten sind, und wobei die Seiteninformation der XMAXC-Amplituden-Skalierungsfaktor ist.
- Verfahren zum Feststellen, ob ein empfangener Signalrahmen ein Audio-Signalrahmen ist, der Audiodaten enthält, wobei ein Audio-Signalrahmen an einer Anzahl von vorbestimmten Positionen jeweils eine Seiteninformation bezüglich einer Audio-Charakteristik der Audiodaten enthält, mit: Auswählen von Folgen von Bits, die an den vorbestimmten Positionen in dem Signalrahmen angeordnet sind; Kennzeichnen des empfangenen Signalrahmens als einen Audio-Signalrahmen, falls die Folge von Bits die Seiteninformation darstellt; und Vergleichen der größten oder der kleinsten Zahl, die durch eine der Folgen von Bits repräsentiert ist, mit einem vorgegebenen Schwellwert.
- Verfahren gemäß Anspruch 9, wobei die Seiteninformation ein Amplituden-Skalierungskoeffizient oder ein Leistungs-Skalierungskoeffizient ist.
- Verfahren gemäß Anspruch 9 oder 10, bei dem eine Steuerinformation empfangen wird, und bei dem die Folge von Bits nur dann ausgewählt wird, wenn die Steuerinformation anzeigt, dass der empfangene Signalrahmen ein Audio-Signalrahmen ist.
- Verfahren gemäß Anspruch 11, bei dem die Steuerinformation von einem Kanaldecoder (
105 ) empfangen wird. - Verfahren gemäß Anspruch 11 oder 12, bei dem ein Empfangssignal mittels Kanaldecodierung in den empfangenen Signalrahmen umgesetzt wird, bei dem eine Detektion der Audiodaten durchgeführt wird und bei dem die Steuerinformation erzeugt wird, falls das Empfangssignal Audiodaten aufweist.
- Verfahren gemäß einem der Ansprüche 9 bis 13, bei dem die Folge von Bits nur dann ausgewählt wird, falls der empfangene Signalrahmen ein in einer Folge von empfangenen Signalrahmen ein erster empfangener Signalrahmen ist, der durch die Steuerinformation als ein Audio-Signalrahmen gekennzeichnet ist.
- Verfahren nach einem der Ansprüche 9 bis 14, bei dem zur Kennzeichnung eines Audio-Signalrahmens ein Informationssignal ausgegeben wird.
- Verfahren nach einem der Ansprüche 9 bis 15, bei dem der empfangene Signalrahmen ein GSM-Signalrahmen ist, bei dem die Audiodaten Sprachdaten sind, und bei dem die Seiteninformation der XMAXC-Amplituden-Skalierungsfaktor ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006006066A DE102006006066B4 (de) | 2006-02-09 | 2006-02-09 | Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006006066A DE102006006066B4 (de) | 2006-02-09 | 2006-02-09 | Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102006062774B4 true DE102006062774B4 (de) | 2008-08-28 |
Family
ID=38288603
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102006006066A Expired - Fee Related DE102006006066B4 (de) | 2006-02-09 | 2006-02-09 | Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen |
DE102006062774A Expired - Fee Related DE102006062774B4 (de) | 2006-02-09 | 2006-02-09 | Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102006006066A Expired - Fee Related DE102006006066B4 (de) | 2006-02-09 | 2006-02-09 | Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen |
Country Status (2)
Country | Link |
---|---|
US (1) | US8065137B2 (de) |
DE (2) | DE102006006066B4 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489958B2 (en) * | 2014-07-31 | 2016-11-08 | Nuance Communications, Inc. | System and method to reduce transmission bandwidth via improved discontinuous transmission |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006462A1 (en) * | 2002-07-03 | 2004-01-08 | Johnson Phillip Marc | System and method for robustly detecting voice and DTX modes |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE527654T1 (de) * | 2004-03-01 | 2011-10-15 | Dolby Lab Licensing Corp | Mehrkanal-audiodecodierung |
-
2006
- 2006-02-09 DE DE102006006066A patent/DE102006006066B4/de not_active Expired - Fee Related
- 2006-02-09 DE DE102006062774A patent/DE102006062774B4/de not_active Expired - Fee Related
-
2007
- 2007-02-09 US US11/673,133 patent/US8065137B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006462A1 (en) * | 2002-07-03 | 2004-01-08 | Johnson Phillip Marc | System and method for robustly detecting voice and DTX modes |
Also Published As
Publication number | Publication date |
---|---|
US20070192096A1 (en) | 2007-08-16 |
DE102006006066A1 (de) | 2007-08-23 |
DE102006006066B4 (de) | 2008-07-31 |
US8065137B2 (en) | 2011-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60311593T2 (de) | System und Verfahren zur Erkennung von Sprach und DTX Moden | |
DE69735673T2 (de) | Verfahren und einrichtung zur bestimmung der datenrate empfangener daten in einem übertragungssystem mit veränderlicher datenrate | |
DE69729024T2 (de) | Verfahren zur bestimmung der rahmenqualität und empfänger | |
DE69533734T2 (de) | Durch Sprachaktivitätsdetektion gesteuerte Rauschunterdrückung | |
DE69915830T2 (de) | Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem. | |
EP0659002B1 (de) | Verfahren und Schaltungsanordnung zur Übertragung von Sprachsignalen | |
DE112015006651T5 (de) | Mobile kommunikationsvorrichtung und verfahren zum steuern eines empfängers einer mobilen kommunikationsvorrichtung | |
DE60118631T2 (de) | Verfahren zum ersetzen verfälschter audiodaten | |
DE19941331B4 (de) | Verfahren zum Übertragen von Information zu Hintergrundrauschen bei Datenübertragung mittels Datenrahmen sowie Kommunikationssystem, Mobilstation und Netzwerkelement | |
DE69530665T2 (de) | Verfahren und gerät zur sprachübertragung in einem mobilen kommunikationssystem | |
DE19731976C2 (de) | Digitaler Empfänger zum Umwandeln eines empfangenen Signals in ein Sprachsignal und Verfahren zum Erzeugen von Rauschen in diesem Empfänger | |
DE60024261T2 (de) | Soft-Normalisierer für einen Kanaldekoder | |
DE60120158T2 (de) | Detektor für hörbare fehler und steuerung unter verwendung der kanalqualität und der iterativen synthese | |
EP1634277B1 (de) | Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals | |
DE102006062774B4 (de) | Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen | |
DE69911847T2 (de) | Verfahren zum Identifizieren von Datenrahmen zur Löschung in einem digitalen Datenübertragungssystem | |
EP0988728A2 (de) | Quellengesteuerte kanaldecodierung durch verwendung der intra-rahmen-korrelation | |
DE60118479T2 (de) | Detektierung von Übertragungsfehlern in einem Sprachdekoder | |
EP1046254A1 (de) | Verfahren und vorrichtung zur codierung, decodierung und übertragung von informationen, unter verwendung von quellengesteuerter kanaldecodierung | |
EP0542065B1 (de) | Verfahren zum Decodieren von Binärsignalen | |
DE602004002845T2 (de) | Sprachaktivitätsdetektion unter Verwendung von komprimierten Sprachsignal-Parametern | |
EP1196912B1 (de) | Verfahren und vorrichtung zur decodierung von quellensignalen | |
DE69722091T2 (de) | Verfahren und System zur Schätzung der Qualität von empfangenen Informationsblöcken über ein Übertragungssystem mit Verwendung von Blockkodierung | |
EP1525700B1 (de) | Auswertung von empfangenen nutzinformationen durch fehlerverschleierungsdetektion | |
EP1390947B1 (de) | Verfahren zum signalempfang in einem digitalen kommunikationssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
Q172 | Divided out of (supplement): |
Ref document number: 102006006066 Country of ref document: DE Kind code of ref document: P |
|
8110 | Request for examination paragraph 44 | ||
AC | Divided out of |
Ref document number: 102006006066 Country of ref document: DE Kind code of ref document: P |
|
8364 | No opposition during term of opposition | ||
R081 | Change of applicant/patentee |
Owner name: INTEL DEUTSCHLAND GMBH, DE Free format text: FORMER OWNER: INFINEON TECHNOLOGIES DELTA GMBH, 85579 NEUBIBERG, DE Effective date: 20130306 Owner name: INTEL DEUTSCHLAND GMBH, DE Free format text: FORMER OWNER: INTEL MOBILE COMMUNICATIONS TECHNOLOGY GMBH, 85579 NEUBIBERG, DE Effective date: 20130306 Owner name: INTEL DEUTSCHLAND GMBH, DE Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 85579 NEUBIBERG, DE Effective date: 20130306 Owner name: INTEL MOBILE COMMUNICATIONS GMBH, DE Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 85579 NEUBIBERG, DE Effective date: 20130306 Owner name: INTEL MOBILE COMMUNICATIONS GMBH, DE Free format text: FORMER OWNER: INTEL MOBILE COMMUNICATIONS TECHNOLOGY GMBH, 85579 NEUBIBERG, DE Effective date: 20130306 Owner name: INTEL MOBILE COMMUNICATIONS GMBH, DE Free format text: FORMER OWNER: INFINEON TECHNOLOGIES DELTA GMBH, 85579 NEUBIBERG, DE Effective date: 20130306 |
|
R081 | Change of applicant/patentee |
Owner name: INTEL DEUTSCHLAND GMBH, DE Free format text: FORMER OWNER: INTEL MOBILE COMMUNICATIONS GMBH, 85579 NEUBIBERG, DE |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |