-
Die
vorliegende Erfindung betrifft Verfahren und Vorrichtungen zur Sprachübertragung,
insbesondere zur rahmenbasierten Übertragung von Sprachdaten.
-
Eine
derartige rahmenbasierte Übertragung von Sprachsignalen
kommt beispielsweise bei schnurlosen Telefonen zum Einsatz, welche
beispielsweise nach dem DECT Standard (Digital Enhanced Cordless
Telecommunications) arbeiten.
-
Derartige
schnurlose Telefone weisen typischerweise eine Basisstation und
ein Mobilteil auf. Die Basisstation empfängt bei einem
Telefongespräch Sprachsignale beispielsweise über
das öffentliche Telefonnetz oder auch im Falle der so genannten
IP-Telefonie als paketbasierte Sprachdaten aus dem Internet, kodiert
oder transkodiert die Sprachdaten falls dies erforderlich ist und
sendet sie als Sprachrahmen in drahtloser Form zu dem Mobilteil. In
dem Mobilteil werden die Sprachdaten dekodiert und über
einen Lautsprecher ausgegeben.
-
Auf
dem umgekehrten Kommunikationsweg nimmt das Mobilteil Sprache beispielsweise über
ein eingebautes Mikrophon auf, kodiert diese und sendet diese ebenfalls
rahmenbasiert zu der Basisstation. Die Basisstation dekodiert die
Sprachdaten und wandelt sie in geeignete Sprachsignale für
ein Netzwerk, beispielsweise in analoge Sprachsignale für
das öffentliche Telefonnetz, oder transkodiert die Sprachdaten,
falls dies notwendig ist, und packt bei Verwendung von IP-Telefonie
die Sprachdaten in IP-Pakete ein.
-
In
den letzten Jahren wurden mögliche Gesundheitsgefährdungen
durch den so genannten „Elektrosmog” zunehmend
in der Öffentlichkeit diskutiert. Vor diesem Grund ist
es generell wünschenswert, die von der Basisstation und/oder
dem Mobilteil eines derartigen Systems abgestrahlte Leistung möglichst
niedrig zu halten. Eine derartige Leistungsersparnis ist auch hinsichtlich
der Akkulebensdauer des Mobilteils wünschenswert.
-
Es
ist daher eine Aufgabe der vorliegenden Erfindung, Verfahren und
Vorrichtungen zur rahmenbasierten Sprachübertragung bereitzustellen,
mit welchen eine zum Übertragen der Rahmen nötige Leistung
reduziert werden kann.
-
Diesbezüglich
stellt die Erfindung gemäß einem Ausführungsbeispiel
ein Verfahren nach Anspruch 1, gemäß einem anderen
Ausführungsbeispiel ein Verfahren nach Anspruch 7, gemäß einem weiteren
Ausführungsbeispiel eine Vorrichtung nach Anspruch 10 und
gemäß einem weiteren Ausführungsbeispiel
eine Vorrichtung nach Anspruch 20 bereit. Die abhängigen
Ansprüche definieren weitere Ausführungsbeispiele.
-
Gemäß einem
Ausführungsbeispiel wird ein Verfahren zur Sprachübertragung
bereitgestellt, umfassend:
Übertragen von Sprachdaten
in Datenrahmen, wobei jeder Datenrahmen mindestens einen Abschnitt
für Sprachdaten umfasst,
Detektieren einer Sprechpause,
und
Reduzieren der Länge des mindestens einen Abschnitts,
wenn eine Sprechpause detektiert wird.
-
Andere
Ausführungsbeispiele der Erfindung können weniger
Merkmale, alternative Merkmale und/oder zusätzliche Merkmale
aufweisen.
-
Die
Erfindung wird nachfolgend unter Bezugnahme auf die beigefügte
Zeichnung anhand von Ausführungsbeispielen näher
erläutert. Es zeigen:
-
1 eine
schematische Darstellung eines in DECT Systemen verwendeten Formats
zur Übertragung von Sprachdaten,
-
2 ein
Flussdiagramm eines Ausführungsbeispiels eines erfindungsgemäßen
Verfahrens, und
-
3 ein
Blockdiagramm eines Ausführungsbeispiels einer erfindungsgemäßen
Vorrichtung.
-
Im
Folgenden werden Ausführungsbeispiele der vorliegenden
Erfindung detailliert erläutert. Als beispielhaftes System,
bei welchem Sprache übertragen wird, wird dabei ein gemäß einem DECT-Standard,
z. B. ITU-T G.726 oder G.722 arbeitendes schnurloses Telefon
verwendet. Bei anderen Ausführungsbeispielen können
andere Systeme, welche Sprachdaten in Datenrahmen und/oder abtastwertbasiert übertragen
verwendet werden.
-
Allgemein
benutzen Ausführungsbeispiele der Erfindung die Tatsache,
dass beispielsweise bei einem Telefongespräch kürzere
und längere Sprechpausen auftreten, welche bei einem normalen
Gespräch ca. 40% der Gesprächsdauer ausmachen. Bei
Ausführungsbeispielen der Erfindung wird bei derartigen
Sprechpausen die Datenübertragung reduziert, wodurch die
gesamte benötigte Übertragungsleistung verringert
werden kann.
-
Dies
wird nunmehr am Beispiel eines schnurlosen DECT Telefons näher
erläutert. Wie bereits einleitend erwähnt, umfasst
ein derartiges schnurloses Telefon typischerweise eine Basisstation
und ein Mobilteil, wobei Sprachdaten zusammen mit Steuerdaten drahtlos
zwischen der Basisstation und dem Mobilteil übertragen.
Dabei kommt bei DECT-Systemen ein Zeitmultiplexverfahren (TDMA,
Time Division Multiple Access) zum Einsatz. Diese Art der Datenübertragung,
wie sie bei DECT-Systemen verwendet wird, wird nachfolgend unter
Bezugnahme auf 1 näher erläutert.
-
In 1 oben
ist ein TDMA-Rahmen 10 dargestellt. Dieser Rahmen 10 ist
beispielsweise 10 ms lang. Er ist in 24 Zeitschlitze 11 unterteilt,
welche in 1 von 0 bis 23 durchnummeriert
sind. Jeder Zeitschlitz weist 10 Frequenzzellen auf, von denen zu
einem gegebenen Zeitpunkt eine benutzt werden kann. Die Zeitschlitze
0 bis 11 werden dabei bei dem dargestellten Beispiel zur Datenübertragung
von der Basisstation zum Mobilteil verwendet, während die
Zeitschlitze 12 bis 23 zur Datenübertragung vom Mobilteil
zur Basisstation dienen. Bei Schmalbandsystemen umfasst jeder Zeitschlitz
480 Bits.
-
Es
ist zu bemerken, dass der dargestellte Rahmen lediglich ein Beispiel
ist, und bei DECT-Systemen auch andere Rahmengrößen
möglich sind. Beispielsweise können so genannte
lange Zeitschlitze vorgesehen sein, welche die doppelte Größe
der in 1 dargestellten „normalen” Zeitschlitze
aufweisen. Diese langen Zeitschlitze können beispielsweise für
breitbandige Sprachübertragung (Wide Band Speech) benutzt
werden, während sie oben erwähnt die dargestellten
Zeitschlitze typischerweise für schmalbandige Sprachübertragung
(Narrow Band Speech) benutzt werden.
-
Die
Zeitschlitze sind grundsätzlich gleich aufgebaut. In dem
dargestellten Beispiel ist ein Zeitschlitz 11 in der zweiten
Zeile der 1 detaillierter dargestellt.
-
Der
Zeitschlitz 11 weist bei dem dargestellten Beispiel eine
Dauer von 417 μs auf. Ein erstes Feld 12, welches
Bits 0 bis 31 des Zeitschlitzes umfasst und 28 μs
dauert, dient als Synchronisationsfeld, d. h. zur Übertragung
von Synchronisationsdaten. Diesem Synchronisationsfeld folgt ein
388 Bits langes so genanntes D-Feld 13 mit einer Dauer
von 340 μs. Dem D-Feld 13 folgt ein 56 Bit langer
Guardabschnitt.
-
Der
Aufbau des D-Feldes 13 ist in der dritten Zeile von 1 näher
erläutert. Bei dem dargestellten Ausführungsbeispiel umfasst
das D-Feld 13 ein 64 Bit langes A-Feld 14 (56 μs
Dauer), welches insbesondere Stapelinformation (Stack Information)
enthält, gefolgt von einem 320 Bit langen B-Feld 15 (278 μs
Dauer), in welchem die eigentlichen Sprachdaten übertragen
werden. Dem B-Feld 15 folgt ein 4 Bit langes X-Feld 16 (3 μs
Dauer), welche eine Prüfsumme (CRC, Cyclic Redundancy Check)
für das B-Feld 15 enthält, sowie ein
ebenfalls 4 Bit langes Z-Feld 17, welches eine Kopie des
X-Feldes ist und zur Kollisionsdetektion verwendet werden kann.
-
In
der untersten Zeile der 1 sind noch das A-Feld 14 und
das B-Feld 15 schematisch dargestellt.
-
Bei
Ausführungsbeispielen der Erfindung wird, wenn eine Sprechpause
detektiert wird, das 8-Feld 15 verkürzt oder sogar
ganz weggelassen. Beispielsweise kann das B-Feld 15 ganz
weggelassen werden, oder im B-Feld können nur Parameter übertragen
werden, welche Eigenschaften eines Hintergrundrauschens bzw. von
Hintergrundgeräuschen beschreiben, um so beim Empfänger
eine Rekonstruktion des Hintergrundrauschens vornehmen zu können.
Durch die Verkürzung des B-Feldes müssen weniger
Daten übertragen werden, was Sendeleistung spart und somit
bei drahtloser Übertragung eine Akkulebensdauer eines Mobilteils
verlängern kann und eine abgestrahlte Strahlungsleistung
ebenso verringern kann.
-
Ein
entsprechendes Verfahren ist in 2 schematisch
dargestellt.
-
In
Schritt 20 wird detektiert, ob eine Sprechpause vorliegt.
In Schritt 21 wird beim Vorliegen einer Sprechpause überprüft,
ob die Sprechpause länger als ein vorgegebener Wert, beispielsweise
länger als N-Rahmen ist, wobei N eine ganze Zahl ist, z.
B. N = 100 oder N = 1000, wobei auch beliebige andere Werte möglich
sind. Durch diese Überprüfung kann bei dem Ausführungsbeispiel
von 2 vermieden werden, dass bereits bei sehr kurzen
Sprechpausen das B-Feld verkürzt wird.
-
Wenn
keine lange Sprechpause vorliegt, wird in Schritt 23 der
volle Rahmen übertragen. Falls eine Sprechpause länger
als N Rahmen vorliegt, wird in Schritt 22 nur ein reduzierter
Rahmen, wie oben erläutert beispielsweise ein Rahmen mit
verkürztem (oder weggelassenem, d. h. auf eine Länge
Null verkürztem) B-Feld übertragen. Dann wird
das Verfahren wieder bei Schritt 20 fortgesetzt.
-
Wenn
bei Detektion einer Sprechpause ein verkürztes B-Feld gesendet
wird bzw. das B-Feld auf eine Länge Null verkürzt
wird, d. h. ganz weggelassen wird, kann dies bei einem Ausführungsbeispiel im
A-Feld angezeigt werden, sodass ein jeweiliger Empfänger
erkennt, dass es sich um einen modifizierten, d. h. verkürzten
Rahmen handelt.
-
Ausführungsbeispiele
der Erfindung können auf verschiedene Weise implementiert
werden. Eine beispielhafte Implementierung gemäß einem
Ausführungsbeispiel ist in 3 gezeigt.
Bei dem in 3 dargestellten Ausführungsbeispiel
werden Sprachdaten über eine drahtlose Übertragungsstrecke 41 von einem
Sendeteil 53 zu einem Empfangsteil 54 übertragen.
Der Sendeteil 53 kann beispielsweise in einer Basisstation
eines schnurlosen Telefons angeordnet sein, und der Empfangsteil 54 kann
in einem zugeordneten Mobilteil angeordnet sein. Für die Übertragung
in umgekehrter Richtung kann der Sendeteil 53 in dem Mobilteil
und der Empfangsteil 54 in der Basisstation angeordnet
sein. Für eine Sprachübertragung in beide Richtungen
kann also sowohl die Basisstation als auch das Mobilteil jeweils
einen Sendeteil 53 und einen Empfangsteil 54 umfassen.
Es ist jedoch ebenso möglich, dass nur eine Übertragungsrichtung
gemäß einem Ausführungsbeispiel der Erfindung
ausgestaltet ist, während die andere Übertragungsrichtung
in konventioneller Weise implementiert ist.
-
In
dem Sendeteil 53 werden bei dem Ausführungsbeispiel
von 3 von einem analogen Frontend 31 Sprachdaten
von einem Element 30, welches durch ein Mikrophon symbolisiert
ist, empfangen. Ist das Sendeteil 53 beispielsweise in
einem Mobilteil eines schnurlosen Telefons angedeutet, kann das
Element 30 das Mikrophon des Mobilteils sein. Ist der Sendeteil 53 in
einer Basisstation eines schnurlosen Telefons angeordnet, kann das
Element 30 beispielsweise ein öffentliches Telefonnetzwerk
sein, aus welchem Sprachdaten empfangen werden.
-
In
dem analogen Frontend werden die empfangenen analogen Sprachdaten
abgetastet. Bei DECT Systemen beträgt die Abtastrate dabei
beispielsweise 8 Kilohertz. Die Sprachdaten werden dann an einen
Kodierer 33, welcher im Fall eines DECT Systems beispielsweise
nach dem G.726 Standard oder G.722 arbeitet, weitergegeben.
Der Kodierer 33 kann bei dem Ausführungsbeispiel
von 3 beispielsweise zur Initialisierung von einer Steuerung 35 zurückgesetzt
werden. Bei einem Ausführungsbeispiel werden die eingehenden
Abtastwerte Abtastwert für Abtastwert an den Kodierer 33 übermittelt.
Die kodierten Abtastwerte, welche bei dem Ausführungsbeispiel
von 3 jeweils 4 Bit entsprechen, werden in einem zyklischen
Puffer 36 geschrieben, welcher bei dem Ausführungsbeispiel
von 3 eine Länge von 40 Abtastwerten aufweist,
was einer Übertragungslänge von 10 ms, d. h. einem TDMA
Rahmen (siehe 1) entspricht.
-
Zudem
werden in einer Pausendetektionseinheit 32 die Abtastwerte überprüft,
um festzustellen, ob eine Sprechpause vorliegt. Die Information, ob
eine Sprechpause vorliegt, wird an eine Steuerung 35 übermittelt.
-
Schließlich
werden bei einem Ausführungsbeispiel von 3 die
Abtastwerte auch einer Sprechpausenparameterschätzeinheit 34 zugeführt. Diese
schätzt Parameter ab, welche Hintergrundgeräusche
bzw. Hintergrundrauschen während Sprechpausen beschreiben.
Derartige Sprechpausenparameter werden in der englischsprachigen
Literatur auch als „silence parameter” oder „comfort
noise parameter” bezeichnet. Sie können beispiels weise
Parameter umfassen, welche eine Lautstärke der Hintergrundgeräusche
und/oder spektrale Eigenschaften der Hintergrundgeräusche
beschreiben. Derartige Parameter sind beispielsweise in ITU-T
G.711 Appendix II spezifiziert.
-
Solange
keine Sprechpausen einer vorgegebenen Mindestlänge vorliegen,
steuert die Steuerung 35 einen Schalter 37 an,
den zyklischen Puffer 36 mit einer B-Feld Erzeugungseinheit 38 zu
verbinden. Die B-Feld Erzeugungseinheit liest den zyklischen Puffer aus,
um ein B-Feld für einen Zeitschlitz des TDMA Rahmens zu
bilden. Gleichzeitig steuert die Steuerung 35 eine A-Feld
Erzeugungseinheit 39 an, ein entsprechendes A-Feld zu erzeugen.
In einer Sendeeinheit 40 werden dann das B-Feld und das
A-Feld zu dem in 1 dargestellten Datenformat
eines Zeitschlitzes 11 zusammengestellt, wobei die übrigen unter
Bezugnahme auf 1 bereits erläuterten
Felder hinzugefügt werden. Die Sendeeinheit 40 überträgt
die Daten dann drahtlos über die Übertragungsstrecke 41.
-
Detektiert
die Pausendetektionseinheit 32 eine Sprechpause, beispielsweise
eine Sprechpause, welche länger als eine vorgegebene Zeitdauer (beispielsweise
eine vorgegebene Anzahl von Rahmen, wobei ein Rahmen 10 ms entspricht)
ist, steuert die Steuerung 35 den Schalter 37 an,
so dass von der Sprechpausenparameterschätzeinheit 34 ausgegebene
Sprechpausenparameter der B-Feld Erzeugungseinheit 38 zugeführt
werden. In diesem Fall wird bei dem dargstellten Beispiel lediglich
ein verkürztes B-Feld erzeugt, welches nur die Sprechpausenparameter
enthält. Zudem steuert die Steuerung 35 in diesem
Fall die A-Feld Erzeugungseinheit 39 an, im A-Feld zu vermerken,
dass der jeweilige Zeitschlitz ein B-Feld aufweist, welches nur
Sprechpausenparameter enthält. Die Sendeeinheit 40 überträgt dann
einen entsprechenden Zeitschlitz mit dem reduzierten B-Feld und
dem modifizierten A-Feld.
-
Bei
dem soeben erläuterten Ausführungsbeispiel wird
während einer Sprechpause in jedem Zeitschlitz ein reduziertes
B-Feld mit Sprechpausenparametern übertragen. Bei einem
anderen Ausführungsbeispiel kann beispielsweise ein derartiges
reduziertes B-Feld nur zu Beginn der Sprechpause oder in vorgegebenen
Abständen erfolgen, während die übrigen
B-Felder während der Sprechpause ganz weggelassen, d. h.
auf null reduziert, werden.
-
In
dem Empfangsteil 54 empfängt eine Empfangseinheit 42 die übertragenen
Daten und extrahiert unter anderem aus jedem Zeitschlitz ein A-Feld 43 und
ein B-Feld 44. Eine Steuerung 47 analysiert das
A-Feld 43. Enthält das A-Feld 43 keinen
Hinweis darauf, dass ein reduziertes B-Feld übertragen
wurde, wird ein Schalter 45 in eine Position gebracht, welche
den Inhalt des B-Feldes einem zyklischen Puffer 46 zuführt.
Der zyklische Puffer 46 kann beispielsweise eine Länge
von 40 Abtastwerten, welche aus dem B-Feld gelesen werden, aufweisen.
Ein Dekodierer 49 dekodiert die von dem Kodierer 33 im Sendeteil 53 kodierten
Sprachdaten. In diesem Fall steuert die Steuerung 47 zudem
einen Schalter 50 an, den Dekodierer 49 mit einem
analogen Frontend 51 zu verbinden. Der Dekodierer 49 liest
dabei die empfangenen Abtastwerte beispielsweise mit einer Rate
von 8 Kilohertz aus dem zyklischen Puffer 46 aus und führt
die dekodierten Abtastwerte dem analogen Frontend 51 zu.
Das analoge Frontend 51 wandelt die Abtastwerte in analoge
Sprachsignale um, welche an ein Element 52 weitergegeben
werden. Ist der Empfangsteil 54 in dem Mobilteil eines
schnurlosen Telefons angeordnet, kann das Element 52 beispielsweise
wie in der 3 dargestellt ein Lautsprecher
des Mobilteils sein. Ist der Empfangsteil 54 beispielsweise
in einer Basisstation eines schnurlosen Telefons angeordnet, kann
das Element 52 ein Telefonnetzwerk, beispielsweise ein
analoges Telefonnetzwerk, repräsentieren.
-
Falls
das A-Feld 53 hingegen anzeigt, dass ein reduziertes B-Feld 44 mit
Sprechpausenparametern empfangen wurde, steuert die Steuerung 47 den Schalter 45 an,
so dass das B-Feld 44 einer Hintergrunderzeugungseinheit 48 zugeführt
wird, und steuert zudem den Schalter 50 an, die Hintergrunderzeugungseinheit 48 mit
dem analogen Frontend 51 zu verbinden. In diesem Fall erzeugt
die Hintergrundgeräuscherzeugungseinheit 48 auf
Basis der empfangenen Sprechpausenparameter einem Hintergrundgeräusch
entsprechende Abtastwerte, welche von dem analogen Front End 51 in
ein analoges Signal umgewandelt und an das Element 52 weitergegeben werden.
Somit wird während der Sprechpausen, in denen keine Sprachdaten übertragen
werden, d. h. ein reduziertes B-Feld verwendet wird, einem Benutzer
der Eindruck eines Hintergrundgeräusches vermittelt, was
weniger störend empfunden wird als völlige Stille.
-
Ist
das B-Feld ganz weggelassen, kann die Hintergrundgeräuscherzeugungseinheit 48 beispielsweise
auf Basis vorher empfangener oder fest abgespeicherter Sprechpausenparameter
ein Hintergrundgeräusch erzeugen.
-
Während
einer Sprechpause, d. h. wenn Zeitschlitze mit reduziertem B-Feld übertragen
werden, wird der Dekodierer 49 bei dem Ausführungsbeispiel
der 3 von der Steuerung 47 in regelmäßigen
Abständen, beispielsweise alle 10 ms entsprechend der Dauer
eines TDMA Rahmens, zurückgesetzt. Dies kann die Sprachqualität
beim Zurückwechseln der Sprachübertragung, d.
h. am Ende der Sprechpause, verbessern.
-
Das
in 3 dargestellte System ist lediglich als Beispiel
zu verstehen, und die Erfindung kann auch auf andere Art implementiert
werden. Beispielsweise können sowohl Kodierer und Dekodierer
für schmalbandige Übertragung eingesetzt werden,
z. B. G.726 Kodierer und Dekodierer; als auch z.
B. G.722 Kodierer und Dekodierer für eine
breitbandige Übertragung. Bei anderen Ausführungsbeispielen
können die Sprechpausenparameterschätzeinheit 34 und
die Hintergrundgeräuscherzeugungseinheit 48 weggelassen
sein, und beim Vorliegen einer Sprechpause kann das B-Feld allgemein
weggelassen werden.
-
Bei
dem Ausführungsbeispiel von 3 kann in
einer Basisstation das analoge Frontend 31 Sprachsignale
aus einem Telefonnetz empfangen oder das analoge Frontend 51 analoge
Sprachsignale in das Telefonnetz ausgeben. Bei anderen Ausführungsbeispielen
könne digitale Frontends eingesetzt werden, um digitale
Sprachdaten aus einem digitalen Netz oder auch paketbasierte Sprachdaten
aus einem Netzwerk wie dem Internet zu empfangen.
-
Auch
ist die Erfindung nicht auf DECT-Systeme mit dem in 1 dargestellten
Rahmenformat beschränkt, sondern kann generell bei rahmenbasierter
Sprachdatenübertragung angewendet werden, um im Falle von
Sprechpausen die nötige Übertragungsleistung zu
verringern. Dies gilt sowohl für drahtlose als auch für
drahtgebundene Übertragung.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- - DECT-Standard,
z. B. ITU-T G.726 oder G.722 [0014]
- - G.726 Standard oder G.722 [0030]
- - ITU-T G.711 Appendix II [0032]
- - G.726 [0040]
- - G.722 [0040]