-
Die
Erfindung betrifft ein Verfahren, das dafür vorgesehen ist, die akustische
Wiederherstellung von digitalisierten Signalen und insbesondere
von Sprachsignalen zu erleichtern, die an ein Telekommunikations-Endgerät zu Beginn
einer Telefonverbindung übertragen
werden, die über
ein Telekommunikationsnetz hergestellt wird, in welchem diese Signale
in Form von Paketen und insbesondere über eine unter dem Internet-Protokoll
hergestellten VOIP-Verbindung (mit VOIP für "Voice Over Internet Protocol") übertragen
werden. Sie betrifft ebenfalls Telekommunikations-Betriebsmittel
und insbesondere die Endgeräte,
die dafür
vorgesehen sind, dieses Verfahren zum Vorteil der Teilnehmer umzusetzen.
-
Bekanntlich
impliziert die Herstellung einer Telefonverbindung zwischen Teilnehmern über Endgeräte, die
untereinander über
ein Paketübertragungsnetz
verbunden sind, daß die
Pakete, die den Sprachsignalen bezüglich der in Echtzeit hergestellten
Kommunikation entsprechen, zumindest annähernd periodisch übertragen
werden, was eine relativ originalgetreue akustische Wiederherstellung
gestattet, und daß insbesondere
zumindest die Wörter
verständlich
reproduziert werden. Nun kann aber bekanntlich bei der Übertragung
von Paketen zwischen zwei Endgeräten über ein
etwas ausgelastetes Übertragungsnetz
nicht gewährleistet
werden, daß die
Pakete von ihrem Empfänger
in einem regelmäßigen Rhythmus
empfangen werden, der ihrer Kodierungszeitspanne oder auch nur der
Reihenfolge entspricht, in welcher sie vom Absender versandt wurden.
Klassischerweise gibt es Pakete, die von einem Endgerät zu einem
anderen übertragen
werden und gegenüber
anderen in einer Weise verzögert
sind, die vom Endgerät
auf der Zielseite nicht in geeigneter Weise vorhersehbar ist. Darüber hinaus
gibt es Verlustrisiken und die Möglichkeit
einer Verdopplung der übertragenen
Pakete. Dies führt
dazu, daß die
von einem Endgerät
empfangenen Pakete je nach ihrem Empfang zwischengespeichert werden,
damit die Bildung eines Paketpuffers möglich wird, aus welchem die Pakete
abgerufen und wieder in ihrer anfänglichen Reihenfolge zusammengestellt
werden können,
insbesondere nachdem auf diejenigen Pakete gewartet wurde, die verspätet eingetroffen
sind, wenn die Verzögerung
einen festgelegten Schwellenwert nicht überschreitet und nachdem eventuelle
Dubletten eliminiert wurden. Die Übertragung von Sprachsignalen in
digitalisierter Form und mittels Paketen ist normalerweise über ein
asynchrones Paketvermittlungsnetz möglich. Sie setzt allerdings
voraus, daß zeitliche
Beschränkungen
hinsichtlich der Laufzeit und der Periodizität beachtet werden, sobald es
sich bei diesen Signalen um Sprachsignale handelt, die sich auf
ein in Echtzeit geführtes
Gespräch
zwischen zwei Teilnehmern beziehen und in akustischer Form in einem
festgelegten Rhythmus wiederhergestellt werden müssen, der vorzugsweise demjenigen
entspricht, der bei ihrer Erfassung geherrscht hat.
-
Die
Bestimmung der Größe des Puffers,
in welchem die Pakete je nach ihrem Empfang durch ein Gerät zwischengespeichert
werden, setzt voraus, daß ein
guter Kompromiß gefunden
wird. Ist der Puffer nämlich
zu klein, dann ist die Anzahl der nacheinander gespeicherten Pakete,
die zu einem gegebenen Zeitpunkt gleichzeitig vorhanden sind, so
groß, daß es möglich ist,
daß verzögerte Pakete
nicht empfangen und somit zu dem Zeitpunkt im Puffer gespeichert
werden, zu dem sie im Puffer berücksichtigt werden
müßten, um
in akustischer Form wiederhergestellt zu werden, nachdem sie wie
ursprünglich vorgesehen
reorganisiert wurden. Die unter diesen Bedingungen wiederhergestellten
akustischen Signale geben die ursprünglich erfaßten Signale, die dazu gedient
haben, sie zu bilden, nicht originalgetreu wieder. Die erzielte
Dienstqualität
kann inakzeptabel werden, und die akustischen Signale können, wenn
sie Sprachsignalen entsprechen, schwer verständlich werden. Wenn der Puffer
hingegen groß ist, so
daß der
oben beschriebene Nachteil vermieden wird, kann eine lange Zeitspanne
vergehen, bevor die digitalisierten Tonsignale wie anfänglich vorgesehen
reorganisiert sind, was von den Teilnehmern im Fall von Sprachsignalen,
die sich auf ein in Echtzeit geführtes
Telefongespräch
beziehen, wahrgenommen werden kann. Die Dienstqualität kann dabei
erheblich beeinträchtigt
sein, und ein unter diesen Bedingungen geführtes Telefongespräch kann
sich für die
kommunizierenden Teilnehmer als schwierig erweisen.
-
Die
Größe des Puffers
in einem aktiven Gerät
kann in Abhängigkeit
von Verzögerungen,
von denen die empfangenen Pakete betroffen sind, so modifiziert
werden, daß sie
erhöht
wird, wenn es Pakete gibt, die zu spät eintreffen, um berücksichtigt
zu werden, und um die nachher eintreffenden Pakete mit einer äquivalenten
Verzögerung
zu akzeptieren, oder wenn sich einfach die Verzögerungen, die die empfangenen
Pakete betreffen, im Mittel erhöhen,
oder auch dann, wenn sich die mittlere Abweichung zwischen den aufeinanderfolgenden
Verzögerungen
erhöht.
Eine solche Modifikation basiert beispielsweise auf einer statistischen
Verarbeitung der Verzögerungen,
die sich auf die letzten empfangenen Pakete ausgewirkt haben. Möglich ist
auch, die Größe eines Puffers
in einem aktiven Gerät
zu verringern, wenn die eintreffenden Pakete mit einer geringeren
als der vorgesehenen Verzögerung
empfangen werden und/oder wenn die an den eintreffenden Paketen
gemessenen Verzögerungen
in einem Verzögerungsbereich
bleiben, der kleiner als der berücksichtigte Bereich
ist.
-
Solche
Modifikationen der Puffergröße werden
vorzugsweise im zielseitigen Endgerät bei einer Signalpause des
Gesprächsteilnehmers
bewerkstelligt, der das sendeseitige Endgerät benutzt, damit es nicht zu
Interferenzen mit der Verarbeitung der empfangenen Signalpakete
kommt, die Echtzeit-Sprachsignalen
entsprechen, deren Wiederherstellung möglichst originalgetreu erfolgen
muß. Wie
oben beschrieben, können
diese Anpassungen durch Berücksichtigung
von Verzögerungen bewerkstelligt werden,
die jeweils für
die letzten vom Endgerät
empfangenen Pakete ermittelt werden. Die Verzögerung jedes einzelnen Pakets
wird beispielsweise durch Berücksichtigung
des Zeitpunkts, zu welchem dieses Paket versendet wurde und der
im Header der Mitteilung angegeben ist, welche sie enthält, sowie
der für das
Paket anhand des Systemtakts des empfangenden Endgeräts festgestellten
Ankunftszeit ermittelt. Dies gestattet insbesondere das Berücksichtigen
der insbesondere im Übertragungsnetz
auftretenden Lastschwankungen, die besonders im Fall eines Endgeräts erheblich
sein können,
das über
ein Netz kommuniziert, in dem sich die Anzahl der gleichzeitig hergestellten
Verbindungen sehr schnell ändern kann,
wie es beim Internet der Fall ist. Dieser Vorrichtungstyp ist beispielsweise
aus dem Dokument EP-A 0 921 666 bekannt.
-
Die
Suche nach einem zufriedenstellenden Kompromiß gemäß dem oben erwähnten Verfahren ist
erst von dem Moment an möglich,
in dem eine ausreichende Zahl von Mitteilungen, die Sprachsignale
enthalten, empfangen wurde, woraus folgt, daß es einer bestimmten Zeitspanne
bedarf, bevor die Größe eines
Empfangspuffers für
eine gegebene Verbindung tatsächlich
angepaßt
werden kann. Erschwert wird dies durch die Tatsache, daß es oft
vorgesehen ist, bei einer hergestellten Telefonverbindung und von
jedem beteiligten Endgerät
aus erst dann Signalpakete zu übermitteln,
wenn in den zu übertragenden
Tonsignalen Sprachsignale enthalten sind und wenn folglich Sprachsignale
in den zur Übertragung
vorgesehenen Signalpaketen enthalten sind. Eine solche Anordnung
gestattet es nämlich, die
Belastung eines Netzes erheblich zu reduzieren, da es ja im Fall
eines zwischen zwei Teilnehmern geführten Telefongesprächs gewöhnlich nur
einen Teilnehmer gibt, der zu einem gegebenen Zeitpunkt spricht. Überdies
gestattet es diese Vorgehensweise, die Übertragung von Störgeräuschen und
insbesondere von Nebengeräuschen
zu vermeiden, wenn auf seiten eines von einem nicht sprechenden Teilnehmer
benutzten Endgeräts
vorübergehend
keine Sprachsignale erfaßt
werden.
-
Bei
Verwendung einer derartigen Anordnung besteht keine Möglichkeit,
bei der Herstellung einer Verbindung in einem zielseitigen Endgerät eine geeignete
Empfangspuffergröße exakt
vorzuwählen, insbesondere
dann, wenn der Bereich der möglichen Verzögerungen
für die
Pakete in dem Netz, das zur Herstellung der Verbindungen dient,
groß ist,
was beim Internet der Fall ist. Es besteht daher das Risiko, daß die Dienstqualität bei der
Herstellung einer Verbindung nicht gewährleistet werden kann und die ersten
Wörter
nicht verständlich
sind, beispielsweise dann, wenn sie verstümmelt werden.
-
Mit
der Erfindung wird daher ein Verfahren vorgeschlagen, durch das
die akustische Wiederherstellung digitalisierter Sprachsignale,
die an ein Telekommunikations-Endgerät zu Beginn einer Telefonverbindung,
die über
ein Übertragungsnetz
hergestellt wird, in welchem diese Signale in Form von Paketen übertragen
werden, und insbesondere einer VOIP-Verbindung, die unter dem Internet-Protokoll (IP)
hergestellt wird, verbessert werden soll, wenn die besagte Verbindung
von einem Telekommunikations-Endgerät aus hergestellt wird, das
mit Mitteln zur Detektion von Sprachaktivität versehen ist, die es gestatten,
aus einer Menge von Tonsignalen, die nach Digitalisierung und Kodierung
mit dem Endgerät
in Form von Paketen übertragen
werden können,
nur solche Pakete von digitalisierten Signalen zu übertragen,
die Sprache enthalten.
-
Gemäß einer
Eigenschaft der Erfindung sieht dieses Verfahren eine Übertragung
von Paketen von Digitalisierungs- und
Kodierungsmitteln aus vor, die ohne Berücksichtigung des Vorhandenseins oder
Fehlens von Sprachsignalen unter den zu verarbeitenden Signalen
während
einer anfänglichen
Phase zur Optimierung der Verbindung bewerkstelligt wird.
-
Erfindungsgemäß sieht
dieses Verfahren außerdem
vor, daß die
Dauer der anfänglichen
Phase zur Optimierung der Telefonverbindung, während derer von einem sendeseitigen Endgerät aus digitalisierte
Tonsignalpakete ohne Berücksichtigung
des Vorhandenseins oder Fehlens von Sprachsignalen unter den zu
verarbeitenden Signalen übertragen werden,
so gewählt
wird, daß ein
Empfangs-Endgerät
eine Anzahl von digitalisierten Tonsignalpaketen, die sich auf die
Verbindung beziehen, empfangen kann, die ausreicht, um eine Bestimmung
der Größe des Empfangspuffers
für digitalisierte
Tonsignalpakete anhand einer statistischen Auswertung zu ermöglichen,
die auf den für
die empfangenen Pakete ermittelten Verzögerungszeiten basiert.
-
Die
Erfindung betrifft außerdem
die Telekommunikations-Betriebsmittel,
die jeweils dafür
vorgesehen sind, die Umsetzung dieses Verfahrens zu ermöglichen
und die Teilnehmer-Endgeräte vom Typ eines
Einzel-Endgeräts
oder eines gemeinsamen Endgeräts
beinhalten, die an ein Paketvermittlungsnetz angeschlossen und dafür vorgesehen
sind, über das
Netz mit einem kompatiblen Endgerät mittels digitalisierter Signalpakete
zu kommunizieren, die digitalisierte Sprachsignale beinhalten, welche
im Rahmen einer unter dem Protokoll IP oder einem äquivalenten
Protokoll hergestellten Verbindung vom VOIP-Typ erzeugt werden.
-
Gemäß einer
Eigenschaft der Erfindung beinhaltet jedes Endgerät dieser
Art Mittel, welche von der Herstellung einer Telefonverbindung an
und während
einer anfänglichen
Optimierungsphase die Übertragung
einer Anzahl von digitalisierten Tonsignalen ermöglichen, die ausreicht, um
einem Empfangs-Endgerät
eine Bestimmung der Größe des Empfangspufferspeichers
für digitalisierte
Tonsignale anhand einer statistischen Auswertung zu ermöglichen,
die auf den für
die empfangenen Pakete ermittelten Verzögerungszeiten basiert, und
daß es
Mittel zur Detektion von Sprachaktivität beinhaltet, die es gestatten,
digitalisierte Tonsignale erst von dem Moment an zu übertragen,
in dem sie Sprachsignale enthalten, wobei diese Mittel zur Detektion
von Sprachaktivität
so gesteuert werden, daß sie
nur wirksam sind, wenn die anfängliche
Optimierungsphase beendet ist.
-
Erfindungsgemäß wird die
Dauer der anfänglichen
Phase zur Optimierung der Telefonverbindung, während derer digitalisierte
Tonsignalpakete von einem Sende-Endgerät aus ohne Berücksichtigung
des Vorhandenseins oder Fehlens von Sprachsignalen unter den zu
verarbeitenden Signalen übertragen
werden, so gewählt,
daß ein
Empfangs-Endgerät
eine Anzahl von Paketen aus digitalisierten Tonsignalen, die sich
auf die Verbindung beziehen, empfangen kann, die ausreicht, um eine
Ermittlung der Größe des Empfangspufferspeichers
für digitalisierte
Tonsignale anhand einer statistischen Auswertung zu ermöglichen,
die auf den für
die empfangenen Pakete ermittelten Verzögerungszeiten basiert.
-
Die
Erfindung betrifft außerdem
das Telekommunikations-Betriebsmittel,
insbesondere vom Typ eines Teilnehmer-Endgeräts oder eines gemeinsamen Endgeräts, das
an ein Paketvermittlungsnetz angeschlossen und dafür vorgesehen
ist, über
das Netz mit einem kompatiblen Endgerät mittels digitalisierter Signalpakete
zu kommunizieren, die digitalisierte Sprachsignale beinhalten, welche
im Rahmen einer unter dem Protokoll IP oder einem äquivalenten Protokoll
hergestellten Verbindung vom VOIP-Typ erzeugt werden.
-
Gemäß einer
Eigenschaft der Erfindung beinhaltet dieses Betriebsmittel in einer
Controllereinheit Mittel, welche von der Herstellung einer Telefonverbindung
an und während
einer anfänglichen
Optimierungsphase die Übertragung
einer Anzahl von digitalisierten Tonsignalpaketen ermöglichen,
die ausreicht, um einem Empfangs-Endgerät eine Bestimmung der Größe des Empfangspufferspeichers
für digitalisierte
Tonsignalpakete anhand einer statistischen Auswertung zu ermöglichen,
die auf den für die
empfangenen Pakete ermittelten Verzögerungszeiten basiert, und
es beinhaltet Mittel zur Detektion von Sprachaktivität, die es
gestatten, digitalisierte Tonsignale erst von dem Moment an zu übertragen, in
dem sie Sprachsignale enthalten, wobei diese Mittel zur Detektion
von Sprachaktivität
so gesteuert werden, daß sie
nur wirksam sind, wenn die anfängliche
Optimierungsphase beendet ist.
-
Die
Erfindung, ihre Merkmale und ihre Vorteile werden in der folgenden
Beschreibung in Verbindung mit den nachstehend erwähnten Abbildungen genauer
erläutert.
-
1 zeigt
ein Blockdiagramm zu einer Verbindungsanordnung, die um ein Netz
herum aufgebaut ist, das den Austausch von Informationen in Form
von digitalen oder digitalisierten Signalpaketen zwischen Telekommunikations-Endgeräten und
insbesondere die Umsetzung des erfindungsgemäßen Verfahrens gestattet.
-
2 zeigt
ein Blockdiagramm zu einer Beispielanordnung, die die verschiedenen
Protokolle einschließt,
welche mit der Umsetzung des erfindungsgemäßen Verfahrens verbunden sind.
-
Das
erfindungsgemäße Verfahren
ist dafür vorgesehen,
die akustischer Wiederherstellung digitalisierter Tonsignale zu
verbessern, die an ein Telekommunikations-Endgerät zu Beginn einer Telefonverbindung übertragen
werden, die über
ein Übertragungsnetz
hergestellt wird, in welchem diese Signale in Form von Paketen übertragen
werden. Es ist insbesondere auf die Wiederherstellung der Sprachsignale
ausgerichtet, soweit insbesondere eine originalgetreue Wiederherstellung
dieser Sprachsignale vom Beginn eines Gesprächs an aus offenkundigen Gründen der
Verständlichkeit
angestrebt wird. Das erfindungsgemäße Verfahren ist insbesondere
dafür vorgesehen,
im Fall einer VOIP-Verbindung eingesetzt zu werden, die unter dem
Internet-Protokoll von einem Teilnehmer-Endgerät 1, 1' oder 2 aus über ein Kommunikationsnetz 3 hergestellt
wird und die Übertragung
von Informationen gewährleistet,
die in Form von digitalen oder digitalisierten Signalpaketen vorliegen.
Bekanntlich kann dieses Netz möglicherweise das
Internet sein, aber auch ein öffentliches
oder privates Netz, das dafür vorgesehen
ist, die Anwendung des Internet-Protokolls (IP) oder eines Protokolls, das
allgemein als funktional äquivalent
betrachtet werden kann, zu gestatten, soweit es dafür vorgesehen
ist, mit zumindest annähernd
entsprechenden Mitteln dieselbe Art von Funktionen zu erfüllen.
-
Die
Telekommunikations-Endgeräte,
die über
das Kommunikationsnetz 3 mittels Signalen kommunizieren
können,
die sich auf Informationen beziehen, welche in Form von Paketen übertragen werden,
können
sehr verschiedenartig und insbesondere Geräte sein, die einzelnen Teilnehmer-Endgeräten wie 1 und 1' entsprechen
und Telefonverbindungen zwischen Teilnehmern in Form von Telefongesprächen gestatten
und mit dem Austausch von Paketen, welche digitalisierte Sprachsignale
enthalten, zwischen den beteiligten Endgeräten verbunden sind. Telefonverbindungen,
auf denen Pakete übertragen
werden, die digitalisierte Signale enthalten, können auch zwischen einem oder
mehreren einzelnen Teilnehmer-Endgeräten und einem gemeinsamen Endgerät wie 2,
beispielsweise einem Endgerät in
Form eines Call-Centers, hergestellt werden. Ein solches gemeinsames
Endgerät
kann beispielsweise auch eine private Vermittlungsanlage sein, die
eine Vielzahl von einzelnen Teilnehmer-Endgeräten bedient.
-
Eines
der hier betrachteten Endgeräte
wird knapp in Verbindung mit 1 beschrieben,
wobei dieses Gerät 1 ein
einzelnes Teilnehmer-Endgerät 1 sei.
Es ist beispielsweise mit dem Kommunikationsnetz 3 über eine
Leitung L verbunden, bei der es sich um eine Telefonleitung handelt.
Dieses Endgerät
ist beispielsweise mit dem Kommunikationsnetz über ein Gateway verbunden,
von dem hier angenommen sei, daß es
zu einem Anbieter von Internetdiensten gehört, der klassisch mit dem Akronym
ISP (für "Internet Service
Provider") bezeichnet
wird. Die Telefonleitung führt
somit zu einer Telefonzentrale, die – wie im klassischen Fall eines
mit dem Internet verbundenen Endgeräts – das Gateway bedient. Die
Leitung L kann im Fall eines direkt an das eigentliche Paketübertragungsnetz
angeschlossenen Endgeräts auch
eine Direktleitung sein.
-
Das
Endgerät 1,
das klassisch eine programmierte Steuerungslogik 4 beinhaltet,
beinhaltet außerdem
eine Telekommunikationsschnittstelle 5. Diese Schnittstelle
ist dafür
vorgesehen, den Aufbau einer Verbindung für den Austausch abgehender
oder eintreffender digitaler Daten oder digitalisierter Signale
mit einem anderen Endgerät über das
Netz 3 zu ermöglichen.
Sie ist klassisch mit einem in Serie mit der Leitung L liegenden
Modem ausgestattet, wenn diese Leitung eine analoge Telefonleitung
ist.
-
Das
Endgerät 1 beinhaltet
eine Mensch-Maschine-Schnittstelle 6 mit
Audiomitteln 7 zur Berücksichtigung
von akustischen Signalen und insbesondere von Sprachsignalen, die
von einem dem Endgerät
zugeordneten Mikrofon 8 zum Zweck ihrer Übertragung über die
Leitung L nach der Kodierung und Kompression in Form von Paketen über einen
Kodierer/Dekodierer 9 aufgenommen werden. Die Audiomittel
gestatten außerdem,
beispielsweise mit einem Lautsprecher 10, die akustische
Wiederherstellung der digitalisierten Tonsignale und insbesondere
der digitalisierten Sprachsignale, die in Form von Paketen über die
Leitung L zum Kodierer/Dekodierer 9 gelangen und für den Teilnehmer
am Endgerät 1 bestimmt
sind. Das Routing der über
die Telefonleitung L ankommenden Pakete wird im Endgerät 1 so
vorgenommen, daß die
Sprachsignale nach der Dekompression und Dekodierung den Audiomitteln 7 und die
Daten hier nicht dargestellten Mitteln zugeführt werden, die dafür vorgesehen
sind, ihre Nutzung zu ermöglichen.
Bekanntlich werden diese Daten beispielsweise für eine Telefonanwendung unter
Verwendung der Mensch-Maschine-Schnittstelle 6 genutzt
und gestatten unter anderem das Wählen von Telefonnummern sowie
das Herstellen und Aufheben einer Verbindung. Wie bereits erwähnt, werden
die empfangenen Pakete digitalisierter Tonsignale vorübergehend
in einem Speicher abgelegt, der als Empfangspuffer 11 bezeichnet
wird und dem Kodierer/Dekodierer 9 zugeordnet ist. Von
diesem Empfangspuffer 11 sei hier angenommen, daß seine
Größe nach Bedarf
unter der Kontrolle der programmierten Steuerungslogik 4 des
Endgeräts,
in welchem sich diese befindet, veränderbar ist, wie im weiteren
dargelegt wird.
-
In
einer bekannten Realisierungsform, in der das Endgerät 1 um
einen Rechner herum organisiert ist, ist dieser mit geeigneten Betriebs-
und Kommunikationsprogrammen versehen, beispielsweise mit einem
hier nicht gezeigten Browser, der es ihm gestattet, Anfragen zu
versenden, die üblicherweise
gemäß dem Protokoll
HTTP erzeugt werden, um je nach seinem Kommunikationsbedarf mit
anderen einzelnen oder verteilten Endgeräten zu kommunizieren, auf die
er über
das Netz 3 zugreift.
-
Es
können
selbstverständlich
auch andere Geräte
als die Teilnehmer-Endgeräte 1 genutzt
werden, insbesondere Geräte
zur Sprach-Daten-Telekommunikation, für die derzeit die gängige englische Bezeichnung "Screenphone" verwendet wird.
-
Unabhängig vom
Typ muß ein
Endgerät
wie z.B. 1, 1' oder 2 über Softwaremittel
verfügen,
die es ihm ermöglichen, über Pakete
zu kommunizieren. Diese Pakete können
Daten oder digitalisierte Tonsignale enthalten.
-
Das
erfindungsgemäße Verfahren
ist insbesondere dafür
vorgesehen, dann eingesetzt zu werden, wenn diese digitalisierten
Tonsignale digitalisierte Signale enthalten, die sich auf Wörter beziehen, die
im Verlauf eines Telefongesprächs,
also im Fall einer Unterhaltung, die in Echtzeit zwischen den Endgeräten der
Teilnehmer geführt
wird, ausgetauscht werden.
-
Zu
diesem Zweck sei angenommen, daß jedes
Endgerät,
das in solche Gespräche
eingebunden sein kann, über
eine Reihe von Protokollen zur Steuerung der jeweiligen Kommunikation
für die
Telefonsignale und -pakete, für
die Daten und Datenpakete sowie für die Übertragung der Pakete über die
Leitung L verfügt.
-
In 2 sind
zwei Protokollstapel oberhalb einer Ebene 15 entsprechend
dem Protokoll IP dargestellt. Eine dieser Ebenen betrifft die Steuerung
der eigentlichen Telefonanwendung, während die andere die Verarbeitung
der digitalisierten Ton- und insbesondere Sprachsignale betrifft.
-
Die
Steuerung der Telefonanwendung erfolgt auf einer Ebene, wobei hier
angenommen ist, daß diese
Anwendungsebene 12 die Mensch-Maschine-Schnittstelle des
Endgeräts übernimmt.
Diese Ebene gestattet die Verarbeitung von Telefonbetriebs-Anforderungen über Pakete
und über
das Kommunikationsnetz, beispielsweise die Wahl von Rufnummern,
die Anforderung zum Aufbau einer Verbindung, den Wechsel in den
Wartezustand, die Dreierkonferenz, das Aufheben einer Verbindung usw.
Sie erzeugt ein charakteristisches Signal AD für eine hergestellte Verbindung,
das zumindest annähernd
dem Aktivierungssignal des Audioteils beim Aufbau einer Verbindung
in einem Telefonapparat mit Controllereinheit entspricht. Hier sei
angenommen, daß dieses
AD-Signal beim Aufbau einer Verbindung zwischen Endgeräten und
aktiviert wird bis zum Abbau dieser Verbindung aktiviert bleibt.
-
Die
von der Anwendungsebene 12 ausgehenden Anforderungen werden
auf einer Transportebene verarbeitet, welche ein Telefonprotokoll 13 und ein
Transferprotokoll 14 mit der Ebene des Protokolls IP verbindet.
Diese Protokolle 13 und 14 sind beispielsweise
ein genormtes Telefonprotokoll SIP (für "Simple Internet Protocol") und ein genormtes
Transferprotokoll TCP (für "Transmission Control
Protocol") oder
UDP (für "User Datagram Protocol").
-
Der
Kodierer/Dekodierer 9 nutzt beispielsweise einen genormten
Kodier-/Dekodier-Algorithmus G723.1 oder G729, der in 2 mit
der Referenznummer 16 bezeichnet ist, zur Erzeugung von
digitalisierten Sprachsignalpaketen aus Sprachsignalen, von denen
hier angenommen wird, daß sie
vom Mikrofon 8 des Endgeräts im Rahmen einer Telefonverbindung
aufgenommen werden, und zum Wiederherstellen der akustischen Signale
und insbesondere der Sprachsignale aus Paketen, die über die
Leitung L zum Endgerät übertragen
werden. Bekanntlich werden die aufgenommenen Sprachsignale abgetastet,
komprimiert und kodiert, um als regelmäßige Folge von Paketen übertragen
werden zu können.
Ein Signal zur Detektion von Sprachaktivität VAD (für "Voice Activity Detection") wird erzeugt, während Sprachsignale,
von denen hier angenommen sei, daß sie vom Mikrofon 9 stammen,
kodiert werden. Diese Aktivitätserkennung
wird beispielsweise mit Hilfe eines Algorithmus zur Detektion von
Sprache innerhalb von Störsignalen
realisiert. Die Pakete mit digitalisierten Sprachsignalen, die durch
Anwendung des Kodierverfahrens gewonnen werden, werden auf einer
Transportebene verarbeitet, die beispielsweise zwei genormte Protokolle
RTP und UDP verbindet, welche mit den Referenznummern 18 beziehungsweise 19 bezeichnet
sind. Das Protokoll UDP definiert den Absendeport der Pakete, der
aus dem Kodierer/Dekodierer 9 im Endgerät 1 besteht, und den Ankunftsport,
der beispielsweise aus dem Kodierer/Dekodierer des Endgeräts 1' für die digitalisierten Ton-
und insbesondere Sprachsignalpakete besteht, die vom Endgerät 1 aus übertragen
werden, wenn dieses im gewählten
Beispiel über
die Leitung L sendet. Gemäß einer
Implementierung des Algorithmus zur Sprachkodierung, die für die Umsetzung
des erfindungsgemäßen Verfahren
zur Anwendung kommt, wird ein Signal zur Detektion von Sprachaktivität VAD bei
der Kodierung eines zu übertragenden
Tonsignalpakets, das Sprachsignale enthält, vom Kodierer/Dekodierer 9 geliefert.
Dieses Signal VAD wird durch Anwendung eines Algorithmus zur Detektion
von Sprachaktivität
gewonnen, das hier im Rahmen des Kodieralgorithmus mit der Referenznummer 17 bezeichnet
ist.
-
Das
Protokoll UDP gewährleistet
den Transfer der Pakete zwischen dem Protokoll RTP und dem Internet-Protokoll
(IP), Referenznummer 15, das vom Endgerät für seine Übertragungen von Paketen über das
Netz 3 und über
die Leitung L genutzt wird. In einer hier betrachteten Ausführungsform
ist vorgesehen, daß das
Signal zur Detektion von Sprachaktivität VAD auf der Ebene der Schnittstelle
zwischen dem Kodieralgorithnus und der Protokollebene 18 verwendet
wird, um den Versand der digitalisierten Tonsignalpakete, die im
Verlauf einer Telefonverbindung für ein in Echtzeit geführtes Telefongespräch erzeugt
werden, so zu steuern, daß nur
diejenigen digitalisierten Tonsignalpakete übertragen werden, die Sprachsignale
enthalten.
-
Erfindungsgemäß ist vorgesehen,
daß beim Aufbau
einer Telefonverbindung, also einer Verbindung, die für zwei Teilnehmer
vorgesehen ist, die sich in Echtzeit unterhalten möchten, eine Übertragung von
digitalisierten Tonsignalen ohne Berücksichtigung des Vorhandenseins
oder Fehlens von Sprachsignalen unter den zu verarbeitenden Signalen
während
einer anfänglichen
Phase zur Optimierung der Verbindung bewerkstelligt wird. Erreicht
wird dies beispielsweise durch das Auslösen einer Verzögerungszeit
beim Umschalten des Signals AD auf den aktiven Zustand, was charakteristisch
für den
Aufbau einer Verbindung ist. Diese Verzögerungszeit wird verwendet,
um das Signal VAD zu verzögern
und infolgedessen die digitalisierten Tonsignalpakete vorübergehend übertragen
zu lassen, die keine Sprachsignale enthalten, wobei zum Auslösen der
Ausgang der Kodieralgorithmus 16 verwendet wird.
-
So
ist beispielsweise im Fall einer Telefonverbindung vom VOIP-Typ,
die vom Endgerät 1 hergestellt
wird, das über
eine Leitung L, die eine analoge Telefonverbindung ist, und somit über ein
in 1 nicht dargestelltes Modem auf das Netz zugreift,
vorgesehen, daß der
Beginn der anfänglichen Phase
zur Optimierung der Verbindung dem Moment entspricht, in welchem
die beiden zu verbindenden Geräte
beginnen, ihre Tonsignalpakete im Rahmen der gerade hergestellten
Telefonverbindung miteinander auszutauschen.
-
Von
der Dauer der anfänglichen
Optimierungsphase wird hier angenommen, daß diese ausreichend lang gewählt ist,
damit hinreichend wahrscheinlich ist, daß ein Endgerät, an welches digitalisierte
Tonsignale gesendet werden, die Möglichkeit hat, im Rahmen einer
Telefonverbindung, die gerade aufgebaut wird, eine Anzahl von digitalisierten
Signalpaketen empfangen zu haben, aus welcher es die Größe seines
Empfangspuffers bestimmen kann. Diese Bestimmung erfolgt durch Auswahl
gemäß einer
zuvor festgelegten Programmierung in Abhängigkeit von einer statistischen
Auswertung, die auf den für
die ersten empfangenen Pakete mit digitalisierten Tonsignalen ermittelten
Verzögerungszeiten
basiert. Die Dauer einer solchen Phase beträgt beispielsweise eine Sekunde,
und es sei angenommen, daß sie so
berechnet ist, um den Empfang einer Anzahl "N" von
Paketen zu ermöglichen,
die im Fall einer Verwendung des Kodieralgorithmus G729 mit Transport von
zwei kodierten Sprachsignalblöcken
in jedem Paket beispielsweise in der Nähe von 50 liegt.
-
Wie
weiter oben erwähnt,
ermittelt sich die Verzögerungszeit
eines Pakets leicht aus der Berücksichtigung
des Zeitpunkts, zu welchem dieses Paket versendet wurde, und der
im Header der Mitteilung, in dem es enthalten ist, angegeben ist,
sowie aus dem Eintreffzeitpunkt, der für das Paket im Endgerät, von dem
es empfangen wird, festgestellt wird. Der Verarbeitungsalgorithmus,
der die Ermittlung der Größe des Empfangspuffers
wie etwa 11 anhand einer statistischen Auswertung der für "N" aufeinanderfolgende Pakete ermittelten
Verzögerungszeiten
gestattet, wird hier insofern nicht hergeleitet, als er auf der
Umsetzung von Kenntnissen beruht, die als dem Fachmann bekannt betrachtet
werden.
-
Das
erfindungsgemäße Verfahren
gestattet es, die Größe des Empfangspuffers
eines Endgeräts zu
Beginn einer Telefonverbindung, an welcher es beteiligt ist, in
Abhängigkeit
von den Verzögerungszeiten,
die für
die ersten Tonsignalpakete, die es empfängt, festgestellt werden, während der
Benutzer dieses Endgeräts
noch nicht wirklich mit der Sprachkommunikation begonnen hat, anzupassen.
Somit läßt es sich
vermeiden, daß die
ersten gesprochenen Worte wegen einer ungeeigneten anfänglichen
Anpassung des Empfangspuffers des betrachteten Empfangs-Endgeräts verformt
werden. Vom Ende dieser anfänglichen
Optimierungsphase an ist vorgesehen, daß nur diejenigen digitalisierten
Tonsignalpakete übertragen
werden, die Sprachsignale enthalten, indem die in den kommunizierenden
Endgeräten vorgesehenen
Mittel zur Detektion von Sprachaktivität eingesetzt werden. Selbstverständlich können spätere Anpassungen
der Größe des Empfangspuffers
je nach Bedarf im Verlauf einer Verbindung und beispielsweise unter
Ausnutzung von Zeitintervallen, während derer der Gesprächsteilnehmer
nicht spricht, in einem Endgerät
nachträglich
vorgenommen werden.
-
Das
Verfahren kann selbstverständlich
in verschiedenen Telekommunikations-Betriebsmitteln und insbesondere
in einzelnen Teilnehmer-Endgeräten
wie den Geräten 1 und 1' in 1 sowie
in durch und/oder für
mehrere Benutzer gemeinsam genutzten Geräten wie dem Gerät 2 angewandt
werden. Die betreffenden Endgeräte
sind diejenigen, die für
die Kommunikation mittels Paketen von digitalisierten Signalen einschließlich Sprachsignalen,
die bei einer über
das Netz unter dem Protokoll IP oder unter einem äquivalenten
Protokoll hergestellten VOIP-Verbindung oder Verbindung vom VOIP-Typ
erzeugt werden, über
das Netz mit einem kompatiblen Endgerät vorgesehen sind. Sie sind
für die
Ausrüstung mit
Software- und Hardwaremitteln der oben in der Beschreibung zum erfindungsgemäßen Verfahren genannten
Art vorgesehen.
-
In
einer hier vorgeschlagenen Ausführungsform
sind die Endgeräte,
die dafür
vorgesehen sind, die Umsetzung des erfindungsgemäßen Verfahrens zu gestatten,
mit Verzögerungsmitteln
versehen, die in Form von Software oder gegebenenfalls in Form von
Hardware realisiert sind und auf die Mittel zur Ermittlung von Sprachaktivität des Endgeräts wirken, das
sie beinhaltet, damit diese Mittel zur Aktivitätsermittlung erst nach dem
Ende der anfänglichen Optimierungsphase
wirksam werden, die zu Beginn jeder hergestellten Telefonverbindung
vorgesehen ist. Das andere an der Kommunikation beteiligte Endgerät ist somit
in der Lage, die Größe seines
Empfangspuffers in Abhängigkeit
von den Verzögerungszeiten,
die es für
die ersten Tonsignalpakete feststellt, die es im Rahmen dieser Verbindung
empfängt,
anzupassen und infolgedessen die akustische Wiederherstellung der
Sprachsignale, die es zu Beginn der Kommunikation empfängt, zu
optimieren. Der von den Verzögerungsmitteln
bewirkte Vorgang ist beispielsweise ein Blockiervorgang, der im
Kodierer/Dekodierer eines Geräts
bewerkstelligt wird, um die Mittel zur Detektion von Sprachaktivität vorübergehend
zu blockieren, damit das Versenden der digitalisierten Tonsignale
zu Beginn der Kommunikation und während einer zuvor festgelegten
Dauer der anfänglichen
Verbindungs-Optimierungsphase
möglich
ist, ohne zu berücksichtigen,
ob sie Sprachsignale enthalten oder nicht. Hier wird angenommen,
daß diese
Blockierung im Fall einer Verbindung vom VOIP-Typ am Ausgang des
Kodieralgorithmus 16 ausgelöst und durch Einwirkung auf
das Signal zur Detektion von Sprachaktivität durch den mit der Referenznummer 17 bezeichneten
Kodieralgorithmus bewerkstelligt wird.