DE60216228T2

DE60216228T2 - Sprachübertragungs- und empfangssystem

Info

Publication number: DE60216228T2
Application number: DE60216228T
Authority: DE
Inventors: Takayuki Takatsu-ku Kawasaki-shi Tsutsumi; Yoshikazu Takatsu-ku Kawasaki-shi Kobayashi
Original assignee: NEC Infrontia Corp
Current assignee: NEC Platforms Ltd
Priority date: 2002-03-22
Filing date: 2002-09-25
Publication date: 2007-03-08
Anticipated expiration: 2022-09-26
Also published as: JP3821740B2; CA2405678A1; AU2002301355A1; JP2003283557A; DE60216228D1; EP1351465A2; EP1351465A3; US20030179745A1; CA2405678C; TW578414B; EP1351465B1; AU2002301355B2; US8630282B2

Description

Die vorliegende Erfindung betrifft Sprachdatenübertragungs- und -empfangssysteme und insbesondere Sprachdatenübertragungs- und -empfangssysteme mit verbesserter Sprachqualität bei einer Sprachkommunikation über Internet oder ein ähnliches Netzwerk ohne garantierte Dienstgüte [non-QoS (Quality of Service)].
Weil Internetkommunikation allgemein über Ländergrenzen hinweg auf der ganzen Welt genutzt wird, haben der elektronische Handel und Internettelefonkommunikation (z.B. IP-Telefonkommunikation bzw. Internetprotokoll-Telefonkommunikation) neben herkömmlichen Anwendungen, wie beispielsweise Lesen von Homepages, eMail- und Dateitransfer, zunehmend an Aufmerksamkeit gewonnen. Dies hängt insbesondere mit der raschen Entwicklung von auf Leitungsvermittlung in Telefonnetzen basierenden Netzwerken aber auch von auf Paketvermittlung basierenden Netzwerken zusammen.
In der IP-Telefonkommunikation werden verschiedenartige Daten, z.B. Sprachdaten (oder Faxdaten) (wie beispielsweise Standbilder und Bewegtbilder) in IP-Pakete umgewandelt, um sie in einem IP-basierten Netzwerk zu übertragen. Sprachtelefondienste, die teilweise oder vollständig IP-Netzwerktechniken verwenden, werden als IP-Telefondienste bezeichnet. Unter IP-Telefondiensten wird ein Sprachtelefondienst, der das gleiche IP-Netzwerk bzw. IP-Netz wie dasjenige des World Wide Web (www) verwendet (d.h, ein Kommunikationsnetzwerk für eine Kommunikation unter Verwendung des Internetprotokolls), als Internet-Telefonkommunikation bezeichnet.
Für die IP-Telefonkommunikation stehen die drei folgenden Systeme zur Verfügung. In einem ersten System, in dem Sprachmeldungen zwischen durch Einwahl über eine Telefonleitung verbundenen Personalcomputern ausgetauscht werden, muss auf beiden Personalcomputern zu diesem Zweck die gleiche Software installiert und müssen beide Personalcomputer mit dem Server verbunden sein. In einem zweiten System, in dem ein Telefonanruf von einem Personalcomputer zu einem allgemeinen Teilnehmertelefonapparat (nicht umgekehrt) ausgeführt wird, kann keine Kommunikation bereitgestellt werden, wenn nicht beide Seiten dies im Voraus vereinbart haben. Als drittes System stehen ein System, in dem eine Kommunikation zwischen allgemeinen Teilnehmertelefonapparaten ausgeführt wird, wobei die Kommunikation durch Eingabe einer Benutzer-ID und einer PIN an der Verbindungsstelle zwischen dem Internet-Netzwerk im öffentlichen Fernsprechwählnetz über ein Gateway für den Internettelefondienst ausgeführt wird, und ein System für eine Kommunikation über direkt mit dem Internet verbundene Endgeräte zur Verfügung. Diese dritten Systeme sind mit dem erfindungsgemäßen Telefonkommunikationssystem am engsten verwandt, wobei ihr technischer Entwicklungsstand erheblich ist.
Bei der Sprachkommunikation über ein IP-Netz, z.B. ein Netzwerk ohne garantierte Dienstgüte [non-QoS (Quality of Service)], werden normalerweise Sprachdaten unter Verwendung des RTP- oder UDP-Prodokolls übertragen und empfangen. In diesem Fall werden Sprachkommunikation und Bewegtbilderproduktion unter Verwendung des RTP-Protokolls ausgeführt, wobei der Realzeiteigenschaft der Daten Bedeutung beigemessen wird. Das RTP-Protokoll stellt jedoch keine Maßnahmen gegen im Kommunikationskanal auftretende Paketverluste bereit, und im Kanal verlorene Pakete werden nicht erneut übertragen, was zu Problemen bei der Sprachqualität führt, z.B. zu einer Sprachunterbrechung.
Um diese Probleme zu lösen, wird ein System vorgeschlagen, in dem, damit ein Gespräch trotz Paketverlusten nicht unterbrochen wird, die Datenübertragung durch Hinzufügen unmittelbar vorangehender und unmittelbar nachfolgender Paketdaten ausgeführt wird, um basierend auf diesen Daten einen Interpolationsprozess auszuführen. In einer Situation, in der häufig eine von Sprachkommunikation verschiedene Datenkommunikation ausgeführt wird, sind Sprachpaketverluste erheblich, und im Extremfall wird die Sprachqualität derart verschlechtert, dass auch unter Verwendung der Interpolation keine Konversation möglich ist.
Im Dokument "Deriving a Subjective Testing Methology for Digital Circuit Multiplication and Packetized Systems", Dvorak, Charles; Rosenberger, John, IEEE JOURNAL ON SELECTED AREAS OF COMMUNICATION, Bd. 6, Nr. 2, Februar 1988 (1988–02), Seiten 235–241, XP002258629 wird ein Sprachdatenübertragung- und -empfangssystem zum Übertragen und Empfangen von Sprachdaten als Paketdaten über ein Netzwerk beschrieben, wobei die sendeseitigen Sprachdaten von der Gesprächstarterfassung bis zur Erfassung eines sprachlosen oder Stummzustands durch Paketvermittlung übertragen und die empfangenen Sprachdaten an der Empfangsseite als Sprache ausgegeben werden.
Im Dokument "A new error control scheme for packetized voice over high-speed local area networks", Dempsey B.J. et al., LOCAL COMPUTER NETWORKS, 1993, Proceedings, 18th Conference of Minneapolis, MN, USA, 19–22 Sept. 1993, Los Alamitos, Ca, USA, IEEE COMPUT. SOC., 19. September 1993 (1993-Q9-19), Seiten 91–100, XP010224374, ISBN: 0-8186-4510-5 werden Neuübertragungen paketisierter digitaler Sprachdaten bei einer Sprachkommunikation über Hochgeschwindigkeits-LANs beschrieben.
In den Dokumenten "Traffic Characteristics of the Stored-Message Transmission System", Yukuo Hayashida et al., THE TRANSACTIONS OF THE IECE OF JAPAN, Bd. E64, Nr. 7, Juli 1981, Seiten 596–603, XP008043035 und "MODELLING OF DIALOGUE MANAGEMENT IN THE SESSION LAYER ", Maria Izabel Cavalcanti Cabral et al., IEEE Global Telecommunications Conference 1986, Houston, Texas, Seiten 22.61–22.64, XP008042971 wird ein Halbduplexsystem unter Verwendung eines Sprechrechttoken beschrieben.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachdatenübertragungs- und -empfangssystem bereitzustellen, das dazu geeignet ist, eine unterbrechungsfreie Sprachdatenkommunikation auszuführen.
Es ist eine andere Aufgabe der vorliegenden Erfindung, ein Sprachdatenübertragungs- und -empfangssystem bereitzustellen, das dazu geeignet ist, Paketverluste im Datenübertragungskanal zu vermindern, um eine Sprachkommunikation mit der gleichen Sprachqualität wie an der Sendeseite zu erhalten.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Sprachdatenübertragungs- und -empfangssystem bereitzustellen, das dazu geeignet ist, eine Sprachkommunikation ohne besondere Einstellungen über einen Router auszuführen.
Diese Aufgaben werden durch die Merkmale der Patentansprüche gelöst.
Andere Aufgaben und Merkmale werden anhand der folgenden Beschreibung unter Bezug auf die beigefügten Zeichnungen verdeutlicht.
Nachstehend werden bevorzugte Ausführungsformen der vorliegenden Erfindung unter Bezug auf die Zeichnungen beschrieben.
1 zeigt ein Blockdiagramm zum Darstellen einer Ausführungsform eines erfindungsgemäßen Sprachdatenübertragungs- und -empfangssystems;
2 und 3 zeigen während der Sprachübertragung und während des Sprachempfangs in der Ausführungsform der vorliegenden Erfindung ausgeführte Verarbeitungsroutinen;
4 zeigt ein Blockdiagramm zum Darstellen einer anderen Ausführungsform des erfindungsgemäßen Sprachdatenübertragungs- und -empfangssystem;
5 zeigt eine während einer Sprachübertragung in der in 4 dargestellten Ausführungsform ausgeführte Routine; und
6 zeigt eine Routine in einer weiteren Ausführungsform der vorliegenden Erfindung.
1 zeigt ein Blockdiagramm zum Darstellen einer Ausführungsform eines erfindungsgemäßen Sprachdatenübertragungs- und -empfangssystem.
Beispielsweise sind Sprachdatenübertragungs- und -empfangssysteme 1 und 4 als IP-Telefongeräte über ein IP-Netz 2 und eine Fire Wall 3 für eine Sprachkommunikation im IP-Netz miteinander verbunden. Die Sprachdatenübertragungs- und -empfangssysteme 1 und 4 weisen jeweils einen Sprachein-/-ausgabeblock 11, eine Pegelerfassungsschaltung 12, eine LAN-Schnittstellenschaltung 13, einen Sprachverarbeitungsblock 14, einen Zeitgeber 15 und eine Aufnahmeeinrichtung 16 auf.
Der Sprachein-/-ausgabeblock 11 weist eine Spracheingabeeinheit 111, z.B. ein Mikrofon, und eine Sprachausgabeeinheit 112, z.B. einen Lautsprecher auf. Der Sprachdateiverarbeitungsblock 14 ist eine Schaltung zum Verarbeiten verschiedenartiger Sprachdaten und weist auf: eine Endtonaddierschaltung 141 zum Hinzufügen eines das Ende einer Sprachdatei anzeigenden Tons zu Sprachdaten, eine Paketver mittlungsschaltung 142 zum Erzeugen eines Sprachpakets durch Hinzufügen eines Headers zu Sprachdaten, eine Header-Analysierschaltung 143 zum Analysieren des Headers der Daten, eine Steuerschaltung 144, eine Neuübertragungsverarbeitungsschaltung 145 zum Neuübertragen von Paketdaten oder ähnlichen Daten, die eine hohe Datenverlustwahrscheinlichkeit aufweisen, nachdem basierend auf TCP/IP-Header-Daten eine Sprachqualitätsverschlechterung festgestellt wurde, eine Http-Steuerschaltung 146 zum Hinzufügen eines Http-Headers zu der erzeugten Sprachdatei, und eine Sprachteilungs-/-kombinierschaltung 147 zum Teilen von Sprachdaten, wenn für mehr als eine im Zeitgeber voreingestellte Zeitdauer kein Stummzustand erfasst worden ist.
Die Steuerschaltung 144 steuert das gesamte Sprachdatenübertragungs- und -empfangssystem 1. Als LAN-Schnittstellenschaltung 13 kann ein bekanntes LAN-Interface verwendet werden, z.B. ein 10 Base-T oder 100 Base-T Interface, es kann jedoch auch ein Funk-LAN-Interface gemäß dem Standard IEEE802.11 verwendet werden.
Gemäß 1 werden vom IP-Netz 2 über die LAN-Schnittstellenschaltung 13 empfangene Daten der Header-Analysierschaltung 143 zugeführt, um den Header der Daten zu analysieren. Wenn der analysierte Header mit einem vorgegebenen Header identisch ist, wird entschieden, dass die Sprachdatei eine geeignete Datei ist, die im erfindungsgemäßen System übertragen wurde, und die Sprachdaten, die den identischen Header enthalten, werden an die Aufzeichnungseinrichtung 16 übertragen und darin aufgezeichnet. Wenn ein Dateidatenelement durch diese Datenaufzeichnung akkumuliert worden ist, wird es der Sprachausgabeeinheit 112 zugeführt und als Sprache ausgegeben.
Kommunikationsdaten werden von der Spracheingabeeinheit 111 als Sprachdaten zugeführt. Die Sprachdaten von der Spracheingabeeinheit 111 werden der Pegelerfassungsschaltung 12 zugeführt, um ihren Pegel mit vorgegebenen Schwellenwerten zu vergleichen. Wenn der Datenpegel einen Schwellenwert zum Erfassen des Gesprächskopfes in den Kommunikationsdaten überschreitet, wird er als Gesprächskopf erfasst, wohingegen, wenn er kleiner ist als ein Schwellenwert für die Erfassung eines Stummzustands, der Datenpegel als Stummzustand erfasst wird. Daten vom Gesprächskopf bis zum derart erfassten Stummzustand werden in der Aufzeichnungseinrichtung 16 aufgezeichnet. Wenn der Stummzustand erfasst wird, werden die Daten mit einem in der Http-Steuerschaltung 116 hinzugefügten vorgegebenen Http-Header an die Gegenseite der Kommunikation übertragen.
Die Neuübertragungsverarbeitungsschaltung 145 entscheidet unter Bezug auf Daten, z.B, auf einen Zeitstempel und die Anzahl von Neuübertragungen pro Zeiteinheit, die in den in der Header-Analysierschaltung 143 erhaltenen TCP/IP-Header-Daten enthalten sind, ob ein Zustand vorliegt, gemäß dem der Kanal so lang ist, dass eine Paketverzögerung und Paketverluste von Sprachdaten und damit eine Kanalqualitätsverschlechterung zu erwarten sind, und überträgt das entsprechende Paket, das eine hohe Verlustwahrscheinlichkeit aufweist, zusammen mit dem unmittelbar vorangehenden Paket oder ähnlichen Daten.
Die Sprachteilungs-/-kombinierschaltung 147 dient dazu, eine zuverlässige Datenzufuhr an der Empfangsseite und damit eine unterbrechungsfreie Sprachkommunikation zu gewährleisten. Die Schaltung 147 ist dazu geeignet, das durch lange Sprachdateien auftretende Ressourcenproblem in der Aufzeichnungseinrichtung 16 zu lösen und eine Zunahme der Verzögerungszeit aufgrund einer Zunahme der Rkkumulierungszeit zu vermeiden. Zu diesem Zweck teilt, wenn eine Sprachdatei eine vorgegebene Länge erreicht, die Schaltung 147 die Sprachda tei in Dateiteile mit einer vorgegebenen Größe und überträgt jeden Dateiteil zusammen mit einem die Dateiteilung anzeigenden hinzugefügten Header.
Die 2 und 3 zeigen Routinen, die während der Sprachübertragung und des Sprachempfangs gemäß der Ausführungsform der vorliegenden Erfindung ausgeführt werden.
Die Konstruktion und die Arbeitsweise der Ausführungsform der vorliegenden Erfindung werden nachstehend unter Bezug auf die 1 bis 3 beschrieben. Während einer Sprachübertragung werden, wie in 2 dargestellt, im Sprachdatenübertragungs- und -empfangssystem 1 für eine Sprachdatenkommunikation über ein IP-Netz, z.B. das Internet oder ein LAN, über die Spracheingabeeinheit 111 zugeführte Sprachdaten für die Sprachdatenkommunikation an die Pegelerfassungsschaltung 12 übertragen. Die Pegelerfassungsschaltung 12 überwacht den Pegel der Sprachdaten, und wenn der überwachte Pegel einen vorgegebenen Pegel (XX) überschreitet (Schritt S1), entscheidet sie einen Gesprächsstart und führt die überwachten Daten der Aufzeichnungseinrichtung 16 zu, um sie zu akkumulieren (Schritt S2), und startet außerdem den Zeitgeber 15 (Schritt S7). Wenn der Sprachdatenpegel kleiner ist als der vorgegebene Pegel, entscheidet die Schaltung 12 diesen Pegel als Stummzustand (Schritt S3) und stoppt die Sprachdatenübertragung zur Aufzeichnungseinrichtung 16. Dann fügt die Endtonaddierschaltung 141 am Ende der in der Aufzeichnungseinrichtung 16 akkumulierten Sprachdatei einen Endton als Erkennungston hinzu, um der Gegenseite der Kommunikation mitzuteilen, dass das aktuelle Gespräch in einem Http-basierten Kommunikationssystem übertragen worden ist (Schritt S4). Die Http-Steuerschaltung 146 fügt der erzeugten Sprachdatei einen Http-Header hinzu, bevor sie übertragen wird (Schritt S5).
Die Aufzeichnungseinrichtung 16, in der Sprachdaten vom Start bis zum Ende des Gesprächs akkumuliert worden sind, überträgt die Sprachdaten vom Start bis zum Ende des Gesprächs als einen Sprachdateiabschnitt an die Paketvermittlungsschaltung 142. Die Paketvermittlungsschaltung 142, die die Sprachdatei empfangen hat, wandelt die Sprachdatei in ein IP-Paket um und führt das IP-Paket der LAN-Schnittstellenschaltung 13 zu. Die LAN-Schnittstellenschaltung 13 überträgt das Paket über das IP-Netz 2 an das Sprachdatenübertragungs-/-empfangssystem 4 der Gegenseite (Schritt S6), woraufhin die Routine beendet wird.
Wenn in Schritt S3 entschieden wird, dass kein Stummzustand vorliegt (d.h., der Sprachdatenpegel wird nicht kleiner als der vorgegebene Pegel), wird der Zeitgeber 15 gestartet, und in Schritt S8 wird geprüft, ob die Kommunikationsdauer eine vorgegebene Zeitdauer (Sekunden) überschritten hat. Wenn entschieden wird, dass die vorgegebene Zeitdauer überschritten worden ist, springt die Routine zur Sprachdatenakkumulierungsverarbeitung von Schritt S2 zurück. Wenn entschieden wird, dass die vorgegebene Zeitdauer überschritten worden ist, teilt die Sprachteilungs-/-kombinierschaltung 147 die Sprachdaten und fügt den geteilten Sprachdaten einen die Sprachdatenteilung anzeigenden Dateiteilungs-Header hinzu (Schritt S9). Dann wird der Zeitgeber 15 zurückgesetzt (Schritt S10), und die Routine schreitet zu Schritt S5 fort, in dem die Verarbeitung zum Hinzufügen des Http-Headers ausgeführt wird.
Zusammengefasst werden in der vorstehenden Routine, wenn die Pegelerfassungsschaltung 12 die Spracheingabe erfasst (Schritt S1), in der Verarbeitung des Sprachdateiverrarbeitungsblocks 14 (Schritt S2) die Sprachdaten in der Aufzeichnungseinrichtung 16 akkumuliert, bis die Pegelerfassungsschaltung 12 Daten vom Gesprächsstart bis zum Stummzu stand erfasst hat, und nach der Stummzustanderfassung (Schritt S3) werden die Sprachdaten vom Gesprächsstart bis zum Stummzustand als Sprachdateiabschnitt bereitgestellt. Die Http-Steuerschaltung 146 zum Steuern der Datenkommunikation durch ein Http-Protokoll erzeugt eine Http-Datei von der in der Aufzeichnungseinrichtung 16 akkumulierten Sprachdatei auf der Basis des Http-Protokolls (Schritt S5). Dann führt die LAN-Schnittstellenschaltung 13 eine Datenübertragung zum Sprachdatenübertragungs-/-empfangssystem der Gegenseite aus (Schritt S6). Wie dargestellt ist, wird die Http-Kommunikation durch eine TCP/IP-Verbindung ausgeführt, wodurch eine Sprachkommunikation über die Fire Wall eines festen Kanals und das IP-Netz ermöglicht wird.
Der Sprachdateiverabeitungsblock 14 weist die Paketneuübertragungsverarbeitungsschaltung 145 auf. Wenn der Netzwerkkanal lang ist, ergeben sich Paketverzögerungen und -verluste von Sprachdaten, was zu einer Verschlechterung der Sprachqualität führt. Mit den TCP/IP-Header-Daten, auf die die Header-Analysierschaltung 143 Bezug nimmt, erzeugt die Neuübertragungsschaltung 145 Pakete, die vorangehende Pakete enthalten, für eine Neuübertragung basierend auf dem Zeitstempel und bestimmt die Anzahl der Neuübertragungen von einer Einheitszeit und überträgt die erzeugten Pakete.
Wenn aufgrund einer Verschlechterung der IP-Netz-Übertragungsqualität oder aus ähnlichen Gründen eine Sprachdateiverzögerung erzeugt wird und eine Überlappung zwischen der Sprachdateireproduktion und der empfangsseitigen Spracherzeugung verursacht wird, die zu einer Störung des Gesprächs führt, werden, wenn eine Sprachdatei während der Spracherzeugung erzeugt wird, die empfangenen Daten in der Aufzeichnungseinrichtung 16 akkumuliert, und nach dem Ende des Gesprächs werden die gespeicherten Sprachdaten reprodu ziert, wodurch eine Blockierung von Gesprächen aufgrund einer Sprachdatenverzögerung vermieden wird.
Wenn durch eine Verzögerung aufgrund einer Verschlechterung der Netzqualität eine Blockierung der Sprachdateiübertragung und des Sprachdatenempfangs auftritt, so dass kein Gespräch geführt werden kann, läßt der Sprachdateiverarbeitungsblock 14 nicht zu, dass Sprachdateien gleichzeitig übertragen und empfangen werden, sondern überträgt nach dem Ende der Sprachdatei ein Paket, das ein Übertragungsrecht aufweist, z.B. zum alternierenden Übertragen von Sprache, und die Empfangsseite wartet mit der Übertragung bis zum Empfang des Pakets, das das Übertragungsrecht aufweist.
Im Sprachdatenübertragungs- und -empfangssystem 4, das eine Sprachdatei vom Sprachdatenübertragungs- und -empfangssystem 1 empfangen hat, wie in 3 dargestellt, werden, wenn der in der Header-Analysierschaltung 143 analysierte Header der Daten mit einem vorgegebenen Header identisch ist, die Sprachdaten in der Aufzeichnungseinrichtung 16 akkumuliert, und wenn der Empfang von Daten als eine Sprachdatei beendet ist, wird von der Sprachausgabeeinrichtung 112, z.B. von einem Lautsprecher, Sprache ausgegeben.
Die Aufzeichnungseinrichtung 16 kann eine empfangene Sprachdatei der Sprachausgabeeinheit 112 zuführen, wenn eine vorgegebene Datenmenge empfangen worden ist, auch wenn die Datendate nicht vollständig empfangen worden ist.
Im empfangseitigen Sprachdatenübertragungs- und -empfangssystem 4 analysiert die Header-Analysierschaltung 143 den Header der in Schritt S21 empfangenen Daten, und zum Trennen der Sprachdaten und andere Daten enthaltenden Http-Datei entscheidet sie unter Bezug auf den erhaltenen Header, ob die Daten der Http-Datei oder der Sprachdatendatei zugeordnet sind (Schritt S22 und S23).
Wenn die Daten einer Http-Datei und auch einer Sprachdatendatei zugeordnet sind, prüft die Header-Analysierschaltung 143, ob die entsprechende Datei eine geteilte Datei ist (Schritt S24). Wenn entschieden wird, dass die Datei eine geteilte Datei ist, wird der Teilungs-Header gelöscht (Schritt S25), werden die Daten in der Aufzeichnungseinrichtung 16 akkumuliert (Schritt S26), wird geprüft, ob die Daten vollständig empfangen worden sind, d.h., ob die Daten der geteilten Datei vollständig sind (Schritt S27), und werden die Sprachdaten des vorgegebenen Headers in der Aufzeichnungseinrichtung 16 akkumuliert (Schritt S28). Wenn Daten vollständig empfangen worden sind, gibt die Sprachausgabeeinheit 112 Sprache aus (Schritt S29), woraufhin die Routine beendet wird.
Wenn in den Schritten S22 und S23 entschieden wird, dass die Daten einer Http-Datei oder einer Sprachdatendatei zugeordnet sind, wird die Routine beendet. Wenn in Schritt S24 entschieden wird, dass die Daten von einer geteilten Datei verschiedene Daten sind, werden die Daten in einer vorgegebenen Größe gespeichert (Schritt S28), und die Daten werden der Sprachausgabeeinheit 112 zugeführt (Schritt S29), so dass eine Sprachblockierung auftritt.
4 zeigt ein Blockdiagramm zum Darstellen einer anderen Ausführungsform des erfindungsgemäßen Sprachdatenübertragungs- und -empfangssystems. Während in der vorangehenden Ausführungsform die Erfassung des Gesprächsstarts und des Stummzustands durch die Pegelerfassungsschaltung 12 ausgeführt wird, wird in dieser Ausführungsform eine Schaltschaltung bereitgestellt, die durch eine Bedienungsperson manuell betätigt wird, um eine Sprachübertragung zu starten und zu beenden.
Diese Ausführungsform weist an Stelle der Pegelerfassungsschaltung 12 in der Konstruktion der in 1 darge stellten Ausführungsform einen Kommunikationsschalter 17, eine Endtonerfassungsschaltung 18 und eine Übertragungsanzeigeschaltung 19 auf. Die Sprachdatenübertragungs- und -empfangssysteme 1 und 4 weisen ähnlich wie die in 1 dargestellten Systeme ebenfalls jeweils den Sprachein-/-ausgabeblock 11, die LRN-Schnittstellenschaltung 13, den Sprachdateiverarbeitungsblock 14, den Zeitgeber 15 und die Aufzeichnungseinrichtung 16 auf. Außerdem weist der Sprachein-/-ausgabeblock 11 ähnlich wie bei der in 1 dargestellten Ausführungsform eine Spracheingabeeinheit 111 und eine Sprachausgabeeinheit 112 auf, und der Sprachdateiverarbeitungsblock 14 weist die Endtonaddierschaltung 141, die Paketschaltschaltung 142, die Header-Analysierschaltung 143, die Steuerschaltung 144, die Neuübertragungsverarbeitungsschaltung 145, die Http-Steuerungsschaltung 146 und die Sprachteilungs-/-kombinierschaltung 147 auf.
Während einer Übertragung wird durch den Kommunikationsschalter 17 der Spracheingabestart angewiesen, wodurch veranlasst wird, dass ein Eingangssprachsignal von der Spracheingabeeinheit 111 dem Sprachdateiverarbeitungsblock 14 zugeführt wird. Während eines Empfangs wird das Ausgangssignal vom Sprachdateiverarbeitungsblock 14 über die Endtonerfassungsschaltung 18 der Sprachausgabeeinheit 112 zugeführt. Die Endtonerfassungsschaltung 18 erfasst von den über die LAN-Schnittstellenschaltung 13, den Sprachdateiverarbeitungsblock 14 und den Kommunikationsschalter 17 empfangenen Daten den in der sendeseitigen Endtonaddierschaltung 141 hinzugefügten Endton, und erfasst damit, dass das Sprachdatenübertragungs- und -empfangssystem sich in einem Datenübertragungsbereitschaftszustand, einem Datenempfangsbereitschaftszustand, usw. befindet. Die Übertragungsanzeigeschaltung 19 zeigt basierend auf einem Signal oder ähnlicher Information von der Endtonerfassungsschaltung 18 an, ob das Sprachdatenübertragungs- und -empfangssystem sich in einem Datenübertragungsbereitschaftszustand, einem Datenempfangsbereitschaftszustand oder einem beliebigen anderen Zustand befindet.
5 zeigt eine während der Sprachübertragung in der in 4 dargestellten Ausführungsform ausgeführte Routine. In der in 5 dargestellten Verarbeitung unterscheiden sich die Schritte S31 bis S33 von den in 2 dargestellten Schritten S1 bis S3, und die anderen Schritte S34 bis S40 sind die gleichen wie die in 2 dargestellten Schritte S4 bis S10.
Wenn die Sprachdateneingabe in Schritt S31 in 5 beginnt, werden Sprachdaten in der Aufzeichnungseinrichtung 126 akkumuliert (Schritt S32) und wird außerdem der Zeitgeber 15 gestartet (Schritt S37). Wenn die Schaltvorgangerfassungsschaltung anschließend erfasst, dass eine Sendetaste des Kommunikationsschalters 17 betätigt wurde (Schritt S33), fügt die Endtonaddierschaltung 141 der erzeugten Sprachdatei einen Endton hinzu (Schritt S34). Die Http-Steuerungsschaltung 146 fügt der erzeugten Sprachdatei einen Http-Header hinzu.
Die Aufzeichnungseinrichtung 16, die Sprachdaten vom Gesprächsstart bis zum Stummzustand akkumuliert hat, führt die Sprachdaten vom Gesprächsstart bis zum Stummzustand als Sprachdateiabschnitt der Paketvermittlungsschaltung 142 zu. Die Paketvermittlungsschaltung 142, die die Sprachdatei empfangen hat, wandelt die Sprachdatei in ein IP-Paket um und überträgt das Paket an die LAN-Schnittstelle 13. Die LRN-Schnittstelle 13 überträgt das Paket über das IP-Netz 2 an das Sprachdatenübertragungs- und -empfangssystem 4 der Gegenseite (Schritt S36), woraufhin die Routine beendet wird.
Wenn in Schritt S33 entschieden wird, dass die Sendetaste nicht betätigt worden ist, wird der Zeitgeber 15 gestar tet, und es wird entschieden, ob die Sprechzeit eine vorgegebene Zeitdauer (Sekunden) überschritten hat (Schritt S38). Wenn die vorgegebene Zeitdauer nicht überschritten worden ist, springt die Routine zur Sprachdatenakkumulierungsverarbeitung von Schritt S32 zurück. Wenn die vorgegebene Zeitdauer überschritten worden ist, teilt die Sprachteilungs-/kombinierschaltung 147 die Sprachdatei und fügt einen Dateiteilungs-Header hinzu (Schritt S39). Außerdem wird der Zeitgeber 15 zurückgesetzt, und die Routine schreitet zu Schritt S35 fort, um die Verarbeitung zum Hinzufügen eines Http-Headers auszuführen.
6 zeigt eine Routine in einer weiteren Ausführungsform der vorliegenden Erfindung. Bei einer Kommunikation zwischen einem ersten und einem zweiten Sprachdatenübertragungs- und -empfangssystem werden in Antwort auf das Einschalten eines Sendeschalters im ersten Sprachdatenübertragungs- und -empfangssystem (Schritt S51) die durch Hinzufügen eines Übertragungsrechts (d.h. eines Endtons) zu den Sprachdaten erhaltenen Daten zum zweiten Sprachdatenübertragungs- und -empfangssystem übertragen, woraufhin der Sendeschalter ausgeschaltet wird (Schritt S54).
Im zweiten Sprachdatenübertragungs- und -empfangssystem wird der Sendeschalter im Zustand "AUS" gehalten (Schritt S53), und in Antwort auf die Erfassung eines Endtons in den empfangenen Daten wird die Übertragungsabteigeschaltung 1 eingeschaltet (Schritt S55). Dann wird der Sendeschalter eingeschaltet (Schritt S56), und die geteilten Sprachdaten 1 werden an das erste Sprachdatenübertragungs- und -empfangssystem übertragen (Schritt S57). Dann werden die empfangenen Sprachdaten im ersten Sprachdatenübertragungs- und -empfangssystem akkumuliert (Schritt S58). Im zweiten Sprachdatenübertragungs- und -empfangssystem wird den geteilten Sprachdaten 2 ein Übertragungsrecht (d.h. ein Endton) hinzu gefügt, woraufhin die erhaltenen Daten werden übertragen werden (Schritt S59).
Wie vorstehend beschrieben worden ist, werden im erfindungsgemäßen Sprachdatenübertragungs- und -empfangssystem Sprachdaten von einem Gesprächsstart bis zu einem Stummzustand als Sprachdateiabschnitt an das Sprachdatenübertragungs- und -empfangssystem der Gegenseite übertragen, wodurch eine unterbrechungsfreie Sprachdatenübertragung ermöglicht wird. Außerdem können Sprachdaten vom Gesprächsstart bis zum Stummzustand automatisch erfasst werden. Insbesondere können durch Übertragen von Sprachdaten vom Gesprächsstart bis zum Stummzustand Paketverluste im Datenübertragungskanal eliminiert werden und wird eine Sprachkommunikation mit der gleichen Sprachqualität wie an der Sendeseite ermöglicht. Aufgrund der Verwendung eines Http-Kommunikationsports wird eine Sprachkommunikation ohne besondere Einstellungen über einen Router ermöglicht.
Für Fachleute ist ersichtlich, dass innerhalb des Schutzumfangs der vorliegenden Erfindung Änderungen in der Konstruktion und Modifikationen vorgenommen und andere Ausführungsformen realisiert werden können. Die vorstehende Beschreibung und die beigefügten Zeichnungen dienen lediglich zur Erläuterung und sollen die vorliegende Erfindung nicht einschränken.

Claims

Sprachdatenübertragungs- und -empfangssystem zum Übertragen und Empfangen von Sprachdaten als Paketdaten zwischen zwei Seiten (1, 4) über ein Netzwerk (2), wobei jede Seite aufweist: eine Spracheingabeeinheit (111); eine Verarbeitungseinheit (14) zum Verarbeiten von über die Spracheingabeeinheit (111) zugeführten Sprachdaten, um einen Sprachdateiabschnitt von einem Gesprächsstart bis zu einem Stummzustand zu erzeugen, der durch Paketvermittlung an die Gegenseite übertragen werden soll, und zum Erzeugen eines Pakets mit einem Übertragungsrecht für eine alternierende Sprachübertragung, so dass die Gegenseite Sprachdaten nur dann übertragen kann, wenn die Gegenseite das Übertragungsrecht empfängt; eine Schnittstelle (13) zum Übertragen von Daten, die den Sprachdateiabschnitt, gefolgt von dem Paket, enthalten, an die Gegenseite und zum Empfangen von Daten, die einen Sprachdateiabschnitt, gefolgt von einem Paket mit einem Übertragungsrecht, enthalten, von der Gegenseite; eine Aufzeichnungseinrichtung (16) zum Akkumulieren des Sprachdateiabschnitts in den von der Gegenseite übertragenen Daten; und eine Sprachausgabeeinheit (112) zum Ausgeben von Sprache, die dem in der Aufzeichnungseinrichtung (16) akkumulierten Sprachdateiabschnitt entspricht; wobei der Sprachdateiabschnitt, der von der Gegenseite empfangen wurde, während Sprache über die Spracheingabeeinheit (111) zugeführt wird, in der Aufzeichnungseinrichtung (16) akkumuliert wird, und wobei dem akkumulierten Sprachdateiabschnitt entsprechende Sprache nach dem Ende der Spracheingabe über die Spracheingabeeinheit (111) über die Sprachausgabeeinheit (112) ausgegeben wird.
System nach Anspruch 1, ferner mit einer Erfassungsschaltung (12) zum Erfassen eines Gesprächsstarts und eines Stummzustands der über die Spracheingabeeinrichtung (111) zugeführten Sprache.
System nach Anspruch 1 oder 2, wobei die Daten als Http-Datei an die Gegenseite übertragen werden.
System nach einem der Ansprüche 1 bis 3, wobei die Verarbeitungseinheit dazu geeignet ist, dem Ende des Sprachdateiabschnitts vor seiner Übertragung an die Gegenseite einen vorgegebenen Kennton hinzuzufügen.
System nach einem der Ansprüche 1 bis 4, wobei die Verarbeitungseinheit der Sendeseite dazu geeignet ist, den an die Empfangsseite zu übertragenden Daten einen vorgegebenen Header hinzuzufügen, und die Verarbeitungseinheit an der Empfangsseite dazu geeignet ist, nur solche Daten zu verarbeiten, die mit der Erfassung des vorgegebenen Headers in Beziehung stehen.
System nach Anspruch 3, wobei die Verarbeitungseinheit an der Sendeseite dazu geeignet ist, der Http-Datei vor ihrer Übertragung einen Header hinzuzufügen, der aus schließlich für Sprache definiert ist, und wobei die Verarbeitungseinheit an der Empfangsseite dazu geeignet ist, die Http-Datei, die Sprachdaten und andere Daten enthält, basierend auf dem Header in der Http-Datei zu trennen.
System nach einem der Ansprüche 1 bis 6, wobei die Verarbeitungseinheit dazu geeignet ist, den Sprachdateiabschnitt, wenn der Sprachdateiabschnitt eine vorgegebene Länge überschreitet, in Sprachdateiteilabschnitte mit einer jeweils vorgegebenen Größe zu teilen und jedem der Sprachdateiteilabschnitte einen Header hinzuzufügen, der anzeigt, dass der jeweilige Sprachdateiteilabschnitt ein Teil des Sprachdateiabschnitts ist, und die Verarbeitungseinheit an der Empfangsseite dazu geeignet ist, die Sprachdateiteilabschnitte basierend auf dem Header zu kombinieren, um eine unterbrechungsfreie Sprachkommunikation zu ermöglichen.
System nach einem der Ansprüche 1 bis 7, wobei das Netzwerk ein Netzwerk ohne garantierte Dienstgüte [non-QoS (Quality of Service)] ist.
System nach Anspruch 8, wobei das Netzwerk ohne garantierte Dienstgüte [non-QoS (Quality of Service)] ein Internet ist.
System nach einem der Ansprüche 1 bis 9, wobei Paketdaten, bei denen eine hohe Paketverlustwahrscheinlichkeit besteht, als solche bestimmt und zusammen mit einem vorangehenden Paket neu übertragen werden.