DE60318329T2 - Übertragung von text-zu-sprache datenströmen über ein netzwerk - Google Patents

Übertragung von text-zu-sprache datenströmen über ein netzwerk Download PDF

Info

Publication number
DE60318329T2
DE60318329T2 DE60318329T DE60318329T DE60318329T2 DE 60318329 T2 DE60318329 T2 DE 60318329T2 DE 60318329 T DE60318329 T DE 60318329T DE 60318329 T DE60318329 T DE 60318329T DE 60318329 T2 DE60318329 T2 DE 60318329T2
Authority
DE
Germany
Prior art keywords
network
user
text
server
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60318329T
Other languages
English (en)
Other versions
DE60318329D1 (de
Inventor
Bastiaan Antonius Vriesema
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke KPN NV
Original Assignee
Koninklijke KPN NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke KPN NV filed Critical Koninklijke KPN NV
Publication of DE60318329D1 publication Critical patent/DE60318329D1/de
Application granted granted Critical
Publication of DE60318329T2 publication Critical patent/DE60318329T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42382Text-based messaging services in telephone networks such as PSTN/ISDN, e.g. User-to-User Signalling or Short Message Service for fixed networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/0016Arrangements providing connection between exchanges
    • H04Q3/0029Provisions for intelligent networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Computer And Data Communications (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zur Konvertierung von Textnachrichten in Audio-Daten-Ströme, sowie zur Kommunikation von Audio-Daten-Strömen über ein Netzwerk.
  • Hintergrund der Erfindung
  • Heutzutage gibt es ein ansteigendes Bedürfnis zur Kommunikation von Audio- und Video-Daten über Netzwerke. Eine Anforderung, die durch die Netzwerk-Benutzer erfüllt werden muss, ist die Verfügbarkeit von Multimedia-Applikationen bei der Zugangs-Ausrüstung des Benutzers. Diese Multimedia-Applikationen beinhalten Audio- und Video-Software, die verwendet wird, um Audio- und Video-Inhalte abzuspielen, zu erhalten und zu kreieren. Auch wird Ausrüstung, die Multimedia unterstützt, wie Sound-Karten, Audio-Karten, Mikrofone und Lautsprecher, benötigt.
  • Eine der Entwicklungen in den vergangenen Jahren bezüglich Audio-Applikationen ist die Verfügbarkeit von computer-basierten Techniken zur Konvertierung von Text-Daten in Sprache. Mit solchen Techniken werden Text-Daten in Audio-Information durch Text-zu-Sprache Umwandlungs-Software übersetzt. Beispiele von Text-zu-Sprache Software beinhalten Apple Computer's Speech Manager und Digital Equipment Corporations's DECTalk. Eine Text-zu-Sprache-Maschine umfasst üblicherweise einen Text-Analysierer, einen Syntax- und Kontext-Analysierer, und ein Synthesis-Modul. Bei Verwendung einer Text-zu-Sprache-Maschine können Benutzer Text-Daten in Audiodaten auf ihrer eigenen Ausrüstung, wie einem Personal Computer, konvertieren. Über eine Aus gangs-Vorrichtung, wie ein Lautsprecher, kann der Audio-Inhalt, der in den Audio-Daten vorhanden ist, durch einen Menschen gehört oder interpretiert werden.
  • Auch sind heutzutage Streaming-Techniken zum Erhalt von Audio-Daten sehr bekannt. Als ein Beispiel werden Streaming-Techniken für Echtzeit-Radio auf dem Internet verwendet. Streaming-Audio bezieht sich auf Audio-Daten, die „fliegend" abgespielt werden, sobald weitere Audio-Daten ankommen. Mit anderen Worten wartet das Empfangs-System, wie ein Personal-Computer, nicht, bis der ganze Audio-Daten-Eingang erhalten wird.
  • Wie vorhin erwähnt, ist die Verfügbarkeit von audio-unterstützender Ausrüstung, wie ein Mikrofon und eine Sound-Karte, und audio-unterstützende Software-Applikationen, wie ein Medien-Abspieler, ein Bedürfnis für Benutzer, die Audio-Daten erschaffen und verteilen möchten. Eine weitere Notwendigkeit wird geschaffen, wenn ein Benutzer beabsichtigt, Audio-Daten über ein Netzwerk mit anderen Benutzern zu teilen oder zu kommunizieren. Der Benutzer sollte dann mit den einzuleitenden Schritten zur Kommunikation der generierten Audio-Daten und zum Senden zu anderen Benutzern vertraut sein. Dieses Erfordernis kann Benutzer mit keinem oder relativ einfachem Wissen bezüglich Multimedia-Applikationen bis hin zum Teilen von Audio-Daten mit anderen Benutzern ausschliessen. Die Situation ist sogar komplexer für einen Benutzer, wenn Audio-Daten zu einem anderen Benutzer gesendet werden sollten, wobei die Audio-Daten im Zusammenhang mit anderen Informationen sind, wie, aber nicht limitiert auf, ein elektronisches Dokument, ein Bild oder eine HTML-Seite.
  • Ein möglicher Weg, um Audio-Daten zu erschaffen, heraufzuladen und zu erhalten, ist aus der US-Patentanmeldung US 2002/0056351 bekannt. Gemäss diesem bekannten Verfahren ist es möglich, Au dio-Dateien zu einem zentral angeordneten Server zu laden, und die Audio-Dateien mit Dokumenten zu verknüpfen. Jedoch beinhaltet dieses Verfahren nicht Text-zu-Sprache Einrichtungen, ein Benutzer braucht immer noch eine Vorrichtung, wie einen Personal-Computer, die spezifische Hardware beinhaltet und Software, um Audio-Daten zu unterstützen, wie ein Mikrofon oder eine Audio-Karte. Als eine Konsequenz sollte der Benutzer entsprechendes Wissen zur Verwendung, Installation und Konfiguration dieser Art von Hardware haben. Auch für den Zweck, wo es passender ist, die Text-Daten zu konvertieren, wie ein elektronisches Text-Dokument, in Audio-Daten, ist das bekannte Verfahren nicht effektiv. Dies kann der Fall sein, wenn ein Benutzer eine behinderte Person ist, die nicht in der Lage ist, zu sprechen oder seine oder ihre Sprache in einer entsprechenden Weise zu benutzen. Dies kann auch der Fall sein, wenn ein Benutzer an einem öffentlichen Ort ist, während er eine Zugangs-Vorrichtung verwendet, um Audio-Daten zu einem weiteren Benutzer zu senden. Im letzteren Fall kann ein Benutzer es vorziehen, eine Text-Nachricht in Audio-Daten unter Verwendung einer Text-zu-Sprache-Applikation zu konvertieren, anstelle der Aufzeichnung seiner eigenen Stimme. Ein weiterer Nachteil des Verfahrens, das von der US-Patentanmeldung US 2002/0056351 bekannt ist, ist, dass es nicht das Erhalten von Audio-Daten-Strömen durch den Benutzer umfasst.
  • EP-A-0 845 894 offenbart ein System, das vereinheitlichten Zugang zu gespeicherten Nachrichten bereitstellt, wie Multimedia-Mail-Nachrichten, in einer vereinheitlichten Multimedia-Mailbox durch multiple Zugangswege, wie über ein Telefonnetzwerk, unter Verwendung eines Telefons, und über das Internet, unter Verwendung eines Browsers. Es offenbart Voice-Mail-Zugang über das Telefonnetzwerk, zeigt die Nachrichten-Nummer an, etc., mit der Fähigkeit, die Nachrichten dem Telefon-Benutzer vorzuspielen.
  • Für Nachrichten der Text-Art, konvertiert das System den Text in Sprache, und spielt die Sprache dem Telefonbenutzer vor. Es offenbart auch die Verwendung eines Browsers, um auf Informationen über Nachrichten zuzugreifen, die für den Browser gespeichert werden, und die Verwendung des Browsers, um die Nachrichten über Daten-Streaming im Falle von Sprach- oder Video-Nachrichten herunterzuladen und abzuspielen, oder die Nachrichten im Falle von Text-Nachrichten anzuzeigen.
  • US-B1-6 343 329 offenbart, dass in einem Verfahren zur Kommunikation von Informationen von E-Mails, welche für einen Abonnenten eines Telekommunikations-Netzwerkes bestimmt sind und in einem E-Mail-Dienst eingetragen sind, nachfolgend zur Aktivierung von einem entsprechenden Dienst, E-Mail-Nachrichten, die in dem E-Mail-Dienst für den Benutzer ankommen, mindestens teilweise in Sprache konvertiert werden, welche zu einem Voice-Mail-Dienst weitergeleitet und dort als gesprochene Nachricht geladen werden. In einem passenden Telekommunikations-System wird ein E-Mail/Voice-Mail Umwandler bereitgestellt, welcher für die mindestens teilweise Umwandlung von E-Mail-Nachrichten in Sprache und/oder Sprache in digital geschriebene Form angeordnet ist, wobei eine Steuerlogik für die Betätigung des Umwandlers durch Befehlsnachrichten eines Abonnenten bereitgestellt wird.
  • US 2001/0048676 A1 offenbart ein Verfahren und ein System zum Erhalten von einem Audio-Applikations-Anhang an einer E-Mail-Nachricht durch eine Telefonvorrichtung eines Benutzers. Über einen Telefon-Anruf, der zwischen dem Benutzer und einem Audio-Web-Telefon-System hergestellt wird, ist der Benutzer in der Lage, einen Befehl zum Audio-Web-Telefon-System zu senden, um eine E-Mail-Nachricht von einem Ort, der zum Audio-Web-Telefon-System zugänglich ist, zu erhalten. Der Audio-Applikations-Anhang der E-Mail-Nachricht wird zu einem Audio-Browser weitergeleitet, wo er verarbeitet wird, was in einer Audio-Nachricht resultiert. Die Audio-Nachricht wird dann dem Benutzer über eine Telefon-Vorrichtung bereitgestellt.
  • Aufgabe der Erfindung
  • Es ist eine Aufgabe der Erfindung, die Nachteile des Standes der Technik zu eliminieren und ein Verfahren und ein System bereitzustellen, das Netzwerk-Benutzer in die Lage versetzt, eine erste Art von Daten in eine zweite Art von Daten ohne lokale Umwandlungs-Einrichtungen zu konvertieren, und die zweite Art von Daten zu anderen Netzwerk-Benutzern, wo sie als Daten-Strom erhalten werden, zu kommunizieren.
  • Darstellung der Erfindung
  • Gemäss der Erfindung wird ein Verfahren, eine Plattform und Software zur Konvertierung einer ersten Daten-Art in eine zweite Daten-Art offenbart. Die Konvertierung der ersten Daten-Art findet in einem entfernten Konvertierungs-Server, der mit einem für einen Benutzer zugänglichen Netzwerk verbunden ist, statt. Für diesen Zweck umfasst das Verfahren gemäss der vorliegenden Erfindung die Schritte von:
    • – Auswählen oder Eingeben der ersten Daten-Art (10) durch einen Benutzer (17) des abgehenden Netzwerkes,
    • – Zuordnung eines Objektes mit der ersten Daten-Art (10),
    • – Senden der ersten Daten-Art (10) über ein Netzwerk (3) zu einer Dienste-Plattform (5), und
    • – anschliessendes Konvertieren der ersten Daten-Art (10) in die zweite Daten-Art (15) bei der Dienste-Plattform (5).
  • Dieser Schritt des Verfahrens ermöglicht es dem Benutzer, eine erste Daten-Art, wie Text-Daten, in eine zweite Daten-Art, wie Audio-Daten oder Video-Daten, zu konvertieren, ohne Konvertierungs-Einrichtungen lokal zur Verfügung zu haben. Im Falle von Text-Daten, die in Audio-Daten zu konvertieren sind, löst diese Erfindung das Problem des Standes der Technik, dass audio-unterstützende Ausrüstung oder Text-zu-Sprache-Einrichtungen lokal verfügbar sein sollten. Die Text-Daten können eine Textnachricht sein, die durch einen Netzwerk-Benutzer über ein Netzwerk zu einem Server, der zum Netzwerk verbunden ist, gesendet werden. Zusätzlich oder optional können die Text-Daten ein Teil eines elektronischen Textdokumentes oder jede andere alphanumerische Quelle sein. Das Netzwerk, das für den Benutzer zugänglich ist, kann das Internet oder jede Art von öffentlichen oder privaten Netzwerken sein.
  • Das Verfahren gemäss der Erfindung kann auch die Schritte des Sendens der zweiten Art von Daten als Daten-Strom zu einem anderen Benutzer über einen Server, der mit dem Netzwerk verbunden ist, beinhalten. Im Falle von Text-Daten, die in Audio-Daten konvertiert wurden, heisst dies, dass zusammen mit den entfernten Text-zu-Sprache-Einrichtungen des ersten Schrittes, Upstream-Text-Daten downstream als Audio-Daten-Strom erhalten werden. Um dies zu erreichen, sendet ein Benutzer die Text-Daten und eine Identifikation des adressierten Benutzers über das Netzwerk zu interagierenden Servern, Datenbanken oder anderen Computer-Programmen, die mit dem Netzwerk verbunden sind. Die interagierenden Server, Datenbanken und andere Computer-Programme bearbeiten die vom Benutzer erhaltene Eingabe, die in Audio-Daten-Ströme resultiert, die durch den adressierten Benutzer erhalten werden sollen. Ein Identifikationscode kann verwendet werden, um die Text-Daten zu identifizieren.
  • Das Verfahren gemäss der Erfindung kann weiterhin den Schritt des Zuordnens der zweiten Daten-Art mit einer Datei oder jeder anderen Art von elektronischem Dokument beinhalten, ist aber nicht limitiert auf Textdokumente, Bilder oder HTML-Dokumente.
  • Falls die zweite Daten-Art Audio-Daten sind, können diese mit einem HTML-Dokument assoziiert werden, um die Interpretation, was auf dem HTML-Dokument gesehen werden kann, zu erleichtern. Falls die zweite Daten-Art Video-Daten sind, können diese mit einem Text-Dokument assoziiert werden, um zu visualisieren, was im Textdokument gefunden werden kann. Eine Datei kann durch einen Benutzer von einer Sammlung von zentral verfügbaren Dateien bei einem Server, der mit dem Netzwerk verbunden ist, oder von einer Sammlung von Dateien, die lokal bei der Zugangs-Vorrichtung des Benutzers verfügbar sind, ausgewählt werden.
  • Mit der Funktionalität der Dienste-Plattform (5) sind Benutzer in der Lage, eine gewisse Daten-Art zu schaffen und zu verteilen, ohne die benötigten Einrichtungen lokal verfügbar zu haben.
  • Kurze Beschreibung der Figur
  • Die vorhergehenden Aspekte und viele der dazugehörigen Vorteile dieser Erfindung werden klarer durch Bezug auf die folgende detaillierte Beschreibung, wenn diese mit der beiliegenden Zeichnung betrachtet wird, wobei:
  • 1 ein Blockdiagramm ist, das die involvierten Komponenten zeigt, wenn die erste Daten-Art Text-Daten (10) und die zweite Daten-Art Audio-Daten (15) sind.
  • Beispielhafte Ausführungsbeispiele
  • Für den Zweck der Lehre der Erfindung werden im folgenden bevorzugte Ausführungsbeispiele des Verfahrens und der Vorrichtungen der Erfindung beschrieben. Es wird dem Fachmann klar sein, dass andere Alternativen und äquivalente Ausführungsbeispiele der Erfindung abgeleitet und auf die Praxis reduziert werden können, der Zweck der Erfindung ist nur durch die beigefügten Ansprüche, wie letztendlich erteilt, limitiert.
  • 1 zeigt ein Ausführungsbeispiel der Erfindung im Falle der Konvertierung von Text-Daten (10) in Audio-Daten (15). Mit Bezug auf 1 besteht dort ein Netzwerk (3), das Netzwerk-Benutzer verbindet. Das Netzwerk (3) kann ein Fest- oder ein mobiles Netzwerk sein. Das Netzwerk (3) kann ein öffentliches Netzwerk, wie das Internet, oder ein privates Netzwerk sein. Das Netzwerk kann ein nicht gesichertes Netzwerk oder ein Netzwerk sein, das als nicht gesichert wahrgenommen wird, obwohl gesicherte Netzwerke nicht von dieser Erfindung ausgeschlossen sind. Das Netzwerk (3) kann durch einen Dienste-Anbieter bereitgestellt werden, wie ein Internet-Dienste-Anbieter, obgleich das Netzwerk (3) auch durch eine Organisation, die Zugänglichkeit zu entfernten Orten für spezifische Gruppen von Kunden anbietet, bereitgestellt sein kann. Im letzteren Fall ist der Kunde in der Lage, direkt zuzugreifen, d. h. ohne Verwendung des Internets, bei einem oder mehreren entfernten Orten.
  • Ein Server (4) ist mit dem Netzwerk (3) verbunden. Es können viele unterschiedliche Server (4) vorhanden sein, die geographisch oder funktional voneinander separiert sind, und jeder kann durch unterschiedliche Beteiligte verwaltet, gesteuert und angewandt werden. Der Server (4) in dem in 1 dargestellten Ausführungsbeispiel ist ein Mikro-Prozessor basiertes System, das eine Verarbeitungs-Einheit und einen Speicher umfasst, obwohl viele andere Merkmale, Einrichtungen und Komponenten auch Teil des Servers (4) sein können. Im Speicher des Servers (4) sind ein oder mehrere Applikations-Programme gespeichert, die auf der CPU des Servers (4) ausgeführt werden. Der Server (4) kann ein System sein, das unter UNIX, NT oder jedem anderen diesbezüglichen Betriebssystem funktioniert. Eine Applikation, die im Server (4) aufgesetzt ist, kann ein Computer-Programm, wie ein WWW-Server sein, obwohl die vorliegende Erfindung keine Applikationen ausschliesst, die nicht mit der Internet-Technologie verwandt sind. Als eine Alternative für die Zugänglichkeit über das Internet kann der Server (4) Teil einer privaten Domäne sein, die für eine geschlossene Benutzer-Gruppe zugänglich ist. Im letzteren Fall kann der Server (4) IP-basiert nicht IP-basierte Applikationen und Informationen verwalten. Der Server (4) und die Applikationen, die auf ihm angeordnet sind, können durch einen elektronischen Händler bedient und angewandt werden. Der Server (4) und die Dienste-Plattform (5) können an der gleichen physischen Position angeordnet sein.
  • Ein Benutzer (17) des abgehenden Netzwerkes ist mit dem Netzwerk (3) verbunden. Der Benutzer (17) des abgehenden Netzwerkes ist ein Benutzer, der einen Prozess des Sendens von Audio-Daten-Strömen zu einem Benutzer (18) des empfangenden Netzwerkes sendet. Der Benutzer (17) des abgehenden Netzwerkes verwendet eine abgehende Zugangs-Vorrichtung (1) für den Zugang zum Netzwerk (3). Die abgehende Zugangs-Vorrichtung (1) ist eine Vorrichtung zum Zugang eines mobilen oder festen Netzwerkes, wie ein Telefon, ein Laptop, oder ein Personal Computer. Falls die abgehende Zugangs-Vorrichtung (1) ein Telefon ist, ist dieses vorzugsweise ein Tonwahl-Telefon, das in der Lage ist, Kurznachrichten (SMS) zu senden und zu erhalten. Ein IP-Telefon kann in Verbindung mit der vorliegenden Erfindung auch verwendet werden. Drahtlose Vorrichtungen, wie bluetooth-unterstützte Vorrichtungen, können mit Bezug zu dieser Erfindung auch berücksichtigt werden. Die abgehende Zugangs-Vorrichtung (1) kann auch Teil eines lokalen Area-Netzwerkes sein. Periphere Vorrichtungen, wie ein Modem oder eine Maus, werden nicht gezeigt. Die abgehende Zugangs-Vorrichtung (1) hat limitierte oder in einigen Fällen keine Einrichtungen zum Erhalten, Abspielen, Aufnehmen und Senden von Audio-Daten verfügbar. Zusätzlich kann der Benutzer (17) des abgehenden Netzwerkes ein limitiertes Verständnis von der Verwendung und Installierung von Multimedia-Applikationen und Hardware auf der abgehenden Zugangs-Vorrichtung (1) haben. Auch wenn entsprechende Multi-Media-Applikationen und -Hardware auf der abgehenden Zugangs-Vorrichtung (1) vorhanden sind, kann der Benutzer (17) des abgehenden Netzwerkes nicht in der Lage sein, Audio-Daten zu erhalten, aufzunehmen, zu senden, weil der Benutzer (17) des abgehenden Netzwerkes mit der Verwendung von diesen Multimedia-Applikationen und Hardware nicht vertraut ist. Die physische Verbindung zwischen der abgehenden Zugangs-Vorrichtung (1) und dem Netzwerk (3) kann durch ein Modem und durch eine Telefon-Linie, eine Netzwerk-Vorrichtung und eine gemietete Linie, oder jegliche Art von drahtlosen Verbindungsmitteln, sein. Die Details der Art der Verbindung zwischen der abgehenden Zugangs-Vorrichtung (1) und dem Netzwerk (3) haben für die vorliegende Erfindung keine Konsequenz.
  • Nochmals mit Bezug auf 1 bezieht sich die gestrichelte Linie auf die Dienste-Plattform (5). Die Dienste-Plattform (5) kann durch einen Dienste-Anbieter betrieben und angewandt werden. Die Dienste-Plattform besteht aus einer Anzahl von Funktions-Einheiten, welche nachfolgend diskutiert werden. Die Funktions-Einheit, wo die Umwandlung von den Text-Daten (10) in Audio-Daten (15) stattfindet, ist ein TTS (Text-zu-Sprache) Verwalter (6), welcher ein CGI (Common Gateway Interface) Programm ist. Der TTS-Verwalter (6) hat Zugang zu Speicher-Mitteln (7). Ein Medien-Encoder (8) ist mit dem TTS-Verwalter (6) verbunden. Der Medien-Encoder (8) ist eine Applikation, die eine oder mehrere Audio-Datenströme simultan basierend auf der Eingabe, die von dem TTS-Server (9) erhalten wird, generiert. Der TTS-Server (9) umfasst Software, die Text in Audio-Daten (15) konvertiert. Der TTS-Verwalter (6), der Medien-Encoder (8) und der TTS-Server (9) können durch ein physisches System betrieben sein, oder jeder kann durch ein separates physisches System betrieben sein. Übli cherweise, aber nicht notwendigerweise, ist die Dienste-Plattform (5) gegen Bedrohungen, die vom Netzwerk (3) ausgehen, mittels einer Firewall (nicht gezeigt) geschützt.
  • Mit Bezug zu 1 greift der Benutzer (17) des abgehenden Netzwerkes auf den Server (4) über das Netzwerk (3) zu. Falls die Applikation auf dem Server (4) eine Webseite ist, kann der Benutzer (17) des abgehenden Netzwerkes die TTS-Dienste durch einen HTML-Hyperlink aufrufen. Zugang zur Funktionalität der TTS-Plattform (5) ist über einen Zahlungs-Mechanismus bereitgestellt. Der Zahlungs-Mechanismus kann auf der Verwendung von einer Kreditkarte basieren, oder er kann jeder andere Zahlungs-Mechanismus sein, beispielsweise basierend auf der Wahl einer 0800-Telefonnummer. Der Benutzer (17) des abgehenden Netzwerkes kann Text-Daten (10) konstruieren und die Text-Daten (10) zum Server (4) senden. Das Erstellen der Text-Daten (10) kann in vielen unterschiedlichen Weisen erfolgen. Die Text-Daten (10) können durch den Benutzer (17) des abgehenden Netzwerkes unter Verwendung eines Text-Editors, einem E-Mail-Programm, einem Browser-Programm, oder im Fall, dass die Zugangs-Vorrichtung (1) ein Telefon ist, einfach durch Eingabe der Text-Daten (10) über eine Benutzer-Schnittstelle, geschaffen werden. Eine Ziel-Adresse (19), um den Benutzer (18) des erhaltenden Netzwerkes zu identifizieren, wird durch den Benutzer (17) des abgehenden Netzwerkes, zusammen mit den Text-Daten (10), zum Server (4) gesendet. Die Ziel-Adresse (19) kann eine E-Mail-Adresse oder jede Art einer Identifikations-Nummer sein. Die Ziel-Adresse (19) kann simultan mit Text-Daten (10) gesendet werden, oder vor oder nach dem Senden der Text-Daten (10) gesendet werden.
  • Optional oder alternativ kann der Benutzer (17) des abgehenden Netzwerkes ein Objekt mit den Text-Daten (10) verknüpfen. Das Objekt kann ein Bild gemäss jeder Format-Art sein, wie, aber nicht limitiert auf, ein JPEG- oder GIF-Format. Das Objekt kann auch eine Video-Sequenz gemäss jeder Format-Art sein, Streaming oder Nicht-Streaming, wie MPEG oder VIVO. Das Objekt kann auch ein HTML-Dokument oder jede Art von Datei sein, inklusive Textdokumente oder graphische Dateien. Es wird betont, dass diese Beispiele hauptsächlich als Illustration, nicht als Limitation, bereitgestellt werden.
  • Nachdem die Text-Daten (10) durch den Server (4) erhalten worden sind, werden die Text-Daten (10) zum TTS-Verwalter (6) gesendet. In einem Ausführungsbeispiel gemäss der Erfindung kann ein Code (11), zusammen mit den Text-Daten (10), zum TTS-Verwalter (6) gesendet werden. Dieser Code (11) kann verwendet werden, um den Server (4), der die Text-Daten (10) gesendet hat, zu identifizieren. Basierend auf dem Code (11) kann die Abrechnung zwischen dem Dienste-Anbieter, der die Dienste-Plattform (5) bedient, und dem elektronischen Händler, der den Server (4) bedient, ausgeführt werden.
  • Nach dem Erhalten von Text-Daten (10) und dem Code (11) führt der TTS-Verwalter (6) eine Validitäts-Kontrolle auf dem Code (11) aus. Falls der Code (11) gültig ist, speichert der TTS-Verwalter (6) die Text-Daten (10) in den Speichermitteln (7). Der TTS-Verwalter (6) generiert auch einen Aktivierungs-Code (12), der auch in den Speichermitteln (7) gespeichert wird. Der Aktivierungs-Code (12) kann ein einmaliger Code sein. Der Aktivierungs-Code (12) bezieht sich auf die Text-Daten (10) über einen Link, Pointer oder jeden anderen Mechanismus, um die Text-Daten (10) mit dem Aktivierungscode (12) zu assoziieren.
  • Der TTS-Verwalter (6) sendet eine Referenz-Adresse, wie eine URL (Universal Resource Location) mit dem Aktivierungs-Code (12) als ein Parameter zu einer Applikation, wie ein Web-Server, beim Server (4). Die Referenz-Adresse bezieht sich auf den TTS-Verwalter (6) und wird verwendet, um den Ort des TTS-Verwalters (6) zu zeigen. Falls die Systeme, die in dieser Offenbarung beschrieben sind, auf IP-verwandter Technologie basieren, stellt die Referenz-Adresse eine IP-Adresse dar. Alternativ stellt die Referenz-Adresse einige andere Identifikationen oder Netzwerk-Funktionseinheiten oder Applikationen dar.
  • Beim Server (4) wird eine Webseite geschaffen, welche die Referenz-Adresse zum TTS-Verwalter (6) beinhaltet. Die Webseite kann auch einen Medien-Abspieler beinhalten, der durch den Benutzer (18) des erhaltenden Netzwerkes gestartet werden kann. Der Server (4) sendet auch eine E-Mail-Nachricht (14), die eine andere Referenz-Adresse beinhaltet, zum Benutzer (18) des erhaltenden Netzwerkes. Die andere Referenz-Adresse bezieht sich auf die Webseite, die durch den Server (4) geschaffen wurde. Nach dem Erhalt der E-Mail-Nachricht (14), kann der Benutzer (18) des empfangenden Netzwerkes die Webseite durch Auswählen der Referenz-Adresse (oder Klicken der URL), die er in der E-Mail-Adresse (14) erhalten hat, zugreifen. Nach dem Zugriff auf die Webseite kann der Benutzer (18) des empfangenden Netzwerkes den Medien-Abspieler starten, was im Senden des Aktivierungs-Codes (12) zum TTS-Verwalter (6) und folglich in der Aktivierung des TTS-Verwalters (6) resultiert.
  • Nach Erhalt des Aktivierungs-Codes (12), prüft der TTS-Verwalter (6) die Gültigkeit des Aktivierungs-Codes (12). Falls der Aktivierungs-Code (12) gültig ist, ruft der TTS-Verwalter die entsprechenden Text-Daten (10) von den Speichermitteln (7) ab. Der TTS-Verwalter (6) sendet die Text-Daten (10) zu einem TTS-Server (9), wo Text-Daten (10) in Audio-Daten (15) konvertiert werden. Es ist nicht nötig, die Audio-Daten (15) in den Speicher-Mitteln (7) zu speichern, obwohl in einigen anderen Ausführungsbeispie len der vorliegenden Erfindung es möglich sein kann, die Audio-Daten (15) vor der Verarbeitung durch den Medien-Encoder (8) zu speichern. Das Verhindern des Speicherns von Audio-Daten (15) in den Speicher-Mitteln reduziert die benötigte Speicherkapazität und verhindert Kosten bezüglich der Verwendung der Software, die auf dem TTS-Server (9) verwendet wird, wie Lizenz-Gebühren. Die Audio-Daten (15) werden zum Medien-Encoder (8) gesendet, was in einem Audio-Daten-Strom (16) resultiert. Der Audio-Daten-Strom (16) kann zum Benutzer (18) des erhaltenden Netzwerkes gesendet werden, wo der Audio-Daten-Strom (16) unter Verwendung des für den Benutzer (18) des erhaltenden Netzwerkes vorhandenen Medien-Abspielers abgespielt wird. Das Ende des Prozesses kann unter Verwendung von unterschiedlichen Techniken bestimmt werden, wie die Erfassung einer Periode der Inaktivität.

Claims (10)

  1. Verfahren zur Kommunikation von Daten von einem Benutzer (17) eines abgehenden Netzwerkes zu einem Benutzer (18) eines empfangenden Netzwerkes, umfassend die Schritte von: – Senden von Text-Daten (10), die durch den Benutzer des abgehenden Netzwerkes ausgewählt oder eingegeben werden, zu einem Server (4), der mit einem Netzwerk (3) verbunden ist; gekennzeichnet durch weiterhin umfassend die Schritte von: – Senden der Text-Daten (10) durch den Server (4) zu einer Dienste-Plattform (5), die einen Text-zu-Sprache-Verwalter (6) umfasst; – Erstellen einer Webseite durch den Server (4), die eine Referenz-Adresse zu dem Text-zu-Sprache-Verwalter (6) und ein Medien-Abspielgerät umfasst; – Senden einer Referenz-Adresse zur Webseite an den Benutzer (18) des empfangenden Netzwerkes; – Zugreifen auf die Webseite durch den Benutzer (18) des empfangenden Netzwerkes durch Auswählen der Referenz-Adresse zur Webseite; – Starten des Medien-Abspielgerätes durch den Benutzer (18) des empfangenden Netzwerkes, das in der Aktivierung vom Text-zu-Sprache-Verwalter (6) resultiert; – Konvertieren der Text-Daten (10) in Audio- oder Video-Daten (15) bei der Dienste-Plattform (5); und – senden der Audio- oder Video-Daten (15) als ein Datenstrom (16) zum Benutzer (18) des empfangenden Netzwerkes.
  2. Verfahren gemäss Anspruch 1, wobei ein Code (11) zur Identifikation des Servers (4) durch den Server (4) zu der Dienste-Plattform (5) zusammen mit den Text-Daten (10) gesendet wird.
  3. Verfahren gemäss Anspruch 1 oder 2, wobei besagtes Netzwerk (3) ein mobiles Netzwerk ist.
  4. Verfahren gemäss Anspruch 1, 2 oder 3, wobei besagte Dienste-Plattform (5) und besagter Server (4) am gleichen physischen Ort angeordnet sind.
  5. Verfahren gemäss einem der vorhergehenden Ansprüche, wobei ein Zahlungs-Mechanismus verwendet wird, um es dem Benutzer (17) des abgehenden Netzwerkes oder dem Benutzer (18) des empfangenden Netzwerkes zu ermöglichen, die Dienste-Plattform (5) zu verwenden.
  6. Verfahren gemäss einem der vorhergehenden Ansprüche, wobei besagte Text-Daten (10) einer elektronischen Datei oder einer anderen Art eines elektronischen Dokumentes zugeordnet sind.
  7. Verfahren gemäss einem der vorhergehenden Ansprüche, wobei das Netzwerk (3), mit welchem der Benutzer (17) des abgehenden Netzwerkes verbunden ist, nicht das Gleiche ist, wie das Netzwerk (3), mit welchem der Benutzer (18) des empfangenden Netzwerkes verbunden ist.
  8. Verfahren gemäss einem der vorhergehenden Ansprüche, wobei der Benutzer (17) des abgehenden Netzwerkes eine Ziel-Adresse zur Dienste-Plattform (5) sendet.
  9. Server (4), der eingerichtet ist, um Daten von einem Benutzer (17) eines abgehenden Netzwerkes zu einem Benutzer (18) eines ankommenden Netzwerkes zu kommunizieren, umfassend: – Mittel zum Empfangen von Text-Daten (10), welche durch den Benutzer des abgehenden Netzwerkes ausgewählt oder eingegeben werden, über ein Netzwerk (3); gekennzeichnet durch weiterhin umfassend: – Mittel zum Senden von Text-Daten (10) zu einer Dienste-Plattform (5), umfassend einen Text-zu-Sprache-Verwalter (6); – Mittel zum Erstellen einer Webseite, die eine Referenz-Adresse zum Text-zu-Sprache-Verwalter (6) und ein Medien-Abspielgerät umfasst; – Mittel zum Senden einer Referenz-Adresse zur Webseite an den Benutzer (18) des empfangenden Netzwerkes; und – Mittel zum Starten des Medien-Abspielgerätes, wenn auf die Webseite durch den Benutzer (18) des empfangenden Netzwerkes zugegriffen wird, was in einer Aktivierung des Text-zu-Sprache-Verwalters (6) resultiert.
  10. Server gemäss Anspruch 9, wobei ein Code (11) zur Identifikation des Servers (4) an die Dienste-Plattform (5) zusammen mit den Text-Daten (10) durch den Server (4) gesendet wird.
DE60318329T 2002-10-22 2003-10-20 Übertragung von text-zu-sprache datenströmen über ein netzwerk Expired - Lifetime DE60318329T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02079387 2002-10-22
EP20020079387 EP1414204A1 (de) 2002-10-22 2002-10-22 Übertragung von Text-zu-Sprache Datenströmen über ein Netzwerk
PCT/EP2003/011629 WO2004039020A1 (en) 2002-10-22 2003-10-20 Text-to-speech streaming via a network

Publications (2)

Publication Number Publication Date
DE60318329D1 DE60318329D1 (de) 2008-02-07
DE60318329T2 true DE60318329T2 (de) 2008-12-11

Family

ID=32050072

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60318329T Expired - Lifetime DE60318329T2 (de) 2002-10-22 2003-10-20 Übertragung von text-zu-sprache datenströmen über ein netzwerk

Country Status (6)

Country Link
US (2) US20060031581A1 (de)
EP (2) EP1414204A1 (de)
AT (1) ATE382226T1 (de)
AU (1) AU2003274048A1 (de)
DE (1) DE60318329T2 (de)
WO (1) WO2004039020A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078655A1 (en) * 2005-09-30 2007-04-05 Rockwell Automation Technologies, Inc. Report generation system with speech output
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
US9116346B2 (en) * 2007-11-06 2015-08-25 Nikon Corporation Illumination apparatus, illumination method, exposure apparatus, and device manufacturing method
ES2372142B1 (es) * 2009-09-09 2012-08-07 Telefónica, S.A. Método y sistema para la conversión de mensajes de texto en llamadas de voz sobre ip desde una interfaz web.

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5996022A (en) * 1996-06-03 1999-11-30 Webtv Networks, Inc. Transcoding data in a proxy computer prior to transmitting the audio data to a client
US6233318B1 (en) * 1996-11-05 2001-05-15 Comverse Network Systems, Inc. System for accessing multimedia mailboxes and messages over the internet and via telephone
US6421733B1 (en) * 1997-03-25 2002-07-16 Intel Corporation System for dynamically transcoding data transmitted between computers
DE19756852A1 (de) * 1997-12-19 1999-07-01 Siemens Ag Telekommunikationssystem und Verfahren zum Austausch von Informationen zwischen einem E-Mail-Service und einem Teilnehmer in einem Telekommunikationsnetz
ATE485669T1 (de) * 1998-03-02 2010-11-15 Parus Holdings Inc Nachrichtensystem basiert auf internet und telefonie
US5986022A (en) * 1998-04-01 1999-11-16 Witco Corporation Continuous manufacture of silicone coploymers
AU2633601A (en) * 2000-01-07 2001-07-24 Informio, Inc. Methods and apparatus for prefetching an audio signal using an audio web retrieval telephone system
US20010056351A1 (en) * 2000-06-26 2001-12-27 Byobroadcast, Inc. Networked audio posting method and system
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier

Also Published As

Publication number Publication date
EP1570614B1 (de) 2007-12-26
WO2004039020A1 (en) 2004-05-06
DE60318329D1 (de) 2008-02-07
AU2003274048A1 (en) 2004-05-13
EP1414204A1 (de) 2004-04-28
ATE382226T1 (de) 2008-01-15
EP1570614A1 (de) 2005-09-07
US20060031581A1 (en) 2006-02-09
US20090012888A1 (en) 2009-01-08

Similar Documents

Publication Publication Date Title
DE60214085T2 (de) Hot-linedienst in einem Multimedianetzwerk
DE60021038T2 (de) Inhaltsanpassung von Multimedia-Nachrichten
DE69731907T2 (de) Sprachpost über Internet
DE69724611T2 (de) Verfahren zur Umlenkung eines ankommenden Telefonanrufes in eine bereits laufende Internet Session
DE60302627T2 (de) Verfahren und System zur Durchführung von augenblicklichem Nachrichtenverkehr
DE69913953T2 (de) Verfahren und vorrichtung zur verarbeitung von elektronischen post
DE60307211T2 (de) Graphisches Proxy für weniger fähige Benutzerendgeräte
DE69725761T2 (de) System und verfahren zur kodierung und zur aussendung von sprachdaten
DE60008483T2 (de) Telefondiensten in einem Kommunikationsnetzwerk
DE69924337T2 (de) Einrichtung zur Funk-kommunikation mit "API" für Fernsprechanwendungen
DE60220891T2 (de) Verfahren und vorrichtung zum zugreifen auf in einem mobilen endgerät gespeicherte dateien mit internet protokoll unterstützung
DE60214084T2 (de) Anklopfdienst in einem Multimedianetzwerk
WO2003032552A2 (de) Verfahren zur ausgabe von personalisierten informationen auf einer website
DE10392361T5 (de) Verfahren, Vorrichtung und System zum Senden einer Multimedianachricht, wenn eine gerufene Seite den Ruf nicht beantwortet
DE69821518T2 (de) Verbindung eines Offline-Rechners mit einem Online-Rechner über ein Netzwerk
EP2377301B1 (de) Verfahren und vorrichtung zum intelligenten zusammenstellen einer multimedianachricht für ein mobilfunksystem
DE60209420T2 (de) System und Verfahren zum Umwandeln von von einem Mobilgerät vorbereiteten Textnachrichten in Sprachnachrichten
EP1454464B1 (de) System zur umsetzung von textdaten in eine sprachausgabe
DE60318329T2 (de) Übertragung von text-zu-sprache datenströmen über ein netzwerk
EP2822261B1 (de) Verfahren und anordnung zur poolinierung multimodaler wartefelder und suche aktueller telefonanrufe für einen benutzer in einem telekommunikationsnetz
DE60219180T2 (de) Telekommunikationssystem und Verfahren zur Übertragung von Videodaten zwischen Internet und einem Mobiltelefon
DE69834647T2 (de) System, verfahren und program zur dynamischen transkodierung von zwischen rechnern uebertragenen daten
DE60038575T2 (de) Wap verbessertes sip
EP2272246B1 (de) Verfahren, server und kommunikationsendgerät zur steuerung eines netzgestützten dienstes in einer kommunikationsanordnung
DE102010001564B4 (de) Verfahren zur automatisierten konfigurierbaren akustischen Wiedergabe von über das Internet zugänglichen Textquellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition