DE19956572B4

DE19956572B4 - Verfahren zur Telekommunikation und Kommunikationsterminal

Info

Publication number: DE19956572B4
Application number: DE19956572A
Authority: DE
Inventors: Andreas Stuetz
Original assignee: Individual
Current assignee: Individual
Priority date: 1999-11-24
Filing date: 1999-11-24
Publication date: 2006-05-11
Anticipated expiration: 2019-11-25
Also published as: DE19956572A1

Abstract

Verfahren zur Telekommunikation zwischen zumindest zwei Kommunikationsterminals (1, 2), die über einen Übertragungskanal (3) miteinander kommunizieren, wobei zumindest ein audio-visuelles Kommunikationsterminal (1) vorgesehen ist, an welchem bei laufender Telekommunikation der Übertragungskanal (3) ständig auf einen momentanen Eingang eines relevanten akustischen Signals (21) abgetastet und nach Maßgabe des Abtastergebnisses für die Dauer des Fehlens eines eingehenden, relevanten akustischen Signals eine lokal gespeicherte Stumm-Videosequenz zur Erzeugung einer zur akustischen Kommunikation korrespondierenden Video-Darstellung verwendet wird, dadurch gekennzeichnet, daß der Übertragungskanal zur Telekommunikation eine bidirektional akustische Verbindung aufweist, und daß nach Maßgabe des Abtastergebnisses für die Dauer eines eingehenden, relevanten akustischen Signals (21) eine lokal gespeicherte Eingangs-Videosequenz verwendet wird.

Description

Die Erfindung betrifft ein Verfahren zur Telekommunikation, bei welchem ein audiovisuelles Kommunikationsterminal verwendet wird. Ferner betrifft die vorliegende Erfindung ein audio-visuelles Kommunikationsterminal zur Durchführung dieses Verfahrens.

Solche Verfahren sind bekannt und werden beispielsweise bei Videotelefonen oder auch bei Videokonferenzen via Internet angewendet. Dabei müssen die akustischen Signale und die Bildsignale übertragen werden. Bei der verfügbaren, geringen Bandbreite der gängigen Übertragungswege – beispielsweise von Telefonleitungen – ist die simultane Übertragung von Sprache und Bild auch bei sehr schlechter Bildauflösung praktisch nur bei weiterer Datenreduktion durch eine sehr geringe Anzahl von gesendeten Einzelbildern pro Zeiteinheit zu gewährleisten. Die aus diesen einzelnen Bildern zusammengesetzten Videosequenzen weisen dann eine abgehackte und sprunghafte Darstellung von Bewegungen auf.

Das audio-visuelle Kommunikationsterminal nach der vorliegenden Erfindung erzeugt nach Maßgabe des wiedergegebenen, akustischen Signals ein zu diesem akustischen Signal korrespondierendes Videobild.

Ein solches Verfahren der – im wesentlichen einseitigen – audio-visuellen Kommunikation ist in der US 5,117,407 beschrieben. Die US 5,117,407 zeigt einen Verkaufs-Automaten oder eine Musik-Jukebox, die akustische Botschaften, d.h. Beschreibungen zu dem ausgewählten Artikel/zu der ausgewählten Schallplatte wiedergibt. Die Wiedergabe der akustischen Botschaft erfolgt beispielsweise über einen Sprach-Synthesizer. Parallel dazu erzeugt ein Video-Synthesizer ein zur Sprachwiedergabe korrespondierendes Videobild.

Der Sprach-Synthesizer wandelt die wiedergegebene Sprache – beispielsweise anhand einer Zuordnungstabelle – in die entsprechende Lippen-Bewegung einer Personendarstellung um. Hierzu ist in der Zuordnungstabelle jedem einzelnen Laut ein bestimmtes Lippenbild zugeordnet. Diese Umwandlung erfordert zum einen einen Speicher für die Zuordnungstabelle; zum anderen ist aber auch eine leistungsfähige, elektronische Datenverarbeitungsanlage erforderlich, um eine korrespondierende Video-Darstellung innerhalb einer angemessenen Zeit zu erzeugen.

Selbst wenn diese umfangreiche Logistik vorhanden ist, kann ein solches System aber nicht fehlerfrei arbeiten. Die bekannten technischen Schwierigkeiten bei der Computer-Spracherkennung treten sämtlich auch bei diesem System auf. Denn die Spracherkennung beziehungsweise Laut-Erkennung ist lediglich ein Teil des genannten Umwandlungsprozesses von Sprache in Lippenbewegung. Die Umsetzung der erkannten Laute in die Lippenbewegung stellt eine weitere Fehlerquelle dar. Außerdem erfordern die Umwandlungen eine große Rechenkapazität. Die Umwandlung geschieht also sehr langsam. Daher dürfte die Video-Darstellung der Lippenbewegung nur äußerst unvollständig zu bewerkstelligen sein. Dies ist – angesichts des betriebenen Aufwandes – ein sehr unbefriedigender Zustand.

Hinzu kommt, daß die Lehre der oben genannten US 5,117,407 nur einen sehr eingeschränkten Anwendungsbereich hat. Diese Lehre kennt ausschließlich Sprache, die im Verkaufs-Automaten oder in der Musik-Jukebox selber erzeugt wurde. Diese selbst generierte Sprache ist selbstverständlich auch leichter zu erkennen. Bei einem beschränkten Repertoire an vorgegebenen Texten können sogar für jeden einzelnen Text die entsprechenden Lippenbewegungen mit gespeichert werden. Daher ist die Anwendung der genannten Lehre auf einen Verkaufs-Automaten beziehungsweise eine Musik-Jukebox und einseitig vorbestimmte, einzelne, feste Kommunikationssequenzen beschränkt.

Zum Stand der Technik wird ferner auf das US-Patent US-A-5,880,788 verwiesen, welches die Synchronisierung eines existierenden Videos auf einen neuen Soundtrack durch die phonetische Analyse des Original-Soundtracks und des neuen Soundtracks betrifft. Dabei werden individuelle Sprechgeräusche, wie z. B. Laute, in dem Soundtrack für die ursprüngliche Videoaufzeichnung identifiziert und die dazugehörigen Bilder werden gespeichert. Der neue Soundtrack wird ähnlich analysiert, um einzelne Sprechgeräusche zu identifizieren, die verwendet werden, um die gespeicherten Bilder auszuwählen und eine neue Videosequenz zu generieren. Auf diese Weise kann eine gegebene Videosequenz mit jeglichen Stimmen synchronisiert werden. Aus den 6 und 7 und der zugehörigen Beschreibung ist insbesondere eine Lippensynchronisation bekannt ist.

Das US-Patent US-A-5,426,460 betrifft ein Kommunikationssystem, bei welchem auf einem einzelnen Übertragungskanal virtuelle Sprach/Videoübertragung über eine begrenzte Kanalbandbreite übertragen wird. Teile des übertragenen Standbildes, die visuell während der Kommunikation aktiv sind, wie z. B. Gesichtsausdrücke, Lippenbewegungen, werden an der Empfängerseite durch eine synchrone Aktivierung künstlich erzeugt.

Aus der deutschen Offenlegungsschrift DE 32 43 232 A1 , ist ein Verfahren zu Erkennung von Sprachpausen bekannt.

Aus der deutschen Offenlegungsschrift DE 195 10 737 A1 ist ein Kommunikationsendgerät bekannt, welches Bildaufnahmemittel aufweist, die abschaltbar sind, wobei im Falle des Abschaltens ein in einem Bildspeicher vorhandenes Bild gesendet wird. Aus dieser Druckschrift ist daher lediglich die Übertragung eines Standbildes bekannt.

Es ist daher Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung anzugeben, die eine frei selbstbestimmte, zwei- oder mehrseitige Kommunikation mit einer funktionssicheren und qualitativ hochwertigen Video-Darstellung bei geringer, erforderlicher Übertragungs-Bandbreite praktisch in Echtzeit und mit gegenüber der herkömmlichen Videotelefonie geringerem oder vergleichbarem, apparativen Aufwand erlaubt.

Die auf das Verfahren bezogene Aufgabe wird gelöst durch die Merkmale des Anspruchs 1.

Die Erfindung bietet den Vorteil, daß die gesamte zur Verfügung stehende Übertragungs-Bandbreite für die Übertragung der akustischen Signale verwendet werden kann. Während der akustischen Telekommunikation müssen keinerlei Videosignale übertragen werden. Dadurch verläuft die Übertragung der akustischen Signale durch die Videosignale unbeeinflußt, da heißt ungestört. Daher reichen auch geringste Bandbreiten aus, um eine audio-visuelle Kommunikation gemäß der vorliegenden Erfindung zu ermöglichen. Prinzipiell sind bereits solche Bandbreiten geeignet, die eine – auch schlechte – Übertragung lediglich von akustischen Signalen erlauben.

Dieser Vorteil wird dadurch erreicht, daß von zwei Kommunikationsterminals, die über einen Übertragungskanal bidirektional akustisch miteinander kommunizieren, zumindest eines ein audio-visuelles Kommunikationsterminal ist. Dieses audio-visuelle Kommunikationsterminal ist für die Darstellung von Videobildern geeignet. Gleichzeitig soll dieses audio-visuelle Kommunikationsterminal auch die akustische Telekommunikation mit einem Partner-Kommunikationsterminal ermöglichen. An diesem audiovisuellen Kommunikationsterminal wird erfindungsgemäß der Übertragungskanal ständig auf momentanen Eingang eines relevanten akustischen Signals abgetastet. Unter Übertragungskanal ist dabei einerseits die Fernübertragungs-Leitung – zum Beispiel die Telefonleitung –, die in dem audio-visuellen Kommunikationsterminal endet, andererseits aber auch der Weg des übertragenen, akustischen Signals im audio-visuellen Kommunikationsterminal selber zu verstehen. Hierauf wird später noch näher eingegangen.

Dieser Übertragungskanal wird ständig, d. h. in bezog auf die Art der übertragenen akustischen Signale – beispielsweise Sprache – praktisch in Echtzeit abgetastet. Dies bedeutet, daß die Abtastung zumindest in solchen Zeitabständen erfolgt, in welchen sich die übertragenen akustischen Signale signifikant ändern. Dann ist die Abtastung praktisch momentan-aktuell. Die Abtastung liefert also den gewünschten Status des Übertragungskanals in Echtzeit.

Ein wesentlicher Aspekt der Erfindung ist, daß die Richtung der Übertragung bei der Abtastung erfaßt wird. Es müssen lediglich solche akustischen Signale von der Abtastung erkannt werden, die in das audio-visuelle Kommunikationsterminal eingehen und die auch relevant sind. Durch solche eingehenden, relevanten akustischen Signale beziehungsweise deren durch deren Fehlen wird die Video-Darstellung bestimmt. Daraus ergibt sich, daß relevante akustischen Signale lediglich solche sind, die die dazu gehörige Video-Darstellung bedingen. Hierauf wird später noch näher eingegangen.

Die Relevanz eines akustischen Signals kann beispielsweise eine Pegelschwelle sein. Dann wird lediglich bei Überschreitung eines bestimmten Pegels des akustischen Signals ein relevantes akustisches Signal detektiert.

Während eines eingehenden, relevanten akustischen Signals wird eine lokal gespeicherte Eingangs-Videosequenz zur Erzeugung einer zur akustischen Kommunikation korrespondierenden Video-Darstellung verwendet. Die Eingangs-Videosequenz stellt die zum Eingang eines relevanten akustischen Signals korrespondierende Videosequenz dar. Diese Videosequenz enthält dann im wesentlichen eine Darstellung, die ein Benutzer im Zusammenhang mit der Wahrnehmung des gerade übertragenen, relevanten akustischen Signals als zu dem akustischen Signale zugehörige Video-Darstellung erwartet.

Es ist eine herausragende Erkenntnis der Erfindung, daß es in der Tat ausreicht, lediglich ein eingehendes, relevantes akustisches Signal zu detektieren. Denn lediglich dann ist auch gewährleistet, daß eine vom Partner-Kommunikationsterminal gesendete akustische Botschaft eingeht, die der entsprechenden Video-Darstellung bedarf, um den Eindruck einer echten, praktisch aber virtuellen Videokonferenz zu erzeugen. Mit dieser bahnbrechenden Erkenntnis sind alle bisherigen Bemühungen einer umständlichen Generierung von beispielsweise Lippenbewegungen anhand einer Zuordnungstabelle – wie oben dargestellt – obsolet.

In allen anderen Fällen – beispielsweise wenn vom Partner-Kommunikationsterminal kein akustisches Signal eingeht und unabhängig. davon, ob von dem audio-visuellen Kommunikationsterminal gerade gesendet wird oder nicht -, d.h. insbesondere bei Feh len eines eingehenden, relevanten akustischen Signals wird eine lokal gespeicherte Stumm-Videosequenz zur Erzeugung einer zur akustischen Kommunikation korrespondierenden Video-Darstellung verwendet.

Diese verblüffend einfache Lehre ermöglicht es, sehr schnell und damit mühelos mit halbwegs leistungsfähiger und auch mit Hardware geringerer Rechenkapazität in Echtzeit nach Maßgabe des Abtastergebnisses die entsprechende Videosequenz zur Video-Darstellung zu verwenden. Die Videosequenzen sind lokal gespeichert und daher mit einer Zugriffszeit abrufbar, die lediglich durch die Zugriffszeit des verwendeten Speichermediums begrenzt ist. Dies ist bei allen gängigen Speichermedien eine Zugriffszeit, die zur Echtzeit-Darstellung eines Videos ohne weiteres ausreicht.

Dabei sind die Videosequenzen selber bevorzugt qualitativ hochwertige Videosequenzen, die nach der Lehre der vorliegenden Erfindung auch ohne weiteres an die Qualität normaler Fernsehbilder heranreichen können. Bevorzugt sind daher Videosequenzen mit mehr als zwanzig Einzelbildern pro Sekunde. Es können selbstverständlich auch kleinere Bild Dimensionen verwendet werden, vor allem zur Darstellung in kleinen Videodisplays, wie diese beispielsweise in Telefonen, Mobiltelefonen oder als Bildschirmausschnitt bei der Kommunikation via Computer verwendet werden.

Bevorzugte Ausgestaltungen der vorliegenden Erfindung sind in den Unteransprüchen beschrieben.

Ein schneller Zugriff auf die Videosequenzen ist stets gewährleistet, wenn die Videosequenzen permanent in einem lokalen Speichermedium des audio-visuellen Kommunikationsterminals gespeichert sind. Das lokale Speichermedium ist bevorzugt ein Massenspeicher des audio-visuellen Kommunikationsterminals. Diese Lösung ist besonders bevorzugt, wenn als audio-visuelles Kommunikationsterminal ein Computer verwendet wird. Dort sind geeignete Massenspeicher stets vorhanden. Beispielsweise können alle erforderlichen Videosequenzen auf der Festplatte, auf CD-ROM oder auf einer Diskette oder sonstigen Massenspeicher gespeichert sein. Sie können auch bei Hochfahren des Computers beziehungsweise beim Starten einer Anwendung in den Arbeitsspeicher des Computers geladen werden.

Da die Massenspeicher immer kleiner und billiger werden, kommt aber auch eine Implementierung in ein Telefon oder ein Mobiltelefon in Betracht. Dieses dient dann als audio-visuelles Kommunikationsterminal mit integriertem Speichermedium. Das Speichermedium kann beispielsweise ein RAM-Baustein sein.

Eine einfache Aktualisierung der Videosequenzen in bezug auf den einzelnen Telekommunikations-Vorgang wird dadurch erreicht, daß die Videosequenzen vor Beginn eines Telekommunikations-Vorgangs zum audio-visuellen Kommunikationsterminal übertragen und dort in einem auslesbaren, lokalen Buffer gespeichert werden. Dann sind auch keine Permanentspeicher erforderlich, so daß auch in kleinen und mobilen Geräten die Lehre der Erfindung einfach realisiert werden kann. Beispielsweise kann als auslesbarer, lokaler Buffer ein RAM-Baustein verwendet werden.

Um eine möglichst lebensnahe und realistische Video-Darstellung zu erhalten, wird vorgeschlagen, daß mehrere Eingangs-Videosequenzen bzw. mehrere Stumm-Videosequenzen gespeichert sind und zur Erzeugung einer Eingangs-Video-Darstellung beziehungsweise einer Stumm-Video-Darstellung verwendet werden. Beispielsweise durch sequentielles oder zufälliges Aneinanderhängen der Videosequenzen kann eine lebhaftere Darstellung erreicht werden.

Die meisten Telekommunikations-Vorgänge sind Übertragung von Sprache. Die vorliegende Erfindung deckt alle diese Telekommunikations-Vorgänge mit einfachen Mitteln ab, wenn Sprache über den Übertragungskanal übertragen wird und wenn das relevante akustische Signal ein Sprachsignal ist, dessen über ein sprachübliches Zeitintervall gemittelter Signalpegel einen vorbestimmten Schwellwert übersteigt. Das Mitteln über ein bestimmtes Zeitintervall sowie die Differenzierung hinsichtlich eines Schwellwertes sind schaltungstechnisch – sowohl analog wie digital – mit einfachsten Mitteln und mit extrem kurzen Schaltzeiten zu realisieren. Hierauf wird später – im Rahmen der Figurenbeschreibung – noch näher eingegangen.

Ein sprachübliches Zeitintervall ist zumindest so groß, daß bei Mittelungs über dieses Zeitintervall sprachübliche Schwankungen wie Lautstärkeschwankungen beim Sprechen eines zusammenhängenden Textes praktisch ausgemittelt werden. Praktische Zeitintervalle liegen in der Größenordnung von 0,1 bis 2 Sekunden. Bevorzugt ist ein Mittelungsintervall von 0,3 bis 1 Sekunde.

Bei der Übertragung von Sprache ist es bevorzugt, daß zu Beginn eines Telekommunikations-Vorgangs eine Begrüßungs-Videosequenz – eventuell mit begleitendem Sprachsignal – übertragen wird. Diese Begrüßungs-Videosequenz kann dann auch später als eine Eingangs-Videosequenz verwendet werden. Durch die Übertragung einer solchen Begrüßungs-Videosequenz kann auch die Übertragung von weiteren Videosequenzen vor Beginn oder am Anfang des Telekommunikations-Vorgangs kaschiert werden.

Die Erfindung hat erkannt, daß das vorgeschlagene Verfahren in bestimmten Grenzen des gewählten Schwellwertes besonders schnell und zuverlässig ist. Es wird daher vorgeschlagen, daß der Schwellwert unter Berücksichtigung des Mittelungs-Zeitintervalls so klein gewählt wird, daß bei üblicher Sprechgeschwindigkeit ein zusammenhängend gesprochener Text als ein einziges, zusammenhängendes, eingehendes, relevantes akustisches Signal erkannt wird, während dessen Dauer die Eingangs-Videosequenz verwendet wird, und so groß gewählt wird, daß übliche Sprechpausen als Fehlen des eingehenden, relevanten akustischen Signals erkannt werden, während dessen Dauer eine lokal gespeicherte Stumm-Videosequenz zur Erzeugung einer Video-Darstellung verwendet wird.

Technische Besonderheiten können sich daraus ergeben, daß der Übertragungskanal eine Duplex-Einheit zur Fernübertragung aufweist. Dies bedeutet, daß – wie beim Festnetz-Telefon – die Signalübertragung über lediglich einen Stromkreis in beiden Richtungen gleichzeitig erfolgt. Wenn des weiteren das audio-visuelle Kommunikationsterminal jeweils eine akustische Eingabeeinheit und eine akustische Ausgabeeinheit aufweist, wird vorgeschlagen, daß die Abtastung auf momentanen Eingang eines relevanten, akustischen Signals an der Duplex-Einheit und/oder an der akustischen Eingabeein heit und/oder an der akustischen Ausgabeeinheit des audio-visuellen Kommunikationsterminals erfolgt.

Nach eingehenden Recherchen und Vorabversuchen hat sich herausgestellt, daß die Abtastung auf momentanen Eingang eines relevanten, akustischen Signals vorteilhaft auch an der akustischen Ausgabeeinheit – beispielsweise dem Lautsprecher des Telefons/Mobiltelefons/Computers – erfolgen kann. Da bei allen modernen Telefonen die akustische Wiedergabe der eigenen Stimme durch einen Dämpfungs-Schaltkreis abgeschwächt ist, kann durch eine Abtastung der Spannung/des Stromes am Lautsprecher unter Berücksichtigung der oben genannten Schwellwerte auf momentanen Empfang beziehungsweise Eingang eines relevanten akustischen Signals und gegebenenfalls auf das Fehlen eines solchen geschlossen werden.

Selbstverständlich kann auch an der akustischen Eingabeeinheit – beispielsweise einem Mikrofon – abgetastet werden. Dann ist es sinnvoll, wenn gleichzeitig auch die akustische Ausgabeeinheit und/oder die Duplex-Einheit abgetastet wird, um das Abtastergebnis an der akustischen Eingabeeinheit mit dem Abtastergebnis an der akustischen Ausgabeeinheit und/oder an der Duplex-Einheit zu korrelieren. Aus der Korrelation der Abtastergebnisse kann dann mit großer Sicherheit auf den gesuchten Status des Übertragungskanals geschlossen werden. Vorteilhaft ist auch, das Abtastergebnis an der Duplex-Einheit mit dem Abtastergebnis an der akustischen Ausgabeeinheit und/oder an der akustischen Eingabeeinheit zu korrigieren. Sind beispielsweise die Abtastergebnisse an der Duplex Einheit und an der akustischen Ausgabeeinheit stark korreliert, liegt es nahe, daß ein akustisches Signal eingeht. Denn das Signal der eigene Stimme würde zwar über die Duplex-Einheit übertragen, jedoch an der akustischen Ausgabeeinheit aufgrund der Dämpfung nur geschwächt anliegen, so daß eine lediglich geringe Korrelation gemessen würde.

Alternativ oder zusätzlich kann der Eingang eines relevanten, akustischen Signals an dem audio-visuellen Kommunikationsterminal mit großer Sicherheit detektiert werden, wenn ein bezüglich der Telekommunikation indifferentes Steuersignal über den Übertragungskanal zu dem audio-visuellen Kommunikationsterminal übertragen und dort ständig abgetastet wird, welches den Eingang eines relevanten, akustischen Signals an dem audio-visuellen Kommunikationsterminal signalisiert. Ein solches indifferentes Steuersignal kann beispielsweise von dem Partner-Kommunikationsterminal gesendet werden. Dann muß das audio-visuelle Kommunikationsterminal über Mittel zur Abtastung dieses Steuersignals verfügen. Dies können beispielsweise zusätzlich eingebaute Schaltungen in einem Telefon/Mobiltelefon sein. Wenn das audio-visuelle Kommunikationsterminal ein Computer ist, kann das indifferentes Steuersignal auch durch eine entsprechende Software abgetastet werden.

Für ein indifferentes Steuersignal kommen insbesondere Frequenzbereiche in Frage, die durch den Bandpaß des akustischen Telefons herausgefiltert werden. Dies sind beispielsweise Frequenzen unterhalb von 300 Hertz.

Das Verfahren eignet sich auch für solche Telekommunikations-Vorgänge, bei denen lediglich ein audio-visuelles Kommunikationsterminal im Sinne des Anspruchs 1 vorhanden ist. Dann werden von dem "nicht-visuellen" Partner-Kommunikationsterminal lediglich das akustische Signal und gegebenenfalls Videosequenzen übertragen. Wesentlich ist, daß in der Regel der Benutzer an dem audio-visuellen Kommunikationsterminal – beispielsweise einem Computer – zwar ein Videodisplay zur Darstellung eines Videobildes hat; er hat aber in der Regel keine Kamera zur Aufnahme und Mittel zur Übermittlung von Videobildern.

Dies ist beispielsweise dann gegeben, wenn das Partner-Kommunikationsterminal bei einem Beratungs-Dienstleister wie beispielsweise einem Callcenter oder einem Helpdesk steht. Der Kunde eines solchen Beratungs-Dienstleisters kann dann mit Hilfe der Erfindung eine Videokonferenz – zumindest einseitig – mit dem Partner abhalten. Beim Anrufer – dies ist der Benutzer mit dem audio-visuellen Kommunikationsterminal im Sinne der Erfindung – entsteht der Eindruck einer perfekten Videokonferenz.

Für eine solche Kommunikations-Konfiguration bieten sich besondere Maßnahmen an: Es können spezielle Eingangs-Videosequenzen und spezielle Stumm-Videosequenzen verwendet werden. Solche Videosequenzen können entweder vor Beginn des Gesprächs direkt von dem Mitarbeiter des Beratungs-Dienstleisters aufgezeichnet werden. Es können aber auch standardisierte Videosequenzen verwendet werden, beispielsweise solche, in denen ein repräsentativer Mitarbeiter auftritt oder in denen der betreffende Mitarbeiter gerade einen besonders gepflegten Eindruck macht. Dies können Aufnahmen sein, die in der Vergangenheit entstanden sind, beispielsweise an einem Tag, an dem der betreffende Mitarbeiter besonders gute Laune hatte etc.

Die Videosequenzen können dadurch aufgelockert werden, daß der Mitarbeiter in verschiedenen Positionen oder mit unterschiedlichen Gesten gezeigt ist. Gerade bei der Kommunikation über Internet bietet sich an, vorab Videosequenzen zu übertragen. Die entsprechenden Videosequenzen können aber auch mit der Software, für die der angerufene Dienstleister die Hilfsdienstleistungen erbringt, verteilt werden, beispielsweise auf CD-ROM.

Der Übertragungskanal kann kontinuierlich analog abgetastet werden. Dies ist insbesondere dann von Vorteil, wenn auch die weitere Signalverarbeitung im wesentlichen analog erfolgt. Ansonsten kann das abgetastete Signal auch in ein digitales Signal umgewandelt werden. Die analoge Abtastung bietet den Vorteil, daß Sie mit geringem apparativen Aufwand verbunden ist. Die analoge Abtastung geschieht praktisch momentan und ohne jegliche Zeitverzögerung.

Alternativ kann aber auch der Übertragungskanal digital abgetastet werden. Dann wird ein Abtast-Zeitintervall vorgeschlagen, welches kleiner ist als die typische Anstiegszeit/Abnahmezeit der übertragenen akustischen Signale.

Der auf die Vorrichtung bezogene Teil der oben genannten Aufgabe wird gelöst durch ein audio-visuelles Kommunikationsterminal mit den Merkmalen des Anspruchs 13. Auf die Merkmale und Vorzüge eines solchen Kommunikationsterminals wird im Rahmen der Figurenbeschreibung weiter unten näher eingegangen. Die Vorrichtung hat im übrigen alle Vorteile des Verfahrens.

Bevorzugt wird als audio-visuelles Kommunikationsterminal ein Bild-Telefon/Bild-Mobiltelefon mit integriertem Speichermedium, mit integrierter Meßeinrichtung und mit integrierter Steuereinrichtung verwendet.

Das audio-visuelle Kommunikationsterminal kann alternativ auch ein Computer mit Anschluß an das Telefonnetz sein, wobei das Speichermedium ein Massenspeicher des Computers ist und wobei die Meßeinrichtung und/oder die Steuereinrichtung mit der Hardware des Computers durch eine entsprechende Software realisiert sind.

Die Erfindung, sowie weitere Ziele, Merkmale, Vorteile und Anwendungsmöglichkeiten wird bzw. werden anhand der beigefügten Zeichnungen näher erläutert. Dabei bilden alle beschriebenen und/oder bildlich dargestellten Merkmale für sich und/oder in belliebiger sinnvoller Kombination den Gegenstand der vorliegenden Erfindung, und zwar unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung. Es zeigen:
1 schematisch den Aufbau eines audio-visuellen-Kommunikationsterminals nach der vorliegenden Erfindung, welches zur Durchführung des erfindungsgemäßen Verfahrens geeignet ist; und
2 ein Diagramm mit dem Pegel eines akustischen Signals, des dazu korrespondierenden, gemittelte Signals und dem Schwellwert, aufgetragen über der Zeitachse.
1 zeigt ein audio-visuelles Kommunikationsterminal 1 für die bidirektionale, akustische Telekommunikation mit zumindest einem Partner-Kommunikationsterminal 2 über einen Übertragungskanal 3 nach dem Verfahren gemäß einem der Ansprüche 1 bis 12. Das Partner-Kommunikationsterminal 2 ist hier lediglich andeutungsweise gezeigt. Die Kommunikationsterminals 1, 2 kommunizieren über die Duplex-Fernübertragungsleitung 28 miteinander. Das audio-visuelle Kommunikationsterminal 1 ist zur Verdeutlichung innerhalb einer strichpunktierten Kontur zusammengefaßt.
Es hat ein Speichermedium 4 für Videosequenzen und ein Videodisplay für die Wiedergabe von gespeicherten Videosequenzen. Des weiteren ist – gezeigt durch die innere, strichpunktierte Kontur – eine Meßeinrichtung 8 vorhanden. Die Meßeinrichtung 8 tastet bei laufender Telekommunikation den Übertragungskanal 3 ständig auf momentanen Eingang eines relevanten akustischen Signals 21 ab. Das sich hieraus ergebende Abtastsignal wird an eine zentrale Steuereinrichtung 9 weitergeleitet. Diese Steuereinrichtung 9 erzeugt gemäß dem Verfahren der vorliegenden Erfindung nach Maßgabe des Abtastsignals für die Dauer eines eingehenden, relevanten akustischen Signals 21 aus einer lokal gespeicherten Eingangs-Videosequenz und für die Dauer des Fehlens eines eingehenden, relevanten akustischen Signals aus einer lokal gespeicherten Stumm-Videosequenz eine zur akustischen Kommunikation korrespondierende Video-Darstellung auf dem Videodisplay 7.
Die Darstellung gemäß 1 ist in einzelne funktionale Einheiten unterteilt. Zentral ist die Steuereinrichtung 9. Die Steuereinrichtung 9 ist über eine Leitung 29 mit dem Videodisplay 7 verbunden. Über die Leitung 29 kann die Steuereinrichtung 9 aus dem Speichermedium 4 abgerufene Videosequenzen zur Video-Darstellung 7 auf das Videodisplay 7 weiterleiten. Hierzu ist das Speichermedium 4 auslesbar.
Das audio-visuelle Kommunikationsterminal 1 verfügt über eine akustische Eingabeeinheit 5 und eine akustische Ausgabeeinheit 6 (beispielsweise ein Lautsprecher). Die akustische Eingabeeinheit 5 kann beispielsweise ein Mikrofon sein. Akustische Eingabeeinheit 5 und akustische Ausgabeeinheit 6 können auch in einen Telefonhörer zusammengefaßt sein.
Wesentlich für das Verständnis der Erfindung ist, daß aufgrund der Übertragung mittels einer Duplex-Fernübertragungsleitung 28 eine Rückhördämpfung vorgesehen ist. Diese Rückhördämpfung führt dazu, daß das über die akustische Eingabeeinheit 5 eingegebene akustische Signale über die Duplex-Fernübertragungsleitung 28 nicht mit zu hohem Pegel wieder an die akustische Ausgabeeinheit 6 gelangt. Man würde sonst beispielsweise seine eigene Stimme sehr laut verstärkt aus dem Hörer eines Telefons hören.
Zur Rückhördämpfung ist der Gehörschutz-Gleichrichter 18, der aus den zwei Dioden 20 besteht, über einen Überträger 19 für die Rückhördämpfung induktiv mit der Duplex-Fernübertragungsleitung 28 gekoppelt. Die Einzelheiten der Schaltung für die Rückhördämpfung sind hier nicht von Interesse. Der Schaltkreis ist daher jenseits der beiden Induktivitäten auf der Seite der Duplex-Fernübertragungsleitung 28 abgebrochen. Diese beiden Induktivitäten verfügen über eine andere Windungszahl als die Induktivität auf der Seite der akustischen Ausgabeeinheit 6.
Dadurch wird einerseits der dem Speisegleichstrom überlagerte Wechselstrom – entsprechend dem akustischen Signal – von der Duplex-Fernübertragungsleitung 28 auf die akustische Ausgabeeinheit 6 übertragen. Andererseits werden die über die akustische Eingabeeinheit 5 eingegebenen Wechselströme – entsprechend dem akustischen Signal 21 – nur gedämpft an die akustische Ausgabeeinheit 6 weitergegeben.
Zur Abtastung wird über eine Duplex-Meßleitung 15 das an der Duplex-Fernübertragungsleitung 28 anliegende Signal abgetastet. Dieses Signal wird dem Integrator 13 zugeführt, wo es zeitlich über seinen Pegel gemittelt wird. Vom Integrator 13 gelangt das gemittelte Signal dann an den Meßwerteingang 12 eines Schwellwertdiskriminators 10. Am Schwellwerteingang 11 des Schwellwertdiskriminators 10 liegt ein dem Schwellwert 25 entsprechendes Signal an. Dieses Signal wird von der Steuereinrichtung 9 erzeugt und an den Schwellwerteingang 11 geleitet.
Am Diskriminator-Ausgang 14 des Schwellwertdiskriminators 10 liegt dann ein Signal an, anhand dessen die Steuereinrichtung 9 entscheiden kann, ob es sich um ein relevantes akustisches Signal 21 handelt, welches an der Duplex-Fernübertragungsleitung 28 anliegt. Ob es sich dabei um ein eingehendes Signal 21 handelt, kann anhand des Pegelniveaus bestimmt werden.
Um eine größere Sicherheit der Bestimmung zu gewährleisten, ist zusätzlich ein Kreuzkorrelator 17 vorhanden. Der Kreuzkorrelator 17 bildet die Kreuzkorrelation zwischen den Signalen der Duplex-Fernübertragungsleitung 28 und der akustischen Ausgabeeinheit 6. Da ein über die akustische Eingabeeinheit 5 eingegebenes akustisches Si gnal 21 lediglich gedämpft an die akustische Ausgabeeinheit 6 gelangt, ist in einem solchen Fall die Korrelation gering. Hingegen gelangt ein eingehendes akustisches Signal praktisch ungedämpft an die akustische Ausgabeeinheit 6, so daß in diesem Falle die Korrelation hoch ist. Der Kreuzkorrelator 17 bietet somit ein verläßliches Kriterium für den Eingang oder das Fehlen des Eingangs eines akustischen Signals 21. Alternativ kann auch über die Ausgabe-Meßleitung 16 das an der akustischen Ausgabeeinheit 6 anliegende Signal dem Integrator 13 zugeführt werden. Anhand dieses Signals ist es aufgrund der oben angegebenen Umstände möglich, die Relevanz und die Richtung des akustischen Signals 21 zu überprüfen. Zusätzlich kann jedoch – um die Trefferwahrscheinlichkeit/Genauigkeit noch weiter zu erhöhen – ein Kreuzkorrelator 17 vorgesehen sein.
2 zeigt den typischen Verlauf des momentanen Pegels (entsprechend der momentanen Schall-Leistung) einer gesprochenen Botschaft, aufgetragen in Richtung der Pegelachse 26 über die Zeitachse 27. Der Satz lautet: "Guten Tag – Pause – was kann ich...". Dies könnte beispielsweise der einleitende Satz während der Begrüßung beim Anruf eines Callcenters sein. Dieser momentane Pegel entspricht dem akustischen Signal 21. Es soll vorausgesetzt werden, daß es sich dabei um ein eingehendes akustisches Signal 21 handelt. Man sieht die typische abgerundete Pegelform während der Artikulation von Vokalen und die typische spitze Pegelform bei der Artikulation von Explosivlauten. Des weiteren sind deutlich die kurzen Pausen zwischen den einzelnen Wörtern und die eine lange Pause zwischen den beiden Sätzen/Phrasen zu erkennen.
In dasselbe Diagramm strichpunktiert eingezeichnet ist der Schwellwert 25. Man sieht deutlich, daß bei Abtastung des originären akustischen (Momentan-)Signals 21 der Pegel in sehr schneller Abfolge den Schwellwert 25 über- und unterschreiten würde. Dies hätte einen ebenso schnellen Wechsel zwischen den unterschiedlichen Videosequenzen zur Folge. Selbst wenn ein derart schneller Wechsel zu bewerkstelligen wäre, wäre das Ergebnis sehr wenig zufriedenstellend, da jede Videosequenz lediglich für Bruchteile von Sekunden angespielt würde.
Hierzu hat die Erfindung die Lösung erkannt: Das gemittelte Signal 22 zeigt einen wesentlich glatteren Verlauf. Man sieht deutlich, daß während einzelner Sätzen/Phrasen das gemittelte Signal 22 stets oberhalb des Schwellwertes 25 verläuft. Dazu sind gemäß der Erfindung die Parameter Schwellwert, Mittelungs-Zeitintervall entsprechend gewählt. Es ergibt sich ein Relevanzintervall 23, welches praktisch genau mit den einzelnen Sätzen/Phrasen übereinstimmt. Die kurzen Pausen zwischen den Wörtern und die Minima im Signal führen nicht zu einer Unterschreitung des Schwellwertes 25.
Hingegen führt eine Pause zwischen zwei Sätzen (beispielsweise eine Pause von 1 bis 5 Sekunden) zu einer deutlichen Unterschreitung. Auch die Spitze in der Mitte des Nicht-Relevanzintervalls 24 – welches der Pause entspricht – führt nicht zu einer Überschreitung des Schwellwertes 25 durch das gemittelte Signal 22, da diese Signalspitze ausgemittelt wird.
Der Schwellwert ist daher groß genug, damit Störsignale wie Rauschen, Knistern oder Knacken in der Leitung nicht zu einer Überschreitung des Schwellwertes 25 durch das gemittelte Signal 22 führen.
Die Erfindung wurde zuvor anhand von bevorzugten Ausführungsformen derselben näher erläutert. Für einen Fachmann ist es jedoch offensichtlich, daß unterschiedliche Abwandlungen und Modifikationen gemacht werden können, ohne von dem der Erfindung zugrundeliegenden Gedanken abzuweichen.

1: audio-visuelles Kommunikationsterminal
2: (Partner-)Kommunikationsterminal
3: Übertragungskanal
4: Speichermedium
5: akustische Eingabeeinheit
6: akustische Ausgabeeinheit
7: Videodisplay
8: Meßeinrichtung
9: Steuereinrichtung
10: Schwellwertdiskriminator
11: Schwellwerteingang
12: Meßwerteingang
13: Integrator
14: Diskriminator-Ausgang
15: Duplex-Meßleitung
16: Ausgabe-Meßleitung
17: Kreuzkorrelator
18: Gehörschutz-Gleichrichter
19: Überträger für Rückhördämpfung
20: Diode
21: akustisches Signal
22: gemitteltes Signal
23: Relevanzintervall
24: Nicht-Relevanzintervall
25: Schwellwert
26: Pegelachse/Ordinate
27: Zeitachse/Abszisse
28: Duplex-Fernübertragungsleitung
29: Leitung

Claims

Verfahren zur Telekommunikation zwischen zumindest zwei Kommunikationsterminals (1, 2), die über einen Übertragungskanal (3) miteinander kommunizieren, wobei zumindest ein audio-visuelles Kommunikationsterminal (1) vorgesehen ist, an welchem bei laufender Telekommunikation der Übertragungskanal (3) ständig auf einen momentanen Eingang eines relevanten akustischen Signals (21) abgetastet und nach Maßgabe des Abtastergebnisses für die Dauer des Fehlens eines eingehenden, relevanten akustischen Signals eine lokal gespeicherte Stumm-Videosequenz zur Erzeugung einer zur akustischen Kommunikation korrespondierenden Video-Darstellung verwendet wird, dadurch gekennzeichnet, daß der Übertragungskanal zur Telekommunikation eine bidirektional akustische Verbindung aufweist, und daß nach Maßgabe des Abtastergebnisses für die Dauer eines eingehenden, relevanten akustischen Signals (21) eine lokal gespeicherte Eingangs-Videosequenz verwendet wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Videosequenzen permanent in einem lokalen Speichermedium (4) des audio-visuellen Kommunikationsterminals (1) gespeichert sind.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Videosequenzen vor Beginn eines Telekommunikation-Vorgangs zum audio-visuellen Kommunikationsterminal (1) übertragen und dort in einem auslesbaren, lokalen Buffer (4) gespeichert werden.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß mehrere Eingangs-Videosequenzen bzw. mehrere Stumm-Videosequenzen gespeichert sind und zur Erzeugung einer Eingangs-Video-Darstellung beziehungsweise einer Stumm-Video-Darstellung verwendet werden.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Videosequenzen aneinandergehängt werden.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß Sprache über den Übertragungskanal (3) übertragen wird, und daß das relevante akustische Signal (21) ein Sprachsignal ist, dessen über ein sprachübliches Zeitintervall gemittelter Signalpegel (22) einen vorbestimmten Schwellwert (25) übersteigt.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Schwellwert (25) unter Berücksichtigung des Mittelungs-Zeitintervalls so klein gewählt wird, daß bei üblicher Sprechgeschwindigkeit ein zusammenhängend gesprochener Text als ein einziges, zusammenhängendes, eingehendes, relevantes, akustisches Signal (21) erkannt wird, während dessen Dauer die Eingangs-Videosequenz verwendet wird, und so groß gewählt wird, daß übliche Sprechpausen als Fehlen des eingehenden, relevanten, akustischen Signals (21) erkannt werden, während dessen Dauer eine lokal gespeicherte Stumm-Videosequenz zur Erzeugung einer Video-Darstellung verwendet wird.
Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß der Übertragungskanal (3) eine Duplex-Einheit (28) zur Fernübertragung und jeweils eine akustische Eingabeeinheit (5) und eine akustische Ausgabeeinheit (6) pro Kommunikationsterminal (1) aufweist, und daß die Abtastung auf momentanen Eingang eines relevanten, akustischen Signals (21) an der Duplex-Einheit (28) und/oder an der akustischen Eingabeeinheit (5) und/oder an der akustischen Ausgabeeinheit (6) des audio-visuellen Kommunikationsterminals erfolgt.
Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß ein bezüglich der Telekommunikation indifferentes Steuersignal über den Übertragungskanal (3) zu dem audio-visuellen Kommunikationsterminal (1) übertragen und dort ständig abgetastet wird, welches den Eingang eines relevanten, akustischen Signals (21) an dem audio-visuellen Kommunikationsterminal (1) signalisiert.
Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß lediglich ein audio-visuelles Kommunikationsterminal (1) im Sinne des Anspruchs 1 vorhanden ist.
Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß der Übertragungskanal (3) kontinuierlich analog abgetastet wird.
Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß der Übertragungskanal (3) digital abgetastet wird mit einem Abtast-Zeitintervall, welches kleiner ist als die typische Anstiegs-/Abnahmezeit der übertragenen akustischen Signale.
Audio-visuelles Kommunikationsterminal (1) für die bidirektionale, akustische Telekommunikation mit zumindest einem Partner-Kommunikationsterminal (2) über einen Übertragungskanal (3) nach dem Verfahren gemäß einem der Ansprüche 1 bis 12, wobei das audio-visuelle Kommunikationsterminal (1) ein Speichermedium (4) für Videosequenzen und ein Display (7) für die Wiedergabe von gespeicherten Videosequenzen sowie eine Meßeinrichtung (8) aufweist, die bei laufender Telekommunikation den Übertragungskanal (3) ständig auf momentanen Eingang eines relevanten akustischen Signals (21) abtastet und ein Abtastsignal an eine Steuereinrichtung (9) weiterleitet, welche nach Maßgabe des Abtastsignals für die Dauer eines eingehenden, relevanten akustischen Signals (21) aus einer lokal gespeicherten Eingangs-Videosequenz und für die Dauer des Fehlens eines eingehenden, relevanten akustischen Signals (21) aus einer lokal gespeicherten Stumm-Videosequenz eine zur akustischen Kommunikation korrespondierende Video-Darstellung auf dem Display (7) erzeugt.
Audio-visuelles Kommunikationsterminal nach Anspruch 13, dadurch gekennzeichnet, daß das audio-visuelle Kommunikationsterminal (1) ein Bild-Telefon/Bild-Mobiltelefon mit integriertem Speichermedium (4), mit integrierter Meßeinrichtung (8) und mit integrierter Steuereinrichtung (9) ist.
Audio-visuelles Kommunikationsterminal nach Anspruch 13, dadurch gekennzeichnet, daß das audio-visuelle Kommunikationsterminal (1) ein Computer mit Anschluß an das Telefonnetz ist, wobei das Speichermedium (4) ein Massenspeicher des Computers ist und wobei die Meßeinrichtung (8) und/oder die Steuereinrichtung (9) mit der Hardware des Computers durch eine entsprechende Software realisiert sind.