DE4203436A1

DE4203436A1 - Datenreduzierte sprachkommunikation

Info

Publication number: DE4203436A1
Application number: DE19924203436
Authority: DE
Inventors: Florian Dipl Ing Koenig
Original assignee: Individual
Current assignee: Individual
Priority date: 1991-02-06
Filing date: 1992-02-06
Publication date: 1992-08-13

Description

Die Erfindung betrifft ein Verfahren zur datenreduzierten Sprachkommunikation.

Es ist bekannt, daß zur Aufnahme und Wiedergabe von gesprochenen Texten bei der telefonischen Kommunikation, im Frequenzbereich von 300 Hz bis 3,4 kHz, ein analoges Aufzeichnungsverfahren via magnetischer Tonträger vielfach angewendet wird. Hierbei kommt eine Minikassette mit einer Aufsprechzeit (oder Bespieldauer) von 15 Minuten zum Einsatz. Nebendem werden mehrfach Verfahren und zugehörige Vorrichtungen beschrieben, die das genannte mechanische Aufzeichnungsmedium Kassette durch einen digitalen Datenspeicher ersetzen sollen (wesentliche Patentschrift-Nr. DE 28 54 401, DE 28 54 431, DE 28 54 516, DE 31 04 564, DE 31 19 226, DE 32 14 260, DE 32 14 249, DE 32 32 398). Bevor hier jedoch der Ansagetext digital abgespeichert wird, findet eine Analog-Digital- Wandlung statt. Zur Reduzierung der Datenraten (mindestens einige Kilobytes pro Sekunde) des nötigen Speicherplatzes wird bespielsweise nur getaktete Textpausen-Auswertung bzw. -ausnutzung betrieben. Außerdem wird das Sprachsignal auch amplituden-begrenzt, um eine Übersteuerung während einer Delta- und/oder Puls-Code- Modulation (PCM) zu vermeiden. T.A. werden diese Vorrichtungen rechnergestützt über ein externes Bedienungsfeld zu betreiben.

Ähnliche Problemstellungen sind üblicherweise auch bei Diktiergeräten anzutreffen.

Auf einem bezüglich der Klangqualitätsanforderungen vollständig differenten Gebiet, nämlich der Realisierung des terrestrischen, digitalen, stereophonen Hörrundfunks, bestreitet man einen Weg, welcher die dafür gebrauchten hohen Datenraten vermindert (Bericht der 15. Tonmeister tagung 1988, Seiten 132 bis 147). Dies beruht auf einer effektiven Quellcodierung unter Ausnutzung der Eigenschaften der menschlichen Sinneswahrnehmung Hören nach ZWICKER-FELDTKELLER (Das Ohr als Nachrichtenempfänger, S. Hirzel Verlag Stuttgart 1967), wie sie sich anhand von Mithörschwellenmustern, Vor- oder Nachverdeckungseffekten ergeben. Das hiermit zu verbindende MASCAM-Verfahren (Maskin-pattern Adapted Subband Coding And Multiplexing) ist eine speziell für die stereophone Ton signalwiedergabe, in Anlehnung an die Qualität von Compact-Disc-Playern, optimierte Lösungs variante (Patentschrift-Nr. DE 35 06 912, DE 36 21 513, DE 36 39 753, DE 37 03 143, DE 38 17 864, DE 39 02 948). Diese spart mittels frequenz- und Zeitabhängiger Zuweisung der Quantisierung (Teilbandcodierung via digitaler Filter) ca. zwei Drittel der sonst üblichen Daten, im Vergleich zu herkömmlich kompandierter Quantisierung (z. B. PCM), ein.

Auf ähnlichen Wegen befindet man sich mit einem Verfahren zur Datenreduktion von Audiosignalen, welches ASPEC (Advanced Spectral Entropy Coding) genannt wird (u. a. GRUNDIG- Pressegespräch DAB 30.11.1990; Mitteilung vom Frauenhofer-Institut für integrierte Schaltungen, 11.12.1990).

Ferner wird vielfach versucht, die bei einer (Sprach-) Signalübertragung auftretenden hohen Datenraten, welche mit einer großen nötigen Übertragungsbandbreite korrelieren, zu reduzieren. Diverse Signal-Codierverfahren mit u. a. einer Daten-Redundanzverminderung, tragen diesbezüglich bei (Patentschriften-Nr. DE 30 20 061, DE 31 18 676, DE 35 09 269, DE 35 23 809, DE 35 25 898, DE 35 33 708, DE 37 10 664, DE 37 33 739, DE 37 36 193).

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der in Rede stehenden Art zu schaffen, das anhand einer maximalen Ausnutzung der menschlichen Höreigenschaften, wie die Empfindung von Signalverzögerungen (Echo), Vor- und Nach verdeckung, unter Bezug des Anwendungsbereiches "Sprach-Kommunikation", eine datenreduzierte, digitale Abspeicherung (Aufnahme) und/oder Wiedergabe von Ansage- bzw. Aufsprechtexten sowie Sprachsignal-Übertragung mit ausreichend guter Sprachverständlichkeit ermöglicht. In diesem Zusammenhang werden die vereinfachenden Kriterien bei ausschließlich sprachlicher Verständigung, gegenüber dem gehörbezogenen Wahrnehmen von Tonsignalen, wie sie sich u. a. in Form von Musiksignalen ergeben (originalgetreue Aufnahme, Wiedergabe und Übertragung, exakt nach Betrag/Amplitude und in Phase), ausgenützt.

Gelöst wird diese Aufgabe durch die kennzeichnenden Merkmale des Anspruchs 1.

Vorteilhafte Ausbildungen der Erfindung sind in den Unteransprüchen aufgeführt.

Dabei wird in Anspruch 2 erstens eine vom Arbeitsbereich von der einer Analog-Digital und Digital-Analog-Wandlung abhängige, aufnahmeseitige Dynamikreduzierung, d. h. Sprachsignal-Kompression, geschaffen, welche eine Spitzenwertbegrenzung sowie Niederpegelanhebung beinhaltet. Zweitens wird nach der wiedergabeseitigen Digital-Analog- Wandlung, in Anlehnung an die ursprüngliche Dynamik des Sprachsignales vor der Analog- Digital-Wandlung, eine Dynamik-Expansion realisiert ("Kompandierung" fußt auf eine Verbindung der Begriffe "Kompression" und "Expandierung").

In den Unteransprüchen 3 bis 7 wird das zugehörige Teilverfahren der Sprachsignal-Wandlung beschrieben.

In den Unteransprüchen 8 bis 25 wird die Weiterverarbeitung des digital-gewandelten Sprachsignales hinsichtlich einer auf digitale Filter beruhenden Codierung vorgenommen, welche das eigentliche, breitbandige, zeitvariante Sprachsignal in mehrere Frequenzbänder und somit in zeitvariante Spektralkomponenten gehörbezogen zerlegt.

Die Unteransprüche 26 bis 28 legen ein Verfahren zur Abspeicherung des das Sprachsignal beinhaltenden Datenstromes zugrunde. In den Unteransprüchen 29 bis 36 wird ein verfahrensmäßiges Vorgehen zur Realisierung eines dem Original-Spektrum des Sprachsignales, vor der Analog-Digital-Wandlung, Datenverarbeitung, und Digital-Analog-Wandlung, hinsichtlich der Sprachverständlichkeit, ausreichend entsprechendes Wiedergabe-Spektrum (-Signal) erörtert. Eine entsprechende Sprachverständlichkeit ist ebenso auch beim "Flüstern" gegeben, was auf die wesentlichen, zeitabhängig variierenden sowie rauschsignal-beinhaltenden Zischlaute zurückzuführen ist.

Die Unteransprüche 37 bis 70 beinhalten ergänzende Ausführungen zum Verfahren, wobei diese überwiegend entweder zur Aufwertung der Sprachverständlichkeit mittels Spektralbereichsergänzung und/oder Sprach- Referenzmustervergleich oder, umgekehrt optimiert, zur Infra-(körper-)schallübertragung führen.

Die mit Hilfe der Erfindung erzielbaren Vorteile gegenüber dem Stand der Technik bestehen darin, daß

a) keine mechanisch zu beanspruchenden Teile zur Abspeicherung und Wiedergabe von Sprachsignalen benötigt werden (vgl. heutige Diktiergeräte),
b) eine Verminderung von Datenraten bei ausreichend guter Sprachverständlichkeit durch die Ausnut zung des zeitlichen und frequenzabhängigen Auflösungsvermögens des menschlichen Gehörs um Faktoren geschaffen wird (z. B. mehrere parallel laufende Sprachkommunikationen in einem Telefonfrequenzband realisierbar),
c) Bandbreiten, die sonst nur den Baßbereich (oder Infraschallbereich) von Tonsignalen abdecken würden, zur Sprachsignal-Vermittlung ausreichen,
d) das Verschlüsseln der das Sprachsignal beinhal tenden (digitalen) Spektralbereichsinformation sehr einfach durch eine Datenmanipulation bzw. Datennachverarbeitung gegeben ist,
e) aufgrund c) und d) beispielsweise eine Anwendung bei geheim zu haltender Informations vermittlung, wie sie vom Marine-Unterwasser Morsen bekannt ist, durch eine Sprachsignal Übertragung ersetzt werden kann und
f) das eine Übertragungsfehlervermeidung mittels u. a. Sicherungscode, Spektrumsergänzung sowie Referenzsprachmustervergleich offeriert wird.

Nachfolgend soll die Erfindung anhand von fünf Ausführungsbeispielen, einer Tabelle und zwei Zeichnungen näher erläutert werden. In diesen zeigen:

Fig. 1 eine Tabelle mit viertel-terz gestuften Meßfrequenz- bzw. Bandpaß-Eckfrequenzwerten nach DIN 45 401,

Fig. 2 die Signalverarbeitungsschritte einer digitalen, eingangsseitigen, datenreduzierten Sprachsignal Synthetisierung, d. h. die Erzeugung einer bit-datenminimierten Spektralbereichsinformation, welche zur Abspeicherung oder Übertragung von Sprachsignalen dient, und

Fig. 3 die aus der Spektralbereichsinformation des digitalen Sprachsignals wiedergabeseits nötigen, Signal-Rekonstruktionsschritte zu einem verständlichen Sprachsignal.

A) Telefonanrufbeantworter

Die Übertragung von Fernsprechsignalen findet üblicherweise in einem Frequenzbereich B_F von 300 Hz bis 3,4 kHz statt. Somit haben eingesetzte Anrufbeantworter bei der Aufnahme und Wiedergabe von Gesprächen tontechnische, effektiv ein über diesen Frequenzbereich B_F verteiltes Spektrum zu verarbeitet. Außerdem bietet das heutige Fernsprechen unter besten Betriebsbedingungen einen Fremdspannungsabstand von 40 dB (Meßbandbreite B_F).

Unter Anwendung des erfindungsgemäßen Verfahrens kommen Anrufbeantworter nunmehr ohne mechanisch bewegte Tonaufzeichnungsmedien (Minikassetten) aus. Diese werden nun durch elektrische, digitale, löschbare Speicher ersetzt. In einem Überblick sind dabei folgende seriell vorzunehmende Schritte a) bis g) relevant:

a) Kompression des dynamischen, analogen Sprach oder Fernsprechsignales,
b) Analog-Digital-Wandlung des dynamikreduzierten Sprachsignales,
c) Bandpaßunterteilung nach DIN 45 401 des in digitaler Code-Form verschlüsselten Sprachsignales mittels digitaler Filtersynthese,
d) Reduzierung der Datenrate anhand gehörbezogener sowie code-redundanzmindernder Parameter,
e) Zu d) parallele Erzeugung eines bit-Fehler korrektur-, Redundanz- und Zeit-Codes, welcher mit dem in d) realisierten (Aufsprech-) Code verknüpft wird,
f) Erstellung von gesprächsspezifischen Markierungen (Anfang, Ende etc.; Sortierung mehrerer Gespräche),
g) Zeitabhängige Abspeicherung des bis f) entstandenen digitalen Codes,
h) Aufsuche von z. B. dem Aufsprech-Code-Anfang,
i) Auslesen des Codes unter Berücksichtigung des mit abgespeicherten bit-Fehlerkorrektur-, Redundanz- und Zeit-Codes, was u. a. eine bit-Wiederholung (Sample-Hold) nach Anweisung des Zeit-Codes betrifft,
j) Schaffung von kontinuierlichen Pegelübergängen, um Knackgeräusche bei Veränderung eines dem bit entsprechenden Abtastbereiches zu minimieren,
k) Aussteuerung von mit den Bandpässen (gemäß c)) korrelierenden Spektralbereichen, welche pegelabhängigen (digitalen) Signalgeneratoren entsprechen,
l) Verknüpfung der einzelnen in digitaler Code form bestehenden Bandpaßspektren zu einem Gesamtspektrum (Resynthese des analogen Sprach bzw. Fernsprechsignales),
m) Digital-Analog-Wandlung des Gesamtspektrums und
n) Dynamikexpansion des erzeugten analogen Fernsprechsignales.

Die Vorgänge a) bis g) entsprechen der Aufnahme und h) bis n) der Wiedergabe von Fernsprechsignalen (zum Abhören von aufgesprochenen Textpartien). Auf ein intensives Eingehen hinsichtlich der Elemente des Bedienungskomforts wird nachstehend verzichtet, da dies keinen Einfluß auf die erfindungsgemäße Idee einer spektralbezogenen Reduktion der Datenrate hat. Hierzu noch einige Ausführungen:

zu a): Die Kompression des dynamischen Fernsprechsignales wird in Abhängigkeit vom Arbeitsbereiches des darauf folgenden Schrittes einer Analog-Digital-Wandlung (bzw. deren Wandler bausteine) durchgeführt. In dem zugrundeliegenden Konzept ist eine Dynamikreduzierung des Sprach signales auf 24 dB vorgesehen (ausführlicher, siehe darunter, Ergänzung "zu b)").

zu b): Die Wandlung des analogen Sprachsignales in digitale Daten (Code) wird per Deltamodulation vorgenommen. Es findet ein 4 bit Analog-Digital-Wandlerbaustein Anwendung, welcher mit einer Abtastfrequenz von ca. 2 _* B_F = 7 kHz betrieben wird. Eine weitergehende Optimierung in Anlehnung an die Compact-Disc Player-Technik mit deren 1 bit-Deltamodulation sowie 256-fachem Oversampling (vgl. Abtastfrequenz von 44,1 kHz ohne Oversampling), ist vorgesehen. Jene in "zu b)" vorgegebene Dynamikreduzierung des Fernsprechwechselsignal auf den Wert von 24 dB, ergibt sich aus der Beziehung, "je ein bit mehr Auflösung bringt 6 dB mehr Dynamik", also 4 _* 6 dB = 24 dB. Zur Vereinfachung des zu betreibenden Gesamt-Hard/Software-Aufwandes, steht der Analog-Digital-Wandler mit einem mikroprozessor-gesteuerten Rechner in Verbindung.

zu c): Daraufhin wird das digitalgewandelte Wechselsignal einer rechnergestützten Daten-Manipulation unterzogen. Im wesentlichen fußt diese auf die Methodik mittels "digitaler Filter" zur Bandpaß-Unterteilung (gemäß DIN 45 401, logarithmische Wertestaffelung, relativ gehörnah) des Fernsprechsignales zu gelangen. Es wird eine in Halb-Terzschritten gestufte Filterung realisiert. Für den im vorliegenden Beispiel "Telefonanrufbeantworter" relevanten Übertragungsbereich von 300 Hz bis 3,4 kHz wird die Tabelle 1 in Fig. 1 benützt: Von links nach rechts sind die errechneten Bandmitten Frequenzen bei Oktav-, Terz- (1/3-Oktav-), 1/2-Terz- und 1/4-Terz-Bandpaß-Unterteilung aufgelistet. Hierbei entspricht nun je die in der gleichen Zeile der 1/2-Terzfrequenz stehende 1/4-Terz-Frequenz der unteren Bandpaß-Eckfrequenz sowie die in der darauf folgenden Zeile stehende 1/4-Terzfrequenz der oberen Bandpaß-Eckfrequenz. Deshalb bildet sich der erste Bandpaß bei 310 Hz (Mittenfrequenz) aus den 1/4-Terzfrequenzwerten 300 Hz (aufgerundet aus 297 Hz) und 334 Hz.

Folglich ergeben sich für den Bandpaß bei 350 Hz die Frequenzwerte 334 Hz (untere Bandpaßeck frequenz) sowie 376 Hz (obere Bandpaßeckfrequenz). Der oberste Bandpaß bei 3100 Hz wird durch die Eckfrequenzen 2970 Hz und 3400 Hz (aufgerundet aus 3340 Hz) eingegrenzt. Zusammengerechnet werden somit 21 Bandpasse via "digitaler Filter" erzeugt, welche simultan, je Abtastzeitintervall, vorliegen (sollen). Das Fernsprechsignal liegt demzufolge, nach einer üblichen Rechnerzeit verzögerung (einige Millisekunden), zu einem bestimmten Zeitpunkt t in seine Spektralanteile zerlegt vor. Dieser Signalbearbeitungsschritt ist ebenso durch vor den Analog-Digital-Wandler geschaltete, analoge parallel arbeitende 21 Filterstufen ersetzbar, da, als Grundlage für die später vorgenommene spektralabhängige Sprachsignal-Synthese, die einzelnen Bandpaßpegel von Interesse sind. Hier sind diese in einem Code-Wort X_t für die jeweiligen Bandpässe verschlüsselt.

zu d), e): Es werden aus einer bestimmten Anzahl der 7000 Abtasterwerte je Sekunde (siehe 7 kHz Abtastfrequenz), hinsichtlich einem zur Verfügung stehenden Abtastzeit-Intervall "delta t", welches zehn Millisekunden beträgt (ungefährer Wert der überhaupt noch möglichen, menschlichen Wahrnehmung von zeitverzögerten Signalen), die in digitaler Code-Form zur Verfügung stehenden Bandpaß-Pegelwerte gemittelt übernommen. Zehn Millisekunden korrespondieren hier mit einer Frequenz von 100 Hz (Zeitpunkt t), woraufhin, z. B. für den untersten Bandpaß bei 310 Hz, drei zeitlich aufeinander folgende Abtastwerte entstehen. Solche Abtastwerte werden mit dem gemittelten Abtastwert bei dem Zeitpunkt (t - "delta t") verglichen. Wenn ein relativer Spitzwert vorliegt (z. B. um drei Abtasteinheiten größer), dann wird dieser unbearbeitet übernommen. Absolute Spitzenwerte oder leichte Veränderung werden hingegen zusammen mit den anderen Werten einer Mittelwertsbildung unterzogen. Die gleiche Prozedur gilt auch für (digitale) Pegelrückgänge. Die hier erörterte bit-Überprüfungsroutine findet für alle Bandpässe Anwendung.

Ferner werden hierzu gehörbezogene Parameter dahingehend berücksichtigt, daß bei markanten (digitalen) Bandpaßpegel-Unterschieden, wie sie bei schmalbandigen Geräuschen auftreten, die Effekte der lautheitsbezogenen Vor- und Nachverdeckung endgültig über den Durchlaß bzw. Weiterleitung einer codierten Bandpaßpegel- Information entscheiden oder diese in zugehörige Verdeckungspegel-Niveaus zum Liegen bringen.

Eine Optimierung des Verfahrens hinsichtlich seiner Übertragungsqualität ist mittels alternierend verschiedener (verschobener) Abtastung gegeben: Aus den 21 Bandpässen multipliziert mit dem reziproken Wert der Abtastzeit-Intervalldauer (zehn Millisekunden) von 100 Hz errechnen sich 2100 Hz oder sinnvoller 2100 Bandpaß-Abstastwerte. Im Vergleich zur eigentlichen Abtastfrequenz 7 kHz besteht deshalb ein ungefähres Verhältnis von 1 : 3, welches in eine Drittelzeit-Intervall-Routine investiert werden kann. Ähnliches wird durch Oversampling erreicht.

Zur weiteren Verminderung der Code-Redundanz werden bei bandpaßspezifischer und/oder über den gesamten Übertragungsbereich zeitabhängig gleich bleibende Bandpaßabtastwerte (u. a. bei Sprechpausen von einigen 100 Millisekunden) als solche mittels vorheriger Rechner unterstützung erfaßt und nicht, gegenüber wechselndem Datenfluß, zur danach folgenden Datenweiterverarbeitung (z. B. Abspeicherung oder Übertragung) weitergeleitet.

Ferner wird parallel zu diesem Datenfluß ein bit-Fehlerkorrektur-, Redundanz- und Zeit-Code (FRZ-Code) erstellt, welcher eventuell bei der späteren Datenverarbeitung auftretende Fehler und die zusätzliche zeitliche Datenreduktion des Sprachsignales zu erkennen gibt.

Ohne Berücksichtigung eines erstellten FRZ-Codes ist damit eine Datenrate von 8400 bit′s pro Sekunde, also 1,05 kbytes/sec, zu erzielen, welche sich aus 100 (HZ) _* 4 bit _* 21 (Bp) = Datenfluß-Frequenz _* Auflösung _* Bandpässe errechnet. Die Datenfluß-Frequenz ergibt sich aus 1/10 Millisekunden = 100 Hz, wobei der Wert 100 Hz auch der Übertragungsbandbreite entspricht. Übliche Abtastverfahren (8 bit Auflösung und Puls-Code-Modulation) brauchen zur Fernsprechsignal-Übertragung mit einer Abtastfrequenz von 7 kHz (auch gleichzeitig die Übertragungsbandbreite) eine Datenrate von 224 000 bits pro Sekunde, also 28 kbytes/sec.

Durch eine zusätzliche Aufwandsreduzierung der Deltamodulation in Anlehnung an die Compact- Disc-Player-Technik sowie anhand des Vergleichs 2100 Hz Bandpaß-Abtastwerte mit 7 kHz Abtastfrequenz (Verhältnis 1 : 3), ist bei Anwendung des erfindungsgemäßen Verfahrens eine 2 bit-Abtastung des Fernsprechsignales erlaubt. Folglich vermindert sich die Datenrate auf ca. 500 bytes pro Sekunde.

zu f): Die Erstellung von Markierungen bei mehreren getrennten Gesprächsaufzeichnungen geschieht im Zusammenhang mit dem FRZ-Code (siehe "zu e)"), wobei hierfür spezielle bit′s zugeteilt werden, um bestimmte Interrupt- Vorgänge auszulösen. Jedoch beinhaltet der die Markierungen darstellende Zusatz-Code einen Ordner bzw. ein Inhaltsverzeichnis und ist, vor dem eigentlichen Zugriff auf das codierte Fernsprechsignal (siehe folgende Erläuterungen ab "zu h)"), somit von der mikroprozessorgesteuerter Rechnereinheit direkt abrufbar. Ferner werden zu den Markierungen Daten über Fernsprechpartner, Uhrzeit des Anrufes, Telefonnummer usw. aufgezeichnet.

zu g): Der bis zu Punkt f) erzeugte und zur zur Datenverarbeitung freigegebene bzw. dann weitergeleitete Code wird zeitkontinuierlich Speicherbausteinen, i.A. EAPROM′s (Electrically Alterable ROM), EEProm′s (Electric Erasable Programmable Read Only Memory) oder RAM′s (Random Access Memory), zugeführt. Angesichts der erheblichen Reduktion von Datenmengen kommt man mit weniger elektrischen Speicherbausteinen aus. Hierzu ein Vergleich, welcher einen effektiv nutzbaren Speicherplatz von 700 kbytes zugrunde legt: Mit üblichen Fernsprechsignal-Codierverfahren (z. B. mittels Puls-Code-Modulation), einer Abtastfrequenz von 7 kHz und spezieller 4 bit Auflösung (Datenrate ist gleich 3,5 kbytes pro Sekunde), kann eine Abspeicherzeit von 200 Sekunden zur Verfügung gestellt werden. Dagegen wird in Punkt "zu d), e)" von einer Datenrate 1,05 kbytes ausgegangen, gemäß obiger 200 Sekunden bei üblichen Codierverfahren errechnet sich die 3,5-fache Abspeicherzeit, nämlich 700 Sekunden (ist gleich 11 Minuten und 40 Sekunden). Angesichts der gängigen Bespielkapazität von Minikassetten (15 Minuten) wird der Abtastvorgang auf eine 2 bit Delta-Modulation begrenzt (Stichwort: 1 bit-Wandler bei Compact-Disc-Playern). Dies ermöglicht 23 Minuten und 20 Sekunden abspeichern von Fernsprechsignalen ohne Einbeziehung der insbesondere in d) vorgenommenen Datenfluß-Redundanz (beispielsweise auch Sprechpausen-Verkürzung). Ferner ist keine gehörbezogene Bandbreiten-Optimierung berücksichtigt (Hinweis: baßgefilterte Signal übertragung von 700 Hz bis 3,4 kHz mit 80% korrekter Spracherkennung), welche u. a. zur Verminderung der 21 Bandpässe führt. Nebendem werden mindestens zwei Speicherplätze getrennt organisiert (über Ordner und Markierungen) aufgebaut, womit ein Aufsprech- und mindestens ein (den Anrufer informierenden) Abspielspeicher existiert. Der eventuelle zweite Abspielspeicher dient für den Fall verwendet, wenn der Aufsprech speicherplatz gefüllt ist (anderer Text als bei Abspielspeicher eins). Dies bedarf eine automatische sowie programmgesteuerte Benutzer ebene.

Zu h): Im Rahmen der gängigen Betriebsbedingungen von Anrufbeantwortern ergibt sich das Abhören von aufgesprochenen Textpartien, welche durch die in f) erstellten Markierungen gefunden werden. Hierbei werden tonbandähnliche Funktionen (gemäß einem professionellen Auto-Lokator) berücksichtigt, womit der Anfang, das Ende oder beliebige Gesprächszeitpunkte beliebig oft angefahren werden.

Zu i): Nach entsprechender Aufsuche einer Aufsprechtextstelle findet erstens das Lesen von digitalen Daten (codiertes Fernsprechsignal plus FRZ-Code) statt. Zweitens werden unter Nutzung des FRZ-Codes diese digitalen Daten zur Real-Time-Wiedergabe ergänzt, was mittels einer Sample-Hold-Schaltung (u. a. zur bit- Wiederholung; Redundanz-Wiederherstellung, Stichwort "Sprechpausen-Erzeugung") geschieht. Außerdem werden eventuelle bit-Fehler korrigiert.

Zu j): Kontinuierliche Pegelübergänge werden durch eine Interpolation der Wiedergabeseitigen Auflösungsbereiche (vgl. Abtastung) vorgenommen, mittels vorausberechneter bit-Bereichsunterteilung realisiert wird.

Zu k): Das in einzelne Spektralbereiche oder Bandpässe digital gegliederte Fernsprechsignal wird zu aufnahmeseitig korrelierenden, digitalen, aussteuerbaren, bandbegrenzten Rauschgeneratoren und/oder (Sinus-) Tongeneratoren geführt. Das Bandpaß-Rauschsignal wird via rechner gestützter, randomisierter Pseudo-bit- Zufallsfolgen erzeugt, was statistisch zeitlich hoch verdichtetes Rauschen liefert. Hierbei werden bereits die für die nachfolgende Sprachsignal-Resynthese wesentlichen Frequenz/ Tonlagen der 21 Bandpässe, berücksichtigt.

D.h., daß bei einer eventuellen Überprüfung von einzelnen Bandpässen (Voraussetzung ist eine Digital-Analog-Wandlung), ein zeitabhängig in seiner Lautstärke schwankendes Signal auftritt.

Zu l): Zur Erzeugung des für eine analoge Sprachsignal-Wiedergabe relevanten Gesamtspektrums werden die 21 Bandpaß-Codes (zeitlich variablen Datenflüsse) miteinander rechnergestützt entsprechend verknüpft. Dies entspricht einer digitalen Resynthese eines in digitaler Code-Form bestehenden, mit dem Ausgangssignal von Punkt a) annähernd übereinstimmenden, Fernsprechsignales.

Zu m): Eine zugehörige, die digitale Signalverarbeitung abschließende Digital- Analog-Wandlung wird in größer-gleich 4 bit- Auflösung realisiert, was von der Qualität der in k) erstellten digitalen Spektren abhängig ist. Es finden Delta- oder Puls-Code- Modulation Anwendung.

Zu n): Zur Herstellung des aufnahmeseitigen Dynamikzustandes kann eine Expansion des Pegelvariablen (synthetischen) Sprachsignales statt finden, was jedoch hinsichtlich allgemeiner Sprachverständlichkeitskriterien nicht notwendig ist. Dabei wird die Analogsignal-Dynamik von 24 dB auf ca. 40 dB erweitert.

B) Diktiergerät

Diktiergeräte verfügen, im Vergleich zu Anruf beantwortern, grundsätzlich über ein ähnliches funktionelles Prinzip, weshalb die im Beispiel A) erwähnten Grundlagen der Punkte a) bis n) übernommen werden. Der Aufnahme- und Wiedergabe-Übertragungsbereich liegt z. B. zwischen 200 Hz und 8 kHz. Es ergeben sich hieraus 33 1/2-Terzbandpässe und mit einer 4 bit-Abtastung eine Datenrate von 13 200 bit′s oder 1,65 kbytes pro Sekunde. Unter Verwendung eines 700 kbyte- Speicherplatzes errechnet sich eine Aufnahme bzw. Sprachsignal-Abspeicherzeit von 7 Minuten und 4 Sekunden.

Im weiteren erhalten software-unterstützte sowie vom Benutzer eines solchen Diktiergerätes angewählbare Bereiche des gestellten Bedienungskomforts eine Basisfunktion: Aufnahme, Wiedergabe, Pause, Stop, markieren von beliebigen Textstellen bei der Aufnahme oder ergänzend im nachhinein, Schnellsuchlauf (vorwärts, zurück), Schnellanlauf zu einer markierten Textstelle, löschen/einfügen/ verbinden von unterschiedlich zeitlich aufgenommenen (digital abgespeicherten) Textpartien usw. Ferner ist eine Zwitterlösung von Anrufbeantworter und Diktiergerät dahingehend vorzuziehen, daß mittels heute üblicher Fernabfrage bzw. Fernbedienung, jedoch ergänzt, ein Anrufbeant worter auch als Diktiergerät benutzt wird.

C) Übertragungsgemäß der Telekommunikation

Zum Anwendungsbereich der Übertragung von Sprachsignalen gelten u. a. die Grundlagen von A), wie u. a. die Schritte der spektral-digitalen Signal-/Datenverarbeitung, und B) mit dem Übertragungsbereich von 200 Hz bis 8 kHz (4 bit- Abtastung) wobei hierzu folgende vervollständigende Korrekturen nötig sind: Es wird anstatt der Signalverarbeitungsschritte einer digitalen, zeitkontinuierlichen Datenabspeicherung (Aufnahme) sowie -auslesung (Wiedergabe) eine Sprachsignalübertragung vorgenommen. Die dafür nötige Übertragungsbandbreite beträgt nicht 8 kHz sondern 3,3 kHz, welche sich aus der Multiplikation des reziproken Abtast- Zeitintervalls von 10 Millisekunden (entspricht 100 Hz) mit der Anzahl der 33 nötigen 1/2-Terzbandpässe errechnet. Demnach besteht die Möglichkeit bisherig existente Fernsprech- Übertragungskanäle (Bandbreite 300 Hz bis 3,4 kHz) unter obigem erfindungsgemaßen Verfahren klangqualitativ (Bezug: menschliche Sprache) auf einen Hörspektralbereich von mindestens 200 Hz bis 8 kHz zu erweitern! Diesbezüglich bleiben gehörbezogene Effekte, wie sie in Form der Vor- und Nachverdeckung auftreten, welche zusätzliche Einsparungen des systemtheoretischen Datenaufwandes erbringen, unberücksichtigt.

Angesichts von Signalverarbeitungsschritten zur Reduzierung von informationsunbehafteten Daten (z. B. im Moment von Sprechpausen, siehe A)) für eine zeitabhängige Dateneinsparung im digital codierten Signalfluß und deren zur Codierung relevanten, rechnergestützten Datenmanipulationen (z. B. Zeitaufwand der Software bzw. Verknüpfungs routinen), sind, hinsichtlich einer Tele kommunikation, Zeitveränderungen zwischen Bild und Ton zu erwarten. Ein entsprechend aufnahmeseits (vor der Übertragung) erstellter u. a. Zeit-Code bildet die Grundlage für eine wiedergabeseitige Synchronisation von Hör- sowie Sehereignis. Die Übertragung des zeitabhängig veränderlichen, den Spektralgehalt der menschlichen Stimme/Sprache beschreibenden Codes geschieht mittels üblicher Modulationsverfahren (Amplituden-, Frequenz-, Phasen-, Puls-Code-Modulation, etc.).

=D) Niederfrequente Unterwasser-Kommunikation

Unter Ausnutzung einer minimalen, hinsichtlich der Sprachverständlichkeit noch erlaubten, Übertragungsbandbreite, spezieller Modulations verfahren, optimierter Verfahrensschritte, gemäß der Punkte A) bis C) (u. a. die frequenz abhängige Bandbreitenwahl), sowie Sprechtechnik, ist beispielsweise eine terrestrische und/oder körperschall- und/oder unterwasser-behaftete (Einsatz bei Unter-See-Booten bei der Marine) Sprachkommunikation im Infraschallbereich erzielbar. In diesem Zusammenhang wird erstens die Tatsache ausgenützt, daß eine angehobene untere Fernsprech-Übertragungsgrenzfrequenz, von 300 Hz auf 700 Hz angehoben, zu einer Verschlechterung der allgemeinen Sprach verständlichkeit um 20%, bezogen auf 100% Sprachverständlichkeit bei 300 Hz, führt. Die obere Grenzfrequenz verbleibt vorerst bei 3,4 kHz. Zweitens wird durch eine Kombination von unterschiedlichen Modulationsverfahren, wie sie aus Abschnitt C) zu entnehmen sind, ein MultiplexDatenvermittlungs/Übertragungsbetrieb möglich. Ausgangspunkt hierbei ist das in einem Rhythmus von 10 Millisekunden oder mit einer Frequenz von 100 Hz (oder einer Datenrate von 100 bit′s pro Sekunde) wechselnde Signal, je Bandpaß, welches nunmehr alle 40 Millisekunden oder mit 25 Hz (oder 25 bit′s pro Sekunde) eine neue Spektralbereichsinformation übertragen soll. Aus der reduzierten Übertragungsbandbreite von 700 Hz bis 3,4 kHz ergeben sich 14 parallel zu verarbeitende 1/2-Terzbänder. Anhand heute bekannter Verfahren, z. B. Phase-Shitt-Keying oder Quadratur-Amplituden-Modulation (QAM), welche mittels 4, 8, 16 usw. verschiedenen Phasenlagen von Amplituden arbeiten, ist eine, den Spektralbereich der Sprache darstellende (bei einer zugrunde gelegten Übertragungsbandbreite von 25 Hz), parallele Übertragung der 14 getrennten digitalen Datenflüsse geschaffen (siehe QAM mit 16 Phasenlagen). Die zwei ungenutzten Phasenlagen sind frei verfügbar zur Synchronisierung (siehe C)) oder Übertragung eines Fehlerkorrektur-/Redundanz-/ Zeit-Codes. Drittens ist eine Datenflußreduktion unter Ausnutzung gehörbezogener Parameter (siehe Punkte A) bis C)) erzielbar. Viertens wird mittels einer Ausbildung von Personen, welche Texte erstellen und sprechen, eine verbesserte Sprach verständlichkeit erreicht (Stichwort: Logotome).

Insbesondere für den Anwendungsfall A) ist eine Präsenzbereichsanhebung um 2 dB vorzunehmen, welche speziell von Flüsterlauten abweichende Sprachsignale besser verständlich macht. Dies wird durch eine Spektrumsergänzung im Baß- und Höhenbereich optimiert: Hierbei findet eine vorrausberechnete Aussteuerung von zusätzlich erstellten, digitalen, wiedergabeseitigen Bandpaß bereichen statt (siehe Beispiel A), Punkt i) ff.), womit, frequenzabhängig betrachtet, das Sprach signalspektrum "künstlich" zu tiefen und hohen Frequenzen hin, mit jeweils zwei terzbandpaß begrenzten Rauschsignalpartien ergänzt wird. Solche vom zeitlichen Verhalten des ursprünglichen Sprachsignalspektrums abhängigen Rauschsignalpartien beinhalten eine zur oberen sowie unteren Übertragungsbereichs-Grenzfrequenz hin ausgelegten variablen Flankenabfall des "künstlichen" Spektrums. Beispielsweise wird ein scharfer kurzzeitiger Zischlaut eines ausgesprochenen "s" mit einer geringfügigeren Abfallflanke des neu sowie "künstlich" geschaffenen Höhenspektrums versehen als bei einem ausgesprochenen "f" (hier u. a. keine "s"-typische, markante 8 kHz-Resonanz). Hingegen im Baßbereich wird eine weniger aufwändige, rechnergestützte Signalunterscheidungs routine benötigt, um den tieffrequenten Spektralbereich zu ergänzen. Im wesentlichen wird hierbei eine Pegelreduzierung des zeitvarianten Signals um ca. 3 dB pro Terz gewählt.

Schließlich ist eine beliebige Verschlüsselung des digitalen das Sprachsignal enthaltenden Codes, unabhängig vom Anwendungsfall A) bis D) gegeben. Diese Verschlüsselung ist z. B. vor der Signal- Übertragung via festgelegter, programmgesteuerter Verrechnungs- und/oder Verknüpfungs-Prozeduren von bit′s im Datenfluß (auch unter Nutzung des Faktors Zeit), je digitalen Bandpaß, aufgebaut. Die Revision der Verschlüsselung wird wiedergabeseits mittels Verwendung umkehrender oder invertierender Prozeduren aufgehoben.

E) Signalfluß- bzw. Signalverarbeitungs übersicht anhand von Fernsprechsignalen

Im folgenden wird, basierend auf den technischen Grundlagen, insbesondere der vorherigen Beispiele A) und B), eine Darstellung der seriell und parallel für die Erfindung wesentlichen abzuarbeitenden Signalverarbeitungsschritte vorgenommen. Die nun beschriebenen, überwiegenden Datenmanipulationen sind zudem bezüglich des Fernsprechsignal-Übertragungsbereiches von 300 Hz bis 3,4 kHz nicht fixiert.

In Fig. 2 wird das bandbegrenzte Eingangssignal (Einspeisungspunkt "IN") zu einem Analog-Digital- Wandler (1) geleitet, welcher bei digitaler Signalübertragung wegfällt. Das eingangsseitige Original-Fernsprechsignal liegt demzufolge, spektrumsbezüglich, in einer mit der Abtast frequenz fr abgetasteten, kompletten, nicht bandpaß-unterteilten Version in Betrag und Phase unverfälscht vor, was mit Element (2) aufgezeigt wird: In (2) ist vereinfacht (wie auch in den nachfolgenden Erörterungen) der eigentlich digital vorliegende Zusammenhang, hier das "Eingangssignalspektrum" L_E als Funktion von der "Frequenz" f in einem Übertragungsbereich von f_U = 300 Hz bis f₀ = 3,4 kHz (untere, obere Grenzfrequenz) zum Zeitpunkt t′ entnommen, "analog" dargestellt. Das im Signalflußplan von Fig. 2 anschließende Element (3) beschreibt die Signalanalyse (z. B. Fast-Fourier-Transformation, Filterung etc.) oder jene daraus zu erkennenden Veränderung in der Darstellung des Spektrums L als Funktion von der Frequenz f′ wobei hier das anliegende digitale Signal zum Zeitpunkt t_x, mit seinem Spektrum in 21 Bandpässe B unterteilt wird. Diese ergeben sich u. a. aus Fig. 1 und Tabelle 1. Die dabei entstehende spektrale (Pegel-) Verteilung L_S als Funktion von den Bandbässen B_m liegt zwischen der oberen und unteren Übertragungsgrenzfrequenz f₀ und f₁. Konsequenterweise wird somit gemäß Element (2) 21-mal eine Spektralbereichsstichprobe B_n um die Bandpaß-Mittenfrequenz f_n digital-meßtechnisch (analytisch-rechnergestützt) entnommen und einem digitalen Bandpaßpegelwert im Zeitmoment t₂ zugeordnet. Da es sich hierbei um die Abtastung und Darstellung eines Wechselsignales handelt, muß zu einem geeigneten späteren Zeitpunkt t_X+T die nächste Analyse über das gesamte B_Ü statt finden. In der obigen Beschreibung geschieht dies nach einer Zeitdauer/Zeitintervall "delta t" = 10 Millisekunden (hier T genannt). Die rhythmische (digitale Werte-/Pegel-) Bandpaß-Integrationszeit von 10 Millisekunden, welche von einem Taktgenera tor (7) vorgegeben wird (bei einem EDV-System sinnvollerweise via Quarz und Software mit anderen Datenmanipulationen/-verrechnungsprozeduren gemeinsam digitaler Ebene vorgenommen), erstreckt sich über den jeweils relevanten Sprachsignal- Übertragungszeitraum.

Die nun vorliegende, zeitvariante, digitale Spektralbereichspegelverteilung wird nach ZWICKER in einen Datensatz "spezifische Lautheit" N′′ als Funktion von der Tonheit (Frequenzgruppe) z gemäß (4) umgerechnet. Diesbezüglich werden in der Umrechnung zum Zeitpunkt t_x u. a. Vor- und Nachverdeckungseffekt berücksichtigt. Die Fernsprechsignal-Übertragung findet in einem adäquat zugeordneten Frequenzgruppenbereich von z_u bis z₀ statt. Die Bandpaßbereichsstichprobe B_N in den Elementen (2) und (3) liegt adäquat bei "N" n′′, wobei zusätzlich gehörnahe Vor- und und Nachverdeckungsflanken die Werte der "spezifischen Lautheiten" (Einheit: sone/Bark) beeinflussen.

Die zum Zeitpunkt t_x vom Element (4) durchge lassenen, bearbeiteten, parallelen, zeitvarianten, gehörbezogen-datenreduzierten, digitalen Informationen über das Fernsprechsignal werden daraufhin einer Code-Redundanz-Überprüfung (5) unterzogen: Es werden zeitparallel und -seriell die 21 Frequenzgruppen hinsichtlich ihres spezifischen Lautheitswertes untersucht und z. B. bei bit-Identität (vgl. von bit N′_n bei t_x und t_x+1 und/oder N′n und N′_n+1) eine Daten-bit- Übertragungseinsparung vorgenommen, welche jedoch mit einem zugeordneten Synchronisations-bit für ein gesamtes, mehrere bit′s großes, 21 Bandpässe abdeckendes Fernsprechsignal-Code-Wort, basierend auf den von einem Taktgenerator (7) erzeugten Time-Code, verknüpft/verknüpfbar ist. Sämtliche erfolgten Schritte der Datenreduktionen werden von (7) überwacht bzw. gesteuert sowie die aus (5) hervorgehenden, redundanzfreien Fernsprechsignal-Daten mit dem Zeit- bzw. Time- Synchronisations-Code über das Element (6) verknüpft (digitales Ausgangssignal bei "Ü_OUT" oder ab hier eine Datenübertragung möglich). Demzufolge handelt es sich bei den Verbindungen zwischen den Elementen (3), (5) und (6) um einen bidirektionalen Datenbus oder um eine gegenseitig interrupt-gesteuerte Software.

Am Ausgang von (6) ist beispielsweise eine Übertragung oder Abspeicherung des erzeugten Fernsprech-Codes möglich. Auf anwendungsbezogene u. a. Start/Stop-bits oder Ähnliches, wird an dieser Stelle verzichtet.

In Fig. 3 wird nachfolgend die Resynthese des synthetisierten Fernsprechsignals aus dem zeitvarianten Code am digitalen Signaleingangs punkt "D,x" erläutert, wobei Ü_IN gleich Ü_OUT (oder gemäß Fig. 2, Empfang von übertragenen Daten< ist: Zunächst werden in (8) aus dem empfangenen/erhaltenen Code das datenreduzierte Fernsprechsignal von dem (Time- bzw. auch) Synchronisations-Code getrennt. Dies geschieht in Abhängigkeit von der zugrundeliegenden Basis-Taktfrequenz von (9), welche ab/zu einem bestimmten Zeitpunkt t_x eine Echtzeitverrechnung der Fernsprechsignal-Daten vornimmt. D.h., daß die redundanzbefreiten, zeitdynamischen Daten u. a. mittels vom Time-Code abhängiger bit- Wiederholung zu einem zeitkontinuierlichen oder zeitstatischen Datensatz umgerechnet werden. Solche hierzu wesentlichen logischen Verknüpfungen sowie auch die Resynthese (bit-Datenergänzung oder -Wiederholung) aus der Prozedur der lautheits bezogenen Datenreduktion (Vgl. Fig. 2) erfolgen außerdem in (8). Der in Fig. 3 als Element (10) folgende Signalverarbeitungsschritt einer digi talen, zeitvarianten Filterung von einem (digital vorliegendem) Rauschen (11) fußt auf den genannten Daten des Fernsprechsignals (von (8)) und des Time-Codes (Synchronisierung; von/zu (9)). Hieraus ist offensichtlich, wenn beispielsweise einige bit′s (wegen Redundanz-Vermeidung und Lautheitsbewertung des Sprachsignals) bei der Erzeugung eines gefilterten Rauschsignal-Spektrums für das Element (10) fehlen, daß eine organisierte Datenweitergabe (Warteschleife in (8), da Datensatz X für die Taktperiode T_X schon vermittelt wurde, aber die Zeit der Taktperiode T_X noch nicht abgelaufen ist) über einen bidirektionalen Datenbus oder entsprechende rechnergestützte Verknüpfungsprozeduren ablaufen muß.

Liegt also eine Fernsprechsignal-Spektrums information (Datensatz von (8)) vollständig vor, woraufhin für z. B. eine Periodendauer von 10 Millisekunden eine digitale Übertragungsfunktion H_T (f) mit ihren 21 Bandpässen gestellt wird, so ist ein gehörbezogen nicht wahrnehmbares, eigentlich "zerhacktes" und schließlich über die Faltung von H_T (f) (10) mit dem (digitalen) Rauschsignal (11) erreichtes Fernsprechsignal- Spektrum aufgebaut. Es eignet sich als Basisprinzip für die Gewinnung (11) des Rauschsignal-Spektrums eine digitale Zahlen zufallsfolge, welche gleichsam digital zu hochintegriertem Rauschen optimiert wird.

Die Resynthese z. B. des Wortes "bis" benötigt ungefähr 1 bis 2 Sekunden Aussprechzeit. Zum Aufbau eines Echtzeit-Spektrums müssen aus der übertragenen oder abgespeicherten Spektral bereichsinformation für diesen Zeitraum 2100 bis 4800 Werte regeneriert werden, wobei in der Spektralbereichsinformation weniger Werte vorkommen! Aus dem Wort "bis" sind vereinfacht die markante Baßpassage des ersten, die Pegel überhöhung im Mittenfrequenzbereich des zweiten und die Höhenresonanz (Zischlaut) des dritten Buchstabens herauszuheben. Nachdem sämtliche ausgesprochenen Wörter auch geflüstert verstanden werden, ist die beschriebene Sprachsignal- Synthese mit der Benützung eines gefilterten Rauschsignales ebenso nicht tonal-harmonisch, wie die wesentlichen, zum gehörbezogenen Verständnis der Sprache beitragenden, "typisch menschlichen, natürlichen und zeitvarianten Spektren".

Hierunter fällt u. a. auch der beim Sprechen in der Frequenzlage und Lautheit variable Grundton, welcher nicht einem "klirrfaktorfreien" Sinus mit Frequenz- sowie Intensitätsschwankungen entspricht. Zur Verbesserung der Sprachverständlichkeit wird deshalb eine Kombination von geeigneten Signal bestandteilen, wie Sägezahn als Grundton und Rauschspektren als Überwellensimulator (siehe verstehbares "Flüstersprechen") vorgesehen.

U.a. die zeitliche Flankensteilheit oder Rampe des Sägezahnes, welche das Spektrum beeinflußt, sind fallabhängig.

Unabhängig, um welche datenreduzierte Sprachsignal übertragung etc. es sich handelt, kann zur Erhöhung der generellen Wort-/Satzverständlichkeit die vorliegende Redundanzminimierung im Gegenzug, wenn bei einer Übertragung freie, unbenutzte bit′s übrig bleiben, abgeschwächt werden. D.h., daß bereits aufnahmeseits- und/oder wiedergabeseits eine aktive Wort-/Spracherkennungsroutine den zu bearbeitenden und/oder datenreduzierten Sprachcode auf dessen Inhalt überprüft. Hierbei ist z. B. eine automatische Sprechtextkorrektur-, Sprechspektrums aufwertungs-, Nachfrageschleife usw. inbegriffen. Dies bezieht sich auf bestimmte, auswählbarer, im Sprachübertragungssystem festgehaltener Bezugs sprecher. So ist z. B. vor einer Infraschall sprachübertragung die aktuelle Sprecherstimme mit dem Sortiment an Vergleichsstimmen im rechnergestützten Sprachübertragungssystem zu vergleichen (eine Rechnerprozedur übernimmt den Spektrumsvergleich vorzugsweise bei Logotomen).

Im vorliegenden letzten Kapitel oder Beispiel wurde u. a. auf die Beschreibung der Sprechpausen auswertung verzichtet. Es ist jedoch schnell erkennbar, daß die zugehörigen Datenverarbeitungen, gemäß Fig. 2 in (5) und gemäß Fig. 3, in (8) vorgenommen werden können. Generell betrachtet handelt es sich insgesamt um eine erheblich schematisch vereinfachte Darstellung. Der direkte Datenzugriff mit seinen bit-Verarbeitungsschritten ist wesentlich umfangreicher, jedoch nicht erfindungsrelevant, also reine Software-Ausführung.

Claims

1. Verfahren zur datenreduzierten Sprachkommunikation, dadurch gekennzeichnet,
daß das Sprachsignal senderseitig spektral abgetastet wird, indem es in Frequenzbänder vorgegebener Breite unterteilt wird, wobei die hieraus entstehenden Spektralbereichs information einer gehörbezogenen Datenreduktion unterworfen sind,
daß zur Simulation der sendeseitig artikulierten Sprachfolgen wiedergabeseitig ein überwiegend aus Rauschen bestehendes synthetisches Signal einer zeitabhängigen Spektrumsveränderung, als Funktion von der Spektralbereichsinformation in der vorgegebenen Breite der Frequenzbänder, unterworfen ist, wobei hier die Sprachverständlich keit durch einen sendeseitig von der Sprachsignal- Code-Redundanz zugelassenen bit-Fehlerkorrektur- Code und/oder Vergleiche mit vorab gespeicherten Referenzsprachmustern und/oder Spektralbereichs ergängungen in Echtzeit optimiert wird.

2. Verfahren nach Anspruch 1, d.g., daß eine Kompandierung des dynamischen Sprachsignales in Abhängigkeit vom Auflösungsvermögen der Analog-Digital-/Digital-Analogwandlung vorgenommen wird.

3. Verfahren nach einem der Ansprüche 1 oder 2, d.g., daß die Analog-Digital-/Digital-Analog-Wandlung vorzugsweise mittels Delta- oder Puls-Code- Modulation oder Phase-Shift-Keying realisiert wird.

4. Verfahren nach einem der Ansprüche 1 bis 3, d.g., daß die Delta- oder Puls-Code-Modulation vorzugsweise in einer 4 bit-Auflösung stattfindet.

5. Verfahren nach einem der Ansprüche 1 bis 4, d.g., daß das analoge Sprachsignal mindestens durch einen Analog-Digital-Wandler abgetastet und/oder in einen Code gewandelt wird.

6. Verfahren nach Anspruch 5, d.g., daß bei Verwendung zweier Analog-Digital-Wandler einer dieser Wandler zur Steuerung des zweiten dient.

7. Verfahren nach Anspruch 6, d.g., daß der gesteuerte Analog-Digital-Wander vorzugsweise zeitlich verzögert die digitalen Code-Daten zur Weiterverarbeitung des Sprachsignals vornimmt.

8. Verfahren nach einem der Ansprüche 1 bis 7, d.g., daß das analog-Digital-gewandelte Sprachsignal vorzugsweise mittels digitalen Filtern in selektive Bandpässe unterteilt wird.

9. Verfahren nach Anspruch 8, d.g., daß die selektiven Bandpässe bezüglich ihrer Bandbreite vorzugsweise hinsichtlich der statistischen Verteilung des Sprachsignals und/oder gehörbezogen ausgewählt werden.

10. Verfahren nach einem der Ansprüche 1, 8 oder 9, d.g., daß eine Bandpaßunterteilung vorzugsweise in Anlehnung an die DIN 45 401, über eine Folge von Bandpaß- Mittenfrequenz kleiner-gleich terzbreit, oder in einem speziellen Frequenzbereich, welcher den üblichen spracheigenen Grundton mit seinen ersten typischen Harmonischen abdeckt, kontinuierlich breitbandig sowie für den darüberliegenden Frequenzbereich, vorzugsweise in Anlehnung an die DIN 45 401, über eine Folge von Bandpaß-Mittelfrequenzen, kleiner-gleich terzbreit, vorgenommen wird.

11. Verfahren nach Anspruch 1 und 10, d.g., daß zur Erstellung einer Spektralbereichs information die bei den digital realisierten kleiner-gleich terzbreiten Bandpässen entstehenden Daten hinsichtlich der analogen, abgetasteten, zeitvarianten Pegelniveaus des jeweiligen Spektralbereichs vorzugsweise nach jeweils einer gehörbezogenen Periodendauer von vorzugsweise 10 Millisekunden zu darauf folgenden Datenverarbeitungseinheiten weitergeleitet bzw. durchgelassen werden.

12. Verfahren nach Anspruch 11, gekennzeichnet durch eine bit-Unterscheidungsroutine, welche innerhalb der gehörbezogenen Periodendauer zwischen einem in dem bit-Datenstrom enthaltenen, zeitlich abhängigen, relativen Spitzenpegel der jeweiligen Spektralbereiche und einem mittleren Pegel des Sprachsignales wählt.

13. Verfahren nach einem der Ansprüche 11 oder 12, d.g., daß ein Spitzenwert dann weitergeleitet wird, wenn in der vorherlaufenden und/oder nachfolgenden Periode des bit-Datenstromes kein um vorzugsweise drei bit größerer Wert entstanden ist.

14. Verfahren nach einem der Ansprüche 11 bis 13, d.g., daß der Pegelmittelwert aus den in der gehörbezogenen Periodendauer, in Abhängigkeit von der Abtastfrequenz, entstandenen digitalen Daten und/oder Code ermittelt sowie gegebenenfalls um den mittleren Wert des jeweiligen bit′s auf- oder abgerundet wird.

15. Verfahren nach einem der Ansprüche 12 bis 14, gekennzeichnet durch eine adequate Unterscheidungsroutine für den bit-Datenstrom zur Differenzierung für relative Minimalpegel und mittlere Pegel.

16. Verfahren nach einem der Ansprüche 1 bis 15, d.g., daß ein relevanter Tieffrequenzbereich des Sprachsignales, welcher den üblichen spracheigenen Grundton mit seinen typischen Harmonischen darstellt, in der herkömmlichen, digitalen Weise abgetastet und/oder in seinen tonhöhenabhängigen Spektralschwankungen analysiert wird.

17. Verfahren nach Anspruch 16, d.g., daß zur Anhebung der Datenverarbeitungsgeschwindigkeit ein weiterer, steuernder Analog-Digital-Wandler den eigentlichen für die Sprachsignalverarbeitung vorgesehenen Analog-Digital-Wandler vorzugsweise hinsichtlich der Abtastfrequenz in Abhängigkeit vom Grundton und/oder der Intensität der zugehörigen Harmonischen des Sprachsignales ausgeregelt.

18. Verfahren nach einem der Ansprüche 1 bis 17, d.g., daß die Weiterverarbeitung von Code-Daten beziehungsweise der Spektralbereichsinformation des Sprachsignals eine Reduzierung und/oder Beseitigung der bit-Daten-Redundanz beinhaltet.

19. Verfahren nach einem der Ansprüche 1 bis 18, d.g., daß die Beseitigung der bit-Daten-Redundanz hinsichtlich der zeitlichen und/oder spektralen Datenflußänderung ausgeführt wird.

20. Verfahren nach einem der Ansprüche 1 bis 19, d.g., daß die Beseitigung der bit-Daten-Redundanz vorzugsweise durch die Berücksichtigung einer Gehör-Vor- und/oder Nachverdeckungs-Redundanz vervollständigt wird.

21. Verfahren nach einem der Ansprüche 1 bis 20, d.g., daß vorzugsweise ein bit-Fehlerkorrektur und/oder Redundanz- und/oder Zeit-Code erstellt wird.

22. Verfahren nach Anspruch 21, d.g., daß der bit-Fehlerkorrektur- und/oder Redundanz und/oder Zeitcode hinsichtlich auftretender Sprechpausen bis zu einer maximalen Pausendauer von vorzugsweise 500 Millisekunden im Zeitcode zuläßt.

23. Verfahren nach einem der Ansprüche 21 oder 22, gekennzeichnet durch eine Konkatenation von code-bezogenen Markierungen und/oder des bit- Fehlerkorrektur-/Redundanz-/Zeit-Code mit der datenreduzierten Spektralbereichs-information, welche eine Echtzeit-Sprachsignal-Resynthese zuläßt.

24. Verfahren nach Anspruch 23, d.g., daß vorzugsweise der Anfang und/oder das Ende von Sprachkommunikationsabschnitten und/oder Aufsprecheinheiten markiert werden.

25. Verfahren nach einem der Ansprüche 1 bis 24, d.g., daß Untersuchungen zur Optimierung sämtlicher zusammenwirkender frequenz- und/oder zeit und/oder bit-datenstrom-abhängiger Parameter, bezüglich einer maximalen Sprachverständlichkeit gegenüber einer minimal entstehenden digitalen Datenrate, vorgenommen werden.

26. Verfahren nach einem der Ansprüche 1 bis 25, d.g., daß der redundanz-befreite sowie mit einem Zeit-Code ergänzte bit-Datenstrom auf löschbare, elektrische Speicherbausteine festgehalten beziehungsweise abgespeichert und/oder moduliert zu einem Empfänger übertragen wird.

27. Verfahren nach Anspruch 26, d.g., daß die Speicherbausteine vorzugsweise auswechselbar sind.

28. Verfahren nach Anspruch 27, d.g., daß die auswechselbaren Speicherbausteine vorzugsweise den Bedienungskomfort von ein- sowie aussteckbaren EEPROM- und/oder RAM-Card′s beinhalten.

29. Verfahren nach einem der Ansprüche 1 bis 28, d.g., daß zur Sprachsignal-Wiedergabe die abgespeicherten und/oder übertragenen bit-Daten mit der sendeseitig entstandenen Spektralbereichsinformation gelesen und in Echtzeit, unter zur Hilfenahme des bit-Fehlerkorrektur- und/oder Redundanz- und/oder Zeit-Code, digital-analog-gewandelt werden.

30. Verfahren nach Anspruch 29, gekennzeichnet durch eine Sample-Hold-Schaltung, welche die bei einer bit-Verlängerung um eine oder mehrere gehörbezogene Perioden die zurückgewonnen, jeweiligen Spektralbereichspegel zeitlich, in Abhängigkeit vom steuernden Zeit-Code in Echtzeit verlängert.

31. Verfahren nach einem der Ansprüche 29 oder 30, d.g., daß bei bit-Änderung und/oder, daraus entstehend, einer Spektralbereichspegeländerung vorzugsweise ein annähernd kontinuierlicher Pegelübergang mittels einer weiteren Unterteilung der einzelnen bit-Darstellungs- und/oder -Auflösungsbereiche geschaffen wird.

32. Verfahren nach einem der Ansprüche 1, 10, 29 bis 31, d.g., daß ein synthetisches Wiedergabe- Sprachsignalsprektrum, welches aus den sendeseitig erstellten Daten der Spektralbereichsinformation gewonnen wird, via pegelsteuerbarem, bandbegrenztem Rauschen im gesamten wiederzugebenden Sprachsignal-Frequenzbereich und/oder,
auf den Sprachtieffrequenzbereich bezogen, via Grundton-Signalen mit der Frequenz der jeweiligen Bandpässe beziehungsweise des Spektralbereiches
und/oder via tonhöhenabhängig pegelsteuerbaren, für die Sprache typisch-darstellenden, harmonischen Grundton-Signalen in den Frequenzbereichen, und/oder,
breitbandig betrachtet, direkt digital-analog gewandelten Grundton-Signalen sowie pegel steuerbarem, bandbegrenztem Rauschen additiv zusammengesetzt wird.

33. Verfahren nach einem der Ansprüche 1, 29 bis 32, d.g., daß mittels der zeitlich veränderlichen Digital-Analog-Wandlung der Echtzeit-bit-Daten aus der sendeseitigen Spektralbereichsinformation des jeweiligen Bandpasses beziehungsweise Spektralbereiches der Pegel des bandbegrenzten Rauschens und/oder Grundton-Signalen, je Bandpaß, in seiner Intensität gesteuert und/oder bestimmt wird.

34. Verfahren nach einem der Ansprüche 29 bis 33, d.g., daß die Ergebnisse einer gehörbezogenen Untersuchung festlegen, welche Art von bandbegrenztem Rauschen und/oder welche Art von bandbegrenztem Rauschen mit welchen Grundton-Signalen wiedergabeseits zur Realisierung des zeitlich veränderlichen Sprachspektrums beitragen.

35. Verfahren nach einem der Ansprüche 32 bis 34, d.g., daß das bandbegrenzte Rauschen vorzugsweise mittels randomisierter und/oder, hinsichtlich der statistischen Verteilung von Signalanteilen im Spektrum, hochintegrierter, digitaler Datenverknüpfung realisiert wird.

36. Verfahren nach einem der Ansprüche 32 bis 35, d.g., daß die Grundtonsignale aus variabel gestaltbar obertonbehafteten Basissignalen, vorzugsweise dreieck-, sägezahn- oder sinusförmig, bestehen.

37. Verfahren nach einem der Ansprüche 1 bis 21, 23 bis 35, d.g., daß bei einer Sprachsignalübertragung das Element Speicherbaustein in der Signal verarbeitungskette vorzugsweise durch eine Übertragungsstrecke ersetzt wird.

38. Verfahren nach einem der Ansprüche 1 bis 37, d.g., daß sämtliche Analog-Digital- und/oder Digital- Analog-Wandler und/oder die Weiterverarbeitung des bit-Datenstromes rechnergestützt vorgenommen werden.

39. Verfahren nach einem der Ansprüche 1 bis 38, d.g., daß zur Anhebung der wiedergabeseitigen Sprachverständlichkeit eine Entzerrung des Spektrums, in Form einer bandpaßabhängigen, digitalen Pegelkorrektur, vorgenommen wird.

40. Verfahren nach Anspruch 39, d.g., daß, neben der Entzerrung, zur Anhebung der Klangqualität vorzugsweise eine Spektrumsergänzung im Baß- und/oder Höhenbereich vorgenommen wird.

41. Verfahren nach Anspruch 40, d.g., daß die Spektrumsergänzung mindestens einen zusätzlichen, neuen, vorausberechneten, digitalen Bandpaßpegel enthält.

42. Verfahren nach einem der Ansprüche 40 und 41, d.g., daß die spektrumsergänzenden, digitalen Bandpaßpegel hinsichtlich einer zu tiefen und/oder hohen Frequenzen hin flanken-variabel abfallenden Übertragungsfunktion des Sprachsignales ausgewählt wird.

43. Verfahren nach einem der Ansprüche 1 bis 42, d.g., daß die in Bandpässe unterteilte digitale Abtastung des Sprachsignal-Spektrums sowie die nachfolgende Resynthese der digitalen Daten wieder zum Sprachsignal vorzugsweise nicht, je Bandpaß, zeitparallel in einer gehörbezogenen Periodendauer stattfindet, sondern alternierend gestuft, von Bandpaß zu Bandpaß variierend.

44. Verfahren nach einem der Ansprüche 1 bis 43, d.g., daß die Bearbeitungsvorgänge des Sprachsignales, in Anhängigkeit vom Anwendungsbereich, vorzugsweise Diktiergerät, Anrufbeantworter sowie sende- und empfangsseitig steuerbare Telekommunikation, eine rechnergestützte Bedienungsergänzung erhalten.

45. Verfahren nach Anspruch 44, gekennzeichnet durch eine Kopiermöglichkeit der Daten.

46. Verfahren nach einem der Ansprüche 44 und 45, d.g., daß bezüglich der Anwendungsbereiche wesentliche Funktionen solcher Geräte berücksichtigt werden, welche vorzugsweise eine einseitige Benutzung bezüglich des Anwendungsgebietes ausschließen.

47. Verfahren nach einem der Ansprüche 44 bis 46, d.g., daß vorzugsweise ein Daten-Vorwärts- und Rückwärtslauf, gemäß eines Tonbandbetriebes, ermöglicht wird.

48. Verfahren nach einem der Ansprüche 44 bis 47, d.g., daß vorzugsweise das Löschen von Wörtern ermöglicht wird.

49. Verfahren nach einem der Ansprüche 44 bis 48, d.g., daß vorzugsweise das Einfügen von Sprachpassagen in bereits aufgenommene, gesprochene Texte ermöglicht wird.

50. Verfahren nach einem der Ansprüche 44 bis 49, d.g., daß vorzugsweise eine Markierung von ausgewählten, aufzusuchenden und/oder zu verändernden Textstellen ermöglicht wird.

51. Verfahren nach einem der Ansprüche 1 bis 50, d.g., daß mehrere Speicherplätze zur Verfügung gestellt werden, welche zur Wiedergabe von informativen Texten, neben den üblicherweise danach folgenden Aufsprechtexten, dienen.

52. Verfahren nach einem der Ansprüche 1 bis 51, d.g., daß vorzugsweise mindestens ein separater Speicherbereich zur Verfügung gestellt wird, welcher die Aufnahme von harmonischen Signalen, phasenlage- und/oder amplituden zusammengehörig, datenraten-reduziert, erlaubt.

53. Verfahren nach einem der Ansprüche 1 bis 52, d.g., daß bei bestimmten angewählten und/oder ausgelösten Betriebszuständen vorprogrammierte Speicherbereiche und/oder Funktionen angewählt werden.

54. Verfahren nach einem der Ansprüche 1 bis 53, d.g., daß zur Erhöhung der wiedergabeseitigen Sprachverständlichkeit ein wort- und/oder satzbezogener Spektrumsvergleich mit Referenz sprachmustern vorgenommen wird.

55. Verfahren nach Anspruch 54, d.g. daß die Referenzsprachmuster, vorzugsweise Logotome und/oder überwiegend in der Praxis im Gebrauch stehende Wörter und/oder Satzpartien von Sprachsystembenützern abgespeichert werden.

56. Verfahren nach einem der Ansprüche 54 und 55, d.g., daß die Referenzsprachmuster vorzugsweise bei einer bilateralen Sprachsignalübertragung sende- und empfangsseits existent und/oder synchron übermittelt anwählbar sind.

57. Verfahren nach einem der Ansprüche 54 bis 56, d.g., daß die Referenzsprachmuster zur Nutzung als solches gegenseitig übertragen werden.

58. Verfahren nach einem der Ansprüche 54 bis 57, d. g., daß die Referenzsprachmuster zur Spektrums ergänzung und/oder zur Korrektur der bei der Übertragung auftretenden bit-Fehler und/oder zu einem steuerbaren Sprachsignalübertragungs stop bei Sprachunverständnis des empfangsseitigen Kommunikationspartners Verwendung finden.

59. Verfahren nach einem der Ansprüche 54 bis 58, d.g., daß der steuerbare Sprachsignalübertragungs stop bilateral von den Systembenützern und/oder vom System bei Übertragungsproblemen ausgelöst und beendet wird.

60. Verfahren nach einem der Ansprüche 54 bis 59, d.g., daß der steuerbare Sprachsignalübertragungs stop zur Zwischenspeicherung von Sprachsignaldaten vor sowie nach der unverstandenen Wort- und/oder Textpartie führt.

61. Verfahren nach einem der Ansprüche 54 bis 60, d.g., daß, nach empfangsseitiger Beendigung des Sprachsignalübertragungsstops, sendeseits für den Fortgang der Kommunikation ein Delay, entsprechend den zwischengespeicherten, anwählbar markierten, unverstandenen Daten, in Echtzeit in Kraft tritt.

62. Verfahren nach einem der Ansprüche 54 bis 61, d. g., das der Sprachsignalübertragungs stop mit weiteren bilateral anwählbaren und/oder vom System ausgelösten Benutzerinformationssignalen, vorzugsweise Start, wiederholen, Pause, ergänzt wird.

63. Verfahren nach einem der Ansprüche 54 bis 62, d.g., daß die kommunizierenden Sprachsystembenützer wahlweise eine Dauersprachsignal-Übertragungs prüfung und/oder einen -vergleich des empfangenen, sendeseits gesprochenen Echtzeit textes mit Referenzsprachmustern zuschaltet, welche eine eventuell auftretende Partie des Echtzeittextes permanent analysiert und/oder korrigiert und/oder einen Sprachsignal übertragungsstop aus löst.

64. Verfahren nach einem der Ansprüche 54 bis 63, d.g., daß bei ausgeschalteter Dauersprachsignal- Übertragungsprüfung bei partiell aufgetretenem Sprachunverständnis sowie aktiviertem Sprachsignalübertragungsstop dem Benützer, neben der sendeseitigen Wiederholungsaufforderung, eine nachträgliche Sprachsystembearbeitung mittels Referenzsprachmuster-Vergleich zum Echtzeittext gestellt wird.

65. Verfahren nach einem der Ansprüche 54 bis 64, d.g., daß zur weiteren Datenreduktion, Erhöhung der Sprachsignalverständlichkeit und zur Störgeräusch minderung ein Vergleich von Referenzsprachmustern mit dem in Echtzeit gesprochenen Text jene unwesentlichen, nicht sprachinhaltsbezogenen, relevanten Echtzeit-Sprach-Spektralanteile minimiert werden.

66. Verfahren nach einem der Ansprüche 1 bis 65, d.g., daß zur Verschlüsselung des zeitvariablen Sprachspektrums eine rechnergestützte Aufbereitung und/oder Verknüpfung von bit-Daten vorgenommen wird.

67. Verfahren nach Anspruch 66, vorzugsweise gekennzeichnet durch eine randomisierte Pseudo-Zufallsfolge bei den zur Verschlüsselung des Sprachspektrums vorgesehenen Daten verarbeitungsprozeduren.

68. Verfahren nach einem der Ansprüche 1 bis 67, gekennzeichnet durch bei der Codierung sowie Decodierung des analogen Sprachsignales sich gegenseitig eliminierende und/oder aufhebende Ver- und Entschlüsselungsprozeduren.

69. Verfahren nach einem der Ansprüche 1 bis 68, d.g., daß zur übertragungsbandbreiten-minimierten Infraschall- und/oder Infrakörperschall- Sprachübertragung vorzugsweise die bit-Auflösung nochmals reduziert, die gehörbezogene Perioden dauer mindestens auf 50 Millisekunden angehoben und/oder eine in Echtzeit für diese sprachver ständlichkeitsmindernde Übertragung vorgesehen artikulierte Aussprache und/oder Sprechweise vorgesehen wird.

70. Verfahren nach einem der Ansprüche 1 bis 69, d.g., daß wahlweise zuschaltbar, sende- und/oder empfangsseitig, permanent, zeitbegrenzt sich organisierend, von allen vorkommenden Daten aktivitäten vorzugsweise ein Up-Date gespeichert wird.