-
HINTERGRUND DER ERFINDUNG
-
Die
Datenkommunikation über
Kommunikationssysteme ist traditionell unter Verwendung eines Modems
durchgeführt
worden. Datenkommunikation über
ein öffentliches
Schalttelefonnetzwerk („PSTN” – Public Switch
Telephone Network) wird über
einen Sprachkanal durchgeführt,
da es bei diesem Kommunikationssystem keine Datenkanäle gibt.
Zellulare Netzwerke jedoch haben sowohl Daten- als auch Sprachkanäle, über die
Daten kommuniziert werden können.
-
Datenkommunikation,
im Gegensatz zu Sprachkommunikation, kann für eine Vielfalt von Zwecken
eingesetzt werden. Ein solcher Zweck ist die Fahrzeug-Telematik.
Fahrzeug-Telematik
wird im Allgemeinen so betrachtet, dass sie unmittelbare Kommunikationsmöglichkeit
benötigt,
aufgrund verschiedener Sicherheits- und Sicherungsbetrachtungen
für Treiber.
Zum Beispiel kann es in einem Notfall sein, dass eine Kommunikation von
einem Fahrzeug zu einer Anrufzentrale kommuniziert werden muss.
Im Allgemeinen nutzen Systeme mit Fahrzeug-Telematik bidirektionale
Datenübertragung
zwischen Fahrzeugen und Anrufzentralen.
-
Wegen
der Kostenbeschränkungen
bei der Ausstattung der Fahrzeuge verwenden Daten- und Sprachkommunikation
für Fahrzeug-Telematik
im Allgemeinen ein zellulares Kommunikationssystem. Da „Sicherheit
und Sicherung" ein
großer
Teil dieser Systeme ist, sollte die Datenkommunikation zwischen
dem Fahrzeug und der Anrufzentrale schnell und zuverlässig besorgt
werden. Zulieferer in Nordamerika für die Fahrzeug-Telematik stellen
sich der Herausforderung, eine Reichweite über den gesamten Kontinent
zur Verfügung zu
stellen, was notwendigerweise ein Sendegebiet umfasst, in dem drei
unterschiedliche vorliegende Zellular-Technologien verwendet werden,
nämlich
AMPS, GSM und CDMA. Zwei dieser zellularen Technologien, GSM und
CDMA, stellen Datenkanäle
zum Kommunizieren von Daten zur Verfügung, AMPS stellt keinen Datenkanal
zur Verfügung,
da AMPS ein analoges Kommunikationssystem ist. Die Datenkanäle von CDMA
und GSM vertrauen auf IP-Protokolle, bei denen die Zeit zum Liefern
einer Nachricht im Bereich von mehreren Sekunden bis mehreren Stunden
liegen kann, so dass der Weg für
die Datenkommunikation für
die Sicherheits- und Sicherungszwecke der Fahrzeug-Telematik oder
anderer Einsatzformen der Datenkommunikation, bei denen ein Bedürfnis oder
ein Wunsch nach Kommunikation im Wesentlichen in Echtzeit besteht,
weniger geeignet sein wird. Weiterhin verwenden verschiedene zellulare Technologien
unterschiedliche Protokolle und Ausrüstung, was somit bei den Anrufzentralen
zur Komplexität
beiträgt.
Als ein Ergebnis ist eine zeitgenaue Datenübertragung nicht möglich, wenn
Datenkanäle
vorhandener zellularer Technologien verwendet werden, und es gibt
ein Bedürfnis
nach Datenkommunikation, die Daten schnell und einfach über alle
zellularen Technologien liefern kann.
-
Der
Sprachkanal aller zellularen Kommunikationssysteme sorgt für einen
Audioweg zwischen den Benutzern mit wenig Verzögerung, und Audio ist ein übliches
Element bei allen zellularen Technologien. Es ist daher natürlich, diesen
Weg für
die Datenkommunikation, so wie die Fahrzeug-Telematik, zu verwenden,
um die Komplikationen bei der Verwendung von Datenkanälen zu vermeiden,
wegen der Aktualität
der Datenkanäle
und der Tatsache, dass AMPS keinen Datenkanal enthält.
-
Obwohl
andere Datenkommunikationen versucht haben, den Sprachkanal zu verwenden,
um Daten über
ein zellulares Netzwerk zu kommunizieren, sind diese Versuche problematisch
gewesen oder werden problematisch sein, aufgrund der Beschränkungen
in der Ausgestaltung der Sprachkanäle, die bei der zellularen
Kommunikation ebenso wie bei anderen Kommunikationssystemen inhärent sind.
Nahezu allen zellularen Telefone, die heute verwendet werden, verwenden
digitale Sprachkompression, um ihr zugeordnetes Funkspektrum in
effektiver Weise zu nutzen. Die Komponente des zellularen Systems,
welches die Sprache vor dem Senden komprimiert und dann nach dem
Empfang expandiert, wird ein Sprachkompressor oder ein Vocoder genannt.
Wie es auf dem Gebiet selbstverständlich wird, befinden sich
Vocoder innerhalb mobiler Telefongeräte und Basisstationen zum Senden
und Empfangen. Das Senden modulierter Daten durch einen Vocoder,
wobei herkömmliche
Magnituden- und Phasenmodulation verwendet wird, ist unpraktisch,
weil der Vocoder keines davon schützt, da Magnituden- und Phasenmodulation
für den
psycho-akustischen Prozess der menschlichen Sprachkommunikation
nicht kritisch sind. Weiterhin wird die herkömmliche Magnituden- und Phasenmodulation
für Datenkommunikation
oftmals von dem sendenden Vocoder als ein Nicht- Sprachen-Signal erkannt und vor dem
Senden herausgefiltert, so dass das Daten tragende Signal am Empfänger nicht
verfügbar
sein wird.
-
Herkömmliche
Modeme verwenden verschiedene Kombinationen der Amplituden- und
Phasenmodulation, um Daten zu senden. Beispiele sind die binäre Phasenverschiebung
(BPSK – Binary
Phase Shift Keying), Vierphasen-Modulation (QPSK – Quadrature
Phase Shift Keying), Quadraturamplitudenmodulation (QAM – Quadrature
Amplitude Modulation), Frequenzumtastung mit Modulationsindex 0.5
(MSK – Minimum Shift
Keying), Frequenzumtastung mit Modulationsindex 0.5 mit Gauss-Kurve
(GMSK – Gaussian
Minimum Shift Keying), Frequenzumtastung (FSK – Frequency Shift Keying) und
Amplitudenumtastung (ASK – Amplitude
Shift Keying). Ein Nachteil dieser Techniken besteht darin, dass
sie Information codieren, wobei Amplitude und Phase verwendet werden.
Da der psycho-akustische Prozess des menschlichen Hörens für diese
beiden Parameter relativ unempfindlich ist, schützen Sprachkompressoren (d.
h. Vocoder) Amplitude und Phase nicht, und daher wird die Information über Amplitude
und Phase nicht in zuverlässiger
Weise übertragen.
-
Eine
weitere Klasse von Modemen verwendet die orthogonale Frequenzmultiplexierung
(OFDM – Orthogonal
Frequency Division Multiplexing). Diese Modulation sendet mehrere
Träger
gleichzeitig, wobei jeder Träger
mit der QAM-Modulation moduliert wird. Diese Modulation sendet weiter
mit gleichzeitigem Einschalten aller Träger. OFDM ist zum Senden durch
Vocoder nicht geeignet, da die QAM-Modulation auf jedem Träger durch
den Vocoder nicht geschützt
wird.
-
Doppelton-Mehrfachfrequenz
(DTMF – Dual
Tone Multi Frequency) kann verwendet werden, um Daten über Audiokanäle zu senden.
Diese Modulation verwendet zwei Gruppen aus vier Tönen, und
jedes Symbol besteht aus einem Ton aus jeder Gruppe, was zu vier
Informationsbits pro Symbol führt.
Die Tonfrequenzen des DTMF wurden speziell gestaltet, um harmonische
Beziehungen zu vermeiden. Ein Nachteil des DTMF ist, dass, da die
Frequenzen in keiner harmonischen Beziehung stehen, es für den Pitch-Prediktor
in dem Vocoder schwierig ist, sie darzustellen. Ein zweiter Nachteil
ist, dass die Frequenzen des DTMF einen relativ engen (697–1633 Hz)
Frequenzbereich belegen und durch den Rauschenlöscher in den Vocoder gedampft
oder beseitigt werden können.
-
Ein
im Handel erhältliches
Modem nutzt das Vorliegen oder Fehlen eines Satzes aus vier Kandidaten-Tonen,
um vier Bit pro Symbol zu codieren. Dieses Modem ist herkömmlich,
da es einfach vier Träger
der Amplitudenumtastung (ASK) verwendet. Ein Nachteil dieses Modems
ist, dass die Amplituden der Töne
nicht genau durch den Vocoder dargestellt werden, was es für den Demodulator
schwierig macht, zu erfassen, ob ein Ton geschickt worden ist oder
nicht. Einzelne Töne
werden von dem Vocoder basierend auf der Verbundstruktur des Signals
gedämpft,
und auf die Geschichte vergangener Signale und die Zukunft einlaufender
Signale kann nicht vertraut werden, da die Amplitude ungenau ist.
Der Empfänger,
der eine Schwellenwerterfassung verwendet, um das Vorliegen oder
Fehlen eines Tones zu erfassen, ist, da die Amplitude ungenau ist,
in gleicher Weise ungenau.
-
Gegenwärtige Vocoder
komprimieren Sprache mit Bitraten zwischen 2.000 und 14.000 Bit
pro Sekunde („BPS"). Die Entropie oder
der Informationsgehalt von menschlicher Sprache in Fernsprechqualität ist viel geringer
(z. B. zwischen 100 und 200 Bit pro Sekunde), was nahelegt, das
zukünftige
Vocoder bei sehr viel geringeren Geschwindigkeiten arbeiten werden.
Es gibt gegenwärtig
mehrere Modeme, die zur Verwendung mit der zellularen Telefonie
verfügbar
sind. Diese Modeme nutzen herkömmliche
Modem-Wellenformen, die durch den menschlichen Sprachtrakt nicht
erzeugbar sind, und sie senden Daten mit Geschwindigkeiten, die gut
oberhalb der Entropiegeschwindigkeiten liegen. Dies legt nahe, dass
diese herkömmlichen
Modeme einen Vorteil aus der Ineffizienz der Vocoder des Standes
der Technik ziehen, und sie werden wahrscheinlich nicht richtig
arbeiten, wenn die zellularen Operatoren neuere Vocoder mit geringerer
Geschwindigkeit einführen.
Der Einsatz dieser herkömmlichen
Modeme ist aus diesem Grunde beschränkt gewesen.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Zum Überwinden
der Probleme herkömmlicher
Datenkommunikation über
Sprachkanäle
von Kommunikationssystemen, insbesondere denjenigen, die Kompressionstechnologien,
so wie Vocoder, einsetzen, codieren die Grundsätze der vorliegenden Erfindung
Daten in ein moduliertes Audiosignal, das in seiner Struktur der
menschlichen Sprache ähnlich
ist. Das modulierte Audiosignal kann eine harmonische Struktur eines
beabstandeten (pitched) Sprachsignals umfassen, eine Formant-Struktur,
die ähnlich
der ist, die von einem menschlichen Sprachtrakt erzeugt wird, und
ein sich mit der Zeit änderndes
Spektrum ähnlich
dem, wie es von einem menschlichen Sprachsignal erzeugt wird. Indem
die Daten in ein Signal codiert werden, das in seiner Struktur der
menschlichen Sprache ähnlich
ist, kann das Signal über
Sprachkanäle
eines Kommunikationssystems kommuniziert werden, welches Kompressionstechnologie
nutzt, ohne die Daten zu verlieren oder in negativer Weise zu beeinflussen.
-
Bei
einer Ausführungsform
umfassen die Grundsätze
der vorliegenden Erfindung einen Modulator zum Modulieren von Daten.
Der Modulator kann eine elektronische Vorrichtung umfassen, die
so ausgelegt ist, dass sie wenigstens eine Frequenz aus wenigstens
drei oder mehr Kandidaten-Frequenzen auswählt. Wenigstens ein Oszillator
kann mit der elektronischen Vorrichtung kommunizieren und ist so
ausgelegt, dass er jeweilige Oszillationssignale als Antwort auf
den Empfang der Frequenz(en) von der elektronischen Vorrichtung
erzeugt. Ein Rechenelement kann mit dem/den Oszillator(en) kommunizieren
und so ausgelegt sein, dass es das/die Oszillationssignal(e) empfängt und
ein moduliertes Audiosignal basierend auf dem/den Oszillationssignal(en)
erzeugt.
-
Eine
weitere Ausführungsform
gemäß den Grundsätzen der
vorliegenden Erfindung kann ein Modem umfassen, das einen Modulator
enthält,
welcher eine elektronische Vorrichtung aufweist, die so ausgestaltet ist,
das sie wenigstens eine Frequenz aus wenigstens drei oder mehr Kandidaten-Frequenzen
auswählt.
Wenigstens ein Oszillator kann mit der elektronischen Vor richtung
kommunizieren und so ausgelegt sein, dass er jeweilige Oszillationssignale
als Antwort auf den Empfang der Frequenz(en) von der elektronischen
Vorrichtung erzeugt. Ein Rechenelement kann mit dem/den Oszillator(en)
kommunizieren und so ausgelegt sein, dass es das/die Oszillationssignal(e)
empfangt und ein moduliertes Audiosignal basierend auf dem/den Oszillationssignal(en)
erzeugt.
-
Eine
weitere Ausführungsform
gemäß den Grundsätzen der
vorliegenden Erfindung umfasst ein System zum Kommunizieren von
Daten über
einen Sprachkanal. Das System kann einen Modulator umfassen, der
so ausgelegt ist, dass er digitale Daten empfängt und ein moduliertes Audiosignal
erzeugt, das die digitalen Daten enthält und Eigenschaften hat, die
eine harmonische Struktur und eine Formant-Struktur umfassen. Das System
kann weiter einen Sender umfassen, der so ausgestaltet ist, dass
er das modulierte Audiosignal über einen
Sprachkanal sendet. Das modulierte Audiosignal kann aus wenigstens
drei Frequenzen zusammengesetzt sein. Das System kann weiter einen
Paket-Codierer in Kommunikation mit dem Modulator umfassen, der so
ausgelegt ist, dass er Pakete digitaler Daten erzeugt, die von dem
Modulator verwendet werden, um das modulierte Audiosignal zu erzeugen.
Ein Vocoder kann das modulierte Audiosignal komprimieren, bevor
der Sender das modulierte Audiosignal sendet. Ein Empfänger kann
das komprimierte modulierte Audiosignal empfangen und ein Demodulator
kann so ausgelegt werden, dass er das modulierte Audiosignal demoduliert, um
die darin enthaltenen digitalen Daten zu bestimmen.
-
Noch
weiter umfassen die Grundsätze
der vorliegenden Erfindung einen Demodulator zum Demodulieren eines
modulierten Audiosignals. Der Demodulator kann einen Prozessor umfassen,
der so ausgestaltet ist, dass er ein moduliertes Audiosignal empfangt,
das wenigstens ein Oszillationssignal umfasst, welches bei wenigstens
einer jeweiligen Frequenz arbeitet, die aus wenigstens drei Kandidaten-Frequenzen
ausgewählt ist,
und feststellt, welche der wenigstens einen Frequenz aus den wenigstens
drei Kandidaten-Frequenzen das modulierte Audiosignal umfasst. Die
Bestimmung, welche der Frequenz(en) kommuniziert wird, kann dadurch getroffen
werden, dass bestimmt wird, welche der Frequenz(en) das stärkste Signal
unter den Kandidaten-Frequenz(en) hat.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
1 ist ein Blockschaubild eines beispielhaften
Kommunikationssystems zum Kommunizieren von Daten, welches die Grundsätze der
vorliegenden Erfindung verwendet;
-
1B ist
ein Blockschaubild eines Modems, das gemäß den Grundsätzen der
vorliegenden Erfindung ausgestaltet ist, außerhalb eines drahtlosen Gerätes;
-
1C ist
ein Blockschaubild eines Modems, das gemäß den Grundsätzen der
vorliegenden Erfindung ausgestaltet ist, innerhalb eines drahtlosen
Gerätes;
-
2 ist
ein Blockschaubild eines beispielhaften Paket-Codierers zur Verwendung
beim Codieren von Datenpaketen gemäß den Grundsätzen der
vorliegenden Erfindung;
-
3 ist
ein Blockschaubild, das ein beispielhaftes Datenpaket darstellt,
welches von dem Paket-Codierer der 2 erzeugt
worden ist;
-
4 ist
ein Blockschaubild, das einen beispielhaften Modulator zum Erzeugen
eines modulierten Audiosignals gemäß den Grundsätzen der
vorliegenden Erfindung darstellt;
-
5 ist
eine grafische Darstellung, die mehrere Töne oder Frequenzen zeigt, welche
zum Erzeugen des modulierten Audiosignals ausgewählt sind, welches von dem Modulator
der 4 erzeugt wird;
-
6 ist
eine grafische Darstellung, die einen beispielhaften Nyquist-Puls
zur Verwendung beim Erzeugen von Modulationssignalen innerhalb des
Modulators der 4 zeigt;
-
7 ist
eine grafische Darstellung, die ein moduliertes Audiosignal mit
einer Anzahl von Symbolen zeigt;
-
8 ist
ein Blockschaubild, das einen Teil des Kommunikationssystems der 1A zeigt;
-
9 ist
ein Blockschaubild eines beispielhaften Demodulators zur Verwendung
beim Demodulieren eines modulierten Audiosignals, das über einen
Sprachkanal eines Kommunikationssystems kommuniziert wird, so wie
dem Kommunikationssystem der 1A; und
-
10 ist
ein Ablaufdiagramm, das einen beispielhaften Prozess zum Bestimmen
von Daten, welche in dem modulierten Audiosignal der 7 enthalten
sind, zeigt.
-
GENAUE BESCHREIBUNG
-
1A ist
ein Blockschaubild eines beispielhaften Kommunikationssystems 100,
das die Grundsätze der
vorliegenden Erfindung verwenden kann. Das Kommunikationssystem 100 dient
der Datenübertragung über einen
Sprachkanal zwischen einem drahtlosen Gerät, so wie einem mobilen Telefon,
und einem festen Ort, so wie einer Anrufzentrale, die für die Fahrzeug-Telematik
verwendet werden kann, in der Lage. Eine Datenquelle 102 erzeugt
digitale Daten 103. Ein Modem 104 kann (i) einen
Paket-Codierer 106, der Datenpakte 107 erzeugt,
und (ii) einen Modulator 108, der ein moduliertes Audiosignal 109 basierend
auf den Datenpaketen 107 erzeugt, umfassen. Das Trennen
langer Nachrichten in Datenpakete ist auf dem Gebiet selbstverständlich und
ist eine übliche
Technik für
unzuverlässige
Umgebungen bei der Datenübertragung.
Zum Beispiel werden Datenpakete oftmals bei der öffentlichen Sicherheits-Funkkommunikation,
im Amateurfunk, bei zellularer Kommunikation und im Internet verwendet.
-
Das
modulierte Audiosignal 109 ist so strukturiert, das es
eine harmonische Struktur eines beabstandeten Sprachsignals und
eine Formant-Struktur ähnlich
der, die von dem menschlichen Sprachtrakt erzeugt wird, aufweist.
Zusätzlich
hat das modulierte Audiosignal 109 ein sich zeitlich änderndes
Frequenzspektrum, so dass es Sprachsignalen besser ähnelt, die
inhärent
ein sich kontinuierlich änderndes
Frequenzspektrum haben. Ein drahtloses Gerät 110, so wie ein
zellularer Handapparat, kommuniziert das modulierte Audiosignal 109.
Das drahtlose Gerät 110 kann
einen Vocoder (siehe 1B) umfassen, der zum Komprimieren
von Sprachsignalen eingesetzt wird, um die Bandbreite des Kommunikationssystems 100 zu
maximieren. Das drahtlose Gerät 110 kommuniziert
ein drahtloses Signal 112, welches das modulierte Audiosignal 109 umfasst, wie
es von dem drahtlosen Gerät 110 über einen
Sprachkanal verarbeitet wird.
-
Ein
drahtloser Empfänger 114,
so wie eine zellulare Basisstation, kann das drahtlose Signal 112 über den
Sprachkanal empfangen und das drahtlose Signal 112 an ein
PSTN 116 kommunizieren. Ein quantisiertes Audiosignal 117,
welches die codierten Daten in dem modulierten Audiosignal 109 enthält, wird
an einen Demodulator 118 kommuniziert. Der Demodulator 118 demoduliert
das quantisierte Audiosignal 117, um ein demoduliertes
Signal 119 zu bilden, das durch einen Paket-Decodierer 120 geleitet
wird, um die Daten zu decodieren, welche in dem demodulierten Signal 119 gespeichert
sind, um Daten 121 zu erzeugen. Die Daten 121, die
dieselben sind wie die digitalen Daten 103, können an
einen Datenempfänger 122,
so wie eine Anrufzentrale, für
die zeitgenaue Lieferung der Nachricht kommuniziert werden.
-
1B ist
ein Blockschaubild eines Modems, das gemäß den Grundsätzen der
vorliegenden Erfindung ausgestaltet ist, außerhalb eines drahtlosen Gerätes. Die
Datenquelle 102 kann mit dem Modem 104 verbunden
werden, um an dieses digitale Daten 103 zu kommunizieren.
Das Modem 104 kann so ausgestaltet sein, wie es in 1A gezeigt
ist, um das modulierte Audiosignal 109 zu erzeugen, das
an das drahtlose Gerät 110a kommuniziert
werden soll. Wie gezeigt befindet sich das Modem 104 physikalisch
außerhalb
des drahtlosen Gerätes 110a.
Bei einer Ausführungsform
ist das drahtlose Gerät 110a ein
mobiles Telefon oder ein anderes Gerät, das so ausgestaltet ist,
dass es Sprachsignale über
ein zellulares oder ein anderes drahtloses Kommunikationssystem
kommuniziert. Da es zum Kommunizieren von Sprachsignalen ausgestaltet
ist, umfasst das drahtlose Gerät 110a einen
Vocoder 124 zum Komprimieren von Sprachsignalen. Wie gezeigt,
ist das Modem 104 mit einem externen Verbinder 126 verbunden,
der einen internen Signalweg 128 hat, der direkt oder indirekt
zu dem Vocoder 124 führt.
In dem Fall, dass das Modem 104 mit einem mobilen Telefon
verbunden ist, kann die Verbindung zwischen dem Modem 104 und
dem drahtlosen Gerät 110a einen
externen Verbinder 126 umfassen, der typischerweise für einen
externen Audiohandapparat verwendet wird, wie er auf dem Gebiet
selbstverständlich
ist. Diese Ausgestaltung erlaubt es, dass das Modem 104 bei
einer großen
Vielfalt mobiler Telefone verwendet wird, da die Schnittstelle des
Audio-Handapparates
unter den Mobiltelefonherstellern nahezu identisch ist. Der Vocoder 124 steht
mit einem Transceiver 130 zum Kommunizieren des modulierten
Audiosignals 109 von dem drahtlosen Gerät 110a in Verbindung.
-
1C ist
ein Blockschaubild eines Modems, das gemäß den Grundsätzen der
vorliegenden Erfindung ausgestaltet ist und innerhalb eines drahtlosen
Gerätes 110b angeordnet
ist. Die Datenquelle 102 kommuniziert mit dem drahtlosen
Gerät 110b.
Bei dieser Ausführungsform des
drahtlosen Gerätes 110b ist
ein Digitalsignalprozessor („DSP") 132 oder
ein anderer Prozessor vorgesehen, der Software ausführt, um
die Funktion eines Vocoders 134 und eines Modems 136 auszuführen. Diese
Ausgestaltung führt
zu einem kostengünstigeren
System, da das Modem in die Praxis umgesetzt wird, indem Software
auf den DSP 132 aufgeschaltet wird, der bereits in dem
drahtlosen Gerät 110b vorliegt.
Bei dieser Ausgestaltung werden die digitalen Daten 103 zu
dem drahtlosen Gerät 110b über einen
geschützten
Verbinder in dem drahtlosen Gerät 110b oder über eine
drahtlose Datenverbindung mittels Bluetooth weitergeleitet. Jedenfalls
ist das Modem 136 in der Lage, dieselbe Funktion auszuüben, wie
das Modem 104 der 1B. Ähnliche
Konfigurationsarbeitsgänge,
abhängig
von der gewünschten
Ebene der Integration, liegen für
die Verbindung zu einem PSTN vor. Bei einer alternativen Ausgestaltung
kann das Modem und/oder das drahtlose Gerät in einem Controller enthalten sein.
Bei einer Ausführungsform
kann der Controller in einem Transportbetrieb ausgestaltet sein,
beispielsweise bei einem Kraftfahrzeug.
-
2 ist
ein Blockschaubild eines beispielhaften Paket-Codierers 106 zur
Verwendung beim Codieren von Datenpaketen gemäß den Grundsätzen der
vorliegenden Erfindung. Ein Paketgenerator 202 arbeitet
so, dass er das digitale Signal 103, das einen Datenstrom
bildet, von der Datenquelle 102 (1A) in
Datenpakete 204 auftrennt. Bei einer Ausführungsform
enthalten die Datenpakete 204 ungefähr 1000 Bit. Ein Generator 206 für einen
zyklischen Redundanzcode („CRC” – Cyclic
Redundancy Code) empfangt die Datenpakete 204 und fügt Redundanzinformation
hinzu, die von einem Empfänger
verwendet wird, um nicht korrigierbare Sendefehler nach dem Demodulieren
und der Fehlerkorrektur bei dem Empfänger 114 (1A)
zu erfassen, wie es auf dem Gebiet selbstverständlich ist. Als Alternative
könnten
andere Fehlercodes verwendet werden.
-
Die
Ausgabe des CRC-Generators 206 wird an einen Randomisierer 208 kommuniziert.
Der Randomisierer 208 invertiert ausgewählte Bits entsprechend einer
pseudozufälligen
Sequenz, die sowohl dem Sender als auch dem Empfänger des Kommunikationssystems
bekannt ist, wie es auf dem Gebiet selbstverständlich ist. Ein Codierer 210 für die Vorwärtsfehlerkorrektur
(FEC – Forward
Error Correction) empfängt
die Ausgabe von dem Randomisierer 208 und fügt dem Datenpaket
weitere Redunanzinformation hinzu. Bei einer Ausführungsform
kann ein Reed-Solomon-Code (31, 21) verwendet werden, so dass bestimmte
Muster an Übertragungsfehlern
an dem Empfänger 114 korrigiert
werden können,
wie es auf dem Gebiet selbstverständlich ist. Es sollte verstanden
werden, dass andere FEC-Codiertechniken verwendet werden können. Der FEC-Codierer 210 erzeugt
FEC-Codewörter 211,
wie es auf dem Gebiet selbstverständlich ist.
-
Ein
Verschachteler 212 kann so ausgestaltet werden, dass er
Gruppen aus Bits zeitlich umordnet, so dass Übertragungsfehlerpulse über mehrere
FEC-Coderwörter 211 verstreut
werden, was somit weiter die Wahrscheinlichkeit einer erfolgreichen
Fehlerkorrektur am Empfänger
erhöht.
Der Verschachteler 212 gibt ein Datenpaket aus, das Inhalts-
und Redundanzinformation umfasst. Das Datenpaket 213 kann
ungefähr
1500 Bit lang sein und Inhalt umfassen, das sowohl Daten- als auch
Redundanzinformation enthält.
Es sollte verstanden werden, dass die Größe der Datenpakete 213 langer
oder kürzer
sein kann, abhängig
von der bestimmten Implementierung des Paket-Codierers 106.
-
Eine
Nachrichtenkopf-Rechenfunktion 214 wird verwendet, um einen
Nachrichtenkopf zu berechnen, der von dem Empfänger verwendet wird, um bestimmte
Aspekte des Pakets für
die Demodulation vor dem Decodieren zu bestimmen. Der Nachrichtenkopf
kann Information über
das Paket umfassen, einschließlich
der Paketlänge
und des Typs der Vorwärtsfehlerkorrektur,
die verwendet wird, wie es auf dem Gebiet selbstverständlich.
Die Information über
den Nachrichtenkopf, die von der Nachrichtenkopf-Rechenfunktion 214 bestimmt
wird, kann vorn an die Datenpakete 213 angehängt werden.
Eine Sync-Wort-Zusatzfunktion 216 kann ein Synchronisations
(Sync)-Wort an das Datenpaket anhängen, das von dem Empfänger verwendet
wird, um den Beginn des Datenpaketes zu markieren. Bei einer Ausführungsform hängt die
Sync-Wort-Zusatzfunktion 216 das Sync-Wort vorn an das
Datenpaket 107 an, an dem auch ein Nachrichtenkopf vorn
an das Datenpaket angehängt
sein kann.
-
3 ist
ein Blockschaubild, welches ein beispielhaftes Datenpaket 107 darstellt,
das von dem Paket-Codierer 106 der 2 erzeugt
worden ist. Wie gezeigt, umfasst das Datenpaket 107 drei
Hauptabschnitte, ein Sync-Wort 304, einen Nachrichtenkopf 302 und
Daten- und Redundanzinformation 213. Es sollte verstanden
werden, dass sich das Sync-Wort 304 und der Nachrichtenkopf 302 anderswo
befinden werden können,
oder irgendeine andere Ausgestaltung haben können und dieselbe oder eine ähnliche
Funktionalität
gemäß den Grundsätzen der
vorliegenden Erfindung zur Verfügung
stellen. Indem jedoch das Sync-Wort 304 vom an das Datenpaket 107 gebracht
wird, kann ein Empfänger
den Beginn des Datenpaketes 107 bestimmen. Die Daten- und
Redundanzinformation umfasst Daten von dem digitalen Signal 103 (1 und 2), bei
dem weitere Arbeitsgänge
ausgeführt
worden sind, um das Datenpaket 107 für die Lieferung an den Modulator 108 (1A)
vorzubereiten. Bei einer Ausführungsform
ist das Sync-Wort 304 21 Bit lang, und der Nachrichtenkopf
ist 23 Bit lang. Es sollte verstanden werden, dass die Länge des
Sync-Wortes 304 und des Nachrichtenkopfes 302 unterschiedlich
sein kann, wobei sie weiter dieselbe oder eine ähnliche Funktionalität zur Verfügung stellen,
als ob sie das Sync-Wort 304 mit 21 Bit und den Nachrichtenkopf 302 mit
23 Bit haben. Während
die Daten- und Redundanzinformation ungefähr 1500 Bit umfassen kann,
können
andere Längen auch
dieselbe oder eine ähnliche
Funktionalität
zur Verfügung
stellen, wie sie durch die Grundsätze der vorliegenden Erfindung
bereitgestellt wird.
-
4 ist
ein Blockschaubild, das einen beispielhaften Modulator 108 zum
Erzeugen eines modulierten Audiosignals gemäß den Grundsätzen der
vorliegenden Erfindung darstellt. Die codierten Pakete 107 werden von
dem Paket-Codierer 106 (1A) ausgegeben
und in den Modulator 108 eingegeben. Der Modulator 108 wandelt
Bits des Datenpakets 107 in modulierte Signale um, die
von einem drahtlosen Gerät 110 gesendet werden
können.
Das Datenpaket 107 wird als eine Gruppe einzelner Bits
betrachtet, die in eine Eingangsleitung 402 des Modulators 108 gespeist
werden. Die Datenpakete 107 werden zu dem Modulator 108 mit
einer Bitrate von FB (Frequenz der Bits) Bits pro Sekunde kommuniziert.
Aufeinanderfolgende Bits des codierten Paketes 107 werden
mit einem Seriell-Parallel-Wandler 404 in parallele Wörter umgewandelt.
Der Seriell-Parallel-Wandler 404 kann ein 8-Bit-Wandler
sein. Als Alternative kann der Seriell-Parallel-Wandler 404 kleiner
oder größer sein.
-
Wenn
ein Seriell-Parallel-Wandler 404 mit 8 Bit verwendet wird,
werden Bytes mit einer Symbolrate FS (Frequenz der Symbole) erzeugt,
die genau 1/8 der Bitrate FB beträgt. Die Ausgaben des Seriell-Parallel-Wandlers 404 werden
auf dem Bus 406 zu einer Codiertabelle 408 kommuniziert.
Die Codiertabelle 408 kann von einem Prozessor betrieben
werden, so wie einem DSP oder einer anderen unterschiedlichen Hardware.
Ein Prozessor, der die Codiertabelle 408 betreibt, kann
für andere
Zwecke innerhalb des Modems verwendet werden, einschließlich zum
Betreiben des Paket-Codierers 106. Die Codiertabelle 408 bildet
Datenbytes, die von dem Seriell-Parallel-Wandler 404 ausgegeben
werden, in eindeutige Kombinationen aus drei Tonfrequenzen ab, die
einem Satz aus 13 möglichen
Kandidaten-Tonen oder -frequenzen entnommen sind, welche in der
Codiertabelle 408 gespeichert sind. Da es 286 mögliche Kombinationen
aus 13 Größen gibt, wenn
man jeweils drei nimmt, und es nur 256 eindeutige binäre Muster
für ein
Byte gibt, bleiben dreißig
Kombinationen unbenutzt. Mit anderen Worten werden 256 Einträge in der
Codiertabelle 408 gespeichert. Die Codiertabelle hat drei
Ausgänge 410a, 410b und 410c (gemeinsam
als 410 bezeichnet). Die Ausgänge 410 stellen drei
unterschiedliche Frequenzen F1, F2 und F3 dar, die ausgewählt sind,
um das modulierte Audiosignal 109 zu erzeugen (1A).
Jede der Frequenzen F1–F3
wird in Oszillatoren 412a, 421b bzw. 412c über Eingangsleitungen 414a, 414b bzw. 414c eingegeben.
Die Oszillatoren 412a–412c empfangen
die Frequenzsignale F1–F3
jeweils auf Eingangsleitungen 414a–414c.
-
Bei
dieser Ausführungsform
sind die Kandidaten-Tonfrequenzen:
wobei k = 3, 5, 7, ...27,
die eine harmonische Beziehung haben, bei der die Kandidaten-Tone
ungradzahlige Vielfache der Basisfrequenz von 119.403 Hz sind, was
somit die genaue Darstellung von dem Pitch-Prediktor in dem Vocoder
erlaubt. Als Alternative könnten
andere Basisfrequenzen verwendet werden. Es sollte verstanden werden,
dass gradzahlige Vielfache oder eine Kombination aus gradzahligen
und ungradzahligen Vielfachen der Basisfrequenz als Alternative
verwendet werden könnten.
Die Basisfrequenz wird bei dieser Ausführungsform nicht benutzt, da
sie zufällig
außerhalb
des Frequenzbereichs des PSTN liegt.
-
Die
Frequenzen F1–F3
stellen drei individuelle Tonfrequenzen dar, die in die jeweiligen
Oszillatoren 412a–412c eingegeben
werden. Diese Oszillatoren werden als „frequenzagil" dahingehend betrachtet,
dass die in der Lage sind, jedwede der Kandidaten-Tonfrequenzen
zu erzeugen. Die Oszillatoren sind auch phasenkohärent, was
bedeutet, dass Frequenzübergänge keine
sofortigen Phasenübergänge hervorrufen,
welche das Erzeugen eines unerwünschten
harmonischen Inhalts hervorruft. Ein Taktgenerator 416 wird
verwendet, um ein Taktsignal 418 zu erzeugen. Bei einer
Ausführungsform
kann das Taktsignal verwendet werden, um die Datenquelle 102 (1A)
zu takten und um einen Nyquist-Pulsgenerator 420 zu steuern.
Obwohl sich das Modem nicht an die genaue Bitrate der Datenquelle
anpasst, können
Ratenanpassungs- und „elastische" Speichervorrichtungen,
so wie die, die bei Pulscodemodulation („PCM” – Pulse Coded Modulation)-Telefonverbindungen
verwendet werden, eingesetzt werden, wie es auf dem Gebiet selbstverständlich ist.
Der Nyquist-Pulsgenerator 420 erzeugt einen Nyquist-Puls 422,
der in die Oszillatoren 412a–412c jeweils auf
den Eingangsleitungen 424a–424c eingegeben wird.
Beim Erzeugen des Nyquist-Pulses 422 kann der Nyquist-Pulsgenerator 420 einen
vollen Nyquist-Filter umfassen, der eine Bandbreite von 25 Hz und
ein Alpha (a) = 1.0 hat. Das Nyquist-Pulssignal 422 wird
in Amplitudensteuereingänge
der Oszillatoren 412a–412c eingegeben.
Die Funktion des Nyquist-Pulses ist ein gut bekannter Arbeitsgang
des Glättens
von Pulsen. In diesem Fall verwenden wir die Amplitudeneinhüllende des
Nyquist-Pulses, so dass Oszillationssignale 426a, 426b und 426c,
die von den Oszillatoren 412a–412c ausgegeben werden,
gleichzeitig zeitlich und spektral beschränkt werden können. Es sollte
verstanden werden, dass andere Arten von Pulsen verwendet werden
könnten,
einschließlich
der Gauss'schen
oder irgendeiner anderen Funktion, die in der Lage ist, ein Signal
zeitlich und spektral zu beschränken.
Die Ausgangs-Oszillationssignale 426a, 426b und 426c der
Oszillatoren 412a, 412b und 412c sind Eingansleitungen 428a, 428b und 428c in
einen Summierer 430. Der Summierer arbeitet so, dass er
die drei Oszillationssignale 426a–426c aufsummiert,
um ein moduliertes Audiosignal 109 auf der Ausgangsleitung 423 zu
erzeugen. Es sollte verstanden werden, dass der Summierer 430 als
Alternative ein unterschiedliches Rechenelement sein kann, um ein
moduliertes Audiosignal zu erzeugen, das mit den Grundsätzen der
vorliegenden Erfindung konsistent ist. Bei einer Ausführungsform
kann Rauschen (z. B. weißes
Rauschen) in den Summierer 430 eingegeben werden, während das
Modem arbeitet, um den Betrieb eines Vocoders zu verbessern, der
innerhalb eines drahtlosen Gerätes
arbeitet. Es sollte verstanden werden, dass ein derartiges Rauschen keine
Daten (d. h. Bits) darstellt, sondern statt dessen Signalrauschen,
wie es auf dem Gebiet selbstverständlich ist. Bei einer alternativen
Ausführungsform
kann das Rauschen außerhalb
des Modems, jedoch vor dem Vocoder aufgegeben werden. Wenn das Modem
außerhalb
des drahtlosen Gerätes
liegt, kann das modulierte Audiosignal 109 nun in ein drahtloses
Gerät 110 (1A),
so wie einen zellularen Handapparat, zum Senden des modulierten
Audiosignals 109 über
einen Sprachkanal an einen drahtlosen Empfänger 114, so wie eine zellulare
Basisstation, eingegeben werden.
-
Als
eine beispielhafte Arbeitsweise des Modulators 108 kann
das Datenpaket 107 einen binären Wert 10110101 haben. Der
Seriell-Parallel-Wandler 404 wandelt das Datenpaket 107 in
ein Byte aus Daten um, das über
den Bus 406 kommuniziert wird. Der binäre Wert 10110101 wird in das
Byte 0×B5
umgewandelt, was die hexadezimale Darstellung von binären Daten ist.
Die drei Tabelleneinträge
für 0×B5 sind
2 in der Zeile 414a, 5 in der Zeile 414b und 9
in der Zeile 414c. Die Eingabe von 2 in den Oszillator 412a ruft
bei ihm hervor, dass er ein Oszillationssignal 426a erzeugt,
das eine Frequenz von 835.8 Hz hat. Der Nyquist-Puls auf der Eingangsleitung 424a formt
die Einhüllende
der Sinusfunktion, so dass sie mit der Amplitude Null beginnt, die
Vollamplitude in der Mitte des Symbols verwirklicht und mit der
Amplitude Null endet. In ähnlicher
Weise erzeugen die Oszillatoren 412b und 421c Oszillationssignale 426b und 426c mit
Frequenzen von 1552.2 Hz bzw. 2507.5 Hz, und ihre Einhüllenden
sind in ähnlicher
Weise geformt. Die drei geformten Oszillationssignale 426a, 426b und 426c werden
von dem Summierer 430 aufaddiert, was zu dem modulierten
Audiosignal 109 auf der Ausgangsleitung 432 führt.
-
5 ist
eine graphische Darstellung, die mehrere Töne oder Frequenzen zeigt, welche
zum Erzeugen des modulierten Audiosignals ausgewählt werden, das von dem Modulator
der
4 erzeugt wird. Wie gezeigt, gibt es dreizehn
Kandidaten-Tone oder -frequenzen F0– F12, aus denen drei, zum
Beispiel F0, F3 und F8, oder mehr ausgewählt werden können, um
das modulierte Audiosignal zu bilden, das eine harmonische Struktur,
eine Formant-Struktur und ein zeitlich sich änderndes Frequenzspektrum hat,
um eine menschliche Stimme zu modellieren. Die Frequenzen können um über 200
Hertz (Hz) zwischen 300 und 3300 Hz getrennt sein. Als Alternative
können
andere Frequenzen verwendet werden, um die Formant-Struktur zu bilden
und in Übereinstimmung
mit den Grundsätzen
der vorliegenden Erfindung zu sein. Die Frequenzen können eingestellt
werden, wie es in der TABELLE I hiernach gezeigt ist.
Lokaler
Oszillator | Frequenz
(Hz) | Lokaler
Oszillator | Frequenz
(Hz) |
LO
0 | 300 | LO
7 | 1901 |
LO
1 | 526 | LO
8 | 2138 |
LO
2 | 753 | LO
9 | 2382 |
LO
3 | 980 | LO
10 | 2636 |
LO
4 | 1208 | LO
11 | 2906 |
LO
5 | 1437 | LO
12 | 3200 |
LO
6 | 1667 | | |
TABELLE
I
-
6 ist
eine graphische Darstellung, die einen beispielhaften Nyquist-Puls
zur Verwendung beim Erzeugen von Modulationssignalen innerhalb des
Modulators der 4 zeigt. Der Nyquist-Puls 422 wird
verwendet, um durch Glätten
die Ausgangs-Oszillationssignale 426a–426c (4)
zu formen. Bei einer Ausführungsform
wird der Nyquist-Puls 422 auf α = 1.0 gesetzt, was verschiedene
Parameter eines Nyquist-Pulses einrichtet, wie es auf dem Gebiet
selbstverständlich
ist, um eine Form der Einhüllenden
des Pulses zu erzeugen, um sowohl den zeitlichen als auch den spektralen
Gehalt zu beschränken.
Die Pulsdauer stellt die Dauer des 1-Symbols dar und wiederholt
sich mit jedem Symbol, so dass sichergestellt wird, das jedes Symbol
unabhängig
ist.
-
7 ist
eine graphische Darstellung, welche ein moduliertes Audiosignal 109 zeigt,
welches eine Anzahl von Symbolen zeigt. Das modulierte Audiosignal 109 ist
so gezeigt, dass es mehrere Symbole hat, wie sie von dem Nyquist-Puls 422 (6)
moduliert worden sind. Da jedes codierte Wort unterschiedlich sein kann,
hat jedes gezeigte Symbol eine unterschiedliche Struktur, so dass
die verfälschenden
Effekte der Vocoder vermieden werden, an denen herkömmliche
Modemsignale leiden.
-
Eine
Ausführungsform
gemäß den Grundsätzen der
vorliegenden Erfindung sendet drei Frequenzen oder Töne aus einem
Satz von dreizehn Kandidaten-Frequenzen. Jedoch kann sowohl die
Anzahl der Kandidaten-Töne
und/oder die Anzahl der gesendeten Töne geändert werden. Das Anheben der
Anzahl der Kandidaten-Töne
und/oder der gesendeten Töne
ermöglicht
es dem Modem, mehr Informationsbits pro Symbol zu senden, so dass
die Bitrate erhöht
wird. Jedoch verringert das Anheben der Anzahl der Kandidaten-Tone und/oder
der gesende ten Töne
den Euklidischen Abstand des gesendeten Symbolsatzes und erhöht die Übertragungsfehlerrate,
wenn der Vocoder durchlaufen wird. Wenn die Anzahl der Kandidaten-
oder gesendeten Töne
abnimmt, dann nimmt die Bitrate ab, jedoch ist das Modem zuverlässiger.
Bei einer weiteren Ausführungsform
wird eine oder werden mehrere Frequenzen aus einem Satz aus drei
oder mehr Kandidaten-Frequenzen erzeugt und gesendet. Das Modem
kann dieselbe Anzahl von Frequenzen für jedes kommunizierte Symbol
verwenden. Zum Beispiel kann jedes Symbol drei Frequenzen umfassen.
Weiter kann ein Abstand, so wie 50 ms, zu jedem Symbol eingerichtet
werden, um die Stabilität
und Zuverlässigkeit
des Systems sicherzustellen.
-
Eine
erfolgreiche Datenübertragung
des modulierten Signals 109, welches von dem Modem 104 (1A)
erzeugt worden ist, das den Paket-Decodierer 106 und den
Modulator 108 umfasst, ist erreicht, wenn das modulierte
Audiosignal 109 der menschlichen Sprache ähnelt. Das
modulierte Audiosignal 109, das nun der menschlichen Sprache ähnelt, bewirkt,
dass das modulierte Audiosignal 109 als ein Sprachsignal
behandelt wird, anstatt dass es vor der Sendung entsorgt wird. Eine
erfolgreiche Datenübertragung,
wie es hiernach erläutert
werden wird, ist auch erreicht, wenn die Daten codiert sind, indem
wahrnehmbare Aspekte der menschlichen Sprache verwendet werden,
die von dem Vocoder unbeeinflusst bleiben. Diese Aspekte werden wie
folgt erreicht.
-
Zunächst sollte
sich das Frequenzspektrum des modulierten Audiosignals 109 (Datensignal)
im Wesentlichen kontinuierlich ändern.
Eine grundsätzliche
Eigenschaft der menschlichen Sprache ist, dass sich das Frequenzspektrum
kontinuierlich ändert.
Sprachkompressoren, so wie Vocoder, nutzen diese Eigenschaft aus und
beseitigen Signale, die der Sprache nicht ähneln, vor der Kompression,
so dass sowohl die Leistungsfähigkeit
als auch die Treue der Kompression verbessert wird. Beim Entwickeln
der Grundsätze
der vorliegenden Erfindung war das Verständnis dieser beiden Grundsätze (d.
h. der kontinuierlichen Änderung
im Frequenzspektrum der menschlichen Spracheigenschaften und die
Dämpfung
oder Beseitigung von Nicht-Sprache durch den Vocoder mittels Rauschen
reduzierender Filter, so wie Weiner-Filter), welches zu der Entdeckung führte, dass
Daten im Wesentlichen dieselben Eigenschaften haben sollten, wie
menschliche Sprache (z. B. eine im Wesentlichen kontinuierliche Änderung
im Frequenzspektrum), so dass sie durch den Vocoder laufen, ohne
dass sie verfälscht
werden. Jedwedes Signal mit einem unveränderten Spektrum, wenn es über eine Dauer
von mehreren Sekunden gemessen wird, wird als Nicht-Sprache oder "Rauschen" klassifiziert und
wird durch Rauschen löschende
Filter beseitigt. Klassische Modulationstechniken, so wie QPSK,
QAM oder MSK, haben alle konstante Frequenzspektren und werden daher
von Sprachkompressoren beseitigt oder stark gedämpft. Das modulierte Audiosignal 109 gemäß den Grundsätzen der
vorliegenden Erfindung belegt einen weiten Frequenzbereich und benutzt
bestimmte Frequenzen sporadisch, so dass ein sich im Wesentlichen kontinuierlich änderndes
Spektrum zur Verfügung
gestellt wird. Da der Inhalt des Datenpakets im Wesentlichen zufällig ist,
sind die Frequenzen, die in der Codiertabelle 408 (4)
ausgewählt
werden, im Wesentlichen zufällig,
was bewirkt, dass die Symbole (7) des modulierten
Audiosignals 109 sich im Wesentlichen kontinuierlich ändern.
-
Zweitens
sollte das Frequenzspektrum des modulierten Audiosignals 109 sich
nicht schneller ändern als
der menschliche Sprachtrakt. Vocoder nutzen die relativ geringe
Geschwindigkeit der Änderung
des Sprachtraktes, indem die Parameter des Sprachtraktes mit einer
geringen Geschwindigkeit aktualisiert werden, die typischerweise
zwischen 50 und 100 Hz liegt. Wenn sich das Frequenzspektrum des
modulierten Audiosignals 109 schneller ändert als der menschliche Sprachtrakt,
dann ist die Aktualisierungsgeschwindigkeit innerhalb des Vocoders
nicht ausreichend niedrig, und das Datensignal wird unterbrochen.
Gemäß den Grundsätzen der
vorliegenden Erfindung jedoch aktualisiert das modulierte Audiosignal 109 die
spektrale Einhüllende
alle 20 Millisekunden (ms) oder länger (z. B. 30 ms), was ausreichend
niedrig ist, um zu verhindern, dass durch Vocoder in dem Kommunikationsweg
der drahtlosen Kommunikationsgeräte
verfälscht
wird.
-
Drittens ähnelt die
Formant-Struktur des modulierten Audiosignals 109 der menschlichen
Sprache. Eine menschliche Stimme hat typischerweise drei spektrale
Peaks, die als Formanten bezeichnet werden. Die Formanten werden
von den menschlichen spracherzeugenden Räumen gebildet, und physikalische
Beschränkungen
des spracherzeugenden Raums beschränken die Schärfe der
Frequenzauflösung
und Anzahl der Bildungen. Vocoder modulieren die frequenzselektiven
Eigenschaften des menschlichen Vokaltraktes als einen akustischen
oder äquivalent
einen elektrischen Filter angenäherter
Ordnung 10, was bedeutet, dass der Filter zehn Pole hat, wie es
von einem Fachmann selbstverständlich
wird. Die Formant-Struktur, wie sie gemäß den Grundsätzen der
vorliegenden Erfindung betrachtet wird, kann dargestellt werden,
indem ein zehnpoliges Modell verwendet wird.
-
Viertens
ist in der momentanen Wellenform des modulierten Audiosignals 109 keine
Information enthalten. Stattdessen wird die Information codiert,
indem wahrnehmungsmäßige Aspekte
der Stimme verwendet werden, die von dem Vocoder unbeeinflusst bleiben.
Vocoder nutzen die Tatsache aus, dass das menschliche Ohr weitgehend
intolerant auf die Signalphase und nur wenig intolerant für kleine
Pitch-Variationen ist, daher treiben Vocoder nur einen minimalen
Aufwand, um die momentane Wellenform des Eingangssignals zu reproduzieren.
Der Vocoder versucht zwar, den Pitch (obwohl nicht die Phase) und
die Formant-Struktur zu reproduzieren, da sie linguistische Information
ebenso wie Information, die für
die Erkennung des Sprechers verwendet wird, transportieren. Gemäß den Grundsätzen der
vorliegenden Erfindung codiert das Modem Information, indem Pitch
und Formant-Struktur verwendet werden und hängt daher nicht von der momentanen
Wellenform ab.
-
Fünftens sollte
das Signal einen Pitch haben, was sich auf eine gleichförmig beabstandete
Reihe von Frequenzdomänen-Harmonischen
einer Basisfrequenz bezieht. Vocoder können wegen ihres adaptiven
Codebuchs leicht eine gleichförmig
beabstandete Serie von Harmonischen darstellen. Wenn jedoch ein
Signal mehrere nicht harmonisch bezogene Sinusformen enthält, ist
es schwierig für
den Decoder, ein derartiges Signal darzustellen, und die Treue leidet.
Das modulierte Audiosignal 109, gemäß den Grundsätzen der
vorliegenden Erfindung, bezieht sich auf gleichförmig beabstandete Serien von
Harmonischen, so dass es dem Vocoder möglich wird, Eigenschaften des
Pitch auszunutzen.
-
8 ist
ein Blockschaubild, das einen Teil des Kommunikationssystems 100 der 1A zeigt.
Das PSTN 116 empfangt das modulierte Audiosignal 109 (7)
durch irgendeinen aus (i) einem End Office 802 der Klasse
5, (ii) einem Private Branch Exchange ("PBX") 804 oder
(iii) einem 64 Kb PCM. Wenn das modulierte Audiosignal ein analoges
Signal ist und durch das End Office 802 der Klasse 5 läuft, oder
wenn es ein analoges Signal von dem PBX 804 ist, werden
Abtaster 806 bzw. 808 verwendet, um das modulierte
Audiosignal 109 mit 8000 Probenwerten pro Sekunde abzutasten,
wobei ein Quantisierer mit 14 Bit verwendet wird. Wenn das modulierte
Audiosignal 100 als ein PCM-Signal mit 64 Kb kompandiert
wird, dann werden die komprimierten Probenwerte mit dem Expandierer 806 in
linear beabstandete Probenwerte mit 14 Bit umgewandelt. Man bemerke,
dass die Arbeitsgänge
der Kompression und Expansion (somit der Ausdruck kompandieren)
in dem PSTN 116 vollständig
von der Sprachkompression bei Expansionsarbeitsgängen, die mit dem Vocoder verknüpft sind,
getrennt sind. Die Eingabe in den Demodulator 118 (1A)
ist eine Abfolge von digitalisierten Probenwerten mit 14 Bit bei
8000 Probenwerten pro Sekunde.
-
9 ist
ein Blockschaubild eines beispielhaften Demodulators 118 und
eines Paket-Decodierers 120 und
wird beim Demodulieren eines modulierten Audiosignals 109 (7),
das über
einen Sprachkanal eines Kommunikationssystems, so wie dem Kommunikationssystem
der 1A, kommuniziert wird, und beim Decodieren des
demodulierten Signals 119 verwendet. Der Demodulator 118 empfängt ein
quantisiertes Audiosignal 117 auf der Eingangsleitung 901.
Die Eingangsleitung kann das quantisierte Audiosignal zu mehreren Mischern
oder Abwarts-Wandlern 902a–902n (gemeinsam als 902 bezeichnet)
transportieren. Die Mischer 902 können parallel sein und eine
weitere Eingabe von lokalen Oszillatoren 904a–904n (gemeinsam
als 904 bezeichnet) empfangen. Die Frequenzen von den lokalen
Oszilla toren 904 sind die Kandidaten-Tonfrequenzen, die
in 5 und in der TABELLE I zur Verfügung gestellt
sind. In dem Fall, dass dreizehn Frequenzen verwendet werden, kann
es dreizehn Mischer 902 geben, die parallel ausgebildet
sind, wobei jeder Mischer ein Signal empfängt, das einen lokalen Oszillator
hat, um die Kandidaten-Tonfrequenz für das Abwärtswandeln zur Verfügung zu
stellen. Das heißt,
jeder Mischer 902 wandelt das quantisierte Audiosignal 117 um
einen Betrag abwärts,
der gleich der Frequenz des jeweiligen lokalen Oszillators ist,
so dass eine Mischereingabe mit der Frequenz des lokalen Oszillators
ein komplexes Basisband oder ein Gleichstrom (DC – direct
current)-Signal am Ausgang des Mischers erzeugt.
-
Jedem
der Mischer 902 folgt ein Tiefpassfilter 908a–908n (gemeinsam
als 908 bezeichnet), um Mischterme zu beseitigen, die durch
die Abwärtswandlung
hervorgerufen worden sind, und um benachbarte Töne zurückzuweisen. Die Bandbreite
des Tiefpassfilters kann ungefähr
80 Hz sein, was groß genug
ist, um eine Tonpulseinhüllende
eines Symbols des modulierten Audiosignals durchzulassen, jedoch
eng genug, um benachbarte Töne
der Tonkandidaten zurückzuweisen.
Bei einer Ausführungsform
können
Kaskaden-Integratorkamm ("CIC" – Cascade Integrator Comb)-Filter
verwendet werden, um die Rechenlast eines DSP, der Software zum
Implementieren des Demodulators 118 ausführt, zu
minimieren, wie es auf dem Gebiet selbstverständlich ist. Als Alternative
kann der Demodulator implementiert werden, indem diskrete Logik
verwendet wird, ein Allzweckprozessor oder eine andere Implementierung,
wie es auf dem Gebiet selbstverständlich wird. Da die Bandbreite
der Ausgaben der Tiefpassfilter wesentlich geringer ist als die
Bandbreite der Eingaben, kann die Abtastrate von Dezimatoren 910a–910n (gemeinsam
als 910 bezeichnet) auf das Zehnfache der Abtastrate oder
250 Hz verringert werden. Die geringere Symbolgeschwindigkeit verringert
die Rechenlast des DSP weiter und ermöglicht auch das bequeme parallele
Paketdecodieren, wie es hierin weiter beschrieben wird. Jedem der
Tiefpassfilter 908 und der Dezimatoren 910 kann
ein Detektor 912a–912n (gemeinsam
als 912 bezeichnet) zum Berechnen der Größe des komplexen
Basisbandsignals folgen. Wenn zum Beispiel die Eingangssignale Töne bei F0,
F1 und F2 sind, dann sind die Ausgaben der Abwärts-Wandler/Detektoren mit den
Frequenzen F0, F1 und F2 der lokalen Oszillatoren proportional zu
der Energie der Eingangstöne
bei F0, F1 und F2. Die Ausgaben aller anderen Abwärts-Wandler/Detektoren 908, 910 und 912 sind
wesentlich niedriger, da bei den Frequenzen der lokalen Oszillatoren 904 keine
Energie erfasst wird.
-
Die
dreizehn Energieabschätzungen,
die von den Abwärts-Wandlern/Detektoren 908, 910 und 912 erzeugt
werden, werden über
einen Bus 907 zu einem Datenbewerter 914 gespeist.
Der Datenbewerter 914 bestimmt das wahrscheinlichste Trio
der gesendeten Töne
des modulierten Audiosignals 109 (1A) und,
bei vorgegebenen vorliegenden Energiebewertungen, gibt ein Datenabschätzsignal 915 aus,
welches Bytes aus Daten umfasst. Der Datenbewerter 914 folgt
dem Prozess, der in der 10 zur
Verfügung
gestellt wird.
-
10 ist
ein Ablaufdiagramm, das einen beispielhaften Prozess zum Bestimmen
von Daten zeigt, die in dem modulierten Audiosignal der 7 enthalten
sind. Der Prozess beginnt im Schritt 1002. Im Schritt 1004 werden
die Energiebewertungen sortiert, beispielsweise von der höchsten zur
niedrigsten, und Indizes entsprechend den dreizehn Frequenzen, welche
den drei höchsten
Größen entsprechen,
werden von dem Demodulator als Bewertung der drei Frequenzen bestimmt,
die ursprünglich
von dem Sender verschickt worden sind (d. h. Frequenzen, die in
das modulierte Audiosignal 109 der 1A codiert
worden sind). Im Schritt 1006 werden Daten aus einer Nachschlagetabelle
gelesen, um im Schritt 1008 festzustellen, ob die Kombination
aus Frequenzen gültig
ist. Beim Feststellen, ob die Kombination aus Frequenzen gültig ist,
wird Vorab-Wissen verwendet, weil bekannt ist, dass dreißig Kombinationen
nicht verwendet werden. Wenn im Schritt 1008 festgestellt
wird, dass die Daten einen gültigen
Tabelleneintrag bilden, dann wird im Schritt 1010 ein Tabelleneintrag verwendet,
und der Datenbewerter 914 (9) gibt
das bewertete gesendete Byte zurück.
Der Prozess endet mit dem Schritt 1012. Indem dieser Prozess
verwendet wird, bestimmt der Demodulator das wahrscheinlichste Trio
aus Tönen,
die von dem Modulator gesendet werden. Da das Modem die drei stärksten Töne innerhalb des
Satzes aus zulässigen
Ton-Trios (d. h. der 256) auswählt, die
von dem Modulator gespeichert sind, wird diese Feststellung durchgeführt, ohne
das Vorliegen oder Fehlen einzelner Töne zu bestimmen.
-
Wenn
im Schritt 1008 die Ergebnisse der Nachschlagetabelle eine
ungültige
Kombination angeben, dann wird im Schritt 1014 der dritthöchste Eintrag
durch einen vierthöchsten
Eintrag ersetzt, so dass als ein Wellenform-Fehlerkorrektor gearbeitet
wird. Der Prozess wiederholt sich dann mit dem Schritt 1006 und
läuft weiter,
bis ein gültiger
Tabelleneintrag gefunden ist, so dass eine gültige Kombination gebildet
wird.
-
Der
Datenbewerter 914 der 9 gibt das
demodulierte Signal 119 aus. Die Probenwerte werden in einen
Kommutator 916 eingegeben. Der Kommutator 916 leitet
die Bytes des demodulierten Signals 119 mit dem Zehnfachen
der Abtastgeschwindigkeit an zehn parallele Paket-Decodierer 918a–918n (gemeinsam
als 918 bezeichnet). Jeder der Paket-Decodierer 918 führt das
Umgekehrte des Paket-Codierers 106 (2) durch.
Der Kommutator 916 schaltet bei jedem Byte des demodulierten
Signals 119. Da die Abtastgeschwindigkeit das Zehnfache
der Symbolgeschindigkeit beträgt,
wird jeder parallele Demodulator mit Bytes des demodulierten Signals 119 gespeist,
die bei derselben Phase jedes Symbols abgenommen wurden, und die
Probengeschwindigkeit des Symbols ist auch die Symbolgeschwindigkeit.
Zum Beispiel hat einer der parallelen Paket-Decodierer 918a,
der Bytes empfängt,
die von der Mitte eines Symbols abgenommen worden sind, eine bessere
Chance, decodiert zu werden, als ein anderer paralleler Paket-Decodierer 908b,
der zwischen oder an der Kante von Symbolen abtastet. Oftmals wird
eine Gruppe aufeinander folgender Phasen insgesamt richtig decodiert.
-
Jeder
der zehn parallelen Demodulatoren 918a–918n (gemeinsam als 918 bezeichnet)
empfängt
einen Datenstrom mit einer Symbol- und Abtastgeschwindigkeit und
führt die
inverse Operation des Paket-Codierer 116 (1A)
durch. Der erste Decodierschritt ist die Erfassung des Sync-Wortes.
Wenn der Sync-Wort-Detektor das Sync-Wort innerhalb einer Fehler toleranz
für das
Sync-Wort erfasst, aktiviert er den Fehlerkorrektor, den Ent-Randomisierer,
und den CRC-Detektor. Wenn diese Arbeitsgänge erfolgreich sind, wie es
durch einen erfolgreichen CRC-Test bestätigt wird, dann war die Demodulation
eines Paketes, das auf der Ausgangsleitung 922a ausgegeben
worden ist, durch den parallelen Demodulator 918a erfolgreich,
und die sich ergebenden Daten sollten mit dem übereinstimmen, was ursprünglich gesendet
worden ist. Richtig decodierte Pakete 921a auf der Ausgangsleitung 922a werden
zu dem Decodierauswähler 920 geleitet,
zusammen mit Fehlerkorrekturergebnisse oder Statistiken 923a,
die von dem Demodulator 918a auf der Ausgangsleitung 924 ausgegeben
werden. Nicht richtig decodierte Pakete auf der Ausgangsleitung
anderer paralleler Demodulatoren, so wie nicht richtig decodierte
Pakete 921n auf der Ausgangsleitung 922n von dem
parallelen Demodulator 918n werden nicht zu dem Decodierauswähler 920 geleitet.
Mit anderen Worten werden Pakete, die aufgrund von Datenfehlern
nicht richtig decodiert werden, einfach nicht an den Decodierauswähler 920 zum
Decodieren geleitet.
-
In
den meisten Fällen
decodieren die mehreren parallelen Demodulatoren 918 das
Paket erfolgreich. Ein Fehlerkorrektor innerhalb des Demodulators
liefert die Anzahl der korrigierten Fehler, die verwendet werden
kann, um die zusätzliche
Leistung aus der Architektur der parallelen Paket-Decodierer 918 in
die Praxis zu überführen. Das
Paket mit der geringsten Anzahl an korrigierten Fehlern, wie sie
durch die Anzahl der korrigierten Fehler festgelegt ist, wird als
ein maximal wahrscheinlicher Schätzwert
bzw. eine Bewertung des gesendeten Datenpaketes ausgewählt. Der
Decodierauswähler 920 überprüft die Fehlerkorrekturergebnisse 923a,
die von dem Demodulator 918a auf der Ausgangsleitung 924a ausgegeben
werden, und sucht die Ergebnisse heraus, die den geringsten Aufwand
an Korrektur erfordern. Die Ausgabe des Decodierauswählers 920 sind
Daten 121, die mit den ursprünglichen Daten 103 (1A) übereinstimmen
sollten.
-
Das
parallele Paketdecodieren beseitigt im Wesentlichen das Erfordernis
nach einer Taktwiedergewinnungs-Servoschleife am Demodulator. Obwohl
Taktwiedergewinnung bei Demodu latoren ein typischer Arbeitsgang
ist, macht die Verfälschung
des Signals durch den Vocoder es für das Modem unpraktisch oder
unmöglich,
entsprechend den Grundsätzen
der vorliegenden Erfindung zu handeln.
-
Obwohl
die Grundsätze
der vorliegenden Erfindung beschrieben worden sind, indem der Codierer
und Modulator verwendet wurden, können bestimmten Ausführungsformen
als Alternative Frequenzumtastung ("FSK" – Frequency
Shift Keying) verwenden. FSK ist nachgiebig auf Verwerfungen in
Zeit und Pitch. Bei einer Ausführungsform
kann FSK für
Bitraten von 900 Bit pro Sekunde verwendet werden. Jedoch hat FSK
ein sich zeitlich nicht veränderndes
Spektrum und ist daher der Dämpfung
durch Rauschunterdrücker
ausgesetzt. Dies vorangeschickt kann die Dämpfung überwunden werden, indem der
Modulationsindex dynamisch geändert wird,
wie es bekannt ist, so dass unterschiedliche FSK-Modulationsindizes
verschiedene spektrale Peaks erzeugen, die sprachähnlich sein
können.
Ein digitales spektrales Codieren kann auch verwendet werden, um das
Spektrum zu formen. Ein Satz von FSK kann das Problem des "konstanten Spektrums" herkömmlicher Vocoder überwinden,
gemäß weiteren
Aspekten der beschriebenen Ausführungsformen.
-
Bei
noch einer weiteren Ausführungsform
kann die Amplitudenumtastung ("ASK" – Amplitude Shift Keying) verwendet
werden. ASK nutzt die Fähigkeit
eines Sprachkompressors aus, auf Explosivlaute der Sprache schnell
zu reagieren. Bei diesem Szenario kann das Spektrum der Daten durch
digitales spektrales Vorcodieren manipuliert werden, da das Ansprechen
auf Explosivlaute der Sprache bei Vocodern inhärent ist.
-
Bestimmte
Ausführungsformen
gemäß den Grundsätzen der
vorliegenden Erfindung sind zum Zwecke des Veranschaulichens der
Art und Weise, in der die Erfindung gemacht und benutzt werden kann,
beschrieben worden. Zum Beispiel können die Grundsätze der
vorliegenden Erfindung bei anderen Kommunikationssystemen verwendet
werden, die Vocoder oder andere Sprachkompressionstechnologie verwenden.
Zusätzlich
können
die Grundsätze
der vorlie genden Erfindung von anderen drahtlosen Geräten, zellularen
Handapparaten oder mobilen Telefonen verwendet werden. Weiter können die
Implementierungen variieren und auf einer Vielfalt von Hardware-
und Softwaresystemen arbeiten, wie es auf dem Gebiet selbstverständlich wird.
-
Die
in der vorstehenden Beschreibung, in der Zeichnung sowie in den
Ansprüchen
offenbarten Merkmale der Erfindung können sowohl einzeln als auch
in beliebiger Kombination für
die Verwirklichung der Erfindung wesentlich sein.
-
ZUSAMMENFASSSUNG
-
Ein
Modem, das zum Kommunizieren von Daten verwendet wird. Das Modem
kann einen Paketgenerator und einen Modulator umfassen. Der Modulator
kann eine elektronische Vorrichtung umfassen, die so ausgestaltet
ist, dass sie wenigstens eine Frequenz aus wenigstens drei oder
mehr Kandidaten-Frequenzen auswählt.
Wenigstens ein Oszillator kann mit der elektronischen Vorrichtung
kommunizieren und ist so ausgelegt, dass er entsprechende Oszillationssignale
als Antwort auf den Empfang der/den Frequenz(en) von der elektronischen
Vorrichtung erzeugt. Ein Rechenelement kann mit dem/den Oszillator(en)
kommunizieren und so ausgestaltet sein, dass er das/die Oszillationssignal(e)
empfängt
und ein moduliertes Audiosignal basierend auf dem/den Oszillationssignal(en)
erzeugt.