-
Die Erfindung betrifft ein Verfahren zur überiragung von Sprachsignalen
mit verminderter Bandbreite.
-
Bei der Übertragung der menschlichen Sprache muß dann, wenn hohe Anforderungen
an die Natürlichkeit der Wiedergabe gestellt werden, ein Frequenzbereich bis etwa
8000 Hz übertragen werden. Bei geringeren Anforderungen an die Natürlichkeit müssen,
um die Verständlichkeit zu sichern, immerhin noch über 3000 Hz übertragen werden
(Telefon). Selbst dieser verringerte Frequenzbereich stellt hinsichtlich der Übertragungsbandbreite
technisch hohe Anforderungen.
-
Es sind Verfahren bekanntgeworden, um diesen Bandbreitebedarf zu verringern.
Dies kann beispielsweise dadurch erfolgen, daß aus dein Frequenzspektrum einzelne,
besonders charakteristische Informationen enthaltende Bereiche ausgewählt werden,
die entweder im niederfrequenten Bereich liegen, oder aber, wenn sie im höherfrequenten
Bereich liegen, durch Umsetzung in den niederfrequenten vor und Zurückwandlung in
den ursprünglichen Bereich nach der Übertragung für eine bandbreitenbegrenzte Übertragung
aufbereitet werden. Diese und ähnliche Verfahren kann man als Frequenzteilerverfahren
bezeichnen.
-
Ein anderes bekanntes Verfahren zur Übertragung von Sprache mit geringer
Bandbreite bedient sich des Vocoders. Ein Vocoder besteht aus einem Analyse-und
einem Syntheseteil. Im Analyseteil werden aus den Sprachlauten Informationen abgeleitet,
die mit geringer Bandbreite übertragen werden und im Syntheseteil spracherzeugende
Mechanismen derart steuern, daß die dem Analyseteil eingegebene Sprache mit einem
gewissen Grad an Natürlichkeit wiederhergestellt wird.
-
Beiden Verfahren ist zu eigen, daß zwar die Anforderungen an die Verständlichkeit
mit vertretbarem technischem Aufwand erfüllt werden können, jedoch ist die Natürlichkeit
der Sprachwiedergabe unbefriedigend. Hinzu kommt, daß der Übertragungsweg immer
noch für eine verhältnismäßig hohe Informationsdichte ausgelegt sein muß. Zum Beispiel
wird bei einem Kanalvocoder ein Informationsfluß von etwa 3000 bits pro Sekunde
vom Analyse- zum Syntheseteil übertragen.
-
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben,
mit dessen Hilfe einerseits der technische Aufwand, insbesondere hinsichtlich der
Übertragungsbandbreite, verringert werden kann, während andererseits die Natürlichkeit
der Wiedergabe gesteigert wird.
-
Die Erfindung besteht darin, daß die Pitch-Perioden der zu übertragenden
Sprachlaute hinsichtlich ihrer Amplituden-Zeit-Abhängigkeit mit gespeicherten Mustern
verglichen werden, daß für jede Pitch-Periode kennzeichnende Größen, vorzugsweise
codierte Impulsfolgen, für dasjenige Muster, das den höchsten Grad an Übereinstimmung
mit dem zu übertragenden Sprachlaut aufweist, übertragen werden und daß zum Zweck
der Wiedergabe ein gleiches Muster auf Grund der übertragenen kennzeichnenden Größen
aus der Gesamtheit der wiedergabeseitig vorhandenen Muster ausgewählt und zur Steuerung
eines Sprachlauterzeugers verwendet wird.
-
Im folgenden wird das erfindungsgemäße Verfahren an Hand der Figuren
sowie in einigen vorteilhaften Weiterbildungen näher erläutert. F i g. 1 zeigt das
Blockschaltbild einer Schaltung zur Durchführung des erfindungsgemäßen Verfahrens.
Von einem Mikrofon 1 aus werden einem Analog-Digitalwandler 2 in üblicher Weise
Sprachströme zugeführt. Der Analog-Digitalwandler setzt diese in ebenfalls bekannter
Weise in ein Digitalmuster um. Auf Einzelheiten dieser Umsetzung wird weiter unten
näher eingegangen. Das Digitalmuster wird einer elektronischen Datenverarbeitungsanlage
(DVA) 3 zugeführt. In dieser DVA 3 wird das Digitalmuster mit einer Vielzahl von
gespeicherten Mustern verglichen. Dasjenige der gespeicherten Muster, das mit dem
Digitalmuster den höchsten Grad an Übereinstimmung zeigt, wird ermittelt. Seine
Identitätskennung wird codiert und über die Übertragungsstrecke 4 zum Wiedergabemechanismus
übertragen. Der Wiedergabemechanismus besteht aus einer weiteren DVA 5, der die
Identitätskennung des in der DVA 3 ermittelten Musters zugeführt wird. In der DVA
5 sind die gleichen Muster wie in der DVA 3 gespeichert, und auf Grund der übertragenen
Identitätskennung wird wiederum dasjenige Muster ausgewählt, das das höchste Maß
an Übereinstimmung mit dem Digitalmuster aufweist, welches von dem Analog-Digitalwandler
2 abgegeben wird. Dieses in der DVA 5 ausgewählte Muster steuert über einen Digital-Analogwandler
6 in bekannter Weise den Sprechgenerator 7.
-
Zur näheren Erläuterung des geschilderten übertragungs- und Umwandlungsvorganges
sei kurz auf einige Grundlagen der Sprachübertragung eingegangen. Es gibt stimmhafte
und stimmlose Sprachlaute. Zunächst seien die stimmhaften betrachtet. Im Kehlkopf
wird durch die Stimmbänder die Stimmbandgrundfrequenz, der »Pitch«, erzeugt. Dieser
Grundfrequenz werden im oberen Sprechapparat die Formarten aufgeprägt, die die unterschiedlichen
Laute kennzeichnen. Die Stimmbandgrundfrequenz ist unterschiedlich je nach Stimmlage
und Sprachhöhe. Bei Männern ist ein Bereich von etwa 80 bis 160 Hz anzunehmen. Jede
Periode innerhalb der Stimmbandgrundfrequenz weist, bedingt durch den mechanischen
Aufbau des Kehlkopfes, an ihrem Beginn einen starken Amplitudenanstieg auf, während
die Amplitude zum Ende der Periode hin infolge der Dämpfung abfällt.
-
Wie ausgeführt, erzeugt der obere Sprechapparat die Formarten. Bei
einer Übertragung der Sprache ergibt sich daraus ein zeitlicher Amplitudenverlauf
etwa nach F i g. 2 a. Zur Umwandlung eines solchen Funktionsverlaufes in ein digitales
Muster sind Verfahren bekanntgeworden. Beispielsweise kann der Funktionsverlauf
periodisch auf seine Amplitude hin abgetastet werden. Dies muß zweckmäßig mit einer
Folgefrequenz geschehen, die über der höchsten umzuwandelnden Sprachfrequenz liegt,
z. B. 8000 Hz.
-
Aus dieser Abtastung ergibt sich eine Impulsfolge mit unterschiedlichen
Amplitudenwerten, wie etwa in F i g. 2 b dargestellt. Diese Impulsfolge kann nun
entweder sofort mit Mustern zum Zweck der Identifizierung verglichen werden, oder
es können weitere Maßnahmen ergriffen werden, um den Identifizierungsvorgang zu
vereinfachen. Grundsätzlich gibt es die Möglichkeit, die Abtastung beispielsweise
mit einem Start-Stopp-Oszillator für jede Pitch-Periode M1 ...
M3 neu beginnen zu lassen, oder sie kann unabhängig von den Pitch-Perioden
fortlaufend durchgeführt werden.
Die in der F i g. 2b gezeigte Impulsfolge
kann vor dem Vergleich digitalisiert werden, beispielsweise durch eine Pulscodemodulation.
Dies erleichtert den Vergleichsvorgang dadurch, daß er einer elektronischen digitalen
Datenverarbeitungsanlage (DVA 3 in F i g. 1) übertragen werden kann.
-
Die Abgrenzung der Pitch-Perioden M 1 ... M 3
gegeneinander
kann ebenfalls von der DVA 3 durchgeführt oder mit Hilfe eines bekannten analog
arbeitenden Analysators durchgeführt werden.
-
Für die weitere Beschreibung sei angenommen, daß die Impulsfolge nach
F i g. 2 b digitalisiert worden sei.
-
In der DVA 3 sind nun Muster gespeichert, denen die digitalisierte
Impulsfolge gegenübergestellt wird. Die Zahl der Muster ist bedingt durch die Genauigkeit,
mit der die Sprache wiedergegeben werden soll. In diesem Fall sei eine Zahl von
210-1 Mustern gespeichert. Diese Zahl von Mustern (rund 1000) ist in zehnstelligen
binären Codenamen ausdrückbar. Jeder dieser Codenamen stellt die Identitätskennung
eines bestimmten Musters dar und wird übertragen. Unter der Annahme, daß der Pitch
100 Hz aufweist, müssen also 10 bits mal 100 Hz o 1000 Bits pro Sekunde übertragen
werden. Diese Zahl zeigt die vorteilhafte Bandbreitenverringerung des erfindungsgemäßen
Verfahrens beispielsweise gegenüber dem obengenannten Vocoder-Verfahren.
-
Die Länge der Pitch-Perioden wird im Verlauf des Sprechens schwanken,
wenn auch im allgemeinen nicht abrupt. Die Schwierigkeiten, die sich daraus für
den Vergleich ergeben, können entweder dadurch behoben werden, daß zum Vergleich
Muster verschiedener zeitlicher Länge bereitgehalten werden, was aber den Speicherbedarf
erhöht, oder es wird zusätzlich eine Information über die Länge der Pitch-Perioden
übertragen. Für diese Information genügt ein Code mit z. B. 4 bits, so daß sich
die Informationsrate bei der Übertragung in diesem Fall auf 1400 Bits pro Sekunde
erhöhen würde.
-
Nach der Übertragung wird auf Grund des Codenamens in der DVA 5 aus
der Gesamtheit der dort gespeicherten Muster, die den Mustern in der DVA 3 entsprechen,
dasjenige ausgewählt, das die übereinstimmungsbedingung mit der digitalisierten
Impulsfolge erfüllt. Dieses Muster wird, wie beschrieben, über einen Digital-Analogwandler
6 in bekannter Weise zur Steuerung der Spracherzeugung ausgenutzt.
-
Bei dem beschriebenen Übertragungsverfahren gemäß der Erfindung kann
sich eine Verringerung des Störabstandes ergeben, die auf folgenden Effekten beruht.
Aus dem Funktionsverlauf nach F i g. 2 a wird durch die Abtastung eine Impulsfolge
nach F i g. 2 b. Gleichgültig, ob diese anschließend digitalisiert wird oder nicht,
ergeben sich im allgemeinen Fall gegenüber den Einzelimpulsen aller Muster Quantisierungsfehler.
Größtmögliche Übereinstimmung zwischen Impulsfolge und Muster bedeutet, daß die
Summe der Quantisierungsfehler ein Minimum aufweist. Liegen bei mehreren Mustern
die Werte für die Summe der Quantisierungsfehler eng beieinander, so besteht die
Möglichkeit einer falschen Zuordnung.
-
Zur Abhilfe gegen diese Verringerung des Störabstandes sind folgende
Maßnahmen erfolgversprechend.
-
Wie eingangs beschrieben, nimmt die Amplitude innerhalb der Pitch-Periode
infolge der Dämpfung ab. Diejenigen Werte der Impulsfolge, die zum Ende der Pitch-Periode
hin auftreten, sind also relativ zueinander schwieriger unterscheidbar als solche,
die am Anfang der Pitch-Periode auftreten. Deshalb sollten alle Werte der Impulsfolge
mit einem Bewertungsfaktor multipliziert werden, der zweckmäßig über die Pitch-Periode
variabel gewählt wird und gegen das Ende der Pitch-Periode hin zunimmt. Damit ist
gewährleistet, daß auch die zum Ende der Pitch-Periode auftretenden Amplitudenwerte
zum Vergleich mit dem Muster herangezogen werden können, was die Sicherheit des
Vergleichs erhöht.
-
Eine andere Möglichkeit der Abhilfe macht von der Tatsache Gebrauch,
daß verhältnismäßig kleine Amplituden mit hoher Wahrscheinlichkeit auf Rauschen
zurückzuführen sind. Eine Unterdrückung solcher Amplituden, die einen vorgegebenen
Wert unterschreiten, kann also ebenfalls den Störabstand erhöhen. Schließlich erscheint
es vorteilhaft, vor der Abtastung die hohen Frequenzanteile des Sprachlautes anzuheben,
um die in ihnen enthaltenen Informationen mit größerer Sicherheit der Impulsfolge
übermitteln zu können und damit wiederum den Störabstand des Verfahrens zu verbessern.
-
Es ist selbstverständlich, daß im Fall der Anwendung der geschilderten
Verbesserungen die Muster ebenfalls so abgewandelt werden müssen, daß die in dem
Verfahren enthaltenen Verformungstendenzen auch wiederum in den Mustern enthalten
sind.
-
Die Behandlung stimmloser Sprachlaute bereitet insofern Schwierigkeiten,
als die Stimmlosigkeit durch das Fehlen eines »Pitch« gekennzeichnet ist.
-
Es empfiehlt sich, den Funktionsverlauf während der stimmlosen Sprachlaute
weiter, wie beschrieben, zu behandeln, entweder mit einer konstanten Periodendauer
entsprechend z. B. 100 Hz oder zur Vermeidung des daraus resultierenden Brumms
mit einer variablen Periodendauer.