DE1296212B

DE1296212B - Verfahren zur UEbertragung von Sprachsignalen mit verminderter Bandbreite

Info

Publication number: DE1296212B
Application number: DE1967T0034608
Authority: DE
Inventors: Dipl-Ing Helmut; Mangold
Original assignee: Telefunken Patentverwertungs GmbH
Current assignee: Telefunken Patentverwertungs GmbH
Priority date: 1967-08-19
Filing date: 1967-08-19
Publication date: 1969-05-29

Description

Die Erfindung betrifft ein Verfahren zur überiragung von Sprachsignalen mit verminderter Bandbreite.
Bei der Übertragung der menschlichen Sprache muß dann, wenn hohe Anforderungen an die Natürlichkeit der Wiedergabe gestellt werden, ein Frequenzbereich bis etwa 8000 Hz übertragen werden. Bei geringeren Anforderungen an die Natürlichkeit müssen, um die Verständlichkeit zu sichern, immerhin noch über 3000 Hz übertragen werden (Telefon). Selbst dieser verringerte Frequenzbereich stellt hinsichtlich der Übertragungsbandbreite technisch hohe Anforderungen.
Es sind Verfahren bekanntgeworden, um diesen Bandbreitebedarf zu verringern. Dies kann beispielsweise dadurch erfolgen, daß aus dein Frequenzspektrum einzelne, besonders charakteristische Informationen enthaltende Bereiche ausgewählt werden, die entweder im niederfrequenten Bereich liegen, oder aber, wenn sie im höherfrequenten Bereich liegen, durch Umsetzung in den niederfrequenten vor und Zurückwandlung in den ursprünglichen Bereich nach der Übertragung für eine bandbreitenbegrenzte Übertragung aufbereitet werden. Diese und ähnliche Verfahren kann man als Frequenzteilerverfahren bezeichnen.
Ein anderes bekanntes Verfahren zur Übertragung von Sprache mit geringer Bandbreite bedient sich des Vocoders. Ein Vocoder besteht aus einem Analyse-und einem Syntheseteil. Im Analyseteil werden aus den Sprachlauten Informationen abgeleitet, die mit geringer Bandbreite übertragen werden und im Syntheseteil spracherzeugende Mechanismen derart steuern, daß die dem Analyseteil eingegebene Sprache mit einem gewissen Grad an Natürlichkeit wiederhergestellt wird.
Beiden Verfahren ist zu eigen, daß zwar die Anforderungen an die Verständlichkeit mit vertretbarem technischem Aufwand erfüllt werden können, jedoch ist die Natürlichkeit der Sprachwiedergabe unbefriedigend. Hinzu kommt, daß der Übertragungsweg immer noch für eine verhältnismäßig hohe Informationsdichte ausgelegt sein muß. Zum Beispiel wird bei einem Kanalvocoder ein Informationsfluß von etwa 3000 bits pro Sekunde vom Analyse- zum Syntheseteil übertragen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, mit dessen Hilfe einerseits der technische Aufwand, insbesondere hinsichtlich der Übertragungsbandbreite, verringert werden kann, während andererseits die Natürlichkeit der Wiedergabe gesteigert wird.
Die Erfindung besteht darin, daß die Pitch-Perioden der zu übertragenden Sprachlaute hinsichtlich ihrer Amplituden-Zeit-Abhängigkeit mit gespeicherten Mustern verglichen werden, daß für jede Pitch-Periode kennzeichnende Größen, vorzugsweise codierte Impulsfolgen, für dasjenige Muster, das den höchsten Grad an Übereinstimmung mit dem zu übertragenden Sprachlaut aufweist, übertragen werden und daß zum Zweck der Wiedergabe ein gleiches Muster auf Grund der übertragenen kennzeichnenden Größen aus der Gesamtheit der wiedergabeseitig vorhandenen Muster ausgewählt und zur Steuerung eines Sprachlauterzeugers verwendet wird.
Im folgenden wird das erfindungsgemäße Verfahren an Hand der Figuren sowie in einigen vorteilhaften Weiterbildungen näher erläutert. F i g. 1 zeigt das Blockschaltbild einer Schaltung zur Durchführung des erfindungsgemäßen Verfahrens. Von einem Mikrofon 1 aus werden einem Analog-Digitalwandler 2 in üblicher Weise Sprachströme zugeführt. Der Analog-Digitalwandler setzt diese in ebenfalls bekannter Weise in ein Digitalmuster um. Auf Einzelheiten dieser Umsetzung wird weiter unten näher eingegangen. Das Digitalmuster wird einer elektronischen Datenverarbeitungsanlage (DVA) 3 zugeführt. In dieser DVA 3 wird das Digitalmuster mit einer Vielzahl von gespeicherten Mustern verglichen. Dasjenige der gespeicherten Muster, das mit dem Digitalmuster den höchsten Grad an Übereinstimmung zeigt, wird ermittelt. Seine Identitätskennung wird codiert und über die Übertragungsstrecke 4 zum Wiedergabemechanismus übertragen. Der Wiedergabemechanismus besteht aus einer weiteren DVA 5, der die Identitätskennung des in der DVA 3 ermittelten Musters zugeführt wird. In der DVA 5 sind die gleichen Muster wie in der DVA 3 gespeichert, und auf Grund der übertragenen Identitätskennung wird wiederum dasjenige Muster ausgewählt, das das höchste Maß an Übereinstimmung mit dem Digitalmuster aufweist, welches von dem Analog-Digitalwandler 2 abgegeben wird. Dieses in der DVA 5 ausgewählte Muster steuert über einen Digital-Analogwandler 6 in bekannter Weise den Sprechgenerator 7.
Zur näheren Erläuterung des geschilderten übertragungs- und Umwandlungsvorganges sei kurz auf einige Grundlagen der Sprachübertragung eingegangen. Es gibt stimmhafte und stimmlose Sprachlaute. Zunächst seien die stimmhaften betrachtet. Im Kehlkopf wird durch die Stimmbänder die Stimmbandgrundfrequenz, der »Pitch«, erzeugt. Dieser Grundfrequenz werden im oberen Sprechapparat die Formarten aufgeprägt, die die unterschiedlichen Laute kennzeichnen. Die Stimmbandgrundfrequenz ist unterschiedlich je nach Stimmlage und Sprachhöhe. Bei Männern ist ein Bereich von etwa 80 bis 160 Hz anzunehmen. Jede Periode innerhalb der Stimmbandgrundfrequenz weist, bedingt durch den mechanischen Aufbau des Kehlkopfes, an ihrem Beginn einen starken Amplitudenanstieg auf, während die Amplitude zum Ende der Periode hin infolge der Dämpfung abfällt.
Wie ausgeführt, erzeugt der obere Sprechapparat die Formarten. Bei einer Übertragung der Sprache ergibt sich daraus ein zeitlicher Amplitudenverlauf etwa nach F i g. 2 a. Zur Umwandlung eines solchen Funktionsverlaufes in ein digitales Muster sind Verfahren bekanntgeworden. Beispielsweise kann der Funktionsverlauf periodisch auf seine Amplitude hin abgetastet werden. Dies muß zweckmäßig mit einer Folgefrequenz geschehen, die über der höchsten umzuwandelnden Sprachfrequenz liegt, z. B. 8000 Hz.
Aus dieser Abtastung ergibt sich eine Impulsfolge mit unterschiedlichen Amplitudenwerten, wie etwa in F i g. 2 b dargestellt. Diese Impulsfolge kann nun entweder sofort mit Mustern zum Zweck der Identifizierung verglichen werden, oder es können weitere Maßnahmen ergriffen werden, um den Identifizierungsvorgang zu vereinfachen. Grundsätzlich gibt es die Möglichkeit, die Abtastung beispielsweise mit einem Start-Stopp-Oszillator für jede Pitch-Periode M1 ... M3 neu beginnen zu lassen, oder sie kann unabhängig von den Pitch-Perioden fortlaufend durchgeführt werden. Die in der F i g. 2b gezeigte Impulsfolge kann vor dem Vergleich digitalisiert werden, beispielsweise durch eine Pulscodemodulation. Dies erleichtert den Vergleichsvorgang dadurch, daß er einer elektronischen digitalen Datenverarbeitungsanlage (DVA 3 in F i g. 1) übertragen werden kann.
Die Abgrenzung der Pitch-Perioden M 1 ... M 3 gegeneinander kann ebenfalls von der DVA 3 durchgeführt oder mit Hilfe eines bekannten analog arbeitenden Analysators durchgeführt werden.
Für die weitere Beschreibung sei angenommen, daß die Impulsfolge nach F i g. 2 b digitalisiert worden sei.
In der DVA 3 sind nun Muster gespeichert, denen die digitalisierte Impulsfolge gegenübergestellt wird. Die Zahl der Muster ist bedingt durch die Genauigkeit, mit der die Sprache wiedergegeben werden soll. In diesem Fall sei eine Zahl von 210-1 Mustern gespeichert. Diese Zahl von Mustern (rund 1000) ist in zehnstelligen binären Codenamen ausdrückbar. Jeder dieser Codenamen stellt die Identitätskennung eines bestimmten Musters dar und wird übertragen. Unter der Annahme, daß der Pitch 100 Hz aufweist, müssen also 10 bits mal 100 Hz o 1000 Bits pro Sekunde übertragen werden. Diese Zahl zeigt die vorteilhafte Bandbreitenverringerung des erfindungsgemäßen Verfahrens beispielsweise gegenüber dem obengenannten Vocoder-Verfahren.
Die Länge der Pitch-Perioden wird im Verlauf des Sprechens schwanken, wenn auch im allgemeinen nicht abrupt. Die Schwierigkeiten, die sich daraus für den Vergleich ergeben, können entweder dadurch behoben werden, daß zum Vergleich Muster verschiedener zeitlicher Länge bereitgehalten werden, was aber den Speicherbedarf erhöht, oder es wird zusätzlich eine Information über die Länge der Pitch-Perioden übertragen. Für diese Information genügt ein Code mit z. B. 4 bits, so daß sich die Informationsrate bei der Übertragung in diesem Fall auf 1400 Bits pro Sekunde erhöhen würde.
Nach der Übertragung wird auf Grund des Codenamens in der DVA 5 aus der Gesamtheit der dort gespeicherten Muster, die den Mustern in der DVA 3 entsprechen, dasjenige ausgewählt, das die übereinstimmungsbedingung mit der digitalisierten Impulsfolge erfüllt. Dieses Muster wird, wie beschrieben, über einen Digital-Analogwandler 6 in bekannter Weise zur Steuerung der Spracherzeugung ausgenutzt.
Bei dem beschriebenen Übertragungsverfahren gemäß der Erfindung kann sich eine Verringerung des Störabstandes ergeben, die auf folgenden Effekten beruht. Aus dem Funktionsverlauf nach F i g. 2 a wird durch die Abtastung eine Impulsfolge nach F i g. 2 b. Gleichgültig, ob diese anschließend digitalisiert wird oder nicht, ergeben sich im allgemeinen Fall gegenüber den Einzelimpulsen aller Muster Quantisierungsfehler. Größtmögliche Übereinstimmung zwischen Impulsfolge und Muster bedeutet, daß die Summe der Quantisierungsfehler ein Minimum aufweist. Liegen bei mehreren Mustern die Werte für die Summe der Quantisierungsfehler eng beieinander, so besteht die Möglichkeit einer falschen Zuordnung.
Zur Abhilfe gegen diese Verringerung des Störabstandes sind folgende Maßnahmen erfolgversprechend.
Wie eingangs beschrieben, nimmt die Amplitude innerhalb der Pitch-Periode infolge der Dämpfung ab. Diejenigen Werte der Impulsfolge, die zum Ende der Pitch-Periode hin auftreten, sind also relativ zueinander schwieriger unterscheidbar als solche, die am Anfang der Pitch-Periode auftreten. Deshalb sollten alle Werte der Impulsfolge mit einem Bewertungsfaktor multipliziert werden, der zweckmäßig über die Pitch-Periode variabel gewählt wird und gegen das Ende der Pitch-Periode hin zunimmt. Damit ist gewährleistet, daß auch die zum Ende der Pitch-Periode auftretenden Amplitudenwerte zum Vergleich mit dem Muster herangezogen werden können, was die Sicherheit des Vergleichs erhöht.
Eine andere Möglichkeit der Abhilfe macht von der Tatsache Gebrauch, daß verhältnismäßig kleine Amplituden mit hoher Wahrscheinlichkeit auf Rauschen zurückzuführen sind. Eine Unterdrückung solcher Amplituden, die einen vorgegebenen Wert unterschreiten, kann also ebenfalls den Störabstand erhöhen. Schließlich erscheint es vorteilhaft, vor der Abtastung die hohen Frequenzanteile des Sprachlautes anzuheben, um die in ihnen enthaltenen Informationen mit größerer Sicherheit der Impulsfolge übermitteln zu können und damit wiederum den Störabstand des Verfahrens zu verbessern.
Es ist selbstverständlich, daß im Fall der Anwendung der geschilderten Verbesserungen die Muster ebenfalls so abgewandelt werden müssen, daß die in dem Verfahren enthaltenen Verformungstendenzen auch wiederum in den Mustern enthalten sind.
Die Behandlung stimmloser Sprachlaute bereitet insofern Schwierigkeiten, als die Stimmlosigkeit durch das Fehlen eines »Pitch« gekennzeichnet ist.
Es empfiehlt sich, den Funktionsverlauf während der stimmlosen Sprachlaute weiter, wie beschrieben, zu behandeln, entweder mit einer konstanten Periodendauer entsprechend z. B. 100 Hz oder zur Vermeidung des daraus resultierenden Brumms mit einer variablen Periodendauer.

Claims

Patentansprüche: 1. Verfahren zur Übertragung von Sprachsignalen mit verminderter Bandbreite, d a d u r c h gekennzeichnet, daß die Pitch-Perioden der zu übertragenden Sprachlaute hinsichtlich ihrer Amplituden-Zeit-Abhängigkeit mit gespeicherten Mustern verglichen werden, daß für jede Pitch-Periode kennzeichnende Größen, vorzugsweise codierte Impulsfolgen, für dasjenige Muster, das den höchsten Grad an Übereinstimmung mit dem zu übertragenden Sprachlaut aufweist, übertragen werden und daß zum Zweck der Wiedergabe. ein gleiches Muster auf Grund der übertragenen kennzeichnenden Größen aus der Gesamtheit der wiedergabeseitig vorhandenen Muster ausgewählt und zur Steuerung eines Sprachlauterzeugers verwendet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Amplitude der Sprachlaute innerhalb jeweils einer Pitch-Periode periodisch mit einer Folgefrequenz abgetastet wird, die über der höchsten Frequenz des Sprachlautes liegt, und daß die aus der Abtastung entstehende Impulsfolge zum Vergleich mit Mustern verwendet wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Abtastung für jede Pitch-Periode neu beginnend durchgeführt wird.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Abtastung unabhängig von der zeitlichen Lage der Pitch-Perioden durchgeführt wird.
5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, daß die Werte der aus der Abtastung entstehenden Impulsfolge vor dem Vergleich mit den Mustern mit einem über die Pitch-Periode variablen Bewertungsfaktor multipliziert werden und daß entsprechend bewertete Muster verwendet werden.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Bewertungsfaktor zum Ende der Pitch-Periode hin anwachsend gewählt wird.
7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß solche Werte der Impulsfolge, die einen vorgegebenen Wert unterschreiten, auf Null vermindert werden. B.
Verfahren nach Anspruch 2 oder einem der folgenden, dadurch gekennzeichnet, daß hohe Frequenzanteile des Sprachlautes vor der Abtastung in ihrer Amplitude vergrößert werden.
9. Verfahren nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß für jede Pitch-Periode zusätzlich zu den kennzeichnenden Größen Hilfsgrößen übertragen werden, die eine Information betreffs der Länge der Pitch-Periode enthalten.
10. Verfahren nach Anspruch 2 oder einem der folgenden, dadurch gekennzeichnet, daß für stimmlose Sprachlaute, d. h. für fehlenden Pitch, die Amplituden-Zeit-Abhängigkeit in konstante Zeitintervalle derart aufgeteilt wird, daß die Länge der Zeitintervalle annähernd der Länge einer vorgegebenen Pitch-Periode entspricht.
11. Verfahren nach Anspruch 2 oder einem der folgenden, dadurch gekennzeichnet, daß für fehlenden Pitch die Zeitintervalle in ihrer Länge um ein vorgegebenes Maß gegenüber der Länge der vorgegebenen Pitch-Perioden variiert werden.