DE1762677A1 - Verfahren zur Multiplex-Sprachsynthese - Google Patents
Verfahren zur Multiplex-SprachsyntheseInfo
- Publication number
- DE1762677A1 DE1762677A1 DE19681762677 DE1762677A DE1762677A1 DE 1762677 A1 DE1762677 A1 DE 1762677A1 DE 19681762677 DE19681762677 DE 19681762677 DE 1762677 A DE1762677 A DE 1762677A DE 1762677 A1 DE1762677 A1 DE 1762677A1
- Authority
- DE
- Germany
- Prior art keywords
- stored
- channel
- speech
- voice
- aggregate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 13
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims description 20
- 230000005284 excitation Effects 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 14
- 230000001052 transient effect Effects 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 230000003134 recirculating effect Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 abstract 1
- 108091006146 Channels Proteins 0.000 description 102
- 238000005070 sampling Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Description
IBM Deutschland International« BärO-Matchinen Ct*tltt<h«ß rnhll
Böblingen, 1. August 1968 jo-hn
Anmelderin:
International Business Machines Corporation, Armonk, N. Y. 10 504
Amtliches Aktenzeichen:
Neuanmeldung
Aktenzeichen der Anmelderin:
Docket GE 967 039
Die Erfindung betrifft ein Verfahren zur Multiplex-Spracheynthese nach dem
Kanalvocoderprinzip aus in Datenverarbeitungsanlagen gespeicherten Daten über die Sprache für eine Anzahl von m Sprachkanälen.
Das bekannte Prinzip dee Kanalvocoders mit Impuls anregung erlaubt es, In
einfacher Weise und bei günstiger Speicherausnutzung aus in Rechenmaschinen gespeicherten Daten, Signale zur Erzeugung natürlicher Sprache abzuleiten.
Nach diesem bekannten Prinzip werden die Sprachsignale mit Hilfe von Filtern in eine Reihe von Frequenzkanäle (Aggregat- oder Spektrumkanäle) und in einen
Anregungskanal zerlegt, welcher die Information der Sprachgrundwelle führt. Bei Kanalvocodern mit Impuls anregung werden im Anregungskanal des Sprachanalysators
Impulse erzeugt, deren zeitlicher Abetand der Periode der gerade analy-
009838/0621
sierten Sprachgrundwelle entsprechen. Dieses gilt streng genommen
aber nur für stimmhafte Sprachabschnitte. Beim Vorliegen stimmloser Sprachabschnitte werden dagegen entweder Auegangesignale eines Rausch*
generators auf den Anregungekanal geschaltet oder aber ein Verfahren verwendet, welches keinerlei Unterscheidung mehr zwischen Stimmhaften
und stimmlosen Lauten trifft. Bei diesem zuletzt genannten Verfahren wird das von 20 bis etwa 500 Hz begrenzte Spracheignal
des Anregungskanales vielmehr in einem meist aus Dioden bestehenden Schaltkreis mit Hilfe der nicht linearen Kennlinien dieser Bauelemente
nichi{linear verzerrt. Es entstehen neben Summen- und Oberfrequenzen auch Differenzfrequenzen. Diese Differenzfrequenzen
ergeben bei den Vokalen, also den stimmhaften Abschnitten der Sprache,
im eingeschwungenen Zustand die Sprachgrundschwin^uig dee
gerade analysierten Sprachabschnittes. Bei stimmlosen Lauten, deren Hauptenergieanteil vorwiegend in einem Frequenzbereich über 3 000 Hz
liegt, treten ebenfalls Differenzfrequenzen auf, die auch hinter den
Dioden einen Energieanteil im verzerrten Bereich von etwa 20 bis 500 Hz
besitzen und auf diese Weise einen geräuschartigen Klangcharakter zur Folge haben.
Die in den einzelnen Kanälen vorhandenen Werte der Sprachenergie können
in bekannter Weise in analoger oder digitaler Form übertragen oder zur späteren Synthese des zerlegten Sprachsignales gespeichert werden.
GR 039
009838/0621
Die bekannte Synthese des Sprachsignales geht immer davon aus, daß
zu bestimmten Zeitpunkten, z.B. gesteuert durch die Anregungsimpulse,
die Aggregatkanalwerte zu den entsprechenden Kanalfiltern der Syntheseeinrichtung übertragen werden.
Ein Nachteil dieser Anordnungen ist, daß für jeden Sprachkanal ein
eigener Filtersatz benötigt wird und somit der Aufwand mit der Zahl der Sprachkanäle linear anwächst.
Außerdem sind nachträgliche Änderungen in der Dimensionierung der
Vocoder-Filtersätze nur schwer und vor allem nur durch kostspielige Maßnahmen möglich.
Es ist daher die Aufgabe der Erfindung eine technisch und ökonomisch
vorteilhafte I £ sung zum Vielfach-Anschluß von Sprachsignalleitungen
an eine, an eine Rechenmaschine angeschlossene Sprachausgabeeinheit anzugeben.
Für ein Verfahren zur Multiplex-Sprachsynthese nach dem Kanalvocoderprinzip aus in Datenverarbeitungsanlagen gespeicherten Daten über die
Sprache für eine Anzahl von in Sprachkanälen besteht die Erfindung darin, daß die Beschreibung des Einschwingverhaltens von η Aggregatka-
Gi:
039
009838/0621
naifilterη gespeichert wird, daß die Werte dieser Beschreibung jeweils
eines Aggregatkanalf liters mit der Frequenzfunktion des gleichen Aggre -gatkanales für alle m Sprachkanäle gesondert moduliert, addiert und
dann gespeichert werden und daß schließlich zu den durch die Sprachanregung gegebenen Zeiten die gespeicherten modulierten Werte für jeden
Sprachkanal gesondert abgerufen und demoduliert werden.
Das Verfahren kann in günstiger Welse mit Hilfe der Digitaltechnik
dadurch ausgeführt werden, daß die Beschreibung des Einschwingverhaltens der Aggregatkanalfilter als digitale Darstellung der Werte von
k Abtastpunkten in einem Laufzeitspeicher gespeichert wird, daß ferner von der Datenverarbeitungsanlage die digitalen Werte der Frequenz* '
funktion für alle Abtastpunkte aller η Aggregatkanäle und aller m Sprachkanäle in einen weiteren Laufzeitspeicher zeitlich so übertragen werden,
daß die zugehörigen Werte aus beiden Laufzeitspeichern ohne zusätzliche
Synchronisierung multipliziert und addiert und danach über einen Verteiler in jedem Sprachkanal zugeordnete Laufzeitspeicher getrennt übertragen werden und daß schließlich von der Datenverarbeitungsanlage die
digitalen Daten über die Sprachanregung in einen anderen Laufzeitspeicher
gebracht werden, wo sie über einen weiteren Verteiler den synchronen Abruf der Daten für jeden Sprachkanal gesondert aus deh Laufzeitspeichern für
die Übertragung zu den Decodern steuern.
<
,■.:,-.'" .■·-■■■'■-:-■'■■'·■.■ .-.'··■■■■■-■ ..
Eine weitere vorteilhafte Ausgestaltung besteht darin, daß bei jedem Zyklus
des Laufzeitspeichere ein Leitungewert in einem Zähler um eins^rhöht wird,
GE 039 01)8638/06*1 -
-δ-
bis der Zähler einen vorgegebenen Wert erreicht und ao den Abruf
eines Signales aus dem entsprechenden Laufzeitspeicher zu dem zugeordneten Decoder veranlaßt.
Die Anordnung nach der Erfindung reduziert also in vorteilhafter Weise
den Aufwand je Sprachkanal, erlaubt in leichter Weise Änderungen der Dimensionierung des Vocoder-Filtersatzes und übernimmt außerdem einen Großteil der Umsetzung der in der Rechenmaschine gespeicherten Sprachbeschreibung, insbesondere aber die zeitliche Koordinierung der Übergabe der Sprachbeschreibung an die Sprachsyntheseeinrichtung.
Im folgenden wird die Erfindung anhand eines durch Zeichnungen erläuterten Ausführungsbeispieles beschrieben. Es zeigen:
hand eines Blockschaltbildes,
regungsgesteuerten Abrufes von Informations gruppen aus den Laufzeitspechern VL. . . gQ
ge 039 0098 38/06 21
Die Anordnung basiert auf der bekannten Vorstellung, daß Bandfilter
durch ihr Einschwingverhalten vollständig beschrieben sind. Sie geht
weiter davon aus, daft eine Beschreibung des Filtersatzes in Form
der Einschwingvorgänge es ermöglicht» für eine Vielzahl von Sprachkanälen nur diese eine Filterbeschreibung zu verwenden.
Die Form der Filterbeschreibung erlaubt es dann, durch Multiplikation der Zeitbeschreibung der Filter mit den jeweilig gültigen Amplitudenwerten der Aggregatfunktion und darauffolgenden Addition der
Kanalwerte eine impulscodemodulierte Beschreibung (PCM) der Sprache zu erzeugen, die ihrerseits leicht und einfach in bekannter Weise
zur Analogdarstellung der Sprache decodiert werden kann«
Das Konzept der Anordnung, dargestellt in Fig. 1, sieht einen Block von
Sprachkanälen vor. Vorausgesetzt wird, daß Verzögerungsleitungen VOL, AGL, EXL und VL zur Verfügung stehen, die eine Impulsfolgefrequenz
von 4, 5 MHz erlauben. Niedrigere Frequenzen erfordern eine andere Auslegung des Systems, wie etwa parallele Anordnung von Verzögerungsleitungen. Für eine größere Zahl von Sprachkanälen können zusätzliche
Blöcke von 50 Sprachkanälen an die bestehende Vocoderbeschreibung
009838/0621
(in VOL gespeichert) angeschlossen werden.
Bei der nachstehend erläuterten Multiplex-Sprachsyntheseeinrichtung
ist das Einschwingverhalten des Filtersatzes in codierter Form beschrieben
und diese Beschreibung dynamisch in der Verzögerungsleitung VOL gespeichert. Zum Aufbau des Ausgangssignales eines Sprach·
kanales L. bis L muß das Einschwingverhalten der Filter mit der Frequenzfunktion des betreffenden Sprachkanales moduliert werden.
Die Änderungen der Frequenzfunkfonen sind niede infrequent und können
durch ein Frequenzband von 25 Hz Breite mit genügender Genauigkeit beschrieben werden. Die Frequenz- oder Aggregatinformation kann hierbei
für eine ganze Anzahl von Sprachkanälen in einem einzigen Laufzeitspeicher AGL gespeichert werden. Die in den Laufzeitspeichern
VOL und AGL gespeicherten Werte werden miteinander multipliziert. Die Werte eines Filtere und der Faktor des Frequenzkanales erscheinen
zu gleichen Zeitpunkten an der Multipliziereinrichtung MULT. Zur Erzeugung eines Abtastwertes im Rahmen des Einschwingverhaltene des
Filtersatzes, müssen die Resultate aller Frequenzkanäle - im allgemeinen
werden IG Frequenzkanäle verwendet - addiert werden. Das Ergebnis nach der Addition in der Addierechaltung AD besteht aus einer Anzahl
von Zahlen, Welche die Impulsantwort des Filtersatzes angeben, wenn dieser von einer einzelnen bestimmten Impulsgroße erregt wird.
GE 039 · ·■■■■.
— 009830/0821
multipliziert mit der laufenden Frequenzfunktion des Kanalee. Da die ·
Erzeugung dieser Ergebnisse nicht synchronisiert sind mit dem übrigen
Teil der Einrichtung muß die codierte Darstellung der Sprache in dem
Laufzeitepeicher VL. bis VL gespeichert werden. Dort kreisen die Informationsgruppen
und werden zu mit der Quantisierungsfrequenz der Sprachanregung, etwa 10 kHz« quantisierten Zeitpunkten am Ausgang
zur Verfugung gestellt. Die Anregung des Filtersatzes, d.h. der Abruf
des Inhaltes der Laufzeitepeicher VL. bis VL wird durch die Anregungeinformation«
die für alle Sprachkanäle in dem Laufzeitspeicher EXL in codierter Form gespeichert ist, gesteuert. Bei jedem Zyklus dieses Laufzeitspeichers
wird ein Leitungswert in einem Zähler um eine vermehrt, bis
dieser Zähler einen vorgegebenen Wert erreicht und den Abruf eines Wertes in dem entsprechenden Laufzeitepeicher für die übertragung zu dem
zugeordneten Decoder D. bis D einleitet. Diese Leitung muß so ausgelegt sein, daß sie die Abtastwerte in verzögerter Weise bereitstellt«
Das pulscodemodulierte Sprachsignal am Ausgang eines Laufzeitspeichere
VL. bis VL wird anschließend in dem zugeordneten Decoder
im .
D. bis D in ein analoges Sprachsignal umgewandelt.
Weiterhin muß vorausgesetzt werden, wie dies aus dem Stand der Technik
auch bekannt ist, daß zur Erzeugung guter Sprachqualität die Kanalwerte der Anregungefunktion maximal alle 50 ms abgetastet werden müssen.
GE 039
009838/0621
Die Anregungsinipulse, die dann in nicht kürzeren Abständen, wie etwa
5 ms (entsprechend der höchsten Grundfrequenz von etwa 200 Hz für den Durchschnitt der männlichen Stimme) auftreten, müssen ferner auf
0,1 ms genau beschrieben werden.
Eine weitere Voraussetzung für eine gute Sprachqualität in der PCM-Darstellung
ist, daß 8 Bit je 0,1 ms als Beschreibung vorgesehen werden.
Das längste zu betrachtende Zeitintervall ist der Abstand in dem von
der Datenverarbeitungsanlage EDV die Beschreibungen der Aggregatfunktionen der 50 Sprachkanäle an die Multiplex-Sprachsyntheseeinrichtung
abgegeben werden, d.h. 40,1 ms oder 180 385 t, wobei t die Einheit der
Impulsdauer eines Impulses in den Verzögerungsleitungen und bei 4, 5 MIIz
Folgefrequenz ■ 0,22 MikroSekunden ist. Das Zeitintervall von 40, 1 ms ist wiederum unterteilt in 50 Perioden zu je 3 609 Bit, wobei die einzelnen
Bit-Zeiten t. bis t„ 60Q benannt sind. Die Zeit t^ ist der Zeipunkt,
an dem an den Leitungen A und B (Fig. 2) der erste Informations impuls
zur Verfügung steht.
Die Beschreibung der Einschwingvorgänge von 16 Kanalfiltern, entsprechend
der Einteilung des Sprachbandes in 16 Aggregatkanäle, ist in einer '
Anordnung aus Verzögerungsleitungen VOL dynamisch gespeichert. Hierbei beschreiben 50 Abtastpunkte zu je 4 Bit ein Filter. Die Filterinformation
wird einmal eingespeichert und kreist in dem Laufzeitspeicher
nGE030 008838/0621 '
VOL1 falls nicht ein Fehler auftritt und die Quersummenkontrollschaltung
Q anspricht, wodurch die Notwendigkeit signalisiert wird die Vocoderbeschreibung neu einzuschreiben. Nach jedem Abtastzeitpunkt zu
64 Bit sind 8 Leerstellen vorgesehen, welche die Synchronisierung mit den
einzelnen Sprachkanal-Verzögerungsleitungen VL ermöglichen, die eine Gruppenlänge von 9 Bit haben. Der Laufzeitspeicher VOL ist so aus
gelegt, daß zu t. alle 3 609 t jeweils die Werte eines folgenden Abtastpunktes
an der Ausgangeleitung A auftreten. Dieses ist erforderlich, damit
alle Aggregatkanalwerte der 50 Sprachkanäle mit den 50 Abtastzeitpunkten der Filterbeschreibung multipliziert werden können. Eine zusätz
liche Verschiebung von 9 Bit bringt den Kopf der Information t. zur je
weils nächsten Gruppenposition in dem Laufzeitspeicher VL.
Für die Aggregatfunktion wird angenommen, daß alle 40,1 ms die Beschreibung
für die 50 Sprachkanäle von der Rechenmaschine zum Sprachsynthetisator übertragen wird. Die Information über die Aggregatfunk
tion wird in dem Laufzeitspeicher AGL dynamisch gespeichert, so daß
hintereinander die Aggregatwerte eines Sprachkanales (16 * 4 Bit ■
64 Bits) kommen, wobei die Blöcke der Sprachkanäle wieder durch 8 Leerstellen (insgesamt also 72 Bit-Stellen) getrennt sind. Nach den ',
50 Blöcken folgen weitere 9 Leerstellen, die eine Verschiebung der
Aggregatfunktion um eine Gruppenlänge von 9 Bit in dem Laufzeitspeicher VL bewirkeruDie auf den Leitungen A und B ankommenden Infor-
009838/0621
mationen sind die korrespondierenden Informationen der Filterbeschreibung, d.h. 16 Kanäle beschrieben durch je 4 Bit. In der Multiplikationsschaltung MULT wird jeweils das Produkt von 4 · 4 Bit binär gebildet.
Die 16 Werte, die zusammen einen Zeitpunkt des endgültigen Sprachsignale ergeben, werden in der Addierschaltung AD addiert und durch einen
Schalter S, der entsprechenden Sprachkanal-Verzögerungsleitung VL
zugeführt. Die Resultate des Addierwerkes werden somit in die Verzögerungsleitungen VL. eingeschrieben.
Die Sprachkanal-Verzögerungsleitungen VL. bis VL.Q sind jeweils
450 Bit lang, d. h. sie können 50 Gruppen zu (8 + 1) Bit aufnehmen, deren . Positionen mit vl n/m bezeichnet werden sollen.
Es sei nun angenommen, daQ das erste Additionsresultat von Sprachkanal 1 komme und in VL. in der Position vl 1/1 gespeichert ist. Es
folgt dann nach 72 t in VL 2 auf der Position vl 2/9 ein Signal, welches dem zweiten der 50 Abtastwerte von VOL entspricht. Der erste Abtastwert wird nach'dem Ende des Einschreibene in VL, und somit auf der
Position vl 2/8 zu finden sein.
Die folgende Tabelle 1 gibt einen Überblick über die Einteilung der
Sprachkanäle 1 his 50 und zeigt die erste Gruppe, in die ein Abtastwert eingeschrieben wird, welchem Abtastwert diese erste Gruppe
GE 039
009838/0621
entspricht. Sie zeigt ferner die Position in welcher der erste Abtastwert
des Einschwingvorganges, der von der Auegangefunktion auszulesen ist, '
zu finden sein wird.
Sprachkanal | erste eingee chriebene Position |
Abtastwert | 1. Abtastwert in Position |
1 | 1 | 1 | 1 |
2 | 9 | 2 | β |
3 | 17 | 3 | 15 |
4 | 25 | 4 | 22 |
10 | 23 | 10 | 14 |
20 | 03 | 20 | 34 |
30 | 33 | 30 | 04 |
40 | 13 | 40 | 24 |
45 | 3 | 45 | 9 :■'' |
46 | 11 | 46 | 16 |
47 | 19 | 47 | 23 |
48 | 27 | 48 | 30 |
49 | 35 | 49 | 37 |
50 | 43 | 50 | 44 |
1 | 2 | 2 | 1 |
2 | 10 | 3 | 2 |
3 | 18 | 4 | 3 |
4 | 26 | 5 | 4 |
5 | 34 | 6 | 5 |
009838/0621
. Somti gibt es für jede der 50 Sprachkanal-Verzögerungsleitungen 1
bis VL50 einen definierten Anfangszeitpunkt einer Zeitfunktion. Der in
einem Laufzeitspeicher VL. gespeicherten Zeitfunktion entspricht im Kanalvocoder die Antwort aller Filter auf den Einheitsstoß, welche je
Kanal mit dem Aggregatfunktionswert multipliziert wird und wobei die Einzelresultate addiert werden. Die Summe dieser Zeitfunktionen stellt
das Sprachsignal dar.
Es steht nun für jeden Sprachkanal, quantisiert mit 450 t, d.h. 0,1 ms
das Signal zur Verfügung, welches durch einen Anregungsimpuls im Kanalvocoder ausgelöst wird.
Alle 22 500 t, d. h. 5 ms wird von der Datenverarbeitungsanlage EDV ein
Satz Werte für den, falls vorhanden, nächsten Anregungsimpuls für jeden der 50 Kanäle übertragen. Da die Anregung durch die Periodendauer
des Laufzeitspeichers VL. mit 0,1 ms quantisiert ist, reichen zur binären
Beschreibung des Zeitpunktes 7 Bits. Hier wird das 9-er Kompliment gebildet, da 9 Bit zur Verfügung stehen und ein Addierwerk bei
jedem Umlauf des Laufzeitspeichers EXL alle 0,1 ms zu jedem Kanal + 1 binär addiert. Falls alle 9 Stellen eines Anregungswertes eins sind,
wird über den folgenden Verteilerschalter S3 im entsprechenden Sprachkanal
die Aussendung eines pulskodemodulierten Signalee von 5 ms Dauer ausgelöst. Dieses kann in bekannter Weise einfach demoduliert werden.
GE039 009838/0621
Es sei angenommen, daß zu einem bestimmten Zeitpunkt die Filterinformation über die Leitung C und die Und-Tore U 1, U2, U3. U4,
die Oder-Tore Öl, O2-und O3 und die Verzögerungsleitungen VZl und
VZ2 in den Laufzeitspeicher VOL eingespeichert worden ist und sich gerade in der Phasenlage befindet, daß in den Zeitpunkten (Taktimpulszeiten)
tj bis t. die ersten 4 Bit der VOL-Information, die mit tv.
bis tv. bezeichnet werden über die Leitung A zu der Multiplizierschal
tung MULT übertragen werden.
Die Information über den Filtersatz ist derart in dem Laufzeitspeicher
VOL gespeichert, daß 50 Abtastpunkte durch je 16 Frequenzwerte
(16 Aggregatkanäle) zu je 4 Bit beschrieben werden. Die erste ankommen
de Information ist Frequenzwert f. von Abtastpunkt %. (tv. bis tv.), dann
f_ bis f. von Abtastpunkt f.. Darauf folgt der Frequenzwert f. von
AbtastpunktT« bis schließlich f._ von AbtastpunktT50 (tv _ cg2 bis
tv_ ___) vorliegt. Nach je 64 Bit-Werten folgen 8 Leerstellen um den
gemeinsamen Zeitrahmen mit den Laufzeitspeichern VL .bis VL50
zu ermöglichen.
In Fig. 2 ist zu erkennen, daß der Laufzeitspeicher VOL, in dem die
Filterinformation gespeichert.ist im wesentlichen aus drei in Serie
geschalteten Teillaufzeitspeichern VZl bis VZ3 besteht. Die in die-
009838/0621
ser Speicheranordnung speicherbare Geeamtbitzahl ist die gleiche, wie
in dem Laufzeitspeicher AGL, in dem die Werte von jeweils 16 Aggregatkanälen für 50 Sprachkanäle gespeichert sind. Beide Laufzeitspeicher haben eine Kapazität von 3 609 Bits.
Der Kreislauf der Bits in der Laufzeitspeicheranordnung VOL wird in
folgenderWeise durchgeführt:
Das Bit tv- der Leitung L. befindet sich z. Zt. tfl2 am Ausgang der
Verzögerungsleitung VZ2 und kreist in dieser ebenso wie die nachfolgenden Bits tv»'bis tv.«* Das Bit ^73 wird z· Zt· ι βο **" er8te In"
formation in die Verzögerungsleitung VZ3 eingeschrieben und erschd nt
an deren Ausgang« d.h. an Leitung A z. Zt. tg _1Q welchem in der Periode t wieder tj entspricht. Das Bit W3 60Q, das letzte der Filterbeschreibung, kommt z. Zt. t_ _. an den Eingang der Verzögerungsleitung VZ3. Diesem Bit folgt wieder unmittelbar, d.h. z. Zt. t^, das
Bit tv. aus der Verzögerungsleitung VZ2. Zwischen den Zeiten t-, und
t.. werden keine Bits zu dem Eingang der Verzögerungsleitung VZ3 über·
tragen (9 Leerstellen).
Zur Steuerung dieser Vorgänge dienen die Und-Tore U2 bis U4 und
die Oder-Tore Ol bis O3. Die für diese Steuerung benötigten Taktsignale sind die Taktsignale T^ bis T. die in Figur 2 näher bezeichnet sind.
ge
039
009838/0621
Nach einer Periode von 3 609 t erscheint nun die Information in der
Speicheranordnung VOL um 72 Bit verschoben, d. h. an der Leitung A erscheint vom Zeitpunkt tj ab der Frequenzwert fj dee Abtastpunktes
f „. d.h. tv_. bis tv„fi, während die letzten der Serie, d.h. tv. ._„ bis
3 600 den Frequenzwert f.- des AbtastpunktesT1 beschreiben.
Obwohl zur Erzielung dieser Verschiebung 3 600 Verzögerungeelemente
ausreichend wären, werden 9 Leerstellen eingefügt« um die geeignete
kleinste gemeinsame Periode VOL und AGL mit 180 450 t zu erziele a
Die 9 Bit umfassende Verzögerungsleitung VZl wurde nur der Übersicht wegen getrennt-von der Verzögerungsleitung VZ3 . gezeichnet.
Bei einer Änderung des Zeitplanes kann sie aber auch als Verlängerung
der 3 528 Bit-Leitung auf 3 537 Bit realisiert werden.
In ähnlicher Weise, wie in dem Laufzeitspeicher VOL kreist die Aggregatfunktion
für 50 Sprachkanäle in dem Laufzeitspeicher AGl, wobei jeder Sprachkanal durch 16 Frequenzwerte zu je 4 Bit beschrieben ist.
Diese Information wird im Gegensatz zum Speicher VOL nicht verschoben. Zu den Zeitpunkten t. bis t. kommt immer die Information über den
Frequenzwert f. des ersten Sprachkanales zur Leitung B und somit über den Serienparallelwandler SPW2 zur Multiplizierschaltung MULT.
Alle 3 609 t, dh. etwa alle 0,1 ms steht die gesamte Beschreibung
eines Wertes der Aggregatfunktion von 50 Sprachkanäleh zur Verfügung.
Nach 40,1 me wird sie, entsprechend der langsamen Veränderung der
009838/0621
GE 039.
Aggregatfunktion durch neue Werte ersetzt. Diese neuen Werte werden
über die Leitung D von der Datenverarbeitungsanlage über das Und-Tor U6 und das Oder-Tor O4 zu dem Laufzeitspeicher AGL übertragen.
Das Zirkulieren dieser Information wird mit Hilfe der Und-Schaltung
tI7 und der Oder-Schaltung O4 in Verbindung mit dem Zeittakt T_ ermöglicht.
Von der Datenverarbeitungsanlage EDV werden also, wie Fig. 1 zeigt, alle 40,1 ms die Werte von 50 Sprachkanälen je 16 · 4 Bit,
getrennt durch 8 Leerstellen, übertragen.1
Die in dem Speicher VOL kreisende Beschreibung stellt, wie bereits
erwähnt, die Abtastwerte der Einschwingvorgänge, d.h. der Antworten auf den Einheitsstoß in 50 Zeitpunkten für die 16 Filter eines Vocoder-Aggregatfiltersatzes
dar.
In einem konventionellen Vocoder wird ein Einheitsimpuls gleicher Größe auf alle 16 Filter gegeben und deren Ausgangsfunktionen werden
dann mit den jeweiligen Amplitudenwerten der Aggregatfunktion für einen Sprachkanal multipliziert und addiert. Bei der Anordnung ,der Erfindung
wird der gleiche Effekt im Zeitmultiplex-Verfahren für 50 Sprachkanäle
erzielt. Hier wird die Summe der Filterantworten wie beim einfachen Vocoder addiert. Die Summe für jeden Kanal wird jedoch quantisiert durch
Abtastwerte zu je 8 Bit beschrieben.
ge 039 009838/0621
Werte für den Sprachkanal 1, Filter 1 bis 6 und Summ« ftlr Sprachkanal 1/&.
-4 l5-8
*17-20 *21-24
Filter Kanal 1 |
i | O 2 O |
O 1 O |
2 3 6 |
3 4 12 |
3 3 9 |
O 2 O |
Filter Kanal 1 |
|||||||
Filter Kanal 1 |
|||||||
Filter Kanal 1 |
|||||||
Filter Kanal 1 |
|||||||
Filter Kanal 1 |
|||||||
009838/0621
■>■■■«■■■■■
Werte für den Sprachkanal 2, Filter 1 bis 6 und Summe für Kanal
r2 | 4s-28 | 4θ-32 | t33*36 | 47-40 | l41-44 *4&· | 1 1 |
|
Filter Kanal |
1 1 1 |
||||||
Filter Kanal 1 |
1 2 2 |
||||||
Filter Kanal |
•Η | 3 3 θ |
|||||
Filter Kanal |
4 4 16 |
||||||
Filter Kanal |
2 3 6 |
||||||
Filter Kanal |
Kanal 2/r,
009838/0621
Die Tabellen 2 und 3 zeigen an einem Beispiel die Verteilung der Wer
te für den ersten und zweiten Sprachkanal und für die ersten 6 Filter
sowie die Summe der Werte für den Sprachkanal 1 und den Abtaetpunkt
%. und den Sprachkanal 2 für den Abtaetpunkt T-. In den Beispielen
der genannten beiden Tabellen werden je 4 Bit der in VOL gespeicherten Filterbeschreibung und der in AGL gespeicherten Aggregatfunktion durch
eine entsprechende Dezimalzahl von O bis 7 dargestellt. Außerdem wird
zur Vereinfachung und zur übersichtlicheren Gestaltung der Beispiele
angenommen, daß anstelle von 16 Filtern nur 6 und anstelle von 16 Frequenzwerten eines Kanales ebenfalls nur 6 beschrieben werden.
Ferner wird zugrunde gelegt, daß in der Beschreibung keine Leerstellen vorhanden sind.
Für jeden Abtastpunkt X (v · 1... 50) entsteht ein 8 Bit umfassendes
Resultat (O am Ausgang der Addierschaltung AD. innerhalb des Zeit
rahmens T- ■ t_. + (v-1) · 7Zt.
7 DO
Jedes Resultat stellt einen Abtastwert zum Abtastzeitpunkt T eines
Kanales dar und wird auf den, dem Kanal entsprechenden Laufseitspeicher VL. übertragen.
009838/0621
■ M
ches zu dem zugehörigen Decoder DEC. übertragen wird geht aus
der Fig. 3 hervor, welche die Verhältnisse für die Leitung 1 besondere darlegt. Hier^tehen am Eingang AGl zu den Zeitpunkten t (65 + m · 50 · 72)
auf 8 Leitungen parallele Abtastwerte zur Verfügung. Diese Werte werden in einem statischen Speicher BR aufgenommen und jeweils um 9 t verschoben
über das Oder-Tor O5 in die Verzögerungsleitung VL. eingeschrieben.
Das eingeschriebene Signal kreist in der Schleife, gebildet aus VL1 und VL'., mit der Periode 450 t, wobei das Steuersignal TIN
die Vorgänge so steuert, daß bei dem Einschreiben neuer Informationen die in der Schleife befindliche Information unterdrückt wird. Auf diese
Weise wird auch die Möglichkeit der Übertragung des ersten Impulses einer Gruppe von 9 Impulsen jeweils an dem Und-Tor U8 verhindert.
Diese Stelle bleibt für einen Kontrollimpuls reserviert.
Zu dem von der Anregungsfunktion bestimmten Zeitpunkt, d. h. beim Erscheinen eines Signales an dem Eingang EXl, wird ein Abtastvorgang
ausgelöst,.bei dem der zunächst in die erste Stelle von VLl eingeschrie- W
bene Impuls von EXl bei einer Periode von 450 t um 9 t weitergeschoben
wird, indem dieser Impuls nicht über die Teilverzögerungsleitung VL'.
läuft, sondern über die Verbindung O6, U9, DLY, FF1, UlO und O5 über
eine um 9 Bit kürzere Schleife zurückgeschrieben wird. Dieser Vorgang wird durch eine Verzögerungseinrichtung TF. beendet, nachdem der
Impuls um 50 Blöcke weitergeschoben wurde und bevor er wieder in den
009838/0621
Block 1 eingeschrieben würde. Die möglichen Zeitpunkte für das Auftreten
eines Impulses an EXl4 d.h. alle 5 ms zu den Zeitpunkten tt
(1 + η · 450), treffen mit dem Erscheinen der ersten der 50 Impulsgruppen
zusammen (Ul, Periode 450 t), so daß EXl immer die gleiche Folge von Impulsgruppen am Ausgang des Laufzeitspeichers VL.
auslöst. Die nachstehende Tabelle 4 zeigt die Verteilung der Impulsgruppen und gibt einen Überblick über die wichtigsten für die Steuerung
der Laufzeitspeicher notwendigen Taktimpulse.
Periode von VL. . ■ P... ■ 450 t «* 0,1 m see.
Abstand der Impulsgruppen '»0,1m see.
'65 2 | "l |
"i ■+■ | "450 |
"451 ' | "l |
Impulszeit | |
"i - | "9 |
U442 | "450 |
U883 | "891 |
Impulsgruppe
inf8 2 inf8 3
009838/0621
GE 039
Der Steuerschalter STS steuert einerseits die Einrichtung so, daß
die Impulsgruppen inf bis inf nur dann zum Ausgang des Laufzeitspeichere gelangen, wenn ein Impuls von EXl in der Leitung VL.
kreist und andererseits dieser Impuls unter Umgehung von VL'. von Block zu Block weitergeschoben wird.
Zur Sicherstellung der zeitlichen Synchronisierung von AG und EX für
alle 50 Leitungen muß der Impuls an EXm dann auftreten« wenn für die
Leitung m der erste Abtastwert am Leitungeeingang auftritt. Wie aus der Sprachkanaleinteilung in Tabelle 1 ersichtlich ist, tritt zwischen zwei
benachbarten Kanälen eine Verschiebung des ersten Abtastwertes um Positionen, d. h. 56 t ein. Zur Aufrechterhaltung der Synchronisierung
mit EX wird der Wahlschalter S, in Fig. 1 so ausgelegt, daß die Kanalfolge der Folge des ersten Abtastwertes in Tabelle 1 entspricht (d.h.
EXl, EX8, EX15 usw.). In ähnlicher Weise muß die Zeitfunktion TIN zur Steuerung des Einschreibens in die Eingänge AG der Leitungen η
jeweils um 72 f versetzt sein, wobei jedoch dtr Schalter S. in Fig. 1 in der Reihenfolge der Sprachkanäle 1, 2... 50 weiterschaltet.
009838/0621
Claims (3)
- Docket GE 967 039PATENTANSPRÜCHEVerfahren zur Multiplex-Sprachsynthese nach dem Kanalvocoderprinzip aus in Datenverarbeitungsanlagen gespeicherten Daten über die Sprache far eine Anzahl von m Sprachkanälen, dadurch gekennzeichnet, daß die Beschreibung des Einschwingverhaltene von η Aggregatkanalfiltern gespeichert wird, dall die Werte dieser Beschreibung jeweils eines Aggregatkanalfilter· mit der Frequenzfunktion des gleichen Aggregatkanal· für alle m Sprachkanäle gesondert moduliert, addiert und dann gespeichert werden und daA zu durch die Sprachanregung gegebenen Zeiten die modulierten und addierten Werte i&r jeden Sprachkanal gesondert moduliert werden.
- 2. Verfahren zur Multiplex-Spracheyntheee nach Anspruch 1, dadurchgekennzeichnet, dall die Beschreibung des Einschwingverhalten· der0098*8/0621 .·.ORIGINAL INSPECTEDasAggregatkanalfilter als digitale Darstellung der Werte an k Abtastpunk-■ ten in einem Laufzeitspeicher (VOL; Fig. 1) gespeichert ist, daß ferner von der Datenverarbeitungsanlage die digitalen Werte der Frequenzfunktion für alle Abtastpunkte aller η Aggregatkanäle und aller m Sprachkanäle in einen weiteren Laufzeitspeicher (AGL) zeitlich so übertragen werden, daß die zugehörigen Werte aus beiden Laufzeitspeichern (VOL und AGL) ohne zusätzliche Synchronisierung multipliziert und addiert und danach über einen Verteiler (S-) in jedem Sprachkanal (1 bis m) zugeordnete Laufzeitspeicher (VL. bis VL ) getrennt nach Sprachkanälen übertragen werden und daß schließlich von der Datenverarbeitungsanlage die digitalen Daten über die Sprachanregung in einen anderen Laufzeitspeicher (EXL) gebracht werden, wo sie über einen weiteren Verteiler (S_) den synchronen Abruf der Daten für jeden Sprachkanal gesondert aus den Laufzeitspeichern für die Übertragung zu den Decodern (D1 bis D) steuern.
- 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei jedem Zyklus des Laufzeitspeichers (EXL; Fig. 1) ein Leitungswert in einem Zähler {Z) um eins erhöht wird, bis der Zähler einen vorgegebenen Wert erreicht und so den Abruf eine» Signales aus dem entsprechenden Laufzeitspeicher(VL1 bis VL ) zu dem zugeordneten Decoder (D1 bU D) veranlaßt. im 4 naGE039 009838/0621
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AT723167A AT276495B (de) | 1967-08-03 | 1967-08-03 | Verfahren zur Multiplex-Sprachsynthese |
Publications (1)
Publication Number | Publication Date |
---|---|
DE1762677A1 true DE1762677A1 (de) | 1970-09-17 |
Family
ID=3593978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19681762677 Pending DE1762677A1 (de) | 1967-08-03 | 1968-08-02 | Verfahren zur Multiplex-Sprachsynthese |
Country Status (6)
Country | Link |
---|---|
US (1) | US3564142A (de) |
JP (1) | JPS5211161B1 (de) |
AT (1) | AT276495B (de) |
DE (1) | DE1762677A1 (de) |
FR (1) | FR1577550A (de) |
GB (1) | GB1227578A (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4363050A (en) * | 1980-07-28 | 1982-12-07 | Rca Corporation | Digitized audio record and playback system |
FR2544901B1 (fr) * | 1983-04-20 | 1986-02-21 | Zurcher Jean Frederic | Vocodeur a canaux muni de moyens de compensation des modulations parasites du signal de parole synthetise |
WO1997009712A2 (en) * | 1995-09-05 | 1997-03-13 | Frank Uldall Leonhard | Method and system for processing auditory signals |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3303335A (en) * | 1963-04-25 | 1967-02-07 | Cabell N Pryor | Digital correlation system having an adjustable impulse generator |
-
1967
- 1967-08-03 AT AT723167A patent/AT276495B/de active
-
1968
- 1968-06-26 FR FR1577550D patent/FR1577550A/fr not_active Expired
- 1968-07-29 GB GB1227578D patent/GB1227578A/en not_active Expired
- 1968-07-30 US US748745A patent/US3564142A/en not_active Expired - Lifetime
- 1968-08-02 DE DE19681762677 patent/DE1762677A1/de active Pending
- 1968-08-02 JP JP43054380A patent/JPS5211161B1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
FR1577550A (de) | 1969-08-08 |
JPS5211161B1 (de) | 1977-03-29 |
AT276495B (de) | 1969-11-25 |
US3564142A (en) | 1971-02-16 |
GB1227578A (de) | 1971-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2451982C2 (de) | ||
DE2050512C3 (de) | Vorrichtung zur Ableitung von Sprachparametern und zur Erzeugung synthetischer Sprache | |
DE2151281A1 (de) | Generator mit Frequenzsynthese | |
DE3003385C2 (de) | Hüllkurvenschaltung für ein elektronisches Musikinstrument | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE3008687A1 (de) | Datenuebertragungseinrichtung | |
DE2818704A1 (de) | Uebertragungssystem fuer die uebertragung analoger bild- und synchronisiersignale und zugemischer synchroner numerischer datensignale ueber analogleitungen | |
DE2616660C3 (de) | Arithmetische Einheit | |
DE2536673B2 (de) | Phasenfilter | |
DE2809316A1 (de) | Digitaler frequenzanalysator | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE2730662A1 (de) | Verfahren und schaltung zum erzeugen eines autokorrelations-funktions-faktors | |
DE2643571C2 (de) | Elektronisches Musikinstrument | |
DE2010744A1 (de) | Datenübertragungs-Digitalsystern und -verfahren mit Mehrfachausnutzung durch Zeitlaufteilung | |
DE2638820A1 (de) | Elektronisches musikinstrument | |
DE3015449A1 (de) | Signalverarbeitungssystem unter verwendung einer digitalen technik | |
DE2629707C3 (de) | System zur Umwandlung von zeitsequentiell übertragenen Farbfernsehsignalen | |
DE2724347A1 (de) | Deltamodulator mit einem quantisierenden vergleicher | |
DE3153243C2 (de) | ||
DE2850555C2 (de) | ||
DE3226619C2 (de) | ||
DE2855151A1 (de) | Digitaler hoertongenerator | |
DE2423351B2 (de) | Verfahren und vorrichtung zur kompression von aus einem kurvenverlauf in konstanten zeitintervallen abgetasteten daten | |
DE2719175A1 (de) | Schallanalysiereinrichtung | |
DE2543356B2 (de) | Numerischer generator zum erzeugen von mehrfrequenzsignalen |