DE1762677A1 - Verfahren zur Multiplex-Sprachsynthese - Google Patents

Verfahren zur Multiplex-Sprachsynthese

Info

Publication number
DE1762677A1
DE1762677A1 DE19681762677 DE1762677A DE1762677A1 DE 1762677 A1 DE1762677 A1 DE 1762677A1 DE 19681762677 DE19681762677 DE 19681762677 DE 1762677 A DE1762677 A DE 1762677A DE 1762677 A1 DE1762677 A1 DE 1762677A1
Authority
DE
Germany
Prior art keywords
stored
channel
speech
voice
aggregate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19681762677
Other languages
English (en)
Inventor
Bandat Ing Kurt F
Rothauser Ing Ernst H
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE1762677A1 publication Critical patent/DE1762677A1/de
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Description

IBM Deutschland International« BärO-Matchinen Ct*tltt<h«ß rnhll
Böblingen, 1. August 1968 jo-hn
Anmelderin:
International Business Machines Corporation, Armonk, N. Y. 10 504
Amtliches Aktenzeichen:
Neuanmeldung
Aktenzeichen der Anmelderin:
Docket GE 967 039
Verfahren zur Multiplex-Sprachsynthese
Die Erfindung betrifft ein Verfahren zur Multiplex-Spracheynthese nach dem Kanalvocoderprinzip aus in Datenverarbeitungsanlagen gespeicherten Daten über die Sprache für eine Anzahl von m Sprachkanälen.
Das bekannte Prinzip dee Kanalvocoders mit Impuls anregung erlaubt es, In einfacher Weise und bei günstiger Speicherausnutzung aus in Rechenmaschinen gespeicherten Daten, Signale zur Erzeugung natürlicher Sprache abzuleiten. Nach diesem bekannten Prinzip werden die Sprachsignale mit Hilfe von Filtern in eine Reihe von Frequenzkanäle (Aggregat- oder Spektrumkanäle) und in einen Anregungskanal zerlegt, welcher die Information der Sprachgrundwelle führt. Bei Kanalvocodern mit Impuls anregung werden im Anregungskanal des Sprachanalysators Impulse erzeugt, deren zeitlicher Abetand der Periode der gerade analy-
009838/0621
sierten Sprachgrundwelle entsprechen. Dieses gilt streng genommen aber nur für stimmhafte Sprachabschnitte. Beim Vorliegen stimmloser Sprachabschnitte werden dagegen entweder Auegangesignale eines Rausch* generators auf den Anregungekanal geschaltet oder aber ein Verfahren verwendet, welches keinerlei Unterscheidung mehr zwischen Stimmhaften und stimmlosen Lauten trifft. Bei diesem zuletzt genannten Verfahren wird das von 20 bis etwa 500 Hz begrenzte Spracheignal des Anregungskanales vielmehr in einem meist aus Dioden bestehenden Schaltkreis mit Hilfe der nicht linearen Kennlinien dieser Bauelemente nichi{linear verzerrt. Es entstehen neben Summen- und Oberfrequenzen auch Differenzfrequenzen. Diese Differenzfrequenzen ergeben bei den Vokalen, also den stimmhaften Abschnitten der Sprache, im eingeschwungenen Zustand die Sprachgrundschwin^uig dee gerade analysierten Sprachabschnittes. Bei stimmlosen Lauten, deren Hauptenergieanteil vorwiegend in einem Frequenzbereich über 3 000 Hz liegt, treten ebenfalls Differenzfrequenzen auf, die auch hinter den Dioden einen Energieanteil im verzerrten Bereich von etwa 20 bis 500 Hz besitzen und auf diese Weise einen geräuschartigen Klangcharakter zur Folge haben.
Die in den einzelnen Kanälen vorhandenen Werte der Sprachenergie können in bekannter Weise in analoger oder digitaler Form übertragen oder zur späteren Synthese des zerlegten Sprachsignales gespeichert werden.
GR 039
009838/0621
Die bekannte Synthese des Sprachsignales geht immer davon aus, daß zu bestimmten Zeitpunkten, z.B. gesteuert durch die Anregungsimpulse, die Aggregatkanalwerte zu den entsprechenden Kanalfiltern der Syntheseeinrichtung übertragen werden.
Ein Nachteil dieser Anordnungen ist, daß für jeden Sprachkanal ein eigener Filtersatz benötigt wird und somit der Aufwand mit der Zahl der Sprachkanäle linear anwächst.
Außerdem sind nachträgliche Änderungen in der Dimensionierung der Vocoder-Filtersätze nur schwer und vor allem nur durch kostspielige Maßnahmen möglich.
Es ist daher die Aufgabe der Erfindung eine technisch und ökonomisch vorteilhafte I £ sung zum Vielfach-Anschluß von Sprachsignalleitungen an eine, an eine Rechenmaschine angeschlossene Sprachausgabeeinheit anzugeben.
Für ein Verfahren zur Multiplex-Sprachsynthese nach dem Kanalvocoderprinzip aus in Datenverarbeitungsanlagen gespeicherten Daten über die Sprache für eine Anzahl von in Sprachkanälen besteht die Erfindung darin, daß die Beschreibung des Einschwingverhaltens von η Aggregatka-
Gi: 039 009838/0621
naifilterη gespeichert wird, daß die Werte dieser Beschreibung jeweils eines Aggregatkanalf liters mit der Frequenzfunktion des gleichen Aggre -gatkanales für alle m Sprachkanäle gesondert moduliert, addiert und dann gespeichert werden und daß schließlich zu den durch die Sprachanregung gegebenen Zeiten die gespeicherten modulierten Werte für jeden Sprachkanal gesondert abgerufen und demoduliert werden.
Das Verfahren kann in günstiger Welse mit Hilfe der Digitaltechnik dadurch ausgeführt werden, daß die Beschreibung des Einschwingverhaltens der Aggregatkanalfilter als digitale Darstellung der Werte von k Abtastpunkten in einem Laufzeitspeicher gespeichert wird, daß ferner von der Datenverarbeitungsanlage die digitalen Werte der Frequenz* ' funktion für alle Abtastpunkte aller η Aggregatkanäle und aller m Sprachkanäle in einen weiteren Laufzeitspeicher zeitlich so übertragen werden, daß die zugehörigen Werte aus beiden Laufzeitspeichern ohne zusätzliche Synchronisierung multipliziert und addiert und danach über einen Verteiler in jedem Sprachkanal zugeordnete Laufzeitspeicher getrennt übertragen werden und daß schließlich von der Datenverarbeitungsanlage die digitalen Daten über die Sprachanregung in einen anderen Laufzeitspeicher gebracht werden, wo sie über einen weiteren Verteiler den synchronen Abruf der Daten für jeden Sprachkanal gesondert aus deh Laufzeitspeichern für die Übertragung zu den Decodern steuern. < ,■.:,-.'" .■·-■■■'■-:-■'■■'·■.■ .-.'··■■■■■-■ ..
Eine weitere vorteilhafte Ausgestaltung besteht darin, daß bei jedem Zyklus des Laufzeitspeichere ein Leitungewert in einem Zähler um eins^rhöht wird, GE 039 01)8638/06*1 -
-δ-
bis der Zähler einen vorgegebenen Wert erreicht und ao den Abruf eines Signales aus dem entsprechenden Laufzeitspeicher zu dem zugeordneten Decoder veranlaßt.
Die Anordnung nach der Erfindung reduziert also in vorteilhafter Weise den Aufwand je Sprachkanal, erlaubt in leichter Weise Änderungen der Dimensionierung des Vocoder-Filtersatzes und übernimmt außerdem einen Großteil der Umsetzung der in der Rechenmaschine gespeicherten Sprachbeschreibung, insbesondere aber die zeitliche Koordinierung der Übergabe der Sprachbeschreibung an die Sprachsyntheseeinrichtung.
Im folgenden wird die Erfindung anhand eines durch Zeichnungen erläuterten Ausführungsbeispieles beschrieben. Es zeigen:
Fig. 1 die prinzipielle Wirkungsweise des Verfahrens an
hand eines Blockschaltbildes,
Fig. 2 das Blockdiagramm nach Fig. 1 in ausführlicherer Darstellung und Fig. 3 ein Blockschaltbild zur Veranschaulichung des an
regungsgesteuerten Abrufes von Informations gruppen aus den Laufzeitspechern VL. . . gQ
ge 039 0098 38/06 21
Allgemeine Beschreibung
Die Anordnung basiert auf der bekannten Vorstellung, daß Bandfilter durch ihr Einschwingverhalten vollständig beschrieben sind. Sie geht weiter davon aus, daft eine Beschreibung des Filtersatzes in Form der Einschwingvorgänge es ermöglicht» für eine Vielzahl von Sprachkanälen nur diese eine Filterbeschreibung zu verwenden.
Die Form der Filterbeschreibung erlaubt es dann, durch Multiplikation der Zeitbeschreibung der Filter mit den jeweilig gültigen Amplitudenwerten der Aggregatfunktion und darauffolgenden Addition der Kanalwerte eine impulscodemodulierte Beschreibung (PCM) der Sprache zu erzeugen, die ihrerseits leicht und einfach in bekannter Weise zur Analogdarstellung der Sprache decodiert werden kann«
Das Konzept der Anordnung, dargestellt in Fig. 1, sieht einen Block von Sprachkanälen vor. Vorausgesetzt wird, daß Verzögerungsleitungen VOL, AGL, EXL und VL zur Verfügung stehen, die eine Impulsfolgefrequenz von 4, 5 MHz erlauben. Niedrigere Frequenzen erfordern eine andere Auslegung des Systems, wie etwa parallele Anordnung von Verzögerungsleitungen. Für eine größere Zahl von Sprachkanälen können zusätzliche Blöcke von 50 Sprachkanälen an die bestehende Vocoderbeschreibung
009838/0621
(in VOL gespeichert) angeschlossen werden.
Bei der nachstehend erläuterten Multiplex-Sprachsyntheseeinrichtung ist das Einschwingverhalten des Filtersatzes in codierter Form beschrieben und diese Beschreibung dynamisch in der Verzögerungsleitung VOL gespeichert. Zum Aufbau des Ausgangssignales eines Sprach· kanales L. bis L muß das Einschwingverhalten der Filter mit der Frequenzfunktion des betreffenden Sprachkanales moduliert werden. Die Änderungen der Frequenzfunkfonen sind niede infrequent und können durch ein Frequenzband von 25 Hz Breite mit genügender Genauigkeit beschrieben werden. Die Frequenz- oder Aggregatinformation kann hierbei für eine ganze Anzahl von Sprachkanälen in einem einzigen Laufzeitspeicher AGL gespeichert werden. Die in den Laufzeitspeichern VOL und AGL gespeicherten Werte werden miteinander multipliziert. Die Werte eines Filtere und der Faktor des Frequenzkanales erscheinen zu gleichen Zeitpunkten an der Multipliziereinrichtung MULT. Zur Erzeugung eines Abtastwertes im Rahmen des Einschwingverhaltene des Filtersatzes, müssen die Resultate aller Frequenzkanäle - im allgemeinen werden IG Frequenzkanäle verwendet - addiert werden. Das Ergebnis nach der Addition in der Addierechaltung AD besteht aus einer Anzahl von Zahlen, Welche die Impulsantwort des Filtersatzes angeben, wenn dieser von einer einzelnen bestimmten Impulsgroße erregt wird.
GE 039 · ·■■■■.
— 009830/0821
multipliziert mit der laufenden Frequenzfunktion des Kanalee. Da die · Erzeugung dieser Ergebnisse nicht synchronisiert sind mit dem übrigen Teil der Einrichtung muß die codierte Darstellung der Sprache in dem Laufzeitepeicher VL. bis VL gespeichert werden. Dort kreisen die Informationsgruppen und werden zu mit der Quantisierungsfrequenz der Sprachanregung, etwa 10 kHz« quantisierten Zeitpunkten am Ausgang zur Verfugung gestellt. Die Anregung des Filtersatzes, d.h. der Abruf des Inhaltes der Laufzeitepeicher VL. bis VL wird durch die Anregungeinformation« die für alle Sprachkanäle in dem Laufzeitspeicher EXL in codierter Form gespeichert ist, gesteuert. Bei jedem Zyklus dieses Laufzeitspeichers wird ein Leitungswert in einem Zähler um eine vermehrt, bis dieser Zähler einen vorgegebenen Wert erreicht und den Abruf eines Wertes in dem entsprechenden Laufzeitepeicher für die übertragung zu dem zugeordneten Decoder D. bis D einleitet. Diese Leitung muß so ausgelegt sein, daß sie die Abtastwerte in verzögerter Weise bereitstellt«
Das pulscodemodulierte Sprachsignal am Ausgang eines Laufzeitspeichere VL. bis VL wird anschließend in dem zugeordneten Decoder
im .
D. bis D in ein analoges Sprachsignal umgewandelt.
Weiterhin muß vorausgesetzt werden, wie dies aus dem Stand der Technik auch bekannt ist, daß zur Erzeugung guter Sprachqualität die Kanalwerte der Anregungefunktion maximal alle 50 ms abgetastet werden müssen.
GE 039
009838/0621
Die Anregungsinipulse, die dann in nicht kürzeren Abständen, wie etwa 5 ms (entsprechend der höchsten Grundfrequenz von etwa 200 Hz für den Durchschnitt der männlichen Stimme) auftreten, müssen ferner auf 0,1 ms genau beschrieben werden.
Eine weitere Voraussetzung für eine gute Sprachqualität in der PCM-Darstellung ist, daß 8 Bit je 0,1 ms als Beschreibung vorgesehen werden.
Das längste zu betrachtende Zeitintervall ist der Abstand in dem von der Datenverarbeitungsanlage EDV die Beschreibungen der Aggregatfunktionen der 50 Sprachkanäle an die Multiplex-Sprachsyntheseeinrichtung abgegeben werden, d.h. 40,1 ms oder 180 385 t, wobei t die Einheit der Impulsdauer eines Impulses in den Verzögerungsleitungen und bei 4, 5 MIIz Folgefrequenz ■ 0,22 MikroSekunden ist. Das Zeitintervall von 40, 1 ms ist wiederum unterteilt in 50 Perioden zu je 3 609 Bit, wobei die einzelnen Bit-Zeiten t. bis t„ 60Q benannt sind. Die Zeit t^ ist der Zeipunkt, an dem an den Leitungen A und B (Fig. 2) der erste Informations impuls zur Verfügung steht.
Die Beschreibung der Einschwingvorgänge von 16 Kanalfiltern, entsprechend der Einteilung des Sprachbandes in 16 Aggregatkanäle, ist in einer ' Anordnung aus Verzögerungsleitungen VOL dynamisch gespeichert. Hierbei beschreiben 50 Abtastpunkte zu je 4 Bit ein Filter. Die Filterinformation wird einmal eingespeichert und kreist in dem Laufzeitspeicher
nGE030 008838/0621 '
VOL1 falls nicht ein Fehler auftritt und die Quersummenkontrollschaltung Q anspricht, wodurch die Notwendigkeit signalisiert wird die Vocoderbeschreibung neu einzuschreiben. Nach jedem Abtastzeitpunkt zu 64 Bit sind 8 Leerstellen vorgesehen, welche die Synchronisierung mit den einzelnen Sprachkanal-Verzögerungsleitungen VL ermöglichen, die eine Gruppenlänge von 9 Bit haben. Der Laufzeitspeicher VOL ist so aus gelegt, daß zu t. alle 3 609 t jeweils die Werte eines folgenden Abtastpunktes an der Ausgangeleitung A auftreten. Dieses ist erforderlich, damit alle Aggregatkanalwerte der 50 Sprachkanäle mit den 50 Abtastzeitpunkten der Filterbeschreibung multipliziert werden können. Eine zusätz liche Verschiebung von 9 Bit bringt den Kopf der Information t. zur je weils nächsten Gruppenposition in dem Laufzeitspeicher VL.
Für die Aggregatfunktion wird angenommen, daß alle 40,1 ms die Beschreibung für die 50 Sprachkanäle von der Rechenmaschine zum Sprachsynthetisator übertragen wird. Die Information über die Aggregatfunk tion wird in dem Laufzeitspeicher AGL dynamisch gespeichert, so daß hintereinander die Aggregatwerte eines Sprachkanales (16 * 4 Bit ■ 64 Bits) kommen, wobei die Blöcke der Sprachkanäle wieder durch 8 Leerstellen (insgesamt also 72 Bit-Stellen) getrennt sind. Nach den ',
50 Blöcken folgen weitere 9 Leerstellen, die eine Verschiebung der Aggregatfunktion um eine Gruppenlänge von 9 Bit in dem Laufzeitspeicher VL bewirkeruDie auf den Leitungen A und B ankommenden Infor-
009838/0621
mationen sind die korrespondierenden Informationen der Filterbeschreibung, d.h. 16 Kanäle beschrieben durch je 4 Bit. In der Multiplikationsschaltung MULT wird jeweils das Produkt von 4 · 4 Bit binär gebildet. Die 16 Werte, die zusammen einen Zeitpunkt des endgültigen Sprachsignale ergeben, werden in der Addierschaltung AD addiert und durch einen Schalter S, der entsprechenden Sprachkanal-Verzögerungsleitung VL zugeführt. Die Resultate des Addierwerkes werden somit in die Verzögerungsleitungen VL. eingeschrieben.
Die Sprachkanal-Verzögerungsleitungen VL. bis VL.Q sind jeweils 450 Bit lang, d. h. sie können 50 Gruppen zu (8 + 1) Bit aufnehmen, deren . Positionen mit vl n/m bezeichnet werden sollen.
Es sei nun angenommen, daQ das erste Additionsresultat von Sprachkanal 1 komme und in VL. in der Position vl 1/1 gespeichert ist. Es folgt dann nach 72 t in VL 2 auf der Position vl 2/9 ein Signal, welches dem zweiten der 50 Abtastwerte von VOL entspricht. Der erste Abtastwert wird nach'dem Ende des Einschreibene in VL, und somit auf der Position vl 2/8 zu finden sein.
Die folgende Tabelle 1 gibt einen Überblick über die Einteilung der Sprachkanäle 1 his 50 und zeigt die erste Gruppe, in die ein Abtastwert eingeschrieben wird, welchem Abtastwert diese erste Gruppe
GE 039
009838/0621
entspricht. Sie zeigt ferner die Position in welcher der erste Abtastwert des Einschwingvorganges, der von der Auegangefunktion auszulesen ist, ' zu finden sein wird.
TABELLEl Sprachkanaleinteilung
Sprachkanal erste
eingee chriebene
Position
Abtastwert 1. Abtastwert
in Position
1 1 1 1
2 9 2 β
3 17 3 15
4 25 4 22
10 23 10 14
20 03 20 34
30 33 30 04
40 13 40 24
45 3 45 9 :■''
46 11 46 16
47 19 47 23
48 27 48 30
49 35 49 37
50 43 50 44
1 2 2 1
2 10 3 2
3 18 4 3
4 26 5 4
5 34 6 5
009838/0621
. Somti gibt es für jede der 50 Sprachkanal-Verzögerungsleitungen 1 bis VL50 einen definierten Anfangszeitpunkt einer Zeitfunktion. Der in einem Laufzeitspeicher VL. gespeicherten Zeitfunktion entspricht im Kanalvocoder die Antwort aller Filter auf den Einheitsstoß, welche je Kanal mit dem Aggregatfunktionswert multipliziert wird und wobei die Einzelresultate addiert werden. Die Summe dieser Zeitfunktionen stellt das Sprachsignal dar.
Es steht nun für jeden Sprachkanal, quantisiert mit 450 t, d.h. 0,1 ms das Signal zur Verfügung, welches durch einen Anregungsimpuls im Kanalvocoder ausgelöst wird.
Alle 22 500 t, d. h. 5 ms wird von der Datenverarbeitungsanlage EDV ein Satz Werte für den, falls vorhanden, nächsten Anregungsimpuls für jeden der 50 Kanäle übertragen. Da die Anregung durch die Periodendauer des Laufzeitspeichers VL. mit 0,1 ms quantisiert ist, reichen zur binären Beschreibung des Zeitpunktes 7 Bits. Hier wird das 9-er Kompliment gebildet, da 9 Bit zur Verfügung stehen und ein Addierwerk bei jedem Umlauf des Laufzeitspeichers EXL alle 0,1 ms zu jedem Kanal + 1 binär addiert. Falls alle 9 Stellen eines Anregungswertes eins sind, wird über den folgenden Verteilerschalter S3 im entsprechenden Sprachkanal die Aussendung eines pulskodemodulierten Signalee von 5 ms Dauer ausgelöst. Dieses kann in bekannter Weise einfach demoduliert werden.
GE039 009838/0621
Ausführliche Beschreibung
Es sei angenommen, daß zu einem bestimmten Zeitpunkt die Filterinformation über die Leitung C und die Und-Tore U 1, U2, U3. U4, die Oder-Tore Öl, O2-und O3 und die Verzögerungsleitungen VZl und VZ2 in den Laufzeitspeicher VOL eingespeichert worden ist und sich gerade in der Phasenlage befindet, daß in den Zeitpunkten (Taktimpulszeiten) tj bis t. die ersten 4 Bit der VOL-Information, die mit tv. bis tv. bezeichnet werden über die Leitung A zu der Multiplizierschal tung MULT übertragen werden.
Die Information über den Filtersatz ist derart in dem Laufzeitspeicher VOL gespeichert, daß 50 Abtastpunkte durch je 16 Frequenzwerte (16 Aggregatkanäle) zu je 4 Bit beschrieben werden. Die erste ankommen de Information ist Frequenzwert f. von Abtastpunkt %. (tv. bis tv.), dann f_ bis f. von Abtastpunkt f.. Darauf folgt der Frequenzwert f. von AbtastpunktT« bis schließlich f._ von AbtastpunktT50 (tv _ cg2 bis tv_ ___) vorliegt. Nach je 64 Bit-Werten folgen 8 Leerstellen um den gemeinsamen Zeitrahmen mit den Laufzeitspeichern VL .bis VL50 zu ermöglichen.
In Fig. 2 ist zu erkennen, daß der Laufzeitspeicher VOL, in dem die Filterinformation gespeichert.ist im wesentlichen aus drei in Serie geschalteten Teillaufzeitspeichern VZl bis VZ3 besteht. Die in die-
009838/0621
ser Speicheranordnung speicherbare Geeamtbitzahl ist die gleiche, wie in dem Laufzeitspeicher AGL, in dem die Werte von jeweils 16 Aggregatkanälen für 50 Sprachkanäle gespeichert sind. Beide Laufzeitspeicher haben eine Kapazität von 3 609 Bits.
Der Kreislauf der Bits in der Laufzeitspeicheranordnung VOL wird in folgenderWeise durchgeführt:
Das Bit tv- der Leitung L. befindet sich z. Zt. tfl2 am Ausgang der Verzögerungsleitung VZ2 und kreist in dieser ebenso wie die nachfolgenden Bits tv»'bis tv.«* Das Bit ^73 wird z· Zt· ι βο **" er8te In" formation in die Verzögerungsleitung VZ3 eingeschrieben und erschd nt an deren Ausgang« d.h. an Leitung A z. Zt. tg _1Q welchem in der Periode t wieder tj entspricht. Das Bit W3 60Q, das letzte der Filterbeschreibung, kommt z. Zt. t_ _. an den Eingang der Verzögerungsleitung VZ3. Diesem Bit folgt wieder unmittelbar, d.h. z. Zt. t^, das Bit tv. aus der Verzögerungsleitung VZ2. Zwischen den Zeiten t-, und t.. werden keine Bits zu dem Eingang der Verzögerungsleitung VZ3 über· tragen (9 Leerstellen).
Zur Steuerung dieser Vorgänge dienen die Und-Tore U2 bis U4 und die Oder-Tore Ol bis O3. Die für diese Steuerung benötigten Taktsignale sind die Taktsignale T^ bis T. die in Figur 2 näher bezeichnet sind.
ge 039 009838/0621
Nach einer Periode von 3 609 t erscheint nun die Information in der Speicheranordnung VOL um 72 Bit verschoben, d. h. an der Leitung A erscheint vom Zeitpunkt tj ab der Frequenzwert fj dee Abtastpunktes f „. d.h. tv_. bis tv„fi, während die letzten der Serie, d.h. tv. ._„ bis
3 600 den Frequenzwert f.- des AbtastpunktesT1 beschreiben.
Obwohl zur Erzielung dieser Verschiebung 3 600 Verzögerungeelemente ausreichend wären, werden 9 Leerstellen eingefügt« um die geeignete kleinste gemeinsame Periode VOL und AGL mit 180 450 t zu erziele a Die 9 Bit umfassende Verzögerungsleitung VZl wurde nur der Übersicht wegen getrennt-von der Verzögerungsleitung VZ3 . gezeichnet.
Bei einer Änderung des Zeitplanes kann sie aber auch als Verlängerung der 3 528 Bit-Leitung auf 3 537 Bit realisiert werden.
In ähnlicher Weise, wie in dem Laufzeitspeicher VOL kreist die Aggregatfunktion für 50 Sprachkanäle in dem Laufzeitspeicher AGl, wobei jeder Sprachkanal durch 16 Frequenzwerte zu je 4 Bit beschrieben ist. Diese Information wird im Gegensatz zum Speicher VOL nicht verschoben. Zu den Zeitpunkten t. bis t. kommt immer die Information über den Frequenzwert f. des ersten Sprachkanales zur Leitung B und somit über den Serienparallelwandler SPW2 zur Multiplizierschaltung MULT. Alle 3 609 t, dh. etwa alle 0,1 ms steht die gesamte Beschreibung eines Wertes der Aggregatfunktion von 50 Sprachkanäleh zur Verfügung. Nach 40,1 me wird sie, entsprechend der langsamen Veränderung der
009838/0621
GE 039.
Aggregatfunktion durch neue Werte ersetzt. Diese neuen Werte werden über die Leitung D von der Datenverarbeitungsanlage über das Und-Tor U6 und das Oder-Tor O4 zu dem Laufzeitspeicher AGL übertragen. Das Zirkulieren dieser Information wird mit Hilfe der Und-Schaltung tI7 und der Oder-Schaltung O4 in Verbindung mit dem Zeittakt T_ ermöglicht. Von der Datenverarbeitungsanlage EDV werden also, wie Fig. 1 zeigt, alle 40,1 ms die Werte von 50 Sprachkanälen je 16 · 4 Bit, getrennt durch 8 Leerstellen, übertragen.1
Die in dem Speicher VOL kreisende Beschreibung stellt, wie bereits erwähnt, die Abtastwerte der Einschwingvorgänge, d.h. der Antworten auf den Einheitsstoß in 50 Zeitpunkten für die 16 Filter eines Vocoder-Aggregatfiltersatzes dar.
In einem konventionellen Vocoder wird ein Einheitsimpuls gleicher Größe auf alle 16 Filter gegeben und deren Ausgangsfunktionen werden dann mit den jeweiligen Amplitudenwerten der Aggregatfunktion für einen Sprachkanal multipliziert und addiert. Bei der Anordnung ,der Erfindung wird der gleiche Effekt im Zeitmultiplex-Verfahren für 50 Sprachkanäle erzielt. Hier wird die Summe der Filterantworten wie beim einfachen Vocoder addiert. Die Summe für jeden Kanal wird jedoch quantisiert durch Abtastwerte zu je 8 Bit beschrieben.
ge 039 009838/0621
TABELLE 2
Werte für den Sprachkanal 1, Filter 1 bis 6 und Summ« ftlr Sprachkanal 1/&.
-4 l5-8
*17-20 *21-24
Filter
Kanal 1
i O
2
O
O
1
O
2
3
6
3
4
12
3
3
9
O
2
O
Filter
Kanal 1
Filter
Kanal 1
Filter
Kanal 1
Filter
Kanal 1
Filter
Kanal 1
009838/0621
TABELLE 3
■>■■■«■■■■■
Werte für den Sprachkanal 2, Filter 1 bis 6 und Summe für Kanal
r2 4s-28 4θ-32 t33*36 47-40 l41-44 *4&· 1
1
Filter
Kanal
1
1
1
Filter
Kanal
1
1
2
2
Filter
Kanal
•Η 3
3
θ
Filter
Kanal
4
4
16
Filter
Kanal
2
3
6
Filter
Kanal
Kanal 2/r,
009838/0621
Die Tabellen 2 und 3 zeigen an einem Beispiel die Verteilung der Wer te für den ersten und zweiten Sprachkanal und für die ersten 6 Filter sowie die Summe der Werte für den Sprachkanal 1 und den Abtaetpunkt %. und den Sprachkanal 2 für den Abtaetpunkt T-. In den Beispielen der genannten beiden Tabellen werden je 4 Bit der in VOL gespeicherten Filterbeschreibung und der in AGL gespeicherten Aggregatfunktion durch eine entsprechende Dezimalzahl von O bis 7 dargestellt. Außerdem wird zur Vereinfachung und zur übersichtlicheren Gestaltung der Beispiele angenommen, daß anstelle von 16 Filtern nur 6 und anstelle von 16 Frequenzwerten eines Kanales ebenfalls nur 6 beschrieben werden. Ferner wird zugrunde gelegt, daß in der Beschreibung keine Leerstellen vorhanden sind.
Für jeden Abtastpunkt X (v · 1... 50) entsteht ein 8 Bit umfassendes Resultat (O am Ausgang der Addierschaltung AD. innerhalb des Zeit rahmens T- ■ t_. + (v-1) · 7Zt.
7 DO
Jedes Resultat stellt einen Abtastwert zum Abtastzeitpunkt T eines Kanales dar und wird auf den, dem Kanal entsprechenden Laufseitspeicher VL. übertragen.
Der Aufbau des Ausgangesignales der Verzögerungsleitung VL., wel-
009838/0621
■ M
ches zu dem zugehörigen Decoder DEC. übertragen wird geht aus der Fig. 3 hervor, welche die Verhältnisse für die Leitung 1 besondere darlegt. Hier^tehen am Eingang AGl zu den Zeitpunkten t (65 + m · 50 · 72) auf 8 Leitungen parallele Abtastwerte zur Verfügung. Diese Werte werden in einem statischen Speicher BR aufgenommen und jeweils um 9 t verschoben über das Oder-Tor O5 in die Verzögerungsleitung VL. eingeschrieben. Das eingeschriebene Signal kreist in der Schleife, gebildet aus VL1 und VL'., mit der Periode 450 t, wobei das Steuersignal TIN die Vorgänge so steuert, daß bei dem Einschreiben neuer Informationen die in der Schleife befindliche Information unterdrückt wird. Auf diese Weise wird auch die Möglichkeit der Übertragung des ersten Impulses einer Gruppe von 9 Impulsen jeweils an dem Und-Tor U8 verhindert. Diese Stelle bleibt für einen Kontrollimpuls reserviert.
Zu dem von der Anregungsfunktion bestimmten Zeitpunkt, d. h. beim Erscheinen eines Signales an dem Eingang EXl, wird ein Abtastvorgang
ausgelöst,.bei dem der zunächst in die erste Stelle von VLl eingeschrie- W
bene Impuls von EXl bei einer Periode von 450 t um 9 t weitergeschoben wird, indem dieser Impuls nicht über die Teilverzögerungsleitung VL'.
läuft, sondern über die Verbindung O6, U9, DLY, FF1, UlO und O5 über eine um 9 Bit kürzere Schleife zurückgeschrieben wird. Dieser Vorgang wird durch eine Verzögerungseinrichtung TF. beendet, nachdem der Impuls um 50 Blöcke weitergeschoben wurde und bevor er wieder in den
009838/0621
Block 1 eingeschrieben würde. Die möglichen Zeitpunkte für das Auftreten eines Impulses an EXl4 d.h. alle 5 ms zu den Zeitpunkten tt (1 + η · 450), treffen mit dem Erscheinen der ersten der 50 Impulsgruppen zusammen (Ul, Periode 450 t), so daß EXl immer die gleiche Folge von Impulsgruppen am Ausgang des Laufzeitspeichers VL. auslöst. Die nachstehende Tabelle 4 zeigt die Verteilung der Impulsgruppen und gibt einen Überblick über die wichtigsten für die Steuerung der Laufzeitspeicher notwendigen Taktimpulse.
TABELLE 4
Periode von VL. . ■ P... ■ 450 t «* 0,1 m see. Abstand der Impulsgruppen '»0,1m see.
'65 2 "l
"i ■+■ "450
"451 ' "l
Impulszeit
"i - "9
U442 "450
U883 "891
Impulsgruppe
inf8 2 inf8 3
009838/0621
GE 039
Der Steuerschalter STS steuert einerseits die Einrichtung so, daß die Impulsgruppen inf bis inf nur dann zum Ausgang des Laufzeitspeichere gelangen, wenn ein Impuls von EXl in der Leitung VL. kreist und andererseits dieser Impuls unter Umgehung von VL'. von Block zu Block weitergeschoben wird.
Zur Sicherstellung der zeitlichen Synchronisierung von AG und EX für alle 50 Leitungen muß der Impuls an EXm dann auftreten« wenn für die Leitung m der erste Abtastwert am Leitungeeingang auftritt. Wie aus der Sprachkanaleinteilung in Tabelle 1 ersichtlich ist, tritt zwischen zwei benachbarten Kanälen eine Verschiebung des ersten Abtastwertes um Positionen, d. h. 56 t ein. Zur Aufrechterhaltung der Synchronisierung mit EX wird der Wahlschalter S, in Fig. 1 so ausgelegt, daß die Kanalfolge der Folge des ersten Abtastwertes in Tabelle 1 entspricht (d.h. EXl, EX8, EX15 usw.). In ähnlicher Weise muß die Zeitfunktion TIN zur Steuerung des Einschreibens in die Eingänge AG der Leitungen η jeweils um 72 f versetzt sein, wobei jedoch dtr Schalter S. in Fig. 1 in der Reihenfolge der Sprachkanäle 1, 2... 50 weiterschaltet.
009838/0621

Claims (3)

  1. Docket GE 967 039
    PATENTANSPRÜCHE
    Verfahren zur Multiplex-Sprachsynthese nach dem Kanalvocoderprinzip aus in Datenverarbeitungsanlagen gespeicherten Daten über die Sprache far eine Anzahl von m Sprachkanälen, dadurch gekennzeichnet, daß die Beschreibung des Einschwingverhaltene von η Aggregatkanalfiltern gespeichert wird, dall die Werte dieser Beschreibung jeweils eines Aggregatkanalfilter· mit der Frequenzfunktion des gleichen Aggregatkanal· für alle m Sprachkanäle gesondert moduliert, addiert und dann gespeichert werden und daA zu durch die Sprachanregung gegebenen Zeiten die modulierten und addierten Werte i&r jeden Sprachkanal gesondert moduliert werden.
  2. 2. Verfahren zur Multiplex-Spracheyntheee nach Anspruch 1, dadurch
    gekennzeichnet, dall die Beschreibung des Einschwingverhalten· der
    0098*8/0621 .·.
    ORIGINAL INSPECTED
    as
    Aggregatkanalfilter als digitale Darstellung der Werte an k Abtastpunk-■ ten in einem Laufzeitspeicher (VOL; Fig. 1) gespeichert ist, daß ferner von der Datenverarbeitungsanlage die digitalen Werte der Frequenzfunktion für alle Abtastpunkte aller η Aggregatkanäle und aller m Sprachkanäle in einen weiteren Laufzeitspeicher (AGL) zeitlich so übertragen werden, daß die zugehörigen Werte aus beiden Laufzeitspeichern (VOL und AGL) ohne zusätzliche Synchronisierung multipliziert und addiert und danach über einen Verteiler (S-) in jedem Sprachkanal (1 bis m) zugeordnete Laufzeitspeicher (VL. bis VL ) getrennt nach Sprachkanälen übertragen werden und daß schließlich von der Datenverarbeitungsanlage die digitalen Daten über die Sprachanregung in einen anderen Laufzeitspeicher (EXL) gebracht werden, wo sie über einen weiteren Verteiler (S_) den synchronen Abruf der Daten für jeden Sprachkanal gesondert aus den Laufzeitspeichern für die Übertragung zu den Decodern (D1 bis D) steuern.
  3. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei jedem Zyklus des Laufzeitspeichers (EXL; Fig. 1) ein Leitungswert in einem Zähler {Z) um eins erhöht wird, bis der Zähler einen vorgegebenen Wert erreicht und so den Abruf eine» Signales aus dem entsprechenden Laufzeitspeicher
    (VL1 bis VL ) zu dem zugeordneten Decoder (D1 bU D) veranlaßt. im 4 na
    GE039 009838/0621
DE19681762677 1967-08-03 1968-08-02 Verfahren zur Multiplex-Sprachsynthese Pending DE1762677A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
AT723167A AT276495B (de) 1967-08-03 1967-08-03 Verfahren zur Multiplex-Sprachsynthese

Publications (1)

Publication Number Publication Date
DE1762677A1 true DE1762677A1 (de) 1970-09-17

Family

ID=3593978

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19681762677 Pending DE1762677A1 (de) 1967-08-03 1968-08-02 Verfahren zur Multiplex-Sprachsynthese

Country Status (6)

Country Link
US (1) US3564142A (de)
JP (1) JPS5211161B1 (de)
AT (1) AT276495B (de)
DE (1) DE1762677A1 (de)
FR (1) FR1577550A (de)
GB (1) GB1227578A (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363050A (en) * 1980-07-28 1982-12-07 Rca Corporation Digitized audio record and playback system
FR2544901B1 (fr) * 1983-04-20 1986-02-21 Zurcher Jean Frederic Vocodeur a canaux muni de moyens de compensation des modulations parasites du signal de parole synthetise
WO1997009712A2 (en) * 1995-09-05 1997-03-13 Frank Uldall Leonhard Method and system for processing auditory signals

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3303335A (en) * 1963-04-25 1967-02-07 Cabell N Pryor Digital correlation system having an adjustable impulse generator

Also Published As

Publication number Publication date
FR1577550A (de) 1969-08-08
JPS5211161B1 (de) 1977-03-29
AT276495B (de) 1969-11-25
US3564142A (en) 1971-02-16
GB1227578A (de) 1971-04-07

Similar Documents

Publication Publication Date Title
DE2451982C2 (de)
DE2050512C3 (de) Vorrichtung zur Ableitung von Sprachparametern und zur Erzeugung synthetischer Sprache
DE2151281A1 (de) Generator mit Frequenzsynthese
DE3003385C2 (de) Hüllkurvenschaltung für ein elektronisches Musikinstrument
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE3008687A1 (de) Datenuebertragungseinrichtung
DE2818704A1 (de) Uebertragungssystem fuer die uebertragung analoger bild- und synchronisiersignale und zugemischer synchroner numerischer datensignale ueber analogleitungen
DE2616660C3 (de) Arithmetische Einheit
DE2536673B2 (de) Phasenfilter
DE2809316A1 (de) Digitaler frequenzanalysator
DE2622423B2 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE2730662A1 (de) Verfahren und schaltung zum erzeugen eines autokorrelations-funktions-faktors
DE2643571C2 (de) Elektronisches Musikinstrument
DE2010744A1 (de) Datenübertragungs-Digitalsystern und -verfahren mit Mehrfachausnutzung durch Zeitlaufteilung
DE2638820A1 (de) Elektronisches musikinstrument
DE3015449A1 (de) Signalverarbeitungssystem unter verwendung einer digitalen technik
DE2629707C3 (de) System zur Umwandlung von zeitsequentiell übertragenen Farbfernsehsignalen
DE2724347A1 (de) Deltamodulator mit einem quantisierenden vergleicher
DE3153243C2 (de)
DE2850555C2 (de)
DE3226619C2 (de)
DE2855151A1 (de) Digitaler hoertongenerator
DE2423351B2 (de) Verfahren und vorrichtung zur kompression von aus einem kurvenverlauf in konstanten zeitintervallen abgetasteten daten
DE2719175A1 (de) Schallanalysiereinrichtung
DE2543356B2 (de) Numerischer generator zum erzeugen von mehrfrequenzsignalen