DE3228756A1 - Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen - Google Patents
Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalenInfo
- Publication number
- DE3228756A1 DE3228756A1 DE19823228756 DE3228756A DE3228756A1 DE 3228756 A1 DE3228756 A1 DE 3228756A1 DE 19823228756 DE19823228756 DE 19823228756 DE 3228756 A DE3228756 A DE 3228756A DE 3228756 A1 DE3228756 A1 DE 3228756A1
- Authority
- DE
- Germany
- Prior art keywords
- segment
- information signal
- time
- sampling points
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 16
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 32
- 230000036962 time dependent Effects 0.000 claims description 15
- 230000000737 periodic effect Effects 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000006835 compression Effects 0.000 abstract description 20
- 238000007906 compression Methods 0.000 abstract description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Komprimierung von Information, das für hörbare Schallereignisse anwendbar ist
und insbesondere ein Sprach-Kompriinierungs-, Speicherungs-,
Übertragungs- und Syntheseverfahren. Insbesondere ist die Erfindung für die zeitabhängige Sprachkomprimierung und
die Synthese von stimmlosen Sprachgeräuschen anwendbar. Die Erfindung findet auch dort Anwendung, wo der Informationsgehalt
eines Signales im Leistungsspektrum, jedoch nicht in den Phasenkomponenten äquivalenter zusammengesetzter Signale
zu finden ist.
Normale Sprache und ähnliche hörbare Töne und Geräusche enthalten etwa 100.000 Informationsbit pro Sekunde. Die Speicherung
und Übertragung von solchen großen Informationsmengen kann sich aus Gründen der Kosten, der Bandbreite und des Speicherraumes
verbieten. Aus diesem Grund ist es grundsätzlich nötig, die Speicherung und Übertragung von redundanten oder sonst unnötigen
Informationen bei Sprache und anderen hörbaren Signalen zu vermeiden. Sprachkomprimierungs- und -syntheseverfahren wurden
entwickelt, um den Informationsgehalt des Signales so zu vermindern, daß die erforderlichen Ansprüche an Übertragungsbandbreite
und Speicherraum vermindert werden. Das grundlegende Ziel besteht dabei darin, den Informationsgehalt der komprimierten
Information so klein wie möglich zu halten, gleichzeitig aber die Erkennbarkeit und Qualität des Signales nur
so wenig wie möglich zu verschlechtern.
Es wurde festgestellt, daß Sprachgeräusche und ähnliche hörbare Geräusche bestimmte Charakteristiken zeigen, die zur Minimalisierung
der Informationsredundanz bei Aufrechterhaltung der wesentlichen Qualitätscharakteristiken ausgenutzt werden
können. Die Energiequelle kann beispielsweise entweder eine stimmhafte oder eine stimmlose Anregung sein. Bei der Sprache
wird stimmhafte Anregung durch periodisches Schwingen der Stimmbänder mit einer Frequenz erreicht, die die Tonfrequenz genannt
wird, und zwar während minimaler Zeitlängen, die die Tonzeitlängen
genannt werden. Die Vokaltöne ergeben sich normalerweise aus einer solchen stimmhaften Anregung.
Die stimmlose Anregung wird dadurch erreicht, daß Luft das Sprachsystem durchfließt, ohne die Stimmbänder zu Schwingungen
anzuregen. Als Beispiele von stimmloser Anregung werden die Verschlußlaute, z.B. "P" (wie in "Panne"), "T" (wie in "Tag")
und "K" (wie in "Kern"), die Reibelaute wie "s" (wie in "Wasser"), "f" (wie in "fein"), "h" (wie in "hoch"), "Sch" (wie in "Schule")
und die verschiedenen "ch"-Laute (wie z.B. in "ich" oder "acht"), den englischen "th"-Laut (wie in "three") und alle geflüsterten
Laute angesehen. Stimmhafte Laute zeigen eine guasi-periodische Amplitudenänderung mit der Zeit, während stimmlose Laute, wie
die Zischlaute, die Verschlußlaute und andere hörbare Signale einschließlich bewegter Luft, Schließen von Türen, Zusammenstoßgeräusche,
Antriebsgeräusche von Düsenflugzeugen und dergleichen keinen derartigen quasi-periodischen Aufbau besitzen
und eher dem Zufallsrauschen oder weißen Rauschen ähneln.
Es ist bekannt, daß die Erkennbarkeit von Sprachphonemen und stimmlosen Geräuschen in erster Linie durch das Leistungsspektrum des Signals erreicht wird. Das Leistungsspektrum
wird durch das menschliche Gehirn mittels einer zeitlichen Durchschnittsbildung in der Größenordnung von 10 ms analysiert.
Die Quellensignale besitzen jedoch ein Leistungsspektrum, das sich in Zeitmaßstäben von der Größenordnung 10 bis 100 ms ändert,
so daß die Möglichkeit nahegelegt wird, daß 10 ms-Segmente eines Signales, insbesondere bei stimmlosen Geräuschen repräsentierenden
Signalen.in Kurzzeitintervallen gespeichert und bei einem Syntheseverfahren wiederholt reproduziert werden können. Es hat
sich aber gezeigt, daß ein solches Verfahren keine erkennbare Information erzeugt. Statt dessen wurde gefunden, daß eine mehrfache
Wiederholung des gleichen Segmentes eine bestimmte Periodizität wie ein Brummen mit der Wiederholfreguenz ergibt, so
daß Phoneme und Worte in Nachbarschaft von stimmlosen Geräuschen sich so gut wie ununterscheidbar zeigen. Was gebraucht wird, ist
ein Komprimierungs- und Syntheseverfahren, das die Verwendung
eines repräsentativen Segmentes oder Abschnittes eines stimmlosen
Lautes erlaubt, um den stimmlosen Laut während einer ausgedehnten Zeitlänge wiederzugeben.
Die Komprimierung von Sprachsignalen und dergleichen wird schon seit mehreren Jahrzehnten untersucht, siehe z.B. Flanagan,
Speech Analysis, Synthesis and Perception, Springer-Verlag, 1972. Das Interesse an diesem Thema hat beschleunigt zugenommen mit
der erhöhten technischen Fähigkeit, komplizierte elektronische Schaltungen in einem einzigen integrierten Schaltkreis (IC) durch
das Verfahren der Großmaßstabsintegration (Large-Scale Integration
LSI) herzustellen.
Die Komprimierungs- und Syntheseverfahren werden allgemein in
zwei Kategorien eingeteilt/ nämlich frequenzbezogene Verfahren und zeitbezogene Verfahren. Diese Verfahren unterscheiden sich
durch die Arten der gespeicherten und verwendeten Daten. Die frequenzabhängige Synthese erreicht ihre Komprimierung durch
Speichern der Information über den wichtigen Frequenzen bei jedem Sprachabschnitt oder Tonlängenabschnitt.
Beispiele von frequenzabhängigen Synthetisiergeräten
(frequency domain synthesizers) sind in den US-PS 3 575 555 und 3 588 353 beschrieben.
Demgegenüber speichern zeitabhängige Synthetisiergeräte (time domain synthesizers) eine repräsentative Version des Signals
in Form von Amplitudenw'erten in Abhängigkeit von der Zeit.
Bekannte digitale zeitabhängige Komprimierungsverfahren sind
in den US-PS 3 641 496, 3 892 919 und 4 214 125 beschrieben.
Im Jahre 1975 wurde das erste zeitabhängige Sprachsynthesegerät mit LSI unter Verwendung der in der US-PS 4 214 125
angegebenen Komprimierungstechnik hergestellt. Seit dieser Einführung des zeitabhängigen Sprachsynthetisiergerätes sind verschiedene
LSI-Versionen entworfen und für eine
Vielzahl von Anwendungen, insbesondere in Verbrauchermärkten eingeführt worden.
Erfindungsgemäß kann ein zeitabhängiges Signal, dessen Informationsgehalt
in erster Linie im Leistungsspektrum zu finden ist, im Gegensatz zu den Phasenkomponenten der frequenzabhängigen
Übertragung, und insbesondere ein aperiodisches Signal, wie ein stimmloses Sprachgeräusch, dadurch synthetisiert werden,
daß ein repräsentativer Abschnitt einer länger dauernden Signalzeit in solcher Weise wiederholt wiedergegeben wird, daß die
Einfügung von künstlichen Harmonischen durch die Wiederholungen vermieden wird. Das synthetisierte Signal wird durch Quasi-Zufalls-Beginn
und -Beendigung des Abschnittes an Stellen entwickelt, die nicht mit dem Anfang und dem Ende des Abschnittes
zusammenfallen, und dadurch, daß der Abschnitt als Quasi-Zufalls-Folge
von Vorwärts- und Rückwärtsrichtungen in dem Zeitablaüf wiedergegeben wird. Das Ausspielen des Abschnittes in dieser
Weise setzt das Brummen, Klicken oder andere bemerkbare künstliche Wiederholungen weitestgehend herab, welche oftmals durch
ein Mustersegment wiedergegebene aperiodische Signale charakterisieren.
Die Komprxmierungs- und Syntheseverfahren können mit anderen
zeitabhängigen Komprimierungs- und Syntheseverfahren zusammen verwendet werden, die für stimmlose Geräusche geeignet sind,
um ein Ausgangssignal zu erzeugen mit geringstmöglichen Anforderungen an Speicherraum und Bandbreite.
Eines der grundlegenden Ziele und Vorteile der Erfindung besteht darin, daß ein neues Verfahren zum Komprimieren des
Informationsgehaltes von Sprachsignalen und ähnlichen hörbaren Wellenformen entwickelt wird, bei dem die Qualität des sich
ergebenden Schalles nicht wesentlich verschlechtert wird, wobei aber gleichzeitig der Kostenaufwand und das Ausmaß
des Sprachsynthesegerätes reduziert werden kann. Dabei wird insbesondere das Ziel angestrebt, ein Komprimierungsverfahren
zu schaffen, das besonders für zeitabhängige Synthese anwendbar ist.
Weiter besteht das Ziel der Erfindung darin, die Menge der zu speichernden oder zu übertragenden digitalen Information
zu reduzieren, um dadurch die Bandbreite und Speichergrößeanforderungen bei einem Signalisierungssystem mit Analogausgang
zu reduzieren.
Die Erfindung wird nachfolgend anhand der Zeichnung beispielsweise
näher erläutert; in dieser zeigt:
Fig. 1 ein über der Zeit aufgetragenes Wellendiagramm der Amplitude eines stimmlosen Signales, das etwa dem
hörbaren Phonem "s" entspricht,
Fig. 2 ein Wellenformdiagramm der Amplitude als Funktion der Zeit für das Phonem "s", aufgebaut aus 128 Abtastungen,
Fig. 3 ein Wellenformdiagramm der Amplitude als Funktion der Zeit, das aus den ersten 32 Punkten der in Fig. 2 gezeigten
Wellenform aufgebaut ist,
Fig. 4 ein Blockschaltbild eines zeitabhängig arbeitenden Sprachsynthesegerätes,
Fig. 5 ein Blockschaltbild eines Abschnittes eines Zwischenprozessors
in einem zeitabhängig arbeitenden Sprachsynthesizer, der zur Rekonstruierung eines Signales
aus einem Abschnitt eines Quellensignales eingesetzt ist,
Fig. 6, in den Einzelfiguren 6A, 6B und 6C,ein detailliertes
Schaltbild einer bestimmten Ausführung eines zeitabhängig arbeitenden Wellenformsynthesizers,
♦ * Ί 1·
- 10 -
Fig. 7 eine Reihe von Zeitdiagrammen zur Darstellung der Arbeitsweise der Schaltung aus Fig. 6.
Da die Erkennbarkeit unterschiedlicher stimmhafter und stimmloser Laute in dem Leistungsspektrum und nicht in den Phasenwinkeln
enthalten ist, können gewisse Freiheiten genommen werden mit der Phaseneigenschaft der aperiodischen (stimmlosen)
und guasi-periodischen (stimmhaften) Laute. Beispielsweise ist das Leistungsspektrum eines im wesentlichen invarianten
Signales das gleiche, wenn es vorwärts oder rückwärts wiedergegeben wird. Zweitens ist das Leistungsspektrum eines Abschnittes
eines im wesentlichen invarianten Segmentes im Durchschnitt im wesentlichen gleich dem Leistungsspektrum des ganzen
Segmentes.
In Fig. 1 ist beispielsweise ein Amplitudendiagramm einer Wellenform
10 des stimmlosen Phonems "s" gezeigt. Fig. 2 zeigt eine Wellenform 10", die eine Digitalisierung mit 10 ms des Phonems
"s" darstellt, mit 128 Abtastpunkten, die mit 12 bit-Genauigkeit
digitalisiert sind.
Das Leistungsspektrum einer Sprachwellenform wird durch das Gehirn so analysiert, daß ein Zeitdurchschnitt in der Größenordnung
von 10 ms gebildet wird. In den meisten Fällen ändert sich das Signalspektrum in einem Zeitmaßstab von einem Mehrfachen
von 10 ms und besitzt eine Dauer in der Größenordnung von einigen Hundert ms. Damit können kurze Segmente der stimmlosen
Wellenform als Repräsentationen oder Darstellungen von länger dauernden Segmenten gespeichert werden, und es kann
ein Synthesizer benutzt werden, um die Segmente genügend oft wiederzugeben und so das dargestellte längere Zeitsegment zu
rekonstruieren. Bei einem 10 ms-Segment, das einen 50 ms-Intervall
darstellt, wird eine Komprimierung um den Faktor 5, d.h. ein Kompressions faktor 5 erreicht.
Wird dieses Verfahren schlicht angewandt, so ergibt sich jedoch ein bestimmtes Brummen oder eine bemerkbare Periodizität
infolge der Wiederholung von identischen Segmenten. Das Brummen reicht häufig aus, um nicht nur den gerade betrachteten
Zeitraum ununterscheidbar zu machen, sondern auch mehrere Worte in der Nähe des betrachteten Intervalls.
Dieses Problem kann erfindungsgemäß durch die Erkenntnis überwunden werden, daß das Leistungsspektrum einer stimmlosen
Wellenform, die den gewünschten Laut bestimmt, bestimmte bezeichnende Charakteristiken besitzt. Erstens ist
das Leistungsspektrum eines rückwärts abgespielten Wellenformsegmentes das gleiche wie das eines zeitabhängig vorwärts
abgespielten. Zweitens ist das Leistungsspektrum eines Abschnittes eines Segmentes im Durchschnitt das gleiche
wie das Leistungsspektrum des Gesamtsegmentes.
Damit kann erfindungsgemäß das charakteristische Brummen
wiederholter Segmente, die einen Gesamtintervall repräsentieren^ dadurch eliminiert werden, daß das repräsentative
Segment, insbesondere bei stimmlosen Lauten mit Anfang und Ende bei quasi-zufälligen Stellen während der Dauer des
gewünschten Intervalls wiederholt "ausgelesen", "ausgespielt" oder in anderer Weise wiedergegeben wird. Beispielsweise kann
der hypothetische Kompressionsfaktor 5 dadurch erreicht
werden, daß ein 10 ms-Segment 50 ms lang wiedergegeben wird, wobei zuerst das gesamte Segment vom Abtastpunkt 1 an bis zum
Ende gespielt wird, dann das gesamte Segment vom letzten Abtastpunkt zum ersten rückwärts gespielt wird, dann die
letzten zwei Drittel des Segmentes wiedergegeben werden, dann die ersten zwei Drittel des Segmentes, dann die mittleren
zwei Drittel des Segmentes nach rückwärts, dann die letzte Hälfte des Segmentes und schließlich die erste Hälfte des
Segmentes nach rückwärts.
Ein besonderes Ausführungsbeispiel dieses Vorgangs ist anhand der Wellenform 12 in Fig. 3 mit 128 Abtastpunkten dar-
gestellt, wobei diese Wellenform eine Rekonstruktion der Wellenform 10' aus Fig. 2 ist.
Erfindungsgemäß sind 32 aufeinanderfolgende Abtastungen oder Wertpunkte zur Darstellung der gesamten, 128 Wertpunkte umfassenden
Wellenform gespeichert. In Fig. 3 sind die 32 gespeicherten Punkte in ihrer Gesamtheit als Segment 14 dargestellt,
gefolgt durch eine Rückwärtsanordnung als Segment 16, dann sind die Punkte 17 bis 32 als ein gekürztes Segment
18 angeordnet, gefolgt von einer Darstellung .der Abtastpunkte
1 bis 16 als Segment 20; daraufhin folgen die Abtastpunkte
16 bis 1 als Segment 22, gefolgt von den Abtastpunkten 32 bis 17 als Segment 24. Auf diese Weise wird die gesamte
Punkte oder Stellen enthaltende Wellenform unter Benutzung von nur 3 2 Abtastpunkten zusammengesetzt oder synthetisiert,
die in einer Gruppe in quasi-zufälliger Reihenfolge zur
Wiedergabe angeordnet sind. Damit wurde ein Kompressionsfaktor 4 erzielt.
In Fig. 4 ist ein Ausführungsbeispiel eines Gerätes 40 gezeigt, das erfindungsgemäß betrieben werden kann. Eine
Speichereinheit 42 speichert die verarbeiteten und komprimierten Daten, beispielsweise die ersten 32 Abtaststellen
der aus 128 solchen Stellen bestehenden Folge. Das Speichergerät 42 wird durch eine Steuerschaltung 44 adressiert, die
den Datenausgang an einen Zwischenprozessor 46 identifiziert, der das gewünschte Ausgangssignal in Digitalform rekonstruiert.
Die Steuerschaltung gibt dem Zwischenprozessor 4 6 Informationen. Das digitale Ausgangssignal des Zwischenprozessors 46 wird
an einen Digital/Analog-Wandler 48 angelegt, der wiederum einen Verstärker 50 zum Betrieb eines Lautsprechers 52 ansteuert.
Fig. 5 ist eine Darstellung einer Ausführung der Erfindung unter Benutzung eines bidirektionalen Schieberegisters 159,
das zum Rezirkulieren von eingegebenen Daten angeschlossen ist und Mehrfachabgriffe zum Extrahieren von Daten an ver-
schiedenen Stellen besitzt.
In dem in Fig. 5 dargestellten Gerät sind drei Abgriffstellen vorgesehen/ die Ausgänge über Leitungen 179, 181
und 183 ergeben. Bei dieser Ausführung besteht der Zwischenprozessor
46 (Fig. 4) aus dem Schieberegister 159 und einem Datenselektor 167, der an einen Digital/Analog-Wandler 48
angeschlossen ist. Die Steuerschaltung 44 erzeugt ein Abgriffauswahlsignal
über Leitung 169 zur Steuerung des Selektor-Ausgangs 173.
Der Betrieb des in Fig. 5 gezeigten Systems geschieht auf
folgende Weise: Komprimierte Sprachinformation, die Daten und Instruktionen umfaßt, welche die zeitabhängige Information
jedes im wesentlichen invarianten Sprachsegments charakterisieren, sind im Speicher 42 gespeichert, typischerweise
in Form von Festwertspeicher-bits (ROM-bits). Ein Befehl wird über die Eingangssteuerleitung 153 empfangen, ein bestimmtes
Wort, eine bestimmte Phonemgruppe, ein Phonem oder ein Segment auszuwählen. Die Steuerschaltung 44 dekodiert
den Befehl und sucht den entsprechenden Bereich im Speicher für jedes erforderliche Segment auf durch Erzeugung und Ausgabe
einer Adresse über die Speicheradreßwahlleitung 157 zum Speicher 42. Die so adressierte Information wird über die
Datensammelleitung 161 parallel in das Schieberegister geladen. Weitere Steuerinformation wird an das Schieberegister
159 über die Taktleitung 163 und die Links-Rechts-Schiebesignalleitung 165 an das Schieberegister 159 weitergegeben.
Die aus dem Speicher 42 ausgelesene Information wird kontinuierlich in das Schieberegister 159 eingetaktet,
bis dieses gefüllt ist.
Gleichzeitig wird jedoch der Datenselektor 167 durch die Abzapf-Wahlleitung
169 der Steuerschaltung 44 adressiert, eine serielle Eingabe/Ausgabe-Leitung 171 zum Selektorausgang
173 zu koppeln. Aus dem Speicher 42 kommende Daten werden so gleichzeitig sowohl zum Schieberegister 159 als auch zum
• ϊ·* - , «ft* 1 1
- 14 -
Digital/Analog-Wandler 48 geleitet, und erscheinen im Lautsprecher
52 als hörbares Ausgangssignal.
Sobald das Schieberegister 159 mit den akkumulierten Daten gefüllt ist, wird der Paralleleingang 161 gesperrt (disabled),
um ein weiteres-Dateneinladen anzuhalten. Danach wird die synthetisierte Digitaldarstellung der Wellenform aus den bereits
im Schieberegister 159 gespeicherten Daten erzeugt. Die Wellenform wird dadurch rekonstruiert, daß die Daten in verschiedenen
Kombination rückwärts und vorwärts ausgespielt werden, wobei die Links/Rechts-Schiebekontrolle über die
Signalleitung 165 benutzt wird und durch Anzapfen von Daten an unterschiedlichen Stellen in der Schieberegisterfolge
unter Benutzung des Datenselektors 167 zur Auswahl unter den Anzapfungen 171, 179, 181 und 183.
Fig. 3 stellt graphisch die Ergebnisse eines besonderen Algorithmus dar. Bei einer 128-bit-Folge werden die ersten
32 bit eines Segment zu einer Gruppe geformt und in vorderer und umgekehrter Reihenfolge als alternierende Hälften der
Gruppen in umgekehrter und nach vorne gerichteter Ordnung benutzt.
Es kann die übliche CMOS-integrierte Schaltung benutzt werden,
um die besonderen Ausführungen der Erfindung aufzubauen. Eine derartige Schaltung ist in Fig. 6 gezeigt. Die Daten sind in
einem Speicher 42 gespeichert, und eine ansteigende Spannungskante an der Anforderungsleitung 103 läßt das nächste Datenbyte
an der Ausgabeleitung 105 erscheinen. Ein analoges Ausgangssignal, das die synthetisierte Wellenform repräsentiert, wird
am Ausgang 107 des Verstärkers 50 erscheinen. Diese zusammengesetzte oder synthetisierte Wellenform wird die in Fig. 3
gezeigte Form einnehmen.
Die Schaltung nach Fig. 6 enthält fünf größere Elemente, nämlich ein 64-bit bidirektionales Schieberegister 159 aus
16 4-bit-Schieberegistern 201 bis 216, die als integrierte
Schaltungen vom Typ MC14194B aufgebaut sind, welche ringförmig
hintereinander geschaltet sind. Acht Datenausgangsleitungen 105 sind mit den letzten acht Paralleleingangsklemmen
des Schieberegisters 159 verbunden.
Zwei Ausgabeklemmen werden in dem Schieberegister 159 benutzt: Zwei Signalleitungen 111 sind von den letzten zwei
bits Q~ und Q4 des mittleren Bestandteils 208 abgenommen.
Diese beiden bit-Leitungssätze sind die ausgewählten Abgriffe
vom Schieberegister 159, die wiederum mit den zwei Eingangsklemmen des Datenselektois 48 verbunden sind, der
einen Multiplexer 231 und einen Verriegelungskreis oder Zwischenspeicher (latch) 232 enthält. Da dieses spezielle
Gerät nur vier Auflösungspegel erfordert, wird ein einfacher 2-bit-D/A-Wandler 117 benutzt, der eine zweiholmige R-2R-Leiter
umfaßt. Das Ausgangssignal wird durch den Verstärker 50 zur Erzeugung des erwünschten analogen Ausgangssignals
verstärkt. Die Signalerzeugung wird durch eine durch einen Systemtakt 119 angetriebene Steuerlogik 116 gesteuert. Der
Systemtaktgeber 119 erzeugt ein Rechteckwellen-Systemtaktsignal 121 (Fig. 7).von 25 kHz. Die Steuerlogik erzeugt folgende Zei
Steuersignale, die gleichfalls in Fig. 7 gezeigt sind: Ausgabetakt 123, Lade .Paralleldaten 125, Anforderung gespeicherte
Daten 127, Schiebetakt 129, Schiebe nach links-Wahlbefehl
131 und Auswahl Mittelabgriff 133. Die entsprechenden Signalleitungen sind in Fig. 6 bezeichnet.
Es werden 256 Taktzustände oder 128 Zyklen durch einen 8-bit-Binärzähler 135 erzeugt. Die Ausgangssignale werden
dann durch übliche NAND- oder NOR-Glieder dekodiert, um die benötigten Zeitsteuersignale zu entwickeln.
Im Betrieb werden, siehe auch Fig. 7, acht Datenanforderungsimpulse
während des ersten Zeitabschnittes (Periode 1 = Zustände 0 bis 63) entwickelt und über die Leitungen 103
für das Befehlssignal Datenanforderung aus dem Speicher übertragen,
und acht Datenbytes in das Schieberegister 159 eingeladen.
Gleichzeitig werden 32 Impulse an der Leitung 123 für
Ausgabetakt erzeugt/ um 32 Zeitabschnitte mit Analogspannung an der Ausgangssignalleitung 107 zu erzeugen. Da die Leitung
131 für den Auswahlbefehl Verschiebung links tief ist, werden
die Daten (nach Absprache) nach rechts verschoben. Die Leitung 133 für Auswahl Mittelabgriff ist ebenfalls tief, und so werden
die Daten vom Ende des Schieberegisters 159 über die Leitungen 111 abgenommen.
Während Periode 2 (Zustände 64 bis 127) werden keine Datenanforderungsimpulse
erzeugt. Da deshalb keine neuen Daten eingeladen werden, bleiben die Daten vom vorhergehenden
Abschnitt, Periode 1, im Schieberegister und werden in der Schleife des Schieberegisters 159 zirkuliert. Die Leitung 131
Befehl Linksverschieben wird hochgesetzt, so daß die Daten* nach links verschoben und in umgekehrter Reihenfolge ausgespielt
werden. Die Schiebetaktimpulse, die normalerweise während der Zustände 63 und 64 auftreten, werden unterdrückt
durch Ausleiten der Ausgangssignale des Flip-Flops 137 unter Benutzung des NOR-Gliedes 139 beim Schiebetakt. Damit wird
der letzte Ausgabewert von Periode 1 wiederholt als der erste Ausgabewert der Periode 2.
Während Periode 3 wird die Leitung 133 Auswahl Verschiebung
links tiefgesetzt und die Speicherdaten-Anforderungsleitung 103 bleibt inaktiv. Die Mittelabgriffausleitung 133 wird
hochgesetzt, so daß die Daten vorwärts (nach rechts) verschoben und von der Mitte des Schieberegisters 159 abgenommen
werden. Damit wird die gleiche Wertreihenfolge, wie sie während Periode 1 erzeugt wurde, wiederholt, jedoch in der Mitte beginnend
und bis zum Ende durchgespielt, am Beginn fortgesetzt und endend in der Mitte.
Während Periode 4 wird der Befehl "wähle Verschiebung links"
hochgesetzt, so daß der Ablauf von Periode 3 umgekehrt erfolgt.
Die Verschiebungstaktimpulse während der Zustände 191 und
192 werden wie bei dem vorherigen Umkehrvorgang unterdrückt. Der Durchlauf ist damit beendet und die Vorrichtung bereit
zum Empfang neuer Informations-Bytes.
Diese Diskussion betrifft prinzipiell die Optimierung von stimmlosen hörbaren Signalen, die bei der Sprachanalyse,
-komprimierung und -synthese Verwendung finden. Gewisse Aspekte der Erfindung können jedoch gleich gut auch bei
anderer Information benutzt werden, bei der der Informationsgehalt im wesentlichen frei von irgendeiner Quasi-Periodizität
ist.
Claims (12)
- - Patentansprüche -Verfahren zur Synthese einer Einheit eines zeitabhängigen Informationssignals, das im wesentlichen keine periodischen Charakteristiken besitzt und ein während der Zeitdauer der Einheit im wesentlichen invariantes Leistungsspektrum aufweist, dadurch gekennzeichnet , daß in einer Speichereinrichtung (42) ein repräsentatives kleines Segment (TO1) der Informationssignaleinheit gespeichert wird und daß zur Rekonstruierung des Informationssignals (10) aus dem kleinen Segment (101) mindestens ein Abschnitt (14, 16, 18, 20, 22, 24) des Segmentes genügend oft wiederholt wiedergegeben wird, wobei der Wiedergabeschritt an unterschiedlichen Stellen des Segmentes bei jeder Wiederholung beginnt und endet, um dadurch eine im wesentlichen von bemerkbarer Periodizität freie Einheit zu erhalten.■ -fr·
- 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß bei der Erzeugung der Beginn und die Beendigung des Abschnittes so erfolgt, daß eine Vielzahl von seriell angeordneten Abschnitten (14, 16, 18, 20, 22, 24) unterschiedlicher Zeitlänge erzeugt werden.
- 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet , daß bei der Erzeugung die Wiedergabe des Abschnittes im Zeitablauf wiederholt nach vorwärts (14, 18, 20) und nach rückwärts (16, 22, 24) durchgeführt wird.
- 4. Verfahren zur Synthese einer Einheit eines zeitabhängigen Informationssignals, das im wesentlichen keine periodische Charakteristiken aufweist und ein im wesentlichen während der betrachteten Zeiteinheit invariantes Leistungsspektrum besitzt, bei dem das Informationssignal diskrete seriell angeordnete Abtaststellen besitzt, dadurch gekennzeichnet, daß die Abtaststellen gespeichert werden und daß wiederholt durch die Abtaststellen iteriert wird, wobei Beginn und Beendigung bei jeder Wiederholung bei unterschiedlichen Abtaststellen erfolgt, um die Einheit des Informationssignales aus den Abtaststellen im wesentlichen frei von bemerkbarer Periodizität zu rekonstruieren.
- 5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Iterierung ein Fortschreiten sowie ein Zurückschreiten durch die Abtaststellen einschließt.
- 6. Verfahren nach Anspruch 5, dadurch gekennzeichnet , daß mindestens 64 Abtaststellen eine Folge bilden, und daß bei dem ersten Iterierungs-schritt ein Fortschreiten von der ersten Abtaststelle bis zur letzten Abtaststelle ( 0 bis 32) umfaßt, woraufhin ein Rückschreiten von der letzten Abtaststelle zur ersten Abtaststelle erfolgt, daraufhin ein Fortschreiten von nicht mehr als dem ersten Achtel der gesamten Abtaststellen bis zur letzten Abtaststelle, daraufhin ein Rückschreiten von der letzten Abtaststelle zu nicht mehr als dem ersten Achtel der Abtaststellen, daraufhin ein Fortschreiten von einer Abtaststelle zwischen einem ersten Achtel und einem ersten Viertel der Abtaststellen zur letzten Abtaststelle und dann ein Rückschreiten von der letzten Abtaststelle bis zur nicht mehr als dem ersten Achtel der Abtaststellen, um eine Zeitlänge zu erreichen, zur Rekonstruierung eines Signales mit einer Wiedergabelänge, die der Einheit des Inforraationssignals entspricht.
- 7. Vorrichtung zur Synthese einer Einheit eines zeitabhängigen Informationssignals, welches im wesentlichen keine periodische Charakteristik aufweist und ein während der betrachteten Zeiteinheit im wesentlichen invariantes Leistungsspektrum besitzt, dadurch gekennzeichnet, daß eine Speichereinheit (42) zum Speichern eines repräsentativen kleinen Segmentes (10') des Informationssignals vorgesehen ist, das eine mit der Speichereinrichtung (42) gekoppelte Einrichtung (159) zur Erzeugung eines rekonstruierten Signales aus dem Informationssignalsegment (10") vorgesehen ist, die Einrichtungen zum wiederholten Wiedergeben mindestens eines Abschnittes (14, 16, 18, 20, 22, 24) des Signalsegmentes (10') umfaßt, wobei die Abschnitte an unterschiedlichen Stellen des Segmentes bei jeder Wiederholung beginnen und enden, und daß eine Einrichtung (44) zum Begrenzen der Wiederholungen auf eine ausreichende Zahl vorgesehen ist, um die Einheit des Informationssignals aus dem kleinen Segment (101) zu rekonstruieren.
- 8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet , daß eine Einrichtung (167) zur Auswahl der Zeitdauer jedes Segmentabschnittes vorgesehen ist.
- 9. Vorrichtung nach Anspruch 7 oder 8, dadurch gekennzeichnet , daß in der Wiedergabe-Erzeugungseinrichtung (159) eine Einrichtung (165) zum Wiedergeben des Segmentabschnittes in Vorwärts- und Rückwärts-Zeitablaufrichtung vorgesehen ist.
- 10. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet , daß das Informationssignal diskrete, seriell angeordnete Abtaststellen umfaßt und daß die Erzeugungseinrichtung (159) Einrichtungen (210 bis 216) enthält, die eine wiederholte Iterierung durch die Abtaststellen des Segmentes bewirkt, beginnend und endend mit jeweils unterschiedlichen Abtaststellen.
- 11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet , daß die Iterierungseinrichtung das Fortschreiten oder Rückschreiten durch die Abtaststellen bewirkende Einrichtungen umfaßt.
- 12. Vorrichtung nach Anspruch 7 oder 11, dadurch gekennzeichnet , daß an die Speichereinrichtung ein serielles Schieberegister (159) angeschlossen ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/335,310 US4435831A (en) | 1981-12-28 | 1981-12-28 | Method and apparatus for time domain compression and synthesis of unvoiced audible signals |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3228756A1 true DE3228756A1 (de) | 1983-07-07 |
Family
ID=23311233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823228756 Withdrawn DE3228756A1 (de) | 1981-12-28 | 1982-08-02 | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen |
Country Status (3)
Country | Link |
---|---|
US (1) | US4435831A (de) |
JP (1) | JPS58117600A (de) |
DE (1) | DE3228756A1 (de) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4663675A (en) * | 1984-05-04 | 1987-05-05 | International Business Machines Corporation | Apparatus and method for digital speech filing and retrieval |
US4709390A (en) * | 1984-05-04 | 1987-11-24 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech message code modifying arrangement |
JPS6145297A (ja) * | 1984-08-09 | 1986-03-05 | カシオ計算機株式会社 | 電子楽器 |
US4781096A (en) * | 1984-10-09 | 1988-11-01 | Nippon Gakki Seizo Kabushiki Kaisha | Musical tone generating apparatus |
JPS63503094A (ja) * | 1986-04-24 | 1988-11-10 | フセソユズニ ナウチノ‐イススレドバテルスキ インスティテュト ラディオベシャテルノゴ プリエマ イ アクスティキ イメニ アー.エス.ポポバ | デジタル形式でオーディオ情報信号を記録し読み出す方法とその実現のための装置 |
JPH0823752B2 (ja) * | 1988-08-11 | 1996-03-06 | 株式会社河合楽器製作所 | 波形データループ方式 |
WO1993020513A1 (en) * | 1992-04-07 | 1993-10-14 | Chips And Technologies, Inc. | Method and apparatus for performing run length tagging for increased bandwidth in dynamic data repetitive memory systems |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5217378A (en) * | 1992-09-30 | 1993-06-08 | Donovan Karen R | Painting kit for the visually impaired |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
US5692098A (en) * | 1995-03-30 | 1997-11-25 | Harris | Real-time Mozer phase recoding using a neural-network for speech compression |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
KR970017456A (ko) * | 1995-09-30 | 1997-04-30 | 김광호 | 음성신호의 무음 및 무성음 판별방법 및 그 장치 |
US5803748A (en) | 1996-09-30 | 1998-09-08 | Publications International, Ltd. | Apparatus for producing audible sounds in response to visual indicia |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
JP2004515800A (ja) * | 2000-10-05 | 2004-05-27 | オクイン,ディー.ジーン | 音声をデータに変換する装置 |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US20040049377A1 (en) * | 2001-10-05 | 2004-03-11 | O'quinn D Gene | Speech to data converter |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
US20050114136A1 (en) * | 2003-11-26 | 2005-05-26 | Hamalainen Matti S. | Manipulating wavetable data for wavetable based sound synthesis |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5252705A (en) * | 1975-10-23 | 1977-04-27 | Lion Fat Oil Co Ltd | Composition of white pigment for photogravure ink |
-
1981
- 1981-12-28 US US06/335,310 patent/US4435831A/en not_active Expired - Lifetime
-
1982
- 1982-08-02 DE DE19823228756 patent/DE3228756A1/de not_active Withdrawn
- 1982-12-28 JP JP57234870A patent/JPS58117600A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US4435831A (en) | 1984-03-06 |
JPS58117600A (ja) | 1983-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
AT400646B (de) | Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE69718284T2 (de) | Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz | |
DD143970A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE2519483A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE69229649T2 (de) | IC-Karte mit eingebauter Sprachsynthetisierungfunktion | |
DE2530380A1 (de) | Sprachsynthetisatorsystem | |
DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
DE69014680T2 (de) | Einrichtung zur Stimmensynthese. | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE3784212T2 (de) | Digitale stummschaltung. | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
DE19841683A1 (de) | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung | |
DE69326501T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese mit variabler Geschwindigkeit | |
DE68917552T2 (de) | Verfahren und Einrichtung zur Codierung und Decodierung von Sprachsignalen unter Anwendung von Multipuls-Anregung. | |
DE3037276A1 (de) | Tonsynthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |