DE3228756A1 - Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen - Google Patents

Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen

Info

Publication number
DE3228756A1
DE3228756A1 DE19823228756 DE3228756A DE3228756A1 DE 3228756 A1 DE3228756 A1 DE 3228756A1 DE 19823228756 DE19823228756 DE 19823228756 DE 3228756 A DE3228756 A DE 3228756A DE 3228756 A1 DE3228756 A1 DE 3228756A1
Authority
DE
Germany
Prior art keywords
segment
information signal
time
sampling points
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19823228756
Other languages
English (en)
Inventor
Forrest Shrago Berkeley Calif. Mozer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of DE3228756A1 publication Critical patent/DE3228756A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Komprimierung von Information, das für hörbare Schallereignisse anwendbar ist und insbesondere ein Sprach-Kompriinierungs-, Speicherungs-, Übertragungs- und Syntheseverfahren. Insbesondere ist die Erfindung für die zeitabhängige Sprachkomprimierung und die Synthese von stimmlosen Sprachgeräuschen anwendbar. Die Erfindung findet auch dort Anwendung, wo der Informationsgehalt eines Signales im Leistungsspektrum, jedoch nicht in den Phasenkomponenten äquivalenter zusammengesetzter Signale zu finden ist.
Normale Sprache und ähnliche hörbare Töne und Geräusche enthalten etwa 100.000 Informationsbit pro Sekunde. Die Speicherung und Übertragung von solchen großen Informationsmengen kann sich aus Gründen der Kosten, der Bandbreite und des Speicherraumes verbieten. Aus diesem Grund ist es grundsätzlich nötig, die Speicherung und Übertragung von redundanten oder sonst unnötigen Informationen bei Sprache und anderen hörbaren Signalen zu vermeiden. Sprachkomprimierungs- und -syntheseverfahren wurden entwickelt, um den Informationsgehalt des Signales so zu vermindern, daß die erforderlichen Ansprüche an Übertragungsbandbreite und Speicherraum vermindert werden. Das grundlegende Ziel besteht dabei darin, den Informationsgehalt der komprimierten Information so klein wie möglich zu halten, gleichzeitig aber die Erkennbarkeit und Qualität des Signales nur so wenig wie möglich zu verschlechtern.
Es wurde festgestellt, daß Sprachgeräusche und ähnliche hörbare Geräusche bestimmte Charakteristiken zeigen, die zur Minimalisierung der Informationsredundanz bei Aufrechterhaltung der wesentlichen Qualitätscharakteristiken ausgenutzt werden können. Die Energiequelle kann beispielsweise entweder eine stimmhafte oder eine stimmlose Anregung sein. Bei der Sprache wird stimmhafte Anregung durch periodisches Schwingen der Stimmbänder mit einer Frequenz erreicht, die die Tonfrequenz genannt wird, und zwar während minimaler Zeitlängen, die die Tonzeitlängen
genannt werden. Die Vokaltöne ergeben sich normalerweise aus einer solchen stimmhaften Anregung.
Die stimmlose Anregung wird dadurch erreicht, daß Luft das Sprachsystem durchfließt, ohne die Stimmbänder zu Schwingungen anzuregen. Als Beispiele von stimmloser Anregung werden die Verschlußlaute, z.B. "P" (wie in "Panne"), "T" (wie in "Tag") und "K" (wie in "Kern"), die Reibelaute wie "s" (wie in "Wasser"), "f" (wie in "fein"), "h" (wie in "hoch"), "Sch" (wie in "Schule") und die verschiedenen "ch"-Laute (wie z.B. in "ich" oder "acht"), den englischen "th"-Laut (wie in "three") und alle geflüsterten Laute angesehen. Stimmhafte Laute zeigen eine guasi-periodische Amplitudenänderung mit der Zeit, während stimmlose Laute, wie die Zischlaute, die Verschlußlaute und andere hörbare Signale einschließlich bewegter Luft, Schließen von Türen, Zusammenstoßgeräusche, Antriebsgeräusche von Düsenflugzeugen und dergleichen keinen derartigen quasi-periodischen Aufbau besitzen und eher dem Zufallsrauschen oder weißen Rauschen ähneln.
Es ist bekannt, daß die Erkennbarkeit von Sprachphonemen und stimmlosen Geräuschen in erster Linie durch das Leistungsspektrum des Signals erreicht wird. Das Leistungsspektrum wird durch das menschliche Gehirn mittels einer zeitlichen Durchschnittsbildung in der Größenordnung von 10 ms analysiert. Die Quellensignale besitzen jedoch ein Leistungsspektrum, das sich in Zeitmaßstäben von der Größenordnung 10 bis 100 ms ändert, so daß die Möglichkeit nahegelegt wird, daß 10 ms-Segmente eines Signales, insbesondere bei stimmlosen Geräuschen repräsentierenden Signalen.in Kurzzeitintervallen gespeichert und bei einem Syntheseverfahren wiederholt reproduziert werden können. Es hat sich aber gezeigt, daß ein solches Verfahren keine erkennbare Information erzeugt. Statt dessen wurde gefunden, daß eine mehrfache Wiederholung des gleichen Segmentes eine bestimmte Periodizität wie ein Brummen mit der Wiederholfreguenz ergibt, so daß Phoneme und Worte in Nachbarschaft von stimmlosen Geräuschen sich so gut wie ununterscheidbar zeigen. Was gebraucht wird, ist ein Komprimierungs- und Syntheseverfahren, das die Verwendung
eines repräsentativen Segmentes oder Abschnittes eines stimmlosen Lautes erlaubt, um den stimmlosen Laut während einer ausgedehnten Zeitlänge wiederzugeben.
Die Komprimierung von Sprachsignalen und dergleichen wird schon seit mehreren Jahrzehnten untersucht, siehe z.B. Flanagan, Speech Analysis, Synthesis and Perception, Springer-Verlag, 1972. Das Interesse an diesem Thema hat beschleunigt zugenommen mit der erhöhten technischen Fähigkeit, komplizierte elektronische Schaltungen in einem einzigen integrierten Schaltkreis (IC) durch das Verfahren der Großmaßstabsintegration (Large-Scale Integration LSI) herzustellen.
Die Komprimierungs- und Syntheseverfahren werden allgemein in zwei Kategorien eingeteilt/ nämlich frequenzbezogene Verfahren und zeitbezogene Verfahren. Diese Verfahren unterscheiden sich durch die Arten der gespeicherten und verwendeten Daten. Die frequenzabhängige Synthese erreicht ihre Komprimierung durch Speichern der Information über den wichtigen Frequenzen bei jedem Sprachabschnitt oder Tonlängenabschnitt.
Beispiele von frequenzabhängigen Synthetisiergeräten (frequency domain synthesizers) sind in den US-PS 3 575 555 und 3 588 353 beschrieben.
Demgegenüber speichern zeitabhängige Synthetisiergeräte (time domain synthesizers) eine repräsentative Version des Signals in Form von Amplitudenw'erten in Abhängigkeit von der Zeit.
Bekannte digitale zeitabhängige Komprimierungsverfahren sind in den US-PS 3 641 496, 3 892 919 und 4 214 125 beschrieben.
Im Jahre 1975 wurde das erste zeitabhängige Sprachsynthesegerät mit LSI unter Verwendung der in der US-PS 4 214 125 angegebenen Komprimierungstechnik hergestellt. Seit dieser Einführung des zeitabhängigen Sprachsynthetisiergerätes sind verschiedene LSI-Versionen entworfen und für eine
Vielzahl von Anwendungen, insbesondere in Verbrauchermärkten eingeführt worden.
Erfindungsgemäß kann ein zeitabhängiges Signal, dessen Informationsgehalt in erster Linie im Leistungsspektrum zu finden ist, im Gegensatz zu den Phasenkomponenten der frequenzabhängigen Übertragung, und insbesondere ein aperiodisches Signal, wie ein stimmloses Sprachgeräusch, dadurch synthetisiert werden, daß ein repräsentativer Abschnitt einer länger dauernden Signalzeit in solcher Weise wiederholt wiedergegeben wird, daß die Einfügung von künstlichen Harmonischen durch die Wiederholungen vermieden wird. Das synthetisierte Signal wird durch Quasi-Zufalls-Beginn und -Beendigung des Abschnittes an Stellen entwickelt, die nicht mit dem Anfang und dem Ende des Abschnittes zusammenfallen, und dadurch, daß der Abschnitt als Quasi-Zufalls-Folge von Vorwärts- und Rückwärtsrichtungen in dem Zeitablaüf wiedergegeben wird. Das Ausspielen des Abschnittes in dieser Weise setzt das Brummen, Klicken oder andere bemerkbare künstliche Wiederholungen weitestgehend herab, welche oftmals durch ein Mustersegment wiedergegebene aperiodische Signale charakterisieren.
Die Komprxmierungs- und Syntheseverfahren können mit anderen zeitabhängigen Komprimierungs- und Syntheseverfahren zusammen verwendet werden, die für stimmlose Geräusche geeignet sind, um ein Ausgangssignal zu erzeugen mit geringstmöglichen Anforderungen an Speicherraum und Bandbreite.
Eines der grundlegenden Ziele und Vorteile der Erfindung besteht darin, daß ein neues Verfahren zum Komprimieren des Informationsgehaltes von Sprachsignalen und ähnlichen hörbaren Wellenformen entwickelt wird, bei dem die Qualität des sich ergebenden Schalles nicht wesentlich verschlechtert wird, wobei aber gleichzeitig der Kostenaufwand und das Ausmaß des Sprachsynthesegerätes reduziert werden kann. Dabei wird insbesondere das Ziel angestrebt, ein Komprimierungsverfahren
zu schaffen, das besonders für zeitabhängige Synthese anwendbar ist.
Weiter besteht das Ziel der Erfindung darin, die Menge der zu speichernden oder zu übertragenden digitalen Information zu reduzieren, um dadurch die Bandbreite und Speichergrößeanforderungen bei einem Signalisierungssystem mit Analogausgang zu reduzieren.
Die Erfindung wird nachfolgend anhand der Zeichnung beispielsweise näher erläutert; in dieser zeigt:
Fig. 1 ein über der Zeit aufgetragenes Wellendiagramm der Amplitude eines stimmlosen Signales, das etwa dem hörbaren Phonem "s" entspricht,
Fig. 2 ein Wellenformdiagramm der Amplitude als Funktion der Zeit für das Phonem "s", aufgebaut aus 128 Abtastungen,
Fig. 3 ein Wellenformdiagramm der Amplitude als Funktion der Zeit, das aus den ersten 32 Punkten der in Fig. 2 gezeigten Wellenform aufgebaut ist,
Fig. 4 ein Blockschaltbild eines zeitabhängig arbeitenden Sprachsynthesegerätes,
Fig. 5 ein Blockschaltbild eines Abschnittes eines Zwischenprozessors in einem zeitabhängig arbeitenden Sprachsynthesizer, der zur Rekonstruierung eines Signales aus einem Abschnitt eines Quellensignales eingesetzt ist,
Fig. 6, in den Einzelfiguren 6A, 6B und 6C,ein detailliertes Schaltbild einer bestimmten Ausführung eines zeitabhängig arbeitenden Wellenformsynthesizers,
♦ * Ί 1·
- 10 -
Fig. 7 eine Reihe von Zeitdiagrammen zur Darstellung der Arbeitsweise der Schaltung aus Fig. 6.
Da die Erkennbarkeit unterschiedlicher stimmhafter und stimmloser Laute in dem Leistungsspektrum und nicht in den Phasenwinkeln enthalten ist, können gewisse Freiheiten genommen werden mit der Phaseneigenschaft der aperiodischen (stimmlosen) und guasi-periodischen (stimmhaften) Laute. Beispielsweise ist das Leistungsspektrum eines im wesentlichen invarianten Signales das gleiche, wenn es vorwärts oder rückwärts wiedergegeben wird. Zweitens ist das Leistungsspektrum eines Abschnittes eines im wesentlichen invarianten Segmentes im Durchschnitt im wesentlichen gleich dem Leistungsspektrum des ganzen Segmentes.
In Fig. 1 ist beispielsweise ein Amplitudendiagramm einer Wellenform 10 des stimmlosen Phonems "s" gezeigt. Fig. 2 zeigt eine Wellenform 10", die eine Digitalisierung mit 10 ms des Phonems "s" darstellt, mit 128 Abtastpunkten, die mit 12 bit-Genauigkeit digitalisiert sind.
Das Leistungsspektrum einer Sprachwellenform wird durch das Gehirn so analysiert, daß ein Zeitdurchschnitt in der Größenordnung von 10 ms gebildet wird. In den meisten Fällen ändert sich das Signalspektrum in einem Zeitmaßstab von einem Mehrfachen von 10 ms und besitzt eine Dauer in der Größenordnung von einigen Hundert ms. Damit können kurze Segmente der stimmlosen Wellenform als Repräsentationen oder Darstellungen von länger dauernden Segmenten gespeichert werden, und es kann ein Synthesizer benutzt werden, um die Segmente genügend oft wiederzugeben und so das dargestellte längere Zeitsegment zu rekonstruieren. Bei einem 10 ms-Segment, das einen 50 ms-Intervall darstellt, wird eine Komprimierung um den Faktor 5, d.h. ein Kompressions faktor 5 erreicht.
Wird dieses Verfahren schlicht angewandt, so ergibt sich jedoch ein bestimmtes Brummen oder eine bemerkbare Periodizität infolge der Wiederholung von identischen Segmenten. Das Brummen reicht häufig aus, um nicht nur den gerade betrachteten Zeitraum ununterscheidbar zu machen, sondern auch mehrere Worte in der Nähe des betrachteten Intervalls.
Dieses Problem kann erfindungsgemäß durch die Erkenntnis überwunden werden, daß das Leistungsspektrum einer stimmlosen Wellenform, die den gewünschten Laut bestimmt, bestimmte bezeichnende Charakteristiken besitzt. Erstens ist das Leistungsspektrum eines rückwärts abgespielten Wellenformsegmentes das gleiche wie das eines zeitabhängig vorwärts abgespielten. Zweitens ist das Leistungsspektrum eines Abschnittes eines Segmentes im Durchschnitt das gleiche wie das Leistungsspektrum des Gesamtsegmentes.
Damit kann erfindungsgemäß das charakteristische Brummen wiederholter Segmente, die einen Gesamtintervall repräsentieren^ dadurch eliminiert werden, daß das repräsentative Segment, insbesondere bei stimmlosen Lauten mit Anfang und Ende bei quasi-zufälligen Stellen während der Dauer des gewünschten Intervalls wiederholt "ausgelesen", "ausgespielt" oder in anderer Weise wiedergegeben wird. Beispielsweise kann der hypothetische Kompressionsfaktor 5 dadurch erreicht werden, daß ein 10 ms-Segment 50 ms lang wiedergegeben wird, wobei zuerst das gesamte Segment vom Abtastpunkt 1 an bis zum Ende gespielt wird, dann das gesamte Segment vom letzten Abtastpunkt zum ersten rückwärts gespielt wird, dann die letzten zwei Drittel des Segmentes wiedergegeben werden, dann die ersten zwei Drittel des Segmentes, dann die mittleren zwei Drittel des Segmentes nach rückwärts, dann die letzte Hälfte des Segmentes und schließlich die erste Hälfte des Segmentes nach rückwärts.
Ein besonderes Ausführungsbeispiel dieses Vorgangs ist anhand der Wellenform 12 in Fig. 3 mit 128 Abtastpunkten dar-
gestellt, wobei diese Wellenform eine Rekonstruktion der Wellenform 10' aus Fig. 2 ist.
Erfindungsgemäß sind 32 aufeinanderfolgende Abtastungen oder Wertpunkte zur Darstellung der gesamten, 128 Wertpunkte umfassenden Wellenform gespeichert. In Fig. 3 sind die 32 gespeicherten Punkte in ihrer Gesamtheit als Segment 14 dargestellt, gefolgt durch eine Rückwärtsanordnung als Segment 16, dann sind die Punkte 17 bis 32 als ein gekürztes Segment 18 angeordnet, gefolgt von einer Darstellung .der Abtastpunkte 1 bis 16 als Segment 20; daraufhin folgen die Abtastpunkte 16 bis 1 als Segment 22, gefolgt von den Abtastpunkten 32 bis 17 als Segment 24. Auf diese Weise wird die gesamte Punkte oder Stellen enthaltende Wellenform unter Benutzung von nur 3 2 Abtastpunkten zusammengesetzt oder synthetisiert, die in einer Gruppe in quasi-zufälliger Reihenfolge zur Wiedergabe angeordnet sind. Damit wurde ein Kompressionsfaktor 4 erzielt.
In Fig. 4 ist ein Ausführungsbeispiel eines Gerätes 40 gezeigt, das erfindungsgemäß betrieben werden kann. Eine Speichereinheit 42 speichert die verarbeiteten und komprimierten Daten, beispielsweise die ersten 32 Abtaststellen der aus 128 solchen Stellen bestehenden Folge. Das Speichergerät 42 wird durch eine Steuerschaltung 44 adressiert, die den Datenausgang an einen Zwischenprozessor 46 identifiziert, der das gewünschte Ausgangssignal in Digitalform rekonstruiert. Die Steuerschaltung gibt dem Zwischenprozessor 4 6 Informationen. Das digitale Ausgangssignal des Zwischenprozessors 46 wird an einen Digital/Analog-Wandler 48 angelegt, der wiederum einen Verstärker 50 zum Betrieb eines Lautsprechers 52 ansteuert.
Fig. 5 ist eine Darstellung einer Ausführung der Erfindung unter Benutzung eines bidirektionalen Schieberegisters 159, das zum Rezirkulieren von eingegebenen Daten angeschlossen ist und Mehrfachabgriffe zum Extrahieren von Daten an ver-
schiedenen Stellen besitzt.
In dem in Fig. 5 dargestellten Gerät sind drei Abgriffstellen vorgesehen/ die Ausgänge über Leitungen 179, 181 und 183 ergeben. Bei dieser Ausführung besteht der Zwischenprozessor 46 (Fig. 4) aus dem Schieberegister 159 und einem Datenselektor 167, der an einen Digital/Analog-Wandler 48 angeschlossen ist. Die Steuerschaltung 44 erzeugt ein Abgriffauswahlsignal über Leitung 169 zur Steuerung des Selektor-Ausgangs 173.
Der Betrieb des in Fig. 5 gezeigten Systems geschieht auf folgende Weise: Komprimierte Sprachinformation, die Daten und Instruktionen umfaßt, welche die zeitabhängige Information jedes im wesentlichen invarianten Sprachsegments charakterisieren, sind im Speicher 42 gespeichert, typischerweise in Form von Festwertspeicher-bits (ROM-bits). Ein Befehl wird über die Eingangssteuerleitung 153 empfangen, ein bestimmtes Wort, eine bestimmte Phonemgruppe, ein Phonem oder ein Segment auszuwählen. Die Steuerschaltung 44 dekodiert den Befehl und sucht den entsprechenden Bereich im Speicher für jedes erforderliche Segment auf durch Erzeugung und Ausgabe einer Adresse über die Speicheradreßwahlleitung 157 zum Speicher 42. Die so adressierte Information wird über die Datensammelleitung 161 parallel in das Schieberegister geladen. Weitere Steuerinformation wird an das Schieberegister 159 über die Taktleitung 163 und die Links-Rechts-Schiebesignalleitung 165 an das Schieberegister 159 weitergegeben. Die aus dem Speicher 42 ausgelesene Information wird kontinuierlich in das Schieberegister 159 eingetaktet, bis dieses gefüllt ist.
Gleichzeitig wird jedoch der Datenselektor 167 durch die Abzapf-Wahlleitung 169 der Steuerschaltung 44 adressiert, eine serielle Eingabe/Ausgabe-Leitung 171 zum Selektorausgang 173 zu koppeln. Aus dem Speicher 42 kommende Daten werden so gleichzeitig sowohl zum Schieberegister 159 als auch zum
• ϊ·* - , «ft* 1 1
- 14 -
Digital/Analog-Wandler 48 geleitet, und erscheinen im Lautsprecher 52 als hörbares Ausgangssignal.
Sobald das Schieberegister 159 mit den akkumulierten Daten gefüllt ist, wird der Paralleleingang 161 gesperrt (disabled), um ein weiteres-Dateneinladen anzuhalten. Danach wird die synthetisierte Digitaldarstellung der Wellenform aus den bereits im Schieberegister 159 gespeicherten Daten erzeugt. Die Wellenform wird dadurch rekonstruiert, daß die Daten in verschiedenen Kombination rückwärts und vorwärts ausgespielt werden, wobei die Links/Rechts-Schiebekontrolle über die Signalleitung 165 benutzt wird und durch Anzapfen von Daten an unterschiedlichen Stellen in der Schieberegisterfolge unter Benutzung des Datenselektors 167 zur Auswahl unter den Anzapfungen 171, 179, 181 und 183.
Fig. 3 stellt graphisch die Ergebnisse eines besonderen Algorithmus dar. Bei einer 128-bit-Folge werden die ersten 32 bit eines Segment zu einer Gruppe geformt und in vorderer und umgekehrter Reihenfolge als alternierende Hälften der Gruppen in umgekehrter und nach vorne gerichteter Ordnung benutzt.
Es kann die übliche CMOS-integrierte Schaltung benutzt werden, um die besonderen Ausführungen der Erfindung aufzubauen. Eine derartige Schaltung ist in Fig. 6 gezeigt. Die Daten sind in einem Speicher 42 gespeichert, und eine ansteigende Spannungskante an der Anforderungsleitung 103 läßt das nächste Datenbyte an der Ausgabeleitung 105 erscheinen. Ein analoges Ausgangssignal, das die synthetisierte Wellenform repräsentiert, wird am Ausgang 107 des Verstärkers 50 erscheinen. Diese zusammengesetzte oder synthetisierte Wellenform wird die in Fig. 3 gezeigte Form einnehmen.
Die Schaltung nach Fig. 6 enthält fünf größere Elemente, nämlich ein 64-bit bidirektionales Schieberegister 159 aus
16 4-bit-Schieberegistern 201 bis 216, die als integrierte Schaltungen vom Typ MC14194B aufgebaut sind, welche ringförmig hintereinander geschaltet sind. Acht Datenausgangsleitungen 105 sind mit den letzten acht Paralleleingangsklemmen des Schieberegisters 159 verbunden.
Zwei Ausgabeklemmen werden in dem Schieberegister 159 benutzt: Zwei Signalleitungen 111 sind von den letzten zwei bits Q~ und Q4 des mittleren Bestandteils 208 abgenommen. Diese beiden bit-Leitungssätze sind die ausgewählten Abgriffe vom Schieberegister 159, die wiederum mit den zwei Eingangsklemmen des Datenselektois 48 verbunden sind, der einen Multiplexer 231 und einen Verriegelungskreis oder Zwischenspeicher (latch) 232 enthält. Da dieses spezielle Gerät nur vier Auflösungspegel erfordert, wird ein einfacher 2-bit-D/A-Wandler 117 benutzt, der eine zweiholmige R-2R-Leiter umfaßt. Das Ausgangssignal wird durch den Verstärker 50 zur Erzeugung des erwünschten analogen Ausgangssignals verstärkt. Die Signalerzeugung wird durch eine durch einen Systemtakt 119 angetriebene Steuerlogik 116 gesteuert. Der Systemtaktgeber 119 erzeugt ein Rechteckwellen-Systemtaktsignal 121 (Fig. 7).von 25 kHz. Die Steuerlogik erzeugt folgende Zei Steuersignale, die gleichfalls in Fig. 7 gezeigt sind: Ausgabetakt 123, Lade .Paralleldaten 125, Anforderung gespeicherte Daten 127, Schiebetakt 129, Schiebe nach links-Wahlbefehl 131 und Auswahl Mittelabgriff 133. Die entsprechenden Signalleitungen sind in Fig. 6 bezeichnet.
Es werden 256 Taktzustände oder 128 Zyklen durch einen 8-bit-Binärzähler 135 erzeugt. Die Ausgangssignale werden dann durch übliche NAND- oder NOR-Glieder dekodiert, um die benötigten Zeitsteuersignale zu entwickeln.
Im Betrieb werden, siehe auch Fig. 7, acht Datenanforderungsimpulse während des ersten Zeitabschnittes (Periode 1 = Zustände 0 bis 63) entwickelt und über die Leitungen 103
für das Befehlssignal Datenanforderung aus dem Speicher übertragen, und acht Datenbytes in das Schieberegister 159 eingeladen. Gleichzeitig werden 32 Impulse an der Leitung 123 für Ausgabetakt erzeugt/ um 32 Zeitabschnitte mit Analogspannung an der Ausgangssignalleitung 107 zu erzeugen. Da die Leitung 131 für den Auswahlbefehl Verschiebung links tief ist, werden die Daten (nach Absprache) nach rechts verschoben. Die Leitung 133 für Auswahl Mittelabgriff ist ebenfalls tief, und so werden die Daten vom Ende des Schieberegisters 159 über die Leitungen 111 abgenommen.
Während Periode 2 (Zustände 64 bis 127) werden keine Datenanforderungsimpulse erzeugt. Da deshalb keine neuen Daten eingeladen werden, bleiben die Daten vom vorhergehenden Abschnitt, Periode 1, im Schieberegister und werden in der Schleife des Schieberegisters 159 zirkuliert. Die Leitung 131 Befehl Linksverschieben wird hochgesetzt, so daß die Daten* nach links verschoben und in umgekehrter Reihenfolge ausgespielt werden. Die Schiebetaktimpulse, die normalerweise während der Zustände 63 und 64 auftreten, werden unterdrückt durch Ausleiten der Ausgangssignale des Flip-Flops 137 unter Benutzung des NOR-Gliedes 139 beim Schiebetakt. Damit wird der letzte Ausgabewert von Periode 1 wiederholt als der erste Ausgabewert der Periode 2.
Während Periode 3 wird die Leitung 133 Auswahl Verschiebung links tiefgesetzt und die Speicherdaten-Anforderungsleitung 103 bleibt inaktiv. Die Mittelabgriffausleitung 133 wird hochgesetzt, so daß die Daten vorwärts (nach rechts) verschoben und von der Mitte des Schieberegisters 159 abgenommen werden. Damit wird die gleiche Wertreihenfolge, wie sie während Periode 1 erzeugt wurde, wiederholt, jedoch in der Mitte beginnend und bis zum Ende durchgespielt, am Beginn fortgesetzt und endend in der Mitte.
Während Periode 4 wird der Befehl "wähle Verschiebung links" hochgesetzt, so daß der Ablauf von Periode 3 umgekehrt erfolgt.
Die Verschiebungstaktimpulse während der Zustände 191 und 192 werden wie bei dem vorherigen Umkehrvorgang unterdrückt. Der Durchlauf ist damit beendet und die Vorrichtung bereit zum Empfang neuer Informations-Bytes.
Diese Diskussion betrifft prinzipiell die Optimierung von stimmlosen hörbaren Signalen, die bei der Sprachanalyse, -komprimierung und -synthese Verwendung finden. Gewisse Aspekte der Erfindung können jedoch gleich gut auch bei anderer Information benutzt werden, bei der der Informationsgehalt im wesentlichen frei von irgendeiner Quasi-Periodizität ist.

Claims (12)

  1. - Patentansprüche -
    Verfahren zur Synthese einer Einheit eines zeitabhängigen Informationssignals, das im wesentlichen keine periodischen Charakteristiken besitzt und ein während der Zeitdauer der Einheit im wesentlichen invariantes Leistungsspektrum aufweist, dadurch gekennzeichnet , daß in einer Speichereinrichtung (42) ein repräsentatives kleines Segment (TO1) der Informationssignaleinheit gespeichert wird und daß zur Rekonstruierung des Informationssignals (10) aus dem kleinen Segment (101) mindestens ein Abschnitt (14, 16, 18, 20, 22, 24) des Segmentes genügend oft wiederholt wiedergegeben wird, wobei der Wiedergabeschritt an unterschiedlichen Stellen des Segmentes bei jeder Wiederholung beginnt und endet, um dadurch eine im wesentlichen von bemerkbarer Periodizität freie Einheit zu erhalten.
    ■ -fr·
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß bei der Erzeugung der Beginn und die Beendigung des Abschnittes so erfolgt, daß eine Vielzahl von seriell angeordneten Abschnitten (14, 16, 18, 20, 22, 24) unterschiedlicher Zeitlänge erzeugt werden.
  3. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet , daß bei der Erzeugung die Wiedergabe des Abschnittes im Zeitablauf wiederholt nach vorwärts (14, 18, 20) und nach rückwärts (16, 22, 24) durchgeführt wird.
  4. 4. Verfahren zur Synthese einer Einheit eines zeitabhängigen Informationssignals, das im wesentlichen keine periodische Charakteristiken aufweist und ein im wesentlichen während der betrachteten Zeiteinheit invariantes Leistungsspektrum besitzt, bei dem das Informationssignal diskrete seriell angeordnete Abtaststellen besitzt, dadurch gekennzeichnet, daß die Abtaststellen gespeichert werden und daß wiederholt durch die Abtaststellen iteriert wird, wobei Beginn und Beendigung bei jeder Wiederholung bei unterschiedlichen Abtaststellen erfolgt, um die Einheit des Informationssignales aus den Abtaststellen im wesentlichen frei von bemerkbarer Periodizität zu rekonstruieren.
  5. 5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Iterierung ein Fortschreiten sowie ein Zurückschreiten durch die Abtaststellen einschließt.
  6. 6. Verfahren nach Anspruch 5, dadurch gekennzeichnet , daß mindestens 64 Abtaststellen eine Folge bilden, und daß bei dem ersten Iterierungs-
    schritt ein Fortschreiten von der ersten Abtaststelle bis zur letzten Abtaststelle ( 0 bis 32) umfaßt, woraufhin ein Rückschreiten von der letzten Abtaststelle zur ersten Abtaststelle erfolgt, daraufhin ein Fortschreiten von nicht mehr als dem ersten Achtel der gesamten Abtaststellen bis zur letzten Abtaststelle, daraufhin ein Rückschreiten von der letzten Abtaststelle zu nicht mehr als dem ersten Achtel der Abtaststellen, daraufhin ein Fortschreiten von einer Abtaststelle zwischen einem ersten Achtel und einem ersten Viertel der Abtaststellen zur letzten Abtaststelle und dann ein Rückschreiten von der letzten Abtaststelle bis zur nicht mehr als dem ersten Achtel der Abtaststellen, um eine Zeitlänge zu erreichen, zur Rekonstruierung eines Signales mit einer Wiedergabelänge, die der Einheit des Inforraationssignals entspricht.
  7. 7. Vorrichtung zur Synthese einer Einheit eines zeitabhängigen Informationssignals, welches im wesentlichen keine periodische Charakteristik aufweist und ein während der betrachteten Zeiteinheit im wesentlichen invariantes Leistungsspektrum besitzt, dadurch gekennzeichnet, daß eine Speichereinheit (42) zum Speichern eines repräsentativen kleinen Segmentes (10') des Informationssignals vorgesehen ist, das eine mit der Speichereinrichtung (42) gekoppelte Einrichtung (159) zur Erzeugung eines rekonstruierten Signales aus dem Informationssignalsegment (10") vorgesehen ist, die Einrichtungen zum wiederholten Wiedergeben mindestens eines Abschnittes (14, 16, 18, 20, 22, 24) des Signalsegmentes (10') umfaßt, wobei die Abschnitte an unterschiedlichen Stellen des Segmentes bei jeder Wiederholung beginnen und enden, und daß eine Einrichtung (44) zum Begrenzen der Wiederholungen auf eine ausreichende Zahl vorgesehen ist, um die Einheit des Informationssignals aus dem kleinen Segment (101) zu rekonstruieren.
  8. 8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet , daß eine Einrichtung (167) zur Auswahl der Zeitdauer jedes Segmentabschnittes vorgesehen ist.
  9. 9. Vorrichtung nach Anspruch 7 oder 8, dadurch gekennzeichnet , daß in der Wiedergabe-Erzeugungseinrichtung (159) eine Einrichtung (165) zum Wiedergeben des Segmentabschnittes in Vorwärts- und Rückwärts-Zeitablaufrichtung vorgesehen ist.
  10. 10. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet , daß das Informationssignal diskrete, seriell angeordnete Abtaststellen umfaßt und daß die Erzeugungseinrichtung (159) Einrichtungen (210 bis 216) enthält, die eine wiederholte Iterierung durch die Abtaststellen des Segmentes bewirkt, beginnend und endend mit jeweils unterschiedlichen Abtaststellen.
  11. 11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet , daß die Iterierungseinrichtung das Fortschreiten oder Rückschreiten durch die Abtaststellen bewirkende Einrichtungen umfaßt.
  12. 12. Vorrichtung nach Anspruch 7 oder 11, dadurch gekennzeichnet , daß an die Speichereinrichtung ein serielles Schieberegister (159) angeschlossen ist.
DE19823228756 1981-12-28 1982-08-02 Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen Withdrawn DE3228756A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/335,310 US4435831A (en) 1981-12-28 1981-12-28 Method and apparatus for time domain compression and synthesis of unvoiced audible signals

Publications (1)

Publication Number Publication Date
DE3228756A1 true DE3228756A1 (de) 1983-07-07

Family

ID=23311233

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823228756 Withdrawn DE3228756A1 (de) 1981-12-28 1982-08-02 Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen

Country Status (3)

Country Link
US (1) US4435831A (de)
JP (1) JPS58117600A (de)
DE (1) DE3228756A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4663675A (en) * 1984-05-04 1987-05-05 International Business Machines Corporation Apparatus and method for digital speech filing and retrieval
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement
JPS6145297A (ja) * 1984-08-09 1986-03-05 カシオ計算機株式会社 電子楽器
US4781096A (en) * 1984-10-09 1988-11-01 Nippon Gakki Seizo Kabushiki Kaisha Musical tone generating apparatus
JPS63503094A (ja) * 1986-04-24 1988-11-10 フセソユズニ ナウチノ‐イススレドバテルスキ インスティテュト ラディオベシャテルノゴ プリエマ イ アクスティキ イメニ アー.エス.ポポバ デジタル形式でオーディオ情報信号を記録し読み出す方法とその実現のための装置
JPH0823752B2 (ja) * 1988-08-11 1996-03-06 株式会社河合楽器製作所 波形データループ方式
WO1993020513A1 (en) * 1992-04-07 1993-10-14 Chips And Technologies, Inc. Method and apparatus for performing run length tagging for increased bandwidth in dynamic data repetitive memory systems
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5217378A (en) * 1992-09-30 1993-06-08 Donovan Karen R Painting kit for the visually impaired
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5692098A (en) * 1995-03-30 1997-11-25 Harris Real-time Mozer phase recoding using a neural-network for speech compression
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
KR970017456A (ko) * 1995-09-30 1997-04-30 김광호 음성신호의 무음 및 무성음 판별방법 및 그 장치
US5803748A (en) 1996-09-30 1998-09-08 Publications International, Ltd. Apparatus for producing audible sounds in response to visual indicia
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
JP2004515800A (ja) * 2000-10-05 2004-05-27 オクイン,ディー.ジーン 音声をデータに変換する装置
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US20040049377A1 (en) * 2001-10-05 2004-03-11 O'quinn D Gene Speech to data converter
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US20050114136A1 (en) * 2003-11-26 2005-05-26 Hamalainen Matti S. Manipulating wavetable data for wavetable based sound synthesis

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5252705A (en) * 1975-10-23 1977-04-27 Lion Fat Oil Co Ltd Composition of white pigment for photogravure ink

Also Published As

Publication number Publication date
US4435831A (en) 1984-03-06
JPS58117600A (ja) 1983-07-13

Similar Documents

Publication Publication Date Title
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE69720861T2 (de) Verfahren zur Tonsynthese
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE2920298A1 (de) Binaere interpolatorschaltung fuer ein elektronisches musikinstrument
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE2519483A1 (de) Verfahren und anordnung zur sprachsynthese
DE69229649T2 (de) IC-Karte mit eingebauter Sprachsynthetisierungfunktion
DE2530380A1 (de) Sprachsynthetisatorsystem
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE69014680T2 (de) Einrichtung zur Stimmensynthese.
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE3784212T2 (de) Digitale stummschaltung.
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE19841683A1 (de) Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
DE69326501T2 (de) Verfahren und Vorrichtung zur Sprachsynthese mit variabler Geschwindigkeit
DE68917552T2 (de) Verfahren und Einrichtung zur Codierung und Decodierung von Sprachsignalen unter Anwendung von Multipuls-Anregung.
DE3037276A1 (de) Tonsynthesizer

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee