DE3036680C2 - Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit - Google Patents
Sprachsynthesizer mit dehnbarer und komprimierbarer SprachzeitInfo
- Publication number
- DE3036680C2 DE3036680C2 DE3036680A DE3036680A DE3036680C2 DE 3036680 C2 DE3036680 C2 DE 3036680C2 DE 3036680 A DE3036680 A DE 3036680A DE 3036680 A DE3036680 A DE 3036680A DE 3036680 C2 DE3036680 C2 DE 3036680C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- synthesizing
- synthesizer
- time
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 description 29
- 239000011295 pitch Substances 0.000 description 16
- 230000006835 compression Effects 0.000 description 12
- 238000007906 compression Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Time-Division Multiplex Systems (AREA)
Description
e) den Interpolator (10), der die aus der Speichereinrichtung (8, 9) ausgelesenen Sprachparameter
empfängt, die in jedem Rahmenintervall fortgeschriebenen Sprachparameter mit den
vom vorhergehenden Rahmenintervall zugeführten Sprachparametern vergleicht und Sprachparameter zur Interpolation zwischen
den verglichenen Sprachparametern während eines Zeitintervalls von 10 ms oder weniger erzeugt
und diese der Sprachwiederherstelleinrichtung (11) zuführt;
f) einen Sprachgeschwindigkeits-Dehnungs/ Kompressionszähler (15), in den eine Wiedergabesprachgeschwindigkeit
eingegeben wird, der ein Bezugstaktsignal zählt und in Abhängigkeit von der eingegebenen Wiedergabesprachgeschwindigkeit
ein Zeitintervall eines Ausgangssignals bestimmt;
g) eine erste Logikanordnung (39), die das Ausgangssignal des Sprachgeschwindigkeits-Dehnungs/Kompressionszählers
(15) empfängt und dieses dem Interpolator (10) als Zeitsteucrsignal zur Erzeugung der interpolierten Sprachpara- 5r>
meter zuführt;
h) eine zweite Logikanordnung (41), die das Ausgangssignal des Sorachgeschwindigkeits-Dehnungs/Kompressionszählers
(15) empfängt und dieses der Sprachwiederherstelleinrichtung (11) als Zeitsteuersignal zur Sprachsynthese zuführt;
und
i) einen weiteren Zähler (37), der das Ausgangssignal
des Sprachgeschwindigkeits-Dehnungs/ Kompi'essionszählers (15) empfängt, seine Pro- br>
quenz teilt und der Speichereinrichtung (8, 9) ein Zeitsteuersignal zuführt, um die Sprachparametcr
für einen Rahmen während eines /.eitintervalls auszulesen, das durch eine Intcrpolationsanzahl
gegeben ist, mit der der Interpolator (10) während eines Rahmens interpoliert,
wodurch die Sprachsynthetisierzeit bei unveränderter Tonhöheninformation dehnbar und
komprimierbar ist.
2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der lineare Vorhersagekoeffizient
ein partieller Autokorreiationskoeffizient (PARCOR-Koeffizient) ist, der von den Sprachproben
mit 10 ms bis 20 ms für jeden Rahmen erhalten ist.
3. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der Speicher (8) zum Speichern
der Sprachparameter durch eine Pufferschaltung (Register 9) zum Zwischenspeichern der empfangenen
Sprachparameter gebildet ist.
Die Erfindung betrifft einen Sprachsynthesizer gemäß dem Oberbegriff des Patentanspruchs !, bei dem
die Synthetisierungszeit der Sprache ohne Ändern der Tonhöhenfrequenz der synthetisierten Sprache dehnbar
und komprimierbar ist.
Aus der US-PS 37 89 372 ist ein einfaches Verfahren zum Dehnen und Komprimieren der Abspiel- bzw. Wiedergabezeit
mittels magnetischer Tonaufzeichnung und Wiedergabe durch ein Magnetband bekannt. Wenn die
Bandfördergeschwindigkeit in der Wiedergabebetriebsart doppelt so groß ist, ist die Wiedergabezeit auf die
Hälfte verringert. Wenn andererseits diese Geschwindigkeit halbiert ist, ist die Wiedergabezeit auf das Doppeite
gedehnt. In diesem Fall wird die Tonhöhenfrequenz der wiedergegebenen Sprache auf das Doppelte
oder auf die Hälfte geändert. Dieses Verfahren ist daher ungeeigne; für die hochwertige Wiedergabe (HiFi-Wiedergabe).
Es gibt ein Verfahren, bei dem lediglich die Wiedergabe/.eit ohne Änderung der Tonhöhenfrequenz
dehnbar und komprimierbar ist. Bei diesem Verfahren wird der Signalverlauf einer Wellenlänge einer Tonhöhenfrequenz
eines Sprachsignals oder mehrfache deren Wellenlänge von dem Sprachsignal herausgeschnitten
bzw. abgetrennt. Der abgetrennte Signalverlauf wird wiederholt mit der gleichen Wellenlänge verwendet
oder mehrere herausgetrennte Signalverläufe werden zum Komprimieren der Wiedergabezeit gelöscht. Mit
dieser Vorgehensweise ist erfolgreich die Wiedergabezeit ohne Änderung der Frequenz der Sprache dehnbar
und komprimierbar. Jedoch liegt ein Problem beim Herausschneiden bzw. Abtrennen des Signalverlaufs vor.
An den Verbindungspunkten, an denen die herausgeschnittenen Signalverläufe aneinander anschließen, treten
Phasenverschiebungen auf, wodurch die Sprache verzerrt wird. Zahlreiche Versuche wurden unternommen,
um dieses Verzerrungsproblem zu überwinden, jedoch ist noch keine einfache Dehnung/Kompression der
Sprache erreicht worden. Es sei beispielhaft verwiesen auf David, E. E. jr. & McDonald, H. S.. »Note on Pitch
Synchronous Processing of Speech« in journal Acoustic Society of America. 28 (i956a) S. 1261 - 1266. Kürzlich
verbesserte Technologien bei der LS!-Technik ermöglichten
die Entwicklung von Spraehsynthesizer-Chips; beispielsweise ist ein Sprachsynthesizer für Lehrzwecke
angegeben worden (vgl. US-Patentanmeldung 9 01 192 vom 28.4. 1978). der günstig in bezug auf Preis. Größe
jnd Leistungsverbrauch ist Der Sprachsynthesizer verwendet
die partielle Autokorrelation (PARCOR) und Desteht aus drei Chips, nämlich einem Masken-ROM,
:inem Mikrorechner und einer Synthesizer-LSl. Der Sprachsynthesizer ist jedoch ohne Berücksichtigung der
Möglichkeit ausgebildet, daß die Svnthetisierzungszeit dehnbar oder komprimierbar sein soll, ohne dabei die
Tonhöhenfrequenz zu ändern.
Aus der Zeitschrift Electronics, 31.8.1978, H^ft 18,
Seiten 109—116 ist ein Sprachsynthesizer gemäß dem
Oberbegriff des Anspruchs 1 bekannt. Dieser Sprachsynthesizer verwendet einen ROM-Speicher zur Speicherung
von Sprachparametern, ein !Ostufiges Digitalfilter, einen Digital/Analog-Wandler, der das Ausgangssignal
des Digitalfiliers in ein Analogsignal umsetzt und einen Interpolator.
Anhand den Fig. 1 bis 3 wird das Prinzip der PAR-COR-Sprachsynthetisierung,
ein Blockschaltbild des grundsätzlichen Aufbaus des bekannten PARCOR-Sprachsynthesizers
und ein Schaltbild de: darin verwendeten
Digitalfilters- erläutert.
Die F i g. 1 a — 1 c zeigen graphische Darstellungen des Ergebnisses einer Frequenzanalyse des Tons »o«. Der
Signalverlauf gemäß Fig. la entspricht einem Gesamtspektrum.
Das Gesamtspektrum kann als das Produkt einer Spektralhüllkurve, die sich mit der Frequenz langsam
ändert, wie gemäß F i g. Ib, und einer Spektralfeinstruktur, die sich mit der Frequenz stark ändert, wie in
Fig. Ic dargestellt, angesehen werden. Die Spektralhüllkurve
gibt im wesentlichen eine Resonanzcharaktcristik eines Stimmkanals wieder, einschließlich der Information
bezüglich vokaler Töne wie »a« und »o«. Die Spektralfeinstruktur enthält Information bezüglich der
Tonhöhe der Sprache oder eines Maßes der Höhe des Tons. Der PARCOR-Koelfizient ist physikalisch der
charakteristische Parameter, der eine Stimmkanai-Übcrtragungscharakteristik
wiedergibt. Wenn also eine Filtercharakteristik, die die Sprache wiedergibt, in Form
von PARCOR-Koeffizienten dargestellt ist, kann die Sprache synthetisiert werden.
Ein Grundaufbau des bekannten PARCOR-Sprachsynthesizers ist als Blockschaltbild in F i g. 2 dargestellt.
Fig. 2 zeigt einen Generator 1, der weißes Rauschen erzeugt, einen Impulsgenerator 2, einen stimmhaft/
stimmlos-Schalter 3, einen Multiplizierer 4, ein Digitalfilter 5, einen D/A-Umsetzer 6 und einen Lautsprecher
7. Beim Synthetisieren der Sprache werden eine Beurleilungsinformation bezüglich stimmhaft'stimmlos auf
der Grundlage der Daten, die durch Analysieren eines natürlichen vokalen Tons, eine Tonhöheninformation,
eine Lautstärke bzw. Ampliuideninformaiion, Parameter
A-, - k,- (P = positiv und ganz/ahlig) als PARCOR-Koeffizicnten
zeitsequentiell dem Sprachsynthesizer zügel iihrt.
liine Ausliihrungsiorm des Digitalfilters 5 ist in F i g. 3
dargestellt, und /war ein primärer PARCOR-Koeffi-/ientoneingiuig
11-1, ein sekundärer PARCOR-Koeffizicmeneingang
11-2, ein P-Gradeinganij 11-/', Multiplizierer
11.Λ und XMi, Addierer HC und HD und ein
verzögernder Speicher UE Wie dargestellt, werden die
PARCOR-Koeffizienten den jeweiligen Multiplizierern zugeführt. Weiter sind ein Impulseingangsanschluß 13
und ein Aus.aangsanschluß 14 für die synthetisierte
Sprache vorgesehen.
Wenn ein Impuls oder weißes Rausehen dem Lin-L'angsiiriSL'hiuß
13 des Filters 5 zugeführt wird, zeigt das '\usgangssignal vom "Xusgangsanschluß 14 die gleiche
Sni'kiralliüllkiM"\eiK'h.iraKli.'rislik wie die Sprache. Das
Aubgangssignal wird durch den D/A-Umsetzer 6 in ein Analogsignal umgesetzt, aus dem wiederum ein Sprachsignal
durch den Lautsprecher 4 wiederhergestellt wird. Die Zeitschrift Electronics vom 31.8.1978, Heft 18,
Seiten 109- 116 enthält keinen Hinweis, daß die Synthetisiergeschwindigkeit
der Spracnsynthese durch Änderung des Ausgabeintervalls des Interpolators und des
Einleseintervalls der Speichereinrichtung geändert werden kann.
ίο Es ist Aufgabe der Erfindung, einen Sprachsynthesizer
anzugeben, bei dem die Sprachzeit bei unveränderter Tonhöheninformation dehnbar und komprimierbar
ist.
Die Lösung der obigen Aufgabe geschieht bei einem Sprachsynthesizer gemäß dem Oberbegriff des Anspruchs
1 durch die im Kennzeichen des Anspruchs 1 enthaltenen Merkmale.
Vorteilhafte Ausgestaltungen enthalten die Unteransprüche.
Die Erfindung wird anhand der in der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Es zeigen
Fig. la—Ic Sprachspektren zur Erläuterung der PARCOR-Sprachsynthetisierung;
F i g. 2 ein Blockschaltbild des grundsätzlichen Aufbaus des PARCOR-Sprachsynthesizers;
F i g. 3 ein Schaltbild eines Digitalfilters, das in dem Sprachsyntheiisierabschnitt verwendet ist;
F i g. 4 ein Blockschaltbild eines Ausführungsbeispiels
jn der Erfindung;
Fig. 5 ein Blockschaltbild eines Interpolators gemäß
F ig. 4;
F i g. 6 ein Blockschaltbild eines Dehnungs/Kompressions-Zählers;
F i g. 7 ein Blockschaltbild einer Synthetisierzeitsteucrschaltunggemäß
Fig.4;
F i g. 8 einen Zeitplan zur Erläuterung der Betriebsweise des Ausführungsbeispiels der Erfindung.
Zunächst zeigt Fig. 4 schematisch ein Ausführungsbeispiel
des Sprachsynthesizers. In Fig.4 speichert ein
Spruchparameterspeicher 8 Daten über die PARCOR-Koeffizienten,
die durch Analysieren der Sprachwelle erhalten sind, die Amplituden, die Tonhöhen, die stimmhaft/stimmlos
Umschaltung und dergleichen. Ein Register 9 speichert Parameter zeitweise, die von dem
Sprachparameterspeicher 8 abgegeben werden, um die ankommenden Parameter in einem vorgegebenen Format
innerhalb des Synthesizers zwecks Zeitsteuereinstellung anzuordnen. Eine Interpolationsschaltung bzw.
ein Interpolator 10 interpoliert die Parameter mit kurzen Zeitintcrvallen. Eine Synthetisierbetriebsschaltung
11 synthetisiert Sprache durch Verwendung der Parameter und enthalt das Digitalfilter 5. Dm digitale synthetisierte
Sprache, die von dem Digitalfilter 5 erzeugt ist,
v> wird in ein entsprechendes Analogsignal umgesetzt (D/ A-Umsetzer 6). Ein Synihetisierzeitsteuerabschnitt 12
gibt die Zeitpunkte, die bei der Synthetisierbetriebsschaltung 11 verwendet sind, und steuert die Eingabe
der Parameter. L-in Geschwindigkeits- bzw. Spraeh-
Mi Dehnungs/Komprcssions-Zähler 15 erzeugt Zeitsteuerungen
bzw. Zeitpunkte in Übereinstimmung mit einem Ausmaß des Dehnens und Komprimierens der Sprachzeit
bei der Sprachsynihetisierung, insbesondere ein /-ibspielgeschwindigkeits-Einstellsignal. Wenn die
r·'-, Sprachparamcterinlurmatiori von einem anderen
Spiachanalysaior im On-Line-Betrieb erhalten wird,
kann der Speicher 8 weggelassen werden.
Die Betriebsweise des erläuterten .Sprachsynthesizers
wird im folgenden erläutert.
Das vorliegende Ausführungsbeispiel verwendet zur Sprachsynthetisierungdas PARCOR-Verfahren.das bei
dem linearen Vorhersagecodierverfahren verwendet ist. Bei dem PARCOR-Synthetisierverfahren werden die
partiellen Autokorrclalionskoeffizienien (PARCOR-Koeffizienten)
als die linearen Vorhersagekoeffizienten für die Stimm-Parameter beim Synthetisieren der Sprache
verwendet. Der PARCOR-Koclfizient ist physikalisch der Reflektionskoeffizient des Stimm-Kanals (vocal
tract). Daher wird durch Zuführen der PARCOR-Koeffizienten als Reflektionskoeffizienten zu einem
mehrstufigen Digitalfilter das Modell des menschlichen Stimm-Kanals zum Synthetisieren der Sprache aufgebaut.
Die PARCOR-Koeffizienten werden zuvor durch Analysieren der menschlichen Sprache mittels eines
Rechners oder eines Sprachanalysators erhalten. Da sich die menschliche Sprache allmählich ändert, wird sie
in Zeitintervallcn von 10 ms bis 20 ms ausgeblendet bzw. herausgeführt. Die PARCOR-Koeffizienten werden
von der fragmentarischen Sprachprobe erhalten. Mit kürzerem »Rahmen« genannten Zeitintervall nehmen
die PARCOR-Koeffizienten zu.
In diesem Fall wird eine allmählicher synthetisiertere
Sprache erhalten, jedoch nimmt die Anzahl der Analysierschritte der Sprache zu. Im übrigen ist ein Rahmen
die minimale Einheit für die Bestimmung des Analyse-Zeitintervalls der Sprache. In diesem Fall sind weniger
Proben in dem Rahmen enthalten. Daher ist es schwierig, die Tonhöhendaten (ein Maß für die Höhe des Tons
oder Schalls) der Sprache abzutasten. Andererseits ist dann, wenn der Rahmen lang ist, das Abtastproblem der
Tonhöhendaten überwunden, wird jedoch die Sanftheit bzw. der allmähliche Übergang bei der synthetisierten
Sprache gestört, wodurch sich eine grobe Sprache ergibt. Das beruht darauf, daß der lange Rahmen einer
schrittweisen Bewegung des Mundes entspricht. Aus diesem Grund ist ein Bereich von 10 ms bis 20 ms für
einen Rahmen als am günstigsten anzusehen. Bei dem vorliegenden Ausführungsbeispiel werden 20 ms für einen
Rahmen verwendet. Gemäß F i g. 4 empfängt vor dem Sprachsynthesizer 11 das Register 9 Sprachparametcr
eines Rahmens, wie die PARCOR-Parameter, das stimmhaft/stimmlos-Schaltsignai, Tonhöhendaten und
Amplitudendaten, die in indirekter Beziehung zu der Synthetisierzeitsteuerung 12 stehen. Dann werden die
Parameter zum Interpolator 10 übertragen, wo sie interpoliert werden mit einer Beziehung zu denjenigen in
dem vorhergehenden Rahmen zur Bildung von acht Sprachparametern, die sich für jeden Interpolationsrahmen
von 25 ms schrittweise ändern. Diese Daten werden zum Synthesizer 11 übertragen, wobei sie alle
2,5 ms fortgeschrieben werden.
Fig.5 zeigt einen Interpolator 10 mit Volladdierern 16,17, einem Register 18, in das das Ergebnis der Interpolation
eingegeben wird, Verzögerungsschaltungen 19—24 und Schalteinrichtungen bzw. Schaltern 25—32
zum Steuern von Verzögerungszeiten, die die weiter unten angegebenen Gewichtungskoeffizienten ändern.
Die Interpolationsgleichung lautet:
yV, + 1= W(Ta- N1)+ M,
triebes verwendete Wert.
N, . ι = der Wert, der durch die Interpolation erhalten
wird, und der bei dem nächsten Synthelisierbetrieb verwendet wird.
-, VV = Gewichtskoeffizient.
mit
Ta
Ta
= Zielwert, der Wert, der in das Register
eingegeben ist,
= der gerade während des Synthctisierbe-Beim Interpolieren des Zeitintervall* von 20 ms mit acht Unterteilungen sind erforderlich '/» zum Erhalten des ersten Inicrpolalionswcrtes. 7, für den nächsten In-Ki tcrpolalionswerl und daran anschließend V«. V4, '/.,, '/.· liikI'/,. . .
= der gerade während des Synthctisierbe-Beim Interpolieren des Zeitintervall* von 20 ms mit acht Unterteilungen sind erforderlich '/» zum Erhalten des ersten Inicrpolalionswcrtes. 7, für den nächsten In-Ki tcrpolalionswerl und daran anschließend V«. V4, '/.,, '/.· liikI'/,. . .
In dieser Schaltung werden die Parameter seriell einzeln
nacheinander interpoliert. Zunächst wird eine Differenz zwischen dem Zielwert im Register 9 und dem
r, vorliegenden Wert im Register 18 durch den Volladclicrcr
16 berechnet. Die Kombinaiitsn der Verzögmingsschaltungen
19—21 und der Schalleinrichtungen 25-28 erreicht Gcwichtungskocffizienten 1A, bis '/,. Das Ausgangssignal
des Volladdierers 16 und das Ausgangssignai der Verzögerungsschaltung(en) wird dem Volladdicrer
17 zugeführt, wo ein neuer Interpolationswert erhalten wird. Die Kombination der Verzögerungsschaltungen 22-24 und der Schalteinrichtungen 29-32
hält einen Maschinenzyklus konstant. Die so erhaltenen Interpolationswerte werden der Synthetisierbetnebsschaliung
11 zugeführt. Die Synthetisierbetriebsschaltung 11 führt einen vorgegebenen Synthetisierbetrieb
alle 125 μ5 durch. Der Grund, weshalb 125 μ5 gewählt
ist, ist, daß zum Synthetisieren der Sprache im Frequenzband bis zu 4 kHz die Abtasttheorie die Proben
zweimal im Frequenzband erfordert. Folglich werden die Synthetisierbetriebe 20mal in 2,5 ms durchgeführt
unter Verwendung der gleichen PARCOR-Koeffizienten. Das so erhaltene Ergebnis des Synthetisierbetriebes
wird einer D/A-Umscr/.ung zur Umwandlung in Sprache unterworfen. Durch die obige Interpolation ändern
sich die PARCOR-Koeffizienten schrittweise, so daß die Verbindungen bzw. Übergänge zwischen dem Rahmen
geglättet werden. Die Schaltung, die die Betriebszeitsteuerung dieser Betriebsschritte steuert, ist der Synthetisierzeitsteuerabschnitt
12, und die Schaltung, die eine Bezugszeitsteuerung für den Synthetisierzeitsteuerabschnitt
12 erreicht, ist der Dehnungs/Kompressions-Zähler 15.
Die Betriebsweise des Dehnungs/Kompressions-Zanlers
15 wird anhand F i g. 6 näher erläutert. Bei der üblichen oder Standard-Synthetisiergeschwindigkeit wird
ein Binärcode von beispielsweise 010100. der eine Wiedergabegeschwindigkeit
wiedergibt, die durch einen Mikrorechner eingestellt werden soll, in ein Dehnungs/
Kompressions-Datenregister 35 gesetzt. Ein 6-Bit-Zahler
33 zahlt mitteis Takiimpulsen 125 μ5 vorwärts. Wenn
der Zählerstand des Zählers 010100 (d. h, 20 im Dezimalsystem) überschreitet, wird ein Vergleicher 34 invertiert
zum Rücksetzen des Zählers 33. Dann beginnt der Zähler 33 von neuem zu zählen. Auf diese Weise wird
der Dehnungs/Kompressions-Zähler 15 mit der Standard-Synthetisiergeschwindigkeit
(125 us) rückgesetzt, wenn er 20mal zählt mittels dem 125^s-Taktimpuls. Er
erzeugt einen Ausgangsimpuls alle 2,5 ms zur Übertragung zum Synthetisierzeitsteuerabschnitt 12.
F i g. 7 zeigt in einem Blockschaltbild Einzelheiten der Synthetisierzeitsteuerung 12, nämlich eine Signalleitung
36 von dem Dehnungs/Kompressions-Zähler 15, einen 3-Bit-Zähler 37 zum Frequenzteilen des Ausgangssignals
vom Dehnungs/Kompressions-Zähler 15 um einen Faktor 8, eine Steuersignallcitung 38 zum Register 9,
eine Logikanordnung 39, die ein Programm zum Steu-
ei η lies Interpolators 10 enthält, cine Inlerpolalor-Sleueisignalleituiig
40, eine Logikanordnung 41 /um Steuern der Synthetisierbetriebsseliiiltung 11, eine Steuerleitung
42 zur Synthetisierbelricbssehaltung 11. Der Zahler
37 überträgt einen 20-ms-lnipuls zum Register 9,
wenn ei acht Impulse für die 2,5-ms-lntcrpolation empfängt.
Bei Empfang des Impulses ruft das Register 9 die Parameter vom Sprachspeicher 8 ab. Die Logikanordnungen
39 und 40 bilden verschiedene Steuersignale auf der Grundlage des Interpolationsimpulses und steuern
den Imerpolator 10 bzw. die Synthetisierbetriebsschaltung
mittels der Steuersignale.
F i g. 8 zeigt ein Beispiel eines Zeitplans des Sprachsynthesizers
gemäß F i g. 4. Wie dargestellt, ist im Standardzustand,
in dem keine Dehnung oder Kompression vorliegt, der Rahmen (die Periode, die durch die natürliche
Sprache begrenzt ist; und der lineare Vorhersagekoeffizient wird pro abgeschnittener oder begrenzter
Periode forlgeschrieben) so gewählt, daß er 20 ms beträgt (F i g. 8a). Ein Rahmen besteht aus acht Interpolationsrahmen
mit jeweils 2,5 ms (Fig. 8). Die Synthetisierbclriebe
werden 20mal innerhalb der Interpolationsperiode von 2,5 ms durchgeführt unter Verwenden der
linearen Vorhersagekoeffizienten (F i g. 8c).
Der Betrieb des Sprachsynthesizers wird für den Fall, daß die Synthetisiergeschwindigkeit auf die Hälfte der
Standardgeschwindigkeit eingestellt ist, anhand der F ig.8d-8f erläutert.
Ein Digitalcode 101000 wird zunächst in das Dehnungs/Kompressions-Register
35 gesetzt. Der Zähler 33 jo zählt vorwärts unter Steuerung durch den 125^s-Takt,
bis der Inhalt des Zählers 33 101000 (40 im Dezimalsystem) erreicht. Bei 101000 wird der Zähler 33 rückgesetzi.
Auf diese Weise wird, wenn der Dehnungs/Kompressions-Zähler 15 40 Zyklen unter Steuerung durch r>
den 125^s-Takt zählt, durch ihn ein Ausgangsimpuls erzeugt zur Übertragung zum Synthetisierzeitsteuerabschnitt
12. Diese Betriebszeitperiode entspricht einer Interpolationsperiode von 5ms (Fig.8e). Wenn der
Zähler acht Ausgangsimpulse erzeugt, wird ein neuer Sprachparameter von dem Sprachspeicher 8 in das Register
9 eingegeben. Dieses Zeitintervall entspricht einem Rahmen, und damit 40 ms. Auf diese Weise wird die
Sprachsynthetisierung durch Abrufen der Parameter vom Sprachspeicher 8 alle 40 ms erreicht. Obwohl die v>
Sprachparameter von einem Rahmen mit 20 ms abgetastet ist, der von der ursprünglichen Sprache abgenommen
ist, wird die Sprachsynthese unter Verwendung des Parameters alle 40 ms durchgeführt. Folglich ist die Ab
spiel- bzw. Wiedergabegeschwindigkeit '/2 (der Stan- r,o
dardgeschwindigkeit). Dieses Verfahren ist vorteilhaft gegenüber dem herkömmlichen, darin, daß der Signalverlauf
der wiedergegebenen Sprache analog der natürlichen Sprache ist, und daß die Natur bzw. Art der wiedergegebenen
Sprache natürlich ist. Die Sprachparamc- v>
ter sind diejenigen des erläuterten Stimm-K.anal-Modells.
Wenn die Sprache langsam synthetisiert wird, wird die Anzahl der Synthetisierbetriebe lediglich erhöht,
sind jedoch die Betriebszeiten und die Sprachparametcr die gleichen wie bei der schnellen Sprachsynthelisic- &u
rung. Folglich ist die Frequenzcharakteristik, d. h. die Charakteristik des Stimm-Kanals des Digitalfilters, die
durch den Betrieb erhalten wird, unverändert. Folglich ist die wiedergegebene Sprache außerordentlich ähnlich
der Sprache eines langsam sprechenden Menschen. t,5
Wegen der erwähnten Interpolation ist, selbst wenn die Synthetisierzeit lang ist, die Zeitperiode, in der der
gleiche Sprachparameter verwendet ist, kurz. Bei dem vorliegenden Auslührungsbeispicl beträgt sie, da der Interpolationsrahmen
bei der .Standardgeschwindigkeit 2,5 ms beträgt, lediglich 5 ms, selbst wenn diese Zeit aul
das Doppelte verlängert wird. Ks zeigt sich, daß dies unter 10 ms liegt, und daß die geglättete oder sanfte
Sprache sichergestellt ist. Das heißt, unter 20 ms ist es notwendig, die Glilttiing der wiedergegebenen Sprache
sicherzustellen. Wenn die Interpolation nicht verwendet ist. beträgt die Zeit, die den gleichen Parameter verwendet,
40 ms, wodurch sich eine schlechte Verbindung der Töne bzw. ein schlechter Tonübergang ergibt. Wenn
jedoch die Interpolation mit einem Zeitintervall von 10 ms oder weniger durchgeführt ist, beträgt diese Zeit
20 ms oder weniger, selbst wenn die Synthetisierzeit verdoppelt wird. Als Ergebnis ist die wiedergegebene
Sprache geglättet.
Hierzu 5 Blatt Zeichnungen
Claims (1)
- Patentensprüche:
1. Sprachsynthesizer mita) einer Speichereinrichtung, die Sprachparameter speichert, die enthalten: mehrere lineare Vorhersagekoeffizienten, die von segmentförmigen Signalverläufen abgetastet sind, die der natürlichen Sprache bei einem gegebenen Zeit- ι ο Intervall entnommen sind, eine Stimmhaft/ Stimmlos-Beurteilungsinformation, eine Tonhöheninformation und eine Lautstärkeinformation;b) einer Sprachwiederherstelleinrichtung einschließlich eines mehrstufigen Digitalfilters, die die aus der Speichereinrichtung ausgelesenen Sprachparameter empfängt und die Koeffizienten des mehrstufigen Digitalfilters bei jedem Rahmenintervall auf der Grundlage der linearen Vorhersagekoeffizienten zur Sprachsynthese fortschreibt;c) einem Digital-Analog-Wandler, der das Ausgangssignal der Sprachwiederherstelleinrichtung empfängt und ein digitales Sprachsignal, das von der Sprachwiederherstelleinrichtung synthetisiert wurde, in ein analoges Sprachsignal wandelt; undd) einem Interpolator,.SOgekennzeichnet durch
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12541679A JPS5650398A (en) | 1979-10-01 | 1979-10-01 | Sound synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3036680A1 DE3036680A1 (de) | 1981-04-16 |
DE3036680C2 true DE3036680C2 (de) | 1984-07-12 |
Family
ID=14909556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3036680A Expired DE3036680C2 (de) | 1979-10-01 | 1980-09-29 | Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit |
Country Status (4)
Country | Link |
---|---|
US (1) | US4435832A (de) |
JP (1) | JPS5650398A (de) |
DE (1) | DE3036680C2 (de) |
GB (1) | GB2060321B (de) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57179899A (en) * | 1981-04-28 | 1982-11-05 | Seiko Instr & Electronics | Voice synthesizer |
JPS5863998A (ja) * | 1981-10-14 | 1983-04-16 | 株式会社東芝 | 音声合成装置 |
JPS58102298A (ja) * | 1981-12-14 | 1983-06-17 | キヤノン株式会社 | 電子機器 |
DE3248213A1 (de) * | 1981-12-28 | 1983-07-14 | Sharp K.K., Osaka | Einrichtung zur erzeugung synthetischer sprache und diese enthaltende elektronische registrierkasse |
US4624012A (en) | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
EP0117276B1 (de) * | 1982-09-20 | 1990-05-09 | Sanyo Electric Co., Ltd. | Gerät zur Geheimübertragung |
JPS60149100A (ja) * | 1984-01-13 | 1985-08-06 | 松下電工株式会社 | フレ−ム長可変の音声合成装置 |
US4689760A (en) * | 1984-11-09 | 1987-08-25 | Digital Sound Corporation | Digital tone decoder and method of decoding tones using linear prediction coding |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4969193A (en) * | 1985-08-29 | 1990-11-06 | Scott Instruments Corporation | Method and apparatus for generating a signal transformation and the use thereof in signal processing |
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
US5189702A (en) * | 1987-02-16 | 1993-02-23 | Canon Kabushiki Kaisha | Voice processing apparatus for varying the speed with which a voice signal is reproduced |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
US4989250A (en) * | 1988-02-19 | 1991-01-29 | Sanyo Electric Co., Ltd. | Speech synthesizing apparatus and method |
US5025471A (en) * | 1989-08-04 | 1991-06-18 | Scott Instruments Corporation | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns |
JPH03159306A (ja) * | 1989-11-16 | 1991-07-09 | Toshiba Corp | 時間圧縮伸張変換装置 |
US5687281A (en) * | 1990-10-23 | 1997-11-11 | Koninklijke Ptt Nederland N.V. | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal |
US5588089A (en) * | 1990-10-23 | 1996-12-24 | Koninklijke Ptt Nederland N.V. | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal |
NL9002308A (nl) * | 1990-10-23 | 1992-05-18 | Nederland Ptt | Werkwijze voor het coderen en decoderen van een bemonsterd analoog signaal met een herhalend karakter en een inrichting voor het volgens deze werkwijze coderen en decoderen. |
US5216744A (en) * | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
US5272698A (en) * | 1991-09-12 | 1993-12-21 | The United States Of America As Represented By The Secretary Of The Air Force | Multi-speaker conferencing over narrowband channels |
US5317567A (en) * | 1991-09-12 | 1994-05-31 | The United States Of America As Represented By The Secretary Of The Air Force | Multi-speaker conferencing over narrowband channels |
US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
FR2692070B1 (fr) * | 1992-06-05 | 1996-10-25 | Thomson Csf | Procede et dispositif de synthese vocale a vitesse variable. |
US5408580A (en) * | 1992-09-21 | 1995-04-18 | Aware, Inc. | Audio compression system employing multi-rate signal analysis |
JPH07129195A (ja) * | 1993-11-05 | 1995-05-19 | Nec Corp | 音声復号化装置 |
US5457685A (en) * | 1993-11-05 | 1995-10-10 | The United States Of America As Represented By The Secretary Of The Air Force | Multi-speaker conferencing over narrowband channels |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
JPH07199998A (ja) * | 1993-12-27 | 1995-08-04 | Rohm Co Ltd | 音声信号圧縮伸張装置 |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
US5491774A (en) * | 1994-04-19 | 1996-02-13 | Comp General Corporation | Handheld record and playback device with flash memory |
JP3563772B2 (ja) * | 1994-06-16 | 2004-09-08 | キヤノン株式会社 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
DE4425767C2 (de) * | 1994-07-21 | 1997-05-28 | Rainer Dipl Ing Hettrich | Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit |
US5920842A (en) * | 1994-10-12 | 1999-07-06 | Pixel Instruments | Signal synchronization |
JP3328080B2 (ja) * | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
US5842172A (en) * | 1995-04-21 | 1998-11-24 | Tensortech Corporation | Method and apparatus for modifying the play time of digital audio tracks |
US6278974B1 (en) | 1995-05-05 | 2001-08-21 | Winbond Electronics Corporation | High resolution speech synthesizer without interpolation circuit |
US5832442A (en) * | 1995-06-23 | 1998-11-03 | Electronics Research & Service Organization | High-effeciency algorithms using minimum mean absolute error splicing for pitch and rate modification of audio signals |
US6366887B1 (en) * | 1995-08-16 | 2002-04-02 | The United States Of America As Represented By The Secretary Of The Navy | Signal transformation for aural classification |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JPH09127995A (ja) * | 1995-10-26 | 1997-05-16 | Sony Corp | 信号復号化方法及び信号復号化装置 |
GB2305830B (en) * | 1995-09-30 | 1999-09-22 | Ibm | Voice processing system and method |
EP1164577A3 (de) * | 1995-10-26 | 2002-01-09 | Sony Corporation | Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen |
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
US5933808A (en) * | 1995-11-07 | 1999-08-03 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms |
JPH09230896A (ja) * | 1996-02-28 | 1997-09-05 | Sony Corp | 音声合成装置 |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
US6775372B1 (en) | 1999-06-02 | 2004-08-10 | Dictaphone Corporation | System and method for multi-stage data logging |
US6249570B1 (en) | 1999-06-08 | 2001-06-19 | David A. Glowny | System and method for recording and storing telephone call information |
US6246752B1 (en) | 1999-06-08 | 2001-06-12 | Valerie Bscheider | System and method for data recording |
US6252946B1 (en) * | 1999-06-08 | 2001-06-26 | David A. Glowny | System and method for integrating call record information |
US6252947B1 (en) | 1999-06-08 | 2001-06-26 | David A. Diamond | System and method for data recording and playback |
SE9903223L (sv) * | 1999-09-09 | 2001-05-08 | Ericsson Telefon Ab L M | Förfarande och anordning i telekommunikationssystem |
US6869644B2 (en) * | 2000-10-24 | 2005-03-22 | Ppg Industries Ohio, Inc. | Method of making coated articles and coated articles made thereby |
US7683903B2 (en) | 2001-12-11 | 2010-03-23 | Enounce, Inc. | Management of presentation time in a digital media presentation system with variable rate presentation capability |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
GB0228245D0 (en) * | 2002-12-04 | 2003-01-08 | Mitel Knowledge Corp | Apparatus and method for changing the playback rate of recorded speech |
US8296143B2 (en) * | 2004-12-27 | 2012-10-23 | P Softhouse Co., Ltd. | Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer |
WO2008111158A1 (ja) * | 2007-03-12 | 2008-09-18 | Fujitsu Limited | 音声波形補間装置および方法 |
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
JP6992612B2 (ja) * | 2018-03-09 | 2022-01-13 | ヤマハ株式会社 | 音声処理方法および音声処理装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2168937B1 (de) * | 1972-01-27 | 1976-07-23 | Bailey Controle Sa |
-
1979
- 1979-10-01 JP JP12541679A patent/JPS5650398A/ja active Granted
-
1980
- 1980-09-29 GB GB8031355A patent/GB2060321B/en not_active Expired
- 1980-09-29 DE DE3036680A patent/DE3036680C2/de not_active Expired
- 1980-09-30 US US06/192,222 patent/US4435832A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS5650398A (en) | 1981-05-07 |
DE3036680A1 (de) | 1981-04-16 |
GB2060321B (en) | 1983-11-16 |
US4435832A (en) | 1984-03-06 |
JPS623439B2 (de) | 1987-01-24 |
GB2060321A (en) | 1981-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3036680C2 (de) | Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE3883034T2 (de) | System zur Sprachsynthese. | |
DE69614782T2 (de) | Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung | |
DE3486280T2 (de) | Vorrichtung zur Erzeugung von Musiktönen vom Wellenformauslesespeichertyp. | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69736446T2 (de) | Audio Dekodierverfahren und -vorrichtung | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE69032168T2 (de) | Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
DE3587423T2 (de) | Tonerzeugende Vorrichtung für ein elektronisches Musikinstrument. | |
DE3244476C2 (de) | ||
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69519820T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
DE69026966T2 (de) | Elektronisches Musikinstrument mit mehreren verschiedenen Tonerzeugern | |
DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69132956T2 (de) | Sprachcodierung durch lineare Prädiktion mit Anhebung der Hochfrequenzen | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE3019823C2 (de) | ||
DE60031812T2 (de) | Vorrichtung und Verfahren zur Klangsynthesierung | |
DE69028434T2 (de) | System zur Codierung von Breitbandaudiosignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |