DE3036680C2 - Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit - Google Patents

Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit

Info

Publication number
DE3036680C2
DE3036680C2 DE3036680A DE3036680A DE3036680C2 DE 3036680 C2 DE3036680 C2 DE 3036680C2 DE 3036680 A DE3036680 A DE 3036680A DE 3036680 A DE3036680 A DE 3036680A DE 3036680 C2 DE3036680 C2 DE 3036680C2
Authority
DE
Germany
Prior art keywords
speech
synthesizing
synthesizer
time
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3036680A
Other languages
English (en)
Other versions
DE3036680A1 (de
Inventor
Akihiro Asada
Tadashi Saito
Tohru Yokohama Sampei
Kazuhiro Umemura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE3036680A1 publication Critical patent/DE3036680A1/de
Application granted granted Critical
Publication of DE3036680C2 publication Critical patent/DE3036680C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

e) den Interpolator (10), der die aus der Speichereinrichtung (8, 9) ausgelesenen Sprachparameter empfängt, die in jedem Rahmenintervall fortgeschriebenen Sprachparameter mit den vom vorhergehenden Rahmenintervall zugeführten Sprachparametern vergleicht und Sprachparameter zur Interpolation zwischen den verglichenen Sprachparametern während eines Zeitintervalls von 10 ms oder weniger erzeugt und diese der Sprachwiederherstelleinrichtung (11) zuführt;
f) einen Sprachgeschwindigkeits-Dehnungs/ Kompressionszähler (15), in den eine Wiedergabesprachgeschwindigkeit eingegeben wird, der ein Bezugstaktsignal zählt und in Abhängigkeit von der eingegebenen Wiedergabesprachgeschwindigkeit ein Zeitintervall eines Ausgangssignals bestimmt;
g) eine erste Logikanordnung (39), die das Ausgangssignal des Sprachgeschwindigkeits-Dehnungs/Kompressionszählers (15) empfängt und dieses dem Interpolator (10) als Zeitsteucrsignal zur Erzeugung der interpolierten Sprachpara- 5r> meter zuführt;
h) eine zweite Logikanordnung (41), die das Ausgangssignal des Sorachgeschwindigkeits-Dehnungs/Kompressionszählers (15) empfängt und dieses der Sprachwiederherstelleinrichtung (11) als Zeitsteuersignal zur Sprachsynthese zuführt; und
i) einen weiteren Zähler (37), der das Ausgangssignal des Sprachgeschwindigkeits-Dehnungs/ Kompi'essionszählers (15) empfängt, seine Pro- br> quenz teilt und der Speichereinrichtung (8, 9) ein Zeitsteuersignal zuführt, um die Sprachparametcr für einen Rahmen während eines /.eitintervalls auszulesen, das durch eine Intcrpolationsanzahl gegeben ist, mit der der Interpolator (10) während eines Rahmens interpoliert, wodurch die Sprachsynthetisierzeit bei unveränderter Tonhöheninformation dehnbar und komprimierbar ist.
2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der lineare Vorhersagekoeffizient ein partieller Autokorreiationskoeffizient (PARCOR-Koeffizient) ist, der von den Sprachproben mit 10 ms bis 20 ms für jeden Rahmen erhalten ist.
3. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der Speicher (8) zum Speichern der Sprachparameter durch eine Pufferschaltung (Register 9) zum Zwischenspeichern der empfangenen Sprachparameter gebildet ist.
Die Erfindung betrifft einen Sprachsynthesizer gemäß dem Oberbegriff des Patentanspruchs !, bei dem die Synthetisierungszeit der Sprache ohne Ändern der Tonhöhenfrequenz der synthetisierten Sprache dehnbar und komprimierbar ist.
Aus der US-PS 37 89 372 ist ein einfaches Verfahren zum Dehnen und Komprimieren der Abspiel- bzw. Wiedergabezeit mittels magnetischer Tonaufzeichnung und Wiedergabe durch ein Magnetband bekannt. Wenn die Bandfördergeschwindigkeit in der Wiedergabebetriebsart doppelt so groß ist, ist die Wiedergabezeit auf die Hälfte verringert. Wenn andererseits diese Geschwindigkeit halbiert ist, ist die Wiedergabezeit auf das Doppeite gedehnt. In diesem Fall wird die Tonhöhenfrequenz der wiedergegebenen Sprache auf das Doppelte oder auf die Hälfte geändert. Dieses Verfahren ist daher ungeeigne; für die hochwertige Wiedergabe (HiFi-Wiedergabe). Es gibt ein Verfahren, bei dem lediglich die Wiedergabe/.eit ohne Änderung der Tonhöhenfrequenz dehnbar und komprimierbar ist. Bei diesem Verfahren wird der Signalverlauf einer Wellenlänge einer Tonhöhenfrequenz eines Sprachsignals oder mehrfache deren Wellenlänge von dem Sprachsignal herausgeschnitten bzw. abgetrennt. Der abgetrennte Signalverlauf wird wiederholt mit der gleichen Wellenlänge verwendet oder mehrere herausgetrennte Signalverläufe werden zum Komprimieren der Wiedergabezeit gelöscht. Mit dieser Vorgehensweise ist erfolgreich die Wiedergabezeit ohne Änderung der Frequenz der Sprache dehnbar und komprimierbar. Jedoch liegt ein Problem beim Herausschneiden bzw. Abtrennen des Signalverlaufs vor. An den Verbindungspunkten, an denen die herausgeschnittenen Signalverläufe aneinander anschließen, treten Phasenverschiebungen auf, wodurch die Sprache verzerrt wird. Zahlreiche Versuche wurden unternommen, um dieses Verzerrungsproblem zu überwinden, jedoch ist noch keine einfache Dehnung/Kompression der Sprache erreicht worden. Es sei beispielhaft verwiesen auf David, E. E. jr. & McDonald, H. S.. »Note on Pitch Synchronous Processing of Speech« in journal Acoustic Society of America. 28 (i956a) S. 1261 - 1266. Kürzlich verbesserte Technologien bei der LS!-Technik ermöglichten die Entwicklung von Spraehsynthesizer-Chips; beispielsweise ist ein Sprachsynthesizer für Lehrzwecke angegeben worden (vgl. US-Patentanmeldung 9 01 192 vom 28.4. 1978). der günstig in bezug auf Preis. Größe
jnd Leistungsverbrauch ist Der Sprachsynthesizer verwendet die partielle Autokorrelation (PARCOR) und Desteht aus drei Chips, nämlich einem Masken-ROM, :inem Mikrorechner und einer Synthesizer-LSl. Der Sprachsynthesizer ist jedoch ohne Berücksichtigung der Möglichkeit ausgebildet, daß die Svnthetisierzungszeit dehnbar oder komprimierbar sein soll, ohne dabei die Tonhöhenfrequenz zu ändern.
Aus der Zeitschrift Electronics, 31.8.1978, H^ft 18, Seiten 109—116 ist ein Sprachsynthesizer gemäß dem Oberbegriff des Anspruchs 1 bekannt. Dieser Sprachsynthesizer verwendet einen ROM-Speicher zur Speicherung von Sprachparametern, ein !Ostufiges Digitalfilter, einen Digital/Analog-Wandler, der das Ausgangssignal des Digitalfiliers in ein Analogsignal umsetzt und einen Interpolator.
Anhand den Fig. 1 bis 3 wird das Prinzip der PAR-COR-Sprachsynthetisierung, ein Blockschaltbild des grundsätzlichen Aufbaus des bekannten PARCOR-Sprachsynthesizers und ein Schaltbild de: darin verwendeten Digitalfilters- erläutert.
Die F i g. 1 a — 1 c zeigen graphische Darstellungen des Ergebnisses einer Frequenzanalyse des Tons »o«. Der Signalverlauf gemäß Fig. la entspricht einem Gesamtspektrum. Das Gesamtspektrum kann als das Produkt einer Spektralhüllkurve, die sich mit der Frequenz langsam ändert, wie gemäß F i g. Ib, und einer Spektralfeinstruktur, die sich mit der Frequenz stark ändert, wie in Fig. Ic dargestellt, angesehen werden. Die Spektralhüllkurve gibt im wesentlichen eine Resonanzcharaktcristik eines Stimmkanals wieder, einschließlich der Information bezüglich vokaler Töne wie »a« und »o«. Die Spektralfeinstruktur enthält Information bezüglich der Tonhöhe der Sprache oder eines Maßes der Höhe des Tons. Der PARCOR-Koelfizient ist physikalisch der charakteristische Parameter, der eine Stimmkanai-Übcrtragungscharakteristik wiedergibt. Wenn also eine Filtercharakteristik, die die Sprache wiedergibt, in Form von PARCOR-Koeffizienten dargestellt ist, kann die Sprache synthetisiert werden.
Ein Grundaufbau des bekannten PARCOR-Sprachsynthesizers ist als Blockschaltbild in F i g. 2 dargestellt. Fig. 2 zeigt einen Generator 1, der weißes Rauschen erzeugt, einen Impulsgenerator 2, einen stimmhaft/ stimmlos-Schalter 3, einen Multiplizierer 4, ein Digitalfilter 5, einen D/A-Umsetzer 6 und einen Lautsprecher 7. Beim Synthetisieren der Sprache werden eine Beurleilungsinformation bezüglich stimmhaft'stimmlos auf der Grundlage der Daten, die durch Analysieren eines natürlichen vokalen Tons, eine Tonhöheninformation, eine Lautstärke bzw. Ampliuideninformaiion, Parameter A-, - k,- (P = positiv und ganz/ahlig) als PARCOR-Koeffizicnten zeitsequentiell dem Sprachsynthesizer zügel iihrt.
liine Ausliihrungsiorm des Digitalfilters 5 ist in F i g. 3 dargestellt, und /war ein primärer PARCOR-Koeffi-/ientoneingiuig 11-1, ein sekundärer PARCOR-Koeffizicmeneingang 11-2, ein P-Gradeinganij 11-/', Multiplizierer 11.Λ und XMi, Addierer HC und HD und ein verzögernder Speicher UE Wie dargestellt, werden die PARCOR-Koeffizienten den jeweiligen Multiplizierern zugeführt. Weiter sind ein Impulseingangsanschluß 13 und ein Aus.aangsanschluß 14 für die synthetisierte Sprache vorgesehen.
Wenn ein Impuls oder weißes Rausehen dem Lin-L'angsiiriSL'hiuß 13 des Filters 5 zugeführt wird, zeigt das '\usgangssignal vom "Xusgangsanschluß 14 die gleiche Sni'kiralliüllkiM"\eiK'h.iraKli.'rislik wie die Sprache. Das Aubgangssignal wird durch den D/A-Umsetzer 6 in ein Analogsignal umgesetzt, aus dem wiederum ein Sprachsignal durch den Lautsprecher 4 wiederhergestellt wird. Die Zeitschrift Electronics vom 31.8.1978, Heft 18, Seiten 109- 116 enthält keinen Hinweis, daß die Synthetisiergeschwindigkeit der Spracnsynthese durch Änderung des Ausgabeintervalls des Interpolators und des Einleseintervalls der Speichereinrichtung geändert werden kann.
ίο Es ist Aufgabe der Erfindung, einen Sprachsynthesizer anzugeben, bei dem die Sprachzeit bei unveränderter Tonhöheninformation dehnbar und komprimierbar ist.
Die Lösung der obigen Aufgabe geschieht bei einem Sprachsynthesizer gemäß dem Oberbegriff des Anspruchs 1 durch die im Kennzeichen des Anspruchs 1 enthaltenen Merkmale.
Vorteilhafte Ausgestaltungen enthalten die Unteransprüche.
Die Erfindung wird anhand der in der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Es zeigen
Fig. la—Ic Sprachspektren zur Erläuterung der PARCOR-Sprachsynthetisierung;
F i g. 2 ein Blockschaltbild des grundsätzlichen Aufbaus des PARCOR-Sprachsynthesizers;
F i g. 3 ein Schaltbild eines Digitalfilters, das in dem Sprachsyntheiisierabschnitt verwendet ist;
F i g. 4 ein Blockschaltbild eines Ausführungsbeispiels
jn der Erfindung;
Fig. 5 ein Blockschaltbild eines Interpolators gemäß F ig. 4;
F i g. 6 ein Blockschaltbild eines Dehnungs/Kompressions-Zählers;
F i g. 7 ein Blockschaltbild einer Synthetisierzeitsteucrschaltunggemäß Fig.4;
F i g. 8 einen Zeitplan zur Erläuterung der Betriebsweise des Ausführungsbeispiels der Erfindung.
Zunächst zeigt Fig. 4 schematisch ein Ausführungsbeispiel des Sprachsynthesizers. In Fig.4 speichert ein Spruchparameterspeicher 8 Daten über die PARCOR-Koeffizienten, die durch Analysieren der Sprachwelle erhalten sind, die Amplituden, die Tonhöhen, die stimmhaft/stimmlos Umschaltung und dergleichen. Ein Register 9 speichert Parameter zeitweise, die von dem Sprachparameterspeicher 8 abgegeben werden, um die ankommenden Parameter in einem vorgegebenen Format innerhalb des Synthesizers zwecks Zeitsteuereinstellung anzuordnen. Eine Interpolationsschaltung bzw. ein Interpolator 10 interpoliert die Parameter mit kurzen Zeitintcrvallen. Eine Synthetisierbetriebsschaltung 11 synthetisiert Sprache durch Verwendung der Parameter und enthalt das Digitalfilter 5. Dm digitale synthetisierte Sprache, die von dem Digitalfilter 5 erzeugt ist,
v> wird in ein entsprechendes Analogsignal umgesetzt (D/ A-Umsetzer 6). Ein Synihetisierzeitsteuerabschnitt 12 gibt die Zeitpunkte, die bei der Synthetisierbetriebsschaltung 11 verwendet sind, und steuert die Eingabe der Parameter. L-in Geschwindigkeits- bzw. Spraeh-
Mi Dehnungs/Komprcssions-Zähler 15 erzeugt Zeitsteuerungen bzw. Zeitpunkte in Übereinstimmung mit einem Ausmaß des Dehnens und Komprimierens der Sprachzeit bei der Sprachsynihetisierung, insbesondere ein /-ibspielgeschwindigkeits-Einstellsignal. Wenn die
r·'-, Sprachparamcterinlurmatiori von einem anderen Spiachanalysaior im On-Line-Betrieb erhalten wird, kann der Speicher 8 weggelassen werden.
Die Betriebsweise des erläuterten .Sprachsynthesizers
wird im folgenden erläutert.
Das vorliegende Ausführungsbeispiel verwendet zur Sprachsynthetisierungdas PARCOR-Verfahren.das bei dem linearen Vorhersagecodierverfahren verwendet ist. Bei dem PARCOR-Synthetisierverfahren werden die partiellen Autokorrclalionskoeffizienien (PARCOR-Koeffizienten) als die linearen Vorhersagekoeffizienten für die Stimm-Parameter beim Synthetisieren der Sprache verwendet. Der PARCOR-Koclfizient ist physikalisch der Reflektionskoeffizient des Stimm-Kanals (vocal tract). Daher wird durch Zuführen der PARCOR-Koeffizienten als Reflektionskoeffizienten zu einem mehrstufigen Digitalfilter das Modell des menschlichen Stimm-Kanals zum Synthetisieren der Sprache aufgebaut. Die PARCOR-Koeffizienten werden zuvor durch Analysieren der menschlichen Sprache mittels eines Rechners oder eines Sprachanalysators erhalten. Da sich die menschliche Sprache allmählich ändert, wird sie in Zeitintervallcn von 10 ms bis 20 ms ausgeblendet bzw. herausgeführt. Die PARCOR-Koeffizienten werden von der fragmentarischen Sprachprobe erhalten. Mit kürzerem »Rahmen« genannten Zeitintervall nehmen die PARCOR-Koeffizienten zu.
In diesem Fall wird eine allmählicher synthetisiertere Sprache erhalten, jedoch nimmt die Anzahl der Analysierschritte der Sprache zu. Im übrigen ist ein Rahmen die minimale Einheit für die Bestimmung des Analyse-Zeitintervalls der Sprache. In diesem Fall sind weniger Proben in dem Rahmen enthalten. Daher ist es schwierig, die Tonhöhendaten (ein Maß für die Höhe des Tons oder Schalls) der Sprache abzutasten. Andererseits ist dann, wenn der Rahmen lang ist, das Abtastproblem der Tonhöhendaten überwunden, wird jedoch die Sanftheit bzw. der allmähliche Übergang bei der synthetisierten Sprache gestört, wodurch sich eine grobe Sprache ergibt. Das beruht darauf, daß der lange Rahmen einer schrittweisen Bewegung des Mundes entspricht. Aus diesem Grund ist ein Bereich von 10 ms bis 20 ms für einen Rahmen als am günstigsten anzusehen. Bei dem vorliegenden Ausführungsbeispiel werden 20 ms für einen Rahmen verwendet. Gemäß F i g. 4 empfängt vor dem Sprachsynthesizer 11 das Register 9 Sprachparametcr eines Rahmens, wie die PARCOR-Parameter, das stimmhaft/stimmlos-Schaltsignai, Tonhöhendaten und Amplitudendaten, die in indirekter Beziehung zu der Synthetisierzeitsteuerung 12 stehen. Dann werden die Parameter zum Interpolator 10 übertragen, wo sie interpoliert werden mit einer Beziehung zu denjenigen in dem vorhergehenden Rahmen zur Bildung von acht Sprachparametern, die sich für jeden Interpolationsrahmen von 25 ms schrittweise ändern. Diese Daten werden zum Synthesizer 11 übertragen, wobei sie alle 2,5 ms fortgeschrieben werden.
Fig.5 zeigt einen Interpolator 10 mit Volladdierern 16,17, einem Register 18, in das das Ergebnis der Interpolation eingegeben wird, Verzögerungsschaltungen 19—24 und Schalteinrichtungen bzw. Schaltern 25—32 zum Steuern von Verzögerungszeiten, die die weiter unten angegebenen Gewichtungskoeffizienten ändern. Die Interpolationsgleichung lautet:
yV, + 1= W(Ta- N1)+ M,
triebes verwendete Wert.
N, . ι = der Wert, der durch die Interpolation erhalten wird, und der bei dem nächsten Synthelisierbetrieb verwendet wird. -, VV = Gewichtskoeffizient.
mit
Ta
= Zielwert, der Wert, der in das Register
eingegeben ist,
= der gerade während des Synthctisierbe-Beim Interpolieren des Zeitintervall* von 20 ms mit acht Unterteilungen sind erforderlich '/» zum Erhalten des ersten Inicrpolalionswcrtes. 7, für den nächsten In-Ki tcrpolalionswerl und daran anschließend V«. V4, '/.,, '/.· liikI'/,. . .
In dieser Schaltung werden die Parameter seriell einzeln nacheinander interpoliert. Zunächst wird eine Differenz zwischen dem Zielwert im Register 9 und dem r, vorliegenden Wert im Register 18 durch den Volladclicrcr 16 berechnet. Die Kombinaiitsn der Verzögmingsschaltungen 19—21 und der Schalleinrichtungen 25-28 erreicht Gcwichtungskocffizienten 1A, bis '/,. Das Ausgangssignal des Volladdierers 16 und das Ausgangssignai der Verzögerungsschaltung(en) wird dem Volladdicrer 17 zugeführt, wo ein neuer Interpolationswert erhalten wird. Die Kombination der Verzögerungsschaltungen 22-24 und der Schalteinrichtungen 29-32 hält einen Maschinenzyklus konstant. Die so erhaltenen Interpolationswerte werden der Synthetisierbetnebsschaliung 11 zugeführt. Die Synthetisierbetriebsschaltung 11 führt einen vorgegebenen Synthetisierbetrieb alle 125 μ5 durch. Der Grund, weshalb 125 μ5 gewählt ist, ist, daß zum Synthetisieren der Sprache im Frequenzband bis zu 4 kHz die Abtasttheorie die Proben zweimal im Frequenzband erfordert. Folglich werden die Synthetisierbetriebe 20mal in 2,5 ms durchgeführt unter Verwendung der gleichen PARCOR-Koeffizienten. Das so erhaltene Ergebnis des Synthetisierbetriebes wird einer D/A-Umscr/.ung zur Umwandlung in Sprache unterworfen. Durch die obige Interpolation ändern sich die PARCOR-Koeffizienten schrittweise, so daß die Verbindungen bzw. Übergänge zwischen dem Rahmen geglättet werden. Die Schaltung, die die Betriebszeitsteuerung dieser Betriebsschritte steuert, ist der Synthetisierzeitsteuerabschnitt 12, und die Schaltung, die eine Bezugszeitsteuerung für den Synthetisierzeitsteuerabschnitt 12 erreicht, ist der Dehnungs/Kompressions-Zähler 15.
Die Betriebsweise des Dehnungs/Kompressions-Zanlers 15 wird anhand F i g. 6 näher erläutert. Bei der üblichen oder Standard-Synthetisiergeschwindigkeit wird ein Binärcode von beispielsweise 010100. der eine Wiedergabegeschwindigkeit wiedergibt, die durch einen Mikrorechner eingestellt werden soll, in ein Dehnungs/ Kompressions-Datenregister 35 gesetzt. Ein 6-Bit-Zahler 33 zahlt mitteis Takiimpulsen 125 μ5 vorwärts. Wenn der Zählerstand des Zählers 010100 (d. h, 20 im Dezimalsystem) überschreitet, wird ein Vergleicher 34 invertiert zum Rücksetzen des Zählers 33. Dann beginnt der Zähler 33 von neuem zu zählen. Auf diese Weise wird der Dehnungs/Kompressions-Zähler 15 mit der Standard-Synthetisiergeschwindigkeit (125 us) rückgesetzt, wenn er 20mal zählt mittels dem 125^s-Taktimpuls. Er erzeugt einen Ausgangsimpuls alle 2,5 ms zur Übertragung zum Synthetisierzeitsteuerabschnitt 12.
F i g. 7 zeigt in einem Blockschaltbild Einzelheiten der Synthetisierzeitsteuerung 12, nämlich eine Signalleitung 36 von dem Dehnungs/Kompressions-Zähler 15, einen 3-Bit-Zähler 37 zum Frequenzteilen des Ausgangssignals vom Dehnungs/Kompressions-Zähler 15 um einen Faktor 8, eine Steuersignallcitung 38 zum Register 9, eine Logikanordnung 39, die ein Programm zum Steu-
ei η lies Interpolators 10 enthält, cine Inlerpolalor-Sleueisignalleituiig 40, eine Logikanordnung 41 /um Steuern der Synthetisierbetriebsseliiiltung 11, eine Steuerleitung 42 zur Synthetisierbelricbssehaltung 11. Der Zahler 37 überträgt einen 20-ms-lnipuls zum Register 9, wenn ei acht Impulse für die 2,5-ms-lntcrpolation empfängt. Bei Empfang des Impulses ruft das Register 9 die Parameter vom Sprachspeicher 8 ab. Die Logikanordnungen 39 und 40 bilden verschiedene Steuersignale auf der Grundlage des Interpolationsimpulses und steuern den Imerpolator 10 bzw. die Synthetisierbetriebsschaltung mittels der Steuersignale.
F i g. 8 zeigt ein Beispiel eines Zeitplans des Sprachsynthesizers gemäß F i g. 4. Wie dargestellt, ist im Standardzustand, in dem keine Dehnung oder Kompression vorliegt, der Rahmen (die Periode, die durch die natürliche Sprache begrenzt ist; und der lineare Vorhersagekoeffizient wird pro abgeschnittener oder begrenzter Periode forlgeschrieben) so gewählt, daß er 20 ms beträgt (F i g. 8a). Ein Rahmen besteht aus acht Interpolationsrahmen mit jeweils 2,5 ms (Fig. 8). Die Synthetisierbclriebe werden 20mal innerhalb der Interpolationsperiode von 2,5 ms durchgeführt unter Verwenden der linearen Vorhersagekoeffizienten (F i g. 8c).
Der Betrieb des Sprachsynthesizers wird für den Fall, daß die Synthetisiergeschwindigkeit auf die Hälfte der Standardgeschwindigkeit eingestellt ist, anhand der F ig.8d-8f erläutert.
Ein Digitalcode 101000 wird zunächst in das Dehnungs/Kompressions-Register 35 gesetzt. Der Zähler 33 jo zählt vorwärts unter Steuerung durch den 125^s-Takt, bis der Inhalt des Zählers 33 101000 (40 im Dezimalsystem) erreicht. Bei 101000 wird der Zähler 33 rückgesetzi. Auf diese Weise wird, wenn der Dehnungs/Kompressions-Zähler 15 40 Zyklen unter Steuerung durch r> den 125^s-Takt zählt, durch ihn ein Ausgangsimpuls erzeugt zur Übertragung zum Synthetisierzeitsteuerabschnitt 12. Diese Betriebszeitperiode entspricht einer Interpolationsperiode von 5ms (Fig.8e). Wenn der Zähler acht Ausgangsimpulse erzeugt, wird ein neuer Sprachparameter von dem Sprachspeicher 8 in das Register 9 eingegeben. Dieses Zeitintervall entspricht einem Rahmen, und damit 40 ms. Auf diese Weise wird die Sprachsynthetisierung durch Abrufen der Parameter vom Sprachspeicher 8 alle 40 ms erreicht. Obwohl die v> Sprachparameter von einem Rahmen mit 20 ms abgetastet ist, der von der ursprünglichen Sprache abgenommen ist, wird die Sprachsynthese unter Verwendung des Parameters alle 40 ms durchgeführt. Folglich ist die Ab spiel- bzw. Wiedergabegeschwindigkeit '/2 (der Stan- r,o dardgeschwindigkeit). Dieses Verfahren ist vorteilhaft gegenüber dem herkömmlichen, darin, daß der Signalverlauf der wiedergegebenen Sprache analog der natürlichen Sprache ist, und daß die Natur bzw. Art der wiedergegebenen Sprache natürlich ist. Die Sprachparamc- v> ter sind diejenigen des erläuterten Stimm-K.anal-Modells. Wenn die Sprache langsam synthetisiert wird, wird die Anzahl der Synthetisierbetriebe lediglich erhöht, sind jedoch die Betriebszeiten und die Sprachparametcr die gleichen wie bei der schnellen Sprachsynthelisic- &u rung. Folglich ist die Frequenzcharakteristik, d. h. die Charakteristik des Stimm-Kanals des Digitalfilters, die durch den Betrieb erhalten wird, unverändert. Folglich ist die wiedergegebene Sprache außerordentlich ähnlich der Sprache eines langsam sprechenden Menschen. t,5
Wegen der erwähnten Interpolation ist, selbst wenn die Synthetisierzeit lang ist, die Zeitperiode, in der der gleiche Sprachparameter verwendet ist, kurz. Bei dem vorliegenden Auslührungsbeispicl beträgt sie, da der Interpolationsrahmen bei der .Standardgeschwindigkeit 2,5 ms beträgt, lediglich 5 ms, selbst wenn diese Zeit aul das Doppelte verlängert wird. Ks zeigt sich, daß dies unter 10 ms liegt, und daß die geglättete oder sanfte Sprache sichergestellt ist. Das heißt, unter 20 ms ist es notwendig, die Glilttiing der wiedergegebenen Sprache sicherzustellen. Wenn die Interpolation nicht verwendet ist. beträgt die Zeit, die den gleichen Parameter verwendet, 40 ms, wodurch sich eine schlechte Verbindung der Töne bzw. ein schlechter Tonübergang ergibt. Wenn jedoch die Interpolation mit einem Zeitintervall von 10 ms oder weniger durchgeführt ist, beträgt diese Zeit 20 ms oder weniger, selbst wenn die Synthetisierzeit verdoppelt wird. Als Ergebnis ist die wiedergegebene Sprache geglättet.
Hierzu 5 Blatt Zeichnungen

Claims (1)

  1. Patentensprüche:
    1. Sprachsynthesizer mit
    a) einer Speichereinrichtung, die Sprachparameter speichert, die enthalten: mehrere lineare Vorhersagekoeffizienten, die von segmentförmigen Signalverläufen abgetastet sind, die der natürlichen Sprache bei einem gegebenen Zeit- ι ο Intervall entnommen sind, eine Stimmhaft/ Stimmlos-Beurteilungsinformation, eine Tonhöheninformation und eine Lautstärkeinformation;
    b) einer Sprachwiederherstelleinrichtung einschließlich eines mehrstufigen Digitalfilters, die die aus der Speichereinrichtung ausgelesenen Sprachparameter empfängt und die Koeffizienten des mehrstufigen Digitalfilters bei jedem Rahmenintervall auf der Grundlage der linearen Vorhersagekoeffizienten zur Sprachsynthese fortschreibt;
    c) einem Digital-Analog-Wandler, der das Ausgangssignal der Sprachwiederherstelleinrichtung empfängt und ein digitales Sprachsignal, das von der Sprachwiederherstelleinrichtung synthetisiert wurde, in ein analoges Sprachsignal wandelt; und
    d) einem Interpolator,
    .SO
    gekennzeichnet durch
DE3036680A 1979-10-01 1980-09-29 Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit Expired DE3036680C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12541679A JPS5650398A (en) 1979-10-01 1979-10-01 Sound synthesizer

Publications (2)

Publication Number Publication Date
DE3036680A1 DE3036680A1 (de) 1981-04-16
DE3036680C2 true DE3036680C2 (de) 1984-07-12

Family

ID=14909556

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3036680A Expired DE3036680C2 (de) 1979-10-01 1980-09-29 Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit

Country Status (4)

Country Link
US (1) US4435832A (de)
JP (1) JPS5650398A (de)
DE (1) DE3036680C2 (de)
GB (1) GB2060321B (de)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57179899A (en) * 1981-04-28 1982-11-05 Seiko Instr & Electronics Voice synthesizer
JPS5863998A (ja) * 1981-10-14 1983-04-16 株式会社東芝 音声合成装置
JPS58102298A (ja) * 1981-12-14 1983-06-17 キヤノン株式会社 電子機器
DE3248213A1 (de) * 1981-12-28 1983-07-14 Sharp K.K., Osaka Einrichtung zur erzeugung synthetischer sprache und diese enthaltende elektronische registrierkasse
US4624012A (en) 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
EP0117276B1 (de) * 1982-09-20 1990-05-09 Sanyo Electric Co., Ltd. Gerät zur Geheimübertragung
JPS60149100A (ja) * 1984-01-13 1985-08-06 松下電工株式会社 フレ−ム長可変の音声合成装置
US4689760A (en) * 1984-11-09 1987-08-25 Digital Sound Corporation Digital tone decoder and method of decoding tones using linear prediction coding
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US4989250A (en) * 1988-02-19 1991-01-29 Sanyo Electric Co., Ltd. Speech synthesizing apparatus and method
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JPH03159306A (ja) * 1989-11-16 1991-07-09 Toshiba Corp 時間圧縮伸張変換装置
US5687281A (en) * 1990-10-23 1997-11-11 Koninklijke Ptt Nederland N.V. Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
US5588089A (en) * 1990-10-23 1996-12-24 Koninklijke Ptt Nederland N.V. Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
NL9002308A (nl) * 1990-10-23 1992-05-18 Nederland Ptt Werkwijze voor het coderen en decoderen van een bemonsterd analoog signaal met een herhalend karakter en een inrichting voor het volgens deze werkwijze coderen en decoderen.
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
US5272698A (en) * 1991-09-12 1993-12-21 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
US5317567A (en) * 1991-09-12 1994-05-31 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
FR2692070B1 (fr) * 1992-06-05 1996-10-25 Thomson Csf Procede et dispositif de synthese vocale a vitesse variable.
US5408580A (en) * 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
US5457685A (en) * 1993-11-05 1995-10-10 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
JPH07199998A (ja) * 1993-12-27 1995-08-04 Rohm Co Ltd 音声信号圧縮伸張装置
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5491774A (en) * 1994-04-19 1996-02-13 Comp General Corporation Handheld record and playback device with flash memory
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
DE4425767C2 (de) * 1994-07-21 1997-05-28 Rainer Dipl Ing Hettrich Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5842172A (en) * 1995-04-21 1998-11-24 Tensortech Corporation Method and apparatus for modifying the play time of digital audio tracks
US6278974B1 (en) 1995-05-05 2001-08-21 Winbond Electronics Corporation High resolution speech synthesizer without interpolation circuit
US5832442A (en) * 1995-06-23 1998-11-03 Electronics Research & Service Organization High-effeciency algorithms using minimum mean absolute error splicing for pitch and rate modification of audio signals
US6366887B1 (en) * 1995-08-16 2002-04-02 The United States Of America As Represented By The Secretary Of The Navy Signal transformation for aural classification
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JPH09127995A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
GB2305830B (en) * 1995-09-30 1999-09-22 Ibm Voice processing system and method
EP1164577A3 (de) * 1995-10-26 2002-01-09 Sony Corporation Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6775372B1 (en) 1999-06-02 2004-08-10 Dictaphone Corporation System and method for multi-stage data logging
US6249570B1 (en) 1999-06-08 2001-06-19 David A. Glowny System and method for recording and storing telephone call information
US6246752B1 (en) 1999-06-08 2001-06-12 Valerie Bscheider System and method for data recording
US6252946B1 (en) * 1999-06-08 2001-06-26 David A. Glowny System and method for integrating call record information
US6252947B1 (en) 1999-06-08 2001-06-26 David A. Diamond System and method for data recording and playback
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6869644B2 (en) * 2000-10-24 2005-03-22 Ppg Industries Ohio, Inc. Method of making coated articles and coated articles made thereby
US7683903B2 (en) 2001-12-11 2010-03-23 Enounce, Inc. Management of presentation time in a digital media presentation system with variable rate presentation capability
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
US8296143B2 (en) * 2004-12-27 2012-10-23 P Softhouse Co., Ltd. Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer
WO2008111158A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited 音声波形補間装置および方法
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2168937B1 (de) * 1972-01-27 1976-07-23 Bailey Controle Sa

Also Published As

Publication number Publication date
JPS5650398A (en) 1981-05-07
DE3036680A1 (de) 1981-04-16
GB2060321B (en) 1983-11-16
US4435832A (en) 1984-03-06
JPS623439B2 (de) 1987-01-24
GB2060321A (en) 1981-04-29

Similar Documents

Publication Publication Date Title
DE3036680C2 (de) Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE3883034T2 (de) System zur Sprachsynthese.
DE69614782T2 (de) Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung
DE3486280T2 (de) Vorrichtung zur Erzeugung von Musiktönen vom Wellenformauslesespeichertyp.
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE69736446T2 (de) Audio Dekodierverfahren und -vorrichtung
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69032168T2 (de) Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
DE3587423T2 (de) Tonerzeugende Vorrichtung für ein elektronisches Musikinstrument.
DE3244476C2 (de)
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69519820T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE69026966T2 (de) Elektronisches Musikinstrument mit mehreren verschiedenen Tonerzeugern
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE69132956T2 (de) Sprachcodierung durch lineare Prädiktion mit Anhebung der Hochfrequenzen
DE2920298A1 (de) Binaere interpolatorschaltung fuer ein elektronisches musikinstrument
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE3019823C2 (de)
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee