DE1572453A1 - Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen - Google Patents
Schaltungsanordnung zur Analyse und Synthese von SprachsignalenInfo
- Publication number
- DE1572453A1 DE1572453A1 DE19671572453 DE1572453A DE1572453A1 DE 1572453 A1 DE1572453 A1 DE 1572453A1 DE 19671572453 DE19671572453 DE 19671572453 DE 1572453 A DE1572453 A DE 1572453A DE 1572453 A1 DE1572453 A1 DE 1572453A1
- Authority
- DE
- Germany
- Prior art keywords
- analysis
- filters
- speech
- signals
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
- Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen Die Erfindung betrifft eine Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen mittels orthogonaler Basisfunktionen. Stimmhafte Abschnitte eines Sprachsignales lassen sich ganz allgemein als eine quasi-periodische Folge von Impulsantworten des -Artikulationstraktes betrachten. Diese Impulsantworten des Artikulationstraktes bestehen aus gedämpften Sinusschwingungen, deren Amplituden exponentiell abnehmen. Nur drei bis vier dieser Schwingungen besitzen eine nicht vernachlässigbare Größe.
- Die Analyse und Synthese von Sprachsignalen mit Hilfe von Filtern, deren Zeitfunktion der Zeitfunktion bestimmter orthogonaler Basisfunktionen entspricht, ist insbesondere durch einen Aufsatz von L. Dolansky, "Choise of Base Signals in Speech Signal Analy-.
- Ses", IRE Transactiona an Audi4, Vol. 10 (1960), Noo 6p Seiten 221-229 bekannt geworden®
Es sind allerdings nur wenige Gruppen orthogonaler Basi.sfunktio- gi (t) 0 i - 1, 2,7 -* am? Zur Synthese des Sprachsignalsmüssen die abgeleiteten Koeffi- zienten gespeichert werden. sie dienen dann in ihrer umgekehrter Reihenfolge zur Stenmrung der egungs®Amplitudenƒ Die Anrengd® Impulse werden danach zu den Filtern ertragen, deren Ausgangsƒ signale zu einem Addierverstrker übertragen verdena an dessen Ausgang dadurch dos synthetische Sprachsignal entsteht. Das oben erläuterte bekannte Analyse- und Sneserh@ir auch für die Analyse und Synthese stimmloser; schnitte dGo Sprach® signales mit ziemlich guten Ergebnissen verwendet. Die ibtast® frequenz wird hierbei aber konstant gewählt. Das bekannte Verfahren zur Analyse une Syntacae von SpLpacchsignalen mittels orthogonaler Basisfunktionen hat jedoch den entacheiden- den Nachteil, daß es für eine Analyse sofort nach den Einlangen (Echtzeit-Analyse oder -Kodierung) von Sprechsignalen nicht ver- - Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zu schaffen, mit deren Hilfe eine Echtzeit-Analyse und -Synthese von Sprachsignalen-mittels orthogonaler Basisfunktionen möglich ist.
- Für eine .Vorrichtung zur Analyse und Synthese von Sprachsignalen mittels orthogonaler Basisfunktionen besteht die erfindungsgemäße Lösung darin, daß zur Echtzeit-Analyse der Sprachsignale -Filter vorgesehen sind, deren Ausgangssignale der zeitlichen Umkehr der Impulsantworten entsprechen, daß die Ausgangssignale der Filter in von den Sprachsignalen abgeleiteten zeitlichen Intervallen abgetastet werden, und daß zur Sprachsynthese Filter vorgesehen sind, auf die die beim Abtastvorgang gewonnenen Signale geleitet werden und daß die Ausgangsgröße dieser Filter -der zeitlich nicht umgekehrten, einem bestimmten Kanal zugeordneten@orthogonalen Basisfunktion entspricht. Gemäß einer vorteilhaften Lösung ist als Filter zur Erzeugung einer Zeitfunktion, die-der umgekehrten Zeitfunktion einer orthogonalen Basisfunktion entspricht, ein transversales Filter Fi - F vorgesehen., n Eine vorteilhafte Weiterbildung der Analyseeinrichtung ist dadurch gekennzeichnet, daß zur Abtastung der analyseseitigen Filterausgangssignale die Abtastintervalle durch individuell phasenregelbare Anregungsimpulse gesteuert werden, die nach Art des Kanalvocoders mit Impulsanregung abgeleitet sind.
- Die Sprachanalyse- und Syntheseeinrichtung nach der Erfindung besitzt im wesentlichen den Vorteil, daß die Kodierung und Analyse der Sprache mit Hilfe orthogonaler nasiefunktionen nun auch für die Echtzeit-Analyse zu einer beträchtlichen Reduktion der bei der __Übertragug_äerprabhe fuhrt. Die Übertragungsrate der Nachrichtenimpulse ist selbst niedriger als bei der Sprachübertragung nach dem Vocoderprinzip, wobei sogar die Sprachqualität noch besser ist.
- Im folgenden wird die Erfindung an Hand der Figuren beispielsweise näher beschrieben. Es zeigen: Fig: l das Blockschaltbild der Sprachanalyse- und Syntheseeinrichtung und Fig. 2 das Blockschaltbild eines tranaversalen Filters. Der Filtersatz F'1 bis Fn des Analysators in Fig. 1 besteht aus transversalen Filtern, die so entworfen sind, daß sie als Ausgangssignale-die zeitliche Umkehr der Impulsantworten liefern. Diese zeitliche Umkehr ist so aufzufassen, daß sie die zeitliche Umkehr der Impulsantworten jener Filter darstellt, die beider bekannten Anordnung .verwendet werden und welchen die zeitliche Umkehr des zu analysierenden Eingangssprachsignales zugeführt wird. Für den Entwurf der transversalen Filter wird angenommen, daß die im eingangs erwähnten Aufsatz behandelten kontinuierlichen Filter mit dem Unterschied ersetzt, werden sollen, daß die Impulsantwort des diskreten Filters die zeitlich umgekehrte Impulsantwort des ersetzten kontinuierlichen Filters ist.
- Um geeignete orthogonale Basisfunktionen zu erhalten,#Icann man (s. den eingangs zitierten Aufsatz, ü. 222) z.S. so vorgehen, daü man die Bedingung für die Orthogonali tä#t G1. (1) im komplexen Frequenzbereich formuliert:
N ° Li' 1?fl'i ...... 1.a24#1 (9) _ Sk $ "k Fj ßk = k (-a1 Flßk) k = 1,2,3,4,5,6,7 ' mit Unter diesen Voraussetzungen ergeben sich die beiden ersten ortho- gonalen Basisfunktionen als 91 (t) - 22e-125®7 ,t. sin (2512t +0,811) (10) 92 (t) - 22o95e®925,7 t $1n (2512.t + 2,38:1) wobei t.in Sekunden gerechnet wird. Ausgehend von derartigen o@@t-1 Dasiofunktionen es#liält man die Impulaantwort do-"* narawnovorsalen Filter durch CImhalär der Zlt und em .U. Die a11,@G1;@n G2"und- manuellen Phasensteuerung PHST verbunden. Die Phasensteuerung beoteht im wesentlichen aus einer einstellbaren Verzögerung zur Regelung der Phasenlage des Ausgangssignals des Anregungs- kanz-Us. Die Ausgangssignale der Phasensteuerungs-Schaltung wer- den dem Eingang einer tast-Steuerschaltung AST zugeführt. Durch die tastƒSteuerungsschaltung werden die Schalter Slbis Sn -. gleich2eitig mit jedem Ausgangsimpuls von der Phasensteuerungs- Schaltg betätigt. Die Auogmngssignale-der Schaltungsanordnung zur Pulsamplituden- Mcüulation werden dun, gemeinsamen Eingang FE der Filter F1 bis ?n zur Sprachanalyse zugeleitet. In einem praktischen Ausführungs- beispiel hönn2n die Schalter S1 bis sn aus Torschaltungen be- stehen, die direkt durch die Ausgangsimpulse der Schaltungsan- ordnung sur Abtaststeuerung AST gesteuert werden. In diesem: Falle hät die Abtaststeuerung dann nur die Aufgabe, während- - Während stimmhafter Abschnitte des Sprachsignals entspricht die Abtastfrequenz der Sprachgrundfrequenz. Die n Abtastergebnisse - eines für das Ausgangssignal jedes Filters --, die gleichzeitig entstehen, stellen die ersten n Koeffizienten einer Reihenentwicklung des Sprachsignales dar, welche Gültigkeit für die vorangegangene Periode besitzt. Diese koeffizienten können für die Synthese des Sprachsignales entweder gleich übertragen oder für eine spätere Synthesegespeichert werden.
- Die Filter können, wie bereits erwähnt, durch eine Verzögerungsleitung VZ und eine Reihe von Dämpfungsgliedern realisiert werden. Ein gemeinsamer Eingang FE (Fis. 2) gestattet allen Filtern-F1 bis Fn die Benutzung einer einzigen angezapften Verzögerungsleitung VZ. Die Verzögerungsleitung besitzt einen Eingang, i.-2 Anzapfungen und einen Ausgang, wobei alle diese Anschlüsse als Vielfachanschlüsse ausgeführt sind. Die Verzögerungszeit zwischen den einzelnen Anschlüssen der Verzögerungsleitung ist einheitlich mit @at gewählt. Jedes Filter besitzt i Dämpfungsglieder G, die mit einem Eingang an jeweils einem Anschlua der Verzögerungsleitung liegen und deren anderer Anschlug zusammengefaßt den Ausgang des entsprechenden Filters bildet. Wird ein Impuls zu dem Eingang-der Verzögerungsleitung übertragen, dann erzeugen alle i Dämpfungsglieder in ihrem gemeinsamen Ausgang die Impulsantwort des betreffenden Filters, welche in Intervallen von ät abgetastet wird. Das Eingangssignal für alle Filter ist, wie schon erwähnt wurde, eine impulsamplitudenmodulierte Daratellung des"Sprachsignales, wobei die Impulse einen Abstand von dt besitzen: Die Impulsantwort der entsprechenden transversalen Filter P1 bis Fn erhält man aus den zugeordneten orthogonalen Basiafünktionen durch Umkehr der Zeit und Verschiebung um T: (15) r1 (t) = g1 (-t + T) (16) r2 (t) = 92 (-t + T) Eine realistische Annahme für T ist die kürzeste, während notmalet Sprache mit nennenswerter Häufigkeit vorkommende Periodendauet bei einer durchschnittlichen Männerstimme. Das ist ungefähr: (17) 5 ms < T < 8 ms -Für die endgültige Dimensionierung der transversalen Filter- wird noch die Abtastfrequenz bzw. der Abtastschritt At benötigt. Für die Verwendung der ersten 14, aus (7) und (8) mit (9) berechenbaren Basisfunktionen (k W 1, 2, 3, 4, 5, 6, 7) ist eine Abtastfrequenz von 10 kHz bzw. ein Abtastschritt von 0,1 ms ausreichend. Jedes der transversalen Filter besteht dann aus einer Verzögerungsleitung mit beispielsweise 501nschlüssen (T - 5 ms), wobei die Verzögerung zwischen zweilaufeinanderfolgenden Anschlüssen At = 0,1 ms ist. Das Signal an jeder dieser Anzapfungen wird nun durch die Dämpfungsglieder GO bis-Gi abgeschwächt. Die Summe aller abgeschwächten Signale ist das Ausgangssignal des Filters. Die Abschwächung für die i-te Anzapfung beim ersten Filter läßt sich aus (15) und (16) berechnen (siehe Fiq. 2, F1),.
- Der Aufbau des Filters gestattet auch, wie Fig. 2 erkennen läßt, bei Verwendung eines geeigneten Zeitmultiplexverfahrens eine gemeinsame Verwendung der Verzögerungsleitung VZ für mehrere Filtersätze.
Die Synthese der Sprachsignale aus den durch die Sprachanalyse gewonnenen Signalen wird mit eine Satz von n Filtern F ' 1 bis as ' n (Fig.. 1) durchgeführt. Die d,ü99s.i.@.@CS Ader Filter entspricht der zeitlich nicht umgelb-e-hLtonei`_ bastiwmten itlial@,ugordna- - Die für die Synthese verwendeten Filter können entweder nach der üblichen Technik oder aber als transversale Filter mit angezapften Verzögerungsleitungen ausgeführt werden: In dem letzteren Fall kann auch wieder -ein solcher Aufbau gewählt werden, daß mehrere Filtersätze auf einer Zeitmultiplescbasis eine gemeinsame Ver-® zögerungaleitung verwenden können: Heider Echtzeitanalyse der Sprache sind die Zeitpunkte der Ab® tastungen, zu denen dass Filterausgangssignal ermittelt wird®
kritisch (siehe G1. 14). Es wird daher vorgeschlagen, die Inter®, walle zwischen zwei Abtastungen mit Hilfe einer Einrichtung dach- zuführen, die zur Gewinnung der Anregungsirpulse bei impuloGrrreg- ten Kanalvocodern Verwendung findet. Die EinsteUung dar genauen Phasenlage dieser Smpulse, mit deren Hilfe die Abtaststeurung AST in Fig. 1: die fit: @ ;@"°@-chalter S1 bis sn betätgto kann manuell, mit Hilfe der Phasensteuezung PHST, deren ingangsimp@lsc Aia Einrichtung AR liefert, vorgenommen werden. Die manuelle gin- stellung der Phasenlage erfolgt nb unter otgndigeigs hören der Qualätät.der künstlich erzeugten S ach. Im folgenden soll nun ein Beispiel fUr die al5Zoe einer Sprach- Schwingung gegeben werden. Fig: 3 zeigt den Verlaus- einGrc lichen Sprachschwingung (Vokal, gesprochen von einer tAegen Männerstimme) und die aus der Sprachschwingung abgeleitete- Inaƒ pulafolge G1. die die AbtasteteuerschltunASä An Tigö R . steuert-. . Die Fig. 4 zeigt hingegen die entlang der- Verzögerungsleitung VZ zum Zeitpunkt t m 1, et _. T sowie das
Claims (2)
- Patentansprüche. 1, Einrichtung zur Analyse :und Synthese von Sprachsignalen mittels orthogonaier Basisfunktionen, dadurch gekennzeichnet, dass zur Echtzeitanalyse der Sprachsignale transversale Filter (F1 bis Fnj Fig, 1) vorgesehen sind, deren Ausgangssignale der zeitlichen Umkehr der Impulsantworten entsprechen, dass die Ausgangssignale der Filter in von den Sprachsignalen abgeleiteten zeitlichen Intervallen abgetastet werden, und dass zur Sprachsynthese Filter (F' 1 bis F' n) vorgesehen sind, auf die die beim Abtastvorgang gewonnenen Signale geleitet werden und dass die Ausgangsgrösse: dieser Filter der zeitlich nicht umgekehrten, einem bestimmten Kanal zugeordneten orthogonalen Basisfunktion entspricht,
- 2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, dass -zur Abtastung der analyseseitigen Filterausgangssignale die Abtastintervalle durch von Hand phasenregelbare Anregungsirhpulse gesteuert werden, die nach der Art des Kanalvocoders mit Impulsanregungen abgeleitet sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DEJ0035249 | 1967-12-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE1572453A1 true DE1572453A1 (de) | 1970-07-16 |
Family
ID=7205362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19671572453 Pending DE1572453A1 (de) | 1967-12-16 | 1967-12-16 | Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE1572453A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2334459A1 (de) * | 1973-07-06 | 1975-01-23 | Siemens Ag | Unterscheidung zwischen stimmhaften und stimmlosen lauten bei der sprachsignalauswertung |
DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
-
1967
- 1967-12-16 DE DE19671572453 patent/DE1572453A1/de active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2334459A1 (de) * | 1973-07-06 | 1975-01-23 | Siemens Ag | Unterscheidung zwischen stimmhaften und stimmlosen lauten bei der sprachsignalauswertung |
DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE3510660C2 (de) | ||
DE3244476C2 (de) | ||
DE3902948A1 (de) | Verfahren zur uebertragung eines signals | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3929481A1 (de) | Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen | |
DE102005039621A1 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
DE1572453A1 (de) | Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen | |
DE1499327A1 (de) | Rechenanlage | |
DE3101590C2 (de) | Anordnung zum Erzeugen eines Sprachsignals | |
DE2224511C3 (de) | Verfahren und Schaltungsanordnungen zum automatischen Entzerren von elektrischen Signalfolgen | |
EP0075311B1 (de) | Anordnung zur Übertragung von Sprache nach dem Kanalvocoderprinzip | |
DE1541624A1 (de) | Verfahren zur Frequenzumsetzung | |
DE2303497C2 (de) | Verfahren zur Übertragung von Sprachsignalen | |
DE1122581B (de) | Verfahren und Schaltungsanordnung zur angenaeherten Nachbildung der Kurzzeitspektren von nach dem Vocoderverfahren uebertragenen Sprachsignalen | |
DE1903623B2 (de) | Elektrischer Sprach-Synthetisator | |
DE2163247C3 (de) | Vorrichtung zur Beseitigung der in einem Eingangssignal enthaltenen Störsignale | |
DE3834871C1 (en) | Method for encoding speech | |
EP0676887B1 (de) | Verfahren zur Erzeugung eines digitalen Sinussignales mit einer vorgegebenen Abtastrate und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE2608984A1 (de) | Elektronisches hoergeraet | |
DE2062589A1 (de) | Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen signals | |
DE1271203B (de) | Verfahren und Anordnung zur Gewinnung der Anregungsfunktion bei Kanalvocodern | |
EP0595944A1 (de) | Verfahren zum ermitteln der globalen mithörschwelle bei einer bitratenreduzierenden quellcodierung. | |
DE1472011C3 (de) | ||
CH470044A (de) | Einrichtung zur Analyse und Synthese von Sprachsignalen |