-
HINTERGRUND
DER ERFINDUNG
-
Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft eine Vorrichtung zum Erzeugen synthetisierter
Klänge
und ein Verfahren, das geeignet ist zum Eingeben und Synthetisieren
von Stimmen und Instrumentalklängen
bzw. -geräuschen
und zum Ausgeben synthetisierter Instrumentalklänge und dergleichen mit der charakteristischen
Information der Stimmen.
-
Stand der
Technik
-
Vocoder,
bzw. Sprachent- bzw. Sprachverschlüsselungsgeräte, welche eine Funktion zum Analysieren
und Synthetisieren von Stimmen aufweisen, werden üblicherweise
mit Musiksynthesizern bzw. Musiktongeneratoren aufgrund ihrer Fähigkeit verwendet,
Instrumentalklänge,
-geräusche
oder dergleichen onomatopo(i)etisch zu erzeugen. Hauptsächliche
bekannte entwickelte Vocoder umfassen Formanten-Vocoder, Systeme
zur linear-prädiktiven Analyse
und Synthetisierung (PARCO-Analyse und -Synthese), Cepstrum-Vocoder
(Sprachsynthese auf der Grundlage einer homomorphen Filterung),
Kanal-Vocoder (welche
Dudley-Vocoder genannt werden) und dergleichen.
-
Die
Formanten-Vocoder nutzen einen analogen Endgeräte-Synthesizer, um die Geräuschsynthese
auf der Grundlage von Parametern für die Vokaltrakteigenschaften
durchzuführen,
die aus einem Formant und einem Anti-Formant einer spektralen Umhüllenden
bestimmt werden, d.h., Pole und Nullpunkte davon. Der analoge Endgeräte-Synthesizer besteht
aus einer Vielzahl von Resonanzschaltkreisen und Anti-Resonanz-Schaltkreisen,
die in einer Kaskadenverbindung zum Simulieren von Resonanz/Anti-Resonanz-Eigenschaften
eines Vokaltrakts angeordnet sind. Das System zur linearen prädiktiven
Analyse und Synthese ist eine Erweiterung des prädiktiven Verschlüsselungsverfahrens,
das unter den Sprachsyntheseverfahren das am weitesten verbreitete
ist. Das PARCO-Analyse- und -Synthesesystem ist eine verbesserte
Versi on des Systems zur linearen prädiktiven Analyse und Synthese.
Der Cepstrum-Vocoder ist ein Sprachsynthesesystem, das eine logarithmische
Amplitudeneigenschaft eines Filters und eine inverse Fourier-Transformation und
eine inversen Faltung eines logarithmischen Spektrums einer Geräusch- bzw. Klangquelle
verwendet.
-
Der
Kanal-Vocoder verwendet Bandpassfilter 10-1 bis 10-N für unterschiedliche
Bänder,
um eine Information über
eine spektrale Umhüllende
eines Eingabesprachsignals zu extrahieren, d.h., Parameter für die Sprachkanaleigenschaften,
wie beispielsweise in 1 gezeigt. Andererseits erzeugen ein
Pulsfolgengenerator 21 und ein Rauschgenerator 22 zwei
Arten von Klangquellensignalen, welche unter Verwendung der Parameter
für die
spektrale Umhüllende
amplitudenmoduliert werden. Diese Amplitudenmodulation wird durch
Multiplizierer (Modulatoren) 30-1 bis 30-N durchgeführt. Die
modulierten Signale, die von den Multiplizierern (Modulatoren) 30-1 bis 30-N ausgegeben
werden, laufen durch Bandpassfilter 40-1 bis 40-N,
und sie werden dann durch einen Addierer 50 zusammenaddiert,
wodurch ein synthetisiertes Sprachsignal erzeugt und ausgegeben
wird.
-
Im
Beispiel des in der japanischen offengelegten Patentveröffentlichung
(Kokai) Nr. JP-A-05-204397 offenbarten Kanal-Vocoder werden Ausgaben
von den Bandpaßfiltern 10-1 bis 10-N gleichgerichtet
und geglättet,
wenn sie durch Kurzzeitdurchschnitts-Amplitudenerfassungs-Schaltkreise 60-1 bis 60-N laufen.
Ein Stimmgeräusch/Nicht-Stimmgeräusch-Detektor 71 bestimmt eine
Stimmgeräuschkomponente
und eine Nicht-Stimmgeräuschkomponente
des Eingabesprachsignals und bei Erfassen der Stimmgeräuschkomponente
betätigt
der Detektor 71 einen Schalter 23, um so eine
Ausgabe (Pulsfolge) von dem Pulsfolgengenerator 21 zu den
Multiplizierern 30-1 bis 30-N auszuwählen und
zu liefern. Zusätzlich
betätigt
der Stimmgeräusch/Nicht-Stimmgeräusch-Detektor 71 den
Schalter 23 bei Erfassen der Nicht-Stimmgeräuschkomponente,
um so eine Ausgabe (Rauschen) vom Rauschgenerator an die Multiplizierer 30-1 bis 30-N auszuwählen und
zu liefern. Zugleich erkennt ein Tonhöhendetektor 72 eine
Tonhöhe
des Eingangssprachsignals, um zu bewirken, dass es in der Ausgabepulsfolge
vom Pulsgenerator reflektiert wird. Wenn daher die Stimmgeräuschkomponente erfasst
wird, enthält
die Ausgabe vom Pulsgenerator 21 eine Tonhöheninformation,
welche unter der charakteristischen Information am Eingabesprachsignal ist.
-
Gemäß dem oben
beschriebenen Formanten-Vocoder benötigt der Formanten-Vocoder
jedoch einen komplizierten Analyseprozess oder einen händischen
Betrieb, da der Formant und der Anti-Formant aus der Spektral-Umhüllenden
nicht einfach extrahiert werden können. Das System für die lineare prädiktive
Analyse und Synthese verwendet ein All-Pol-Modell, um Geräusche zu
erzeugen und verwendet einen einfachen Mittelwert der Prädiktionsfehler
als eine Auswertereferenz zum Bestimmen der Koeffizienten für das Modell.
Daher fokussiert dieses Verfahren sich nicht auf die Natur der Stimmen.
Der Cepstrum-Vocoder benötigt
eine lange Zeitdauer zum spektralen Verarbeiten und zum Durchführen der
Fourier-Transformation und ist daher in Echtzeit nicht ausreichend
ansprechbar.
-
Andererseits
drückt
der Kanal-Vocoder die Parameter für die Vokaltrakteigenschaften
direkt in physikalischen Größen in der
Frequenz-Domäne
aus und berücksichtigt
daher die Natur der Stimmen. Aufgrund des Fehlens einer mathematischen
Strenge ist jedoch der Kanal-Vocoder nicht zur Digitalverarbeitung
geeignet.
-
US-A-4,907,484
offenbart, dass mindestens zwei Sätze von Filterkoeffizienten,
die unterschiedlichen Filtereigenschaften entsprechen, durch Verwenden
eines Steuersignals zum Steuern der Tonfarbe als einem Parameter
einer Interpolation interpoliert werden. Filterkoeffizienten, die
durch die Interpolation erlangt werden, werden einem digitalen Filter zugeführt, um
ihre Filtereigenschaften zu bestimmen, und ein Eingabetonsignal
wird in Übereinstimmung mit
den so bestimmten Filtereigenschaften modifiziert. Filtereigenschaften
verschiedener Variation, wie verglichen mit der Zahl vorbereiteter
Filterkoeffizienten, können
dadurch realisiert werden. Ferner kann die zeitweilige Änderung
von Filtereigenschaften realisiert werden durch Ändern eines Interpolati onsparameters
mit dem Ablauf einer Zeit oder durch Ändern zweier Sätze von
zu interpolierenden Filterkoeffizienten mit Ablauf einer Zeit. Eine
Festsetzung von Filterkoeffizienten kann durchgeführt werden durch
Festsetzen von Koordinatendaten von Koordinaten mit mindestens zwei
Achsen. In diesem Fall können
die Filterkoeffizienten durch Verändern von Koordinatendaten
mindestens einer Achse gemäß der Tonfarbensteuerinformation
geändert
werden, wodurch Filtereigenschaften variabel gesteuert werden können.
-
Das
Dokument "The use
of linear prediction of speech in computer music applications" von Moorer, AES
Convention 1978, S. 134–140,
offenbart eine Faltung von Rahmen eines ersten Tonsignals mit Rahmen
eines zweiten Tonsignals. Probleme einer Inkonsistenz werden durch
eine Tonhöhensynchronisationsanalyse
gelöst.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Es
ist eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und
ein Verfahren zur Erzeugung von synthetischen Klängen bereitzustellen, welche
eine reaktive und hoch qualitative Sprachsynthese auf der Grundlage
einer Faltungsoperation in Echtzeit erreichen kann.
-
Um
die obige Aufgabe zu lösen,
ist gemäß einem
ersten Gesichtspunkt der vorliegenden Erfindung eine Vorrichtung
zur Erzeugung von synthetischem Klang nach Anspruch 1 vorgesehen.
-
In
einer bevorzugten Ausführungsform
des ersten Gesichtspunkts weist die Synthesesignalerzeugungsvorrichtung
eine Faltungsschaltung auf, die einen Interpolationsablauf an den
Koeffizienten ausführt,
um einen schnellen Wechsel im Pegel des erzeugten Synthesesignals
beim Umschalten der Koeffizienten zu verhindern.
-
In
einem typischen Beispiel des ersten Gesichtspunkts ist das erste
Signal ein Sprachsignal, und die charakteristische Information,
die aus dem Sprachsig nal extrahiert wird, gibt eine Wellenform an, die
an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt
endet, der von dem Nulldurchgangspunkt durch ein Zeitintervall getrennt
ist, das nahe einem Referenzumschaltzyklus liegt.
-
Vorzugsweise
wird das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals
bestimmt.
-
In
einem typischen Beispiel nach dem ersten Gesichtspunkt ist das zweite
Signal ein Instrumentenklangsignal.
-
Um
die obige Aufgabe zu lösen,
ist gemäß einem
zweiten Gesichtspunkt der vorliegenden Erfindung eine Synthesesignalerzeugungsvorrichtung nach
Anspruch 3 vorgesehen.
-
In
einem typischen Beispiel nach dem zweiten Gesichtspunkt ist das
erste Signal ein Sprachsignal, und die aus dem Sprachsignal extrahierte
charakteristische Information gibt eine Wellenform an, die an einem
Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt
endet, welcher vom Nulldurchgangspunkt durch ein Zeitintervall getrennt
ist, das nahe einem Referenzschaltzyklus liegt.
-
Vorzugsweise
wird das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals
bestimmt.
-
In
einem typischen Beispiel nach dem zweiten Gesichtspunkt ist das
zweite Signal ein Instrumentengeräuschsignal bzw. -klangsignal.
-
Um
die obige Aufgabe zu lösen,
ist gemäß einem
dritten Gesichtspunkt der vorliegenden Erfindung ein Synthesegeräuscherzeugungsverfahren nach
Anspruch 7 vorgesehen.
-
Um
die obige Aufgabe zu lösen,
ist gemäß einem
vierten Gesichtspunkt der vorliegenden Erfindung ein Synthesesignalerzeugungsverfahren
nach Anspruch 8 vorgesehen.
-
Erfindungsgemäß kann eine
Echtzeit-Faltungsoperation umgesetzt werden, um eine empfindliche
und qualitativ hochwertige Sprachsynthese zu erreichen. Erfindungsgemäß ist es
nicht notwendig, zwischen der Stimmgeräuschkomponente und der Nicht-Stimmgeräuschkomponente
des Eingabesprachsignals, so wie im herkömmlichen Kanal-Vocoder, zu
unterscheiden. Ferner kann die vorliegende Erfindung die Größe der Schaltung
verringern. Die vorliegende Erfindung ist nicht auf Sprachsignale
beschränkt
und kann verschiedene Eingabesignale aufnehmen. Der Umfang der Erfindung
ist nur durch die angehängten
Ansprüche
beschränkt.
-
Die
obigen und andere Aufgaben der Erfindung werden aus der folgenden
genauen Beschreibung klar, die zusammen mit den beigefügten Zeichnungen
zu lesen ist.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Blockdiagramm, das ein Beispiel eines herkömmlichen Vocoders zeigt;
-
2 ist
ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungseinheit
gemäß einer
Ausführungsform
der vorliegenden Erfindung zeigt;
-
3 ist
eine Ansicht, die nützlich
ist zum Erklären
einer Faltungsoperation;
-
4 ist
ein Wellenformdiagramm, das nützlich
ist zum Erklären
einer Art eines dynamischen Ausschneidens von Wellenformen, die
als Koeffizienten verwendet werden;
-
5A ist
ein Wellenformdiagramm, das nützlich
ist zum Erklären
einer Art von Koeffizienteninterpolation, die beim Umschalten von
einem Koeffizienten A zu einem Koeffizienten B durchgeführt wird;
-
5B ist
ein Wellenformdiagramm, das nützlich
ist beim Erklären
einer Art von Koeffizienteninterpolation, die beim Umschalten von
einem Koeffizienten A zu einem Koeffizienten B' durchgeführt wird;
-
6 ist
ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungsvorrichtung gemäß einer
anderen Ausführungsform
der vorliegenden Erfindung zeigt; und
-
7 ist
ein Diagramm, das nützlich
ist zum Erklären
eines Cross-Fade-Ablaufs.
-
GENAUE BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Die
vorliegende Erfindung wird weiter unten genauer mit Bezug auf die
Zeichnungen beschrieben, welche bevorzugte Ausführungsformen davon zeigen.
-
2 ist
ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungsvorrichtung gemäß einer
Ausführungsform
der vorliegenden Erfindung zeigt. In dieser Ausführungsform wird die Synthesegeräuscherzeugungsvorrichtung
gemäß der vorliegenden
Erfindung auf einen Vocoder angewandt, um ein Synthesesignal zu
erzeugen durch dynamisches Ausschneiden von Wellenformen aus einer
Eingabe eines analogen Sprachsignals (einem ersten Signal) von einem
Mikrofon oder dergleichen, um die charakteristische Information
daraus zu extrahieren, um dadurch Koeffizienten zu erzeugen und die
erzeugten Koeffizienten in ein analoges Instrumentengeräuschsignal
(oder ein Musiksignal (zweites Signal)) einer elektrischen Gitarre,
eines Synthesizers oder dergleichen zu falten.
-
Das
analoge Eingangssprachsignal wird in einen digitalen Wert (digitales
Sprachsignal) mittels eines A/D-Wandlers 1-1 umgewandelt.
Zur gleichen Zeit wird ein analoges Eingabe-Instrumentengeräuschsignal
in einen digitalen Wert (digitales Instrumentengeräuschsignal)
mittels eines A/D-Wandlers 1-2 umgewandelt. Ausgaben von
den A/D-Wandlern 1-1, 1-2 werden von den digitalen
Prozessoren (DSP) 2-1 bzw. 2-2 verarbeitet.
-
Der
digitale Signalprozessor 2-1 unterwirft das digitale Sprachsignal
vom A/D-Wandler 1-1 einer Schalldruckkontrolle
und einer Tonqualitätskorrektur und
schneidet Ton- bzw. Geräuschwellenformen
aus dem Sprachsignal zu vorbestimmten Zeitintervallen von beispielsweise
10 bis 20 ms aus, um Koeffizienten h zu erzeigen, die zu einer Faltungsschaltung ("convolution circuit"; CNV) 3 übertragen
werden. Der digitale Signalprozessor 2-2 unterwirft das
digitale Instrumentengeräuschsignal
einer Schalldruckkontrolle und Tonqualitätskorrektur, um das verarbeitete
Signal der Faltungsschaltung 3 als Daten zuzuführen.
-
Die
Schalldruckkontrolle durch die digitalen Signalprozessoren 2-1, 2-2 umfasst
ein Korrigieren und Kontrollieren bzw. Steuern beispielsweise des Schalldruckpegels
(dynamischer Bereich), und die Tonqualitätskorrektur umfasst beispielsweise
ein Korrigieren der Frequenzeigenschaft. Ferner umfasst die Schalldrucksteuerung
bzw. -kontrolle ein Erzeugen von Geräuscheigentümlichkeiten. Auch wird ein niedrigfrequentes
Rauschen aus dem Mikrofon abgeschnitten.
-
Die
Faltungsschaltung 3 führt
eine Faltungsoperation auf der Grundlage der von dem digitalen Signalprozessor 2-1 ausgegebenen
Koeffizienten h und der Datenausgabe vom digitalen Signalprozessor 2-2 durch.
Die Koeffizienten zu den gleichen Zeitintervallen (Zyklus) aktualisiert
wie diejenigen, deren Geräuschwellenformen
ausgeschnitten werden, d.h. alle 10 bis 20 ms.
-
Die
Faltungsschaltung 3 führt
die Faltungsoperation auf eine wie in 3 gezeigte
Art durch. Das heißt,
dass eine Eingabe x(n), welches den Ausgabe daten vom digitalen Signalprozessor 2-2 entspricht,
folgend durch Ein-Abtastungs-Verzögerungsvorrichtungen
D1 bis DN – 1,
verzögert.
Dann multiplizieren die Multiplizierer MO bis MN – 1 die
Eingabe x(n) und die Signale x(n – 1) bis x(n – N + 1),
welche man durch Verzögern
der Eingabe x(n) erhält,
mit den Koeffizienten h(0) bis h(N – 1), die entsprechend von
dem digitalen Prozessor 2-1 ausgegeben werden. Ausgaben
von den Multiplizierern MO bis MN – 1 werden sequenziell durch
die Addierer A1 bis AN – 1
zusammenaddiert, um eine Ausgabe y(n) zu erlangen.
-
Daher
wird die Ausgabe y(n) ausgedrückt durch
die unten stehende Gl. 1:
-
-
Diese
Faltungsoperation wird mittels eines gut bekannten FIR ("Finite Impuls Response"; Finite Impulsantwort)-Filter
umgesetzt. Bei kleiner Filterlänge
dient der Filter als ein Equalizer bzw. Entzerrer, um eine Frequenzeigenschafts-korrigierende
Funktion auszuführen,
während
das Filter bei einer großen Filterlänge eine
Signalverarbeitung ausführen
kann, die Reverberation bzw. Nachhall genannt wird. Bei herkömmlichen
Faltungsoperationen sind die Koeffizienten h fest, aber in der vorliegenden
Erfindung werden diese Koeffizienten verändert. Insbesondere werden
in der vorliegenden Erfindung Wellenformen der Sprachsignale, die
zu den kurzen Zeitintervallen ausgeschnitten werden, wie oben beschrieben,
als die Koeffizienten verwendet. Die Koeffizienten werden automatisch
in Antwort auf das sich sequenziell verändernde Sprachsignal aktualisiert.
Das Instrumentengeräuschsignal
bzw. -klangsignal, das so mit den Koeffizienten, wie oben beschrieben,
gefaltet wird, ist ähnlich
denjenigen Signalen, die man durch ein Verarbeiten mittels der herkömmlichen
Vocoder erhält.
-
Der
Koeffizientenumschaltzyklus beträgt
vorzugsweise zwischen 10 und 20 ms sowohl für Männer als auch für Frauen.
Das Ausschneiden der Wellenform mit einem festen Zyklus führt jedoch
zu einem Ausschnittsrauschen oder einer Verzerrung im Signal, das
hörbar
erfasst wird. Um dies zu vermeiden, erlangt der digitale Signalprozessor 2-1 die
Koeffizienten h, die für
die Faltungsoperation verwendet werden, durch dynamisches Ausschneiden
von Wellenformen dergestalt, dass jede Wellenform an einem Nulldurchgangspunkt
beginnt und an einem anderen Nulldurchgangspunkt endet, der von
dem ersten durch einen Zeitintervall getrennt ist, das sich nahe an
einem Referenzumschaltzyklus Δt
befindet.
-
Falls
sich beispielsweise das Eingabesprachsignal wie in 4 gezeigt
verändert,
und wenn die Wellenformen W1, W2, ... mit dem festen Schaltzyklus Δt ausgeschnitten
werden, gibt es eine hohe Wahrscheinlichkeit, dass die Start- und
Endpunkte jeder Wellenform nicht mit den Nulldurchgangspunkten P1,
P2 übereinstimmen.
Daher verändert
der digitale Signalprozessor 2-1 den Ausschneidezyklus
dynamisch. Insbesondere wird das Wellenformenausschneiden ausgeführt durch
Bestimmen aus den aktuellen Wellenformen der Zeitintervalle Δt – α, Δt – β, Δt – α', Δt + β', ... welche jeweils
einem Abschnitt zwischen zwei Nulldurchgangspunkten entsprechen,
welcher nahe dem festen Umschaltzyklus Δt liegt.
-
Eine ähnliche
Technik ist von einer Geräuschwellenformausschneidevorrichtung
bekannt, die in einer Spracherzeugungsvorrichtung verwendet wird,
welche von der japanischen offengelegten Patentveröffentlichung
(Kokai) JP-A-7-129196
vorgeschlagen wird. Die Aufgabe dieses Patents ist es jedoch, Wellenformen
für eine
Tonhöhe
zu erzeugen und betrifft nicht die Faltungskoeffizienten für Vocoder.
Die Tonhöheninformation
ist für
den erfindungsgemäßen Vocoder
nicht so wichtig, weil dieser die Koeffizienten durch Interpolation
aktualisiert.
-
Sogar
falls die dynamisch ausgeschnittenen Koeffizienten für die Faltungsoperation,
wie oben beschrieben, verwendet werden, unterliegt die Wellenform
des aktuell ausgegebenen synthetisierten Signals einer schnellen
Veränderung
im Pegel, falls ein Koeffizient A eine Wellenform aufweist, welche
durch die Nulldurchgangspunkte, wie in den 5A und 5B gezeigt,
läuft, wenn
der Koeffizient A unmittelbar auf den nächsten Koeffizienten B umgeschaltet wird.
Dies kann auch zu einem Ausschnittsrauschen oder Verzerrung führen, die
hörbar
erfassbar ist. Um eine solche schnelle Veränderung im Pegel zu vermeiden,
schaltet die Faltungsschaltung 3 in 2 vom Koeffizienten
A zum nächsten
Koeffizienten B' langsam
um durch Ausführen
einer Interpolation über eine
Zeitdauer, die im Wesentlichen gleich dem Ausschneideintervall ist,
wie in 5B gezeigt. Dies löst das Rausch-
oder Verzerrungsproblem.
-
Verschiedene
Interpolationsoperationsverfahren können auf die obige Interpolation
angewandt werden, von denen die lineare Interpolation die einfachste
ist. Falls, gemäß der linearen
Interpolation, die Interpolationszeit mit c [ms] bezeichnet wird,
der anfängliche
Wert des Koeffizienten mit a und der endgültige Koeffizientenwert mit
b, beträgt
dann der Koeffizientenwert, den man zu einer Zeit x = t [ms] nach dem
Start der Interpolation erhält,
f(x) = (b – a)/c·x + a,
wenn x ≦ c,
und f(x) = b, wenn x > c.
Tatsächlich wird
ein neuer endgültiger
Koeffizientenwert festgelegt, wenn x = c ist, um eine neue Koeffizienteninterpolation
zu beginnen.
-
Die
Koeffizienten, die durch den digitalen Signalprozessor 2-1 durch
das oben beschriebene Verarbeiten erzeugt werden, werden in einem
Speicher (RAM) 4 gespeichert. Die Koeffizienten werden
dann der Faltungsschaltung 3 unter der Steuerung einer CPU
bzw. eines Zentralprozessors 5 zugeführt. Eine Ausgabe von der Faltungsschaltung 3 wird
mit Effekten, wie beispielsweise einer Tonqualitätskorrektur und Echos, durch
eine Digitalsignalverarbeitungsschaltung 6 versehen, und
wird dann mittels eines D/A-Wandlers 7 in ein analoges
Signal rückgewandelt,
um als ein synthetisiertes Sprachsignal ausgegeben zu werden.
-
6 zeigt
den Aufbau einer Synthesegeräuscherzeugungsvorrichtung
(Vocoder) gemäß einer
anderen Ausführungsform
der vorliegenden Erfindung. Bei der Synthesegeräuscherzeugungsvorrichtung gemäß der vorliegenden
Erfindung werden zwei Faltungsschaltungen 3-1, 3-2 parallel
angeordnet, um einen Cross-Fade-Interpolationsablauf durchzuführen. Das
heißt,
die zwei Faltungsschaltungen 3-1, 3-2 weisen keine
solche Interpolation auf, wie sie durch die Faltungsschaltung 3 in 2 bereitgestellt
wird, und weisen jeweils einen preiswerten hohen Integrationsgrad
("large scale integration"; LSI).
-
Gleichzeitig
zur Synthesegeräuscherzeugungsvorrichtung
in 2 wandelt der A/D-Wandler 1-1 ein analoges
Eingabesprachsignal in einen digitalen Wert (digitales Sprachsignal)
um. Zur gleichen Zeit wandelt der A/D-Wandler 1-2 ein analoges
Eingabe-Instrumentengeräuschsignal
in einen digitalen Wert (digitales Instrumentengeräusch- bzw.
Tonsignal) um. Der digitale Signalprozessor 2-1 unterwirft das
digitale Sprachsignal vom A/D-Wandler 1-1 einer Schalldruckkontrolle
und einer Tonqualitätskorrektur und
schneidet Geräuschwellenformen
aus dem Sprachsignal zu vorbestimmten Zeitintervallen von beispielsweise
10 bis 20 ms aus, um die Koeffizienten h zu erzeugen, welche den
Faltungsschaltungen (CNV) 3-1 und 3-2 übertragen
werden. Der digitale Signalprozessor 2-2 unterwirft das
digitale Instrumentengeräuschsignal
einer Schalldruckkontrolle und einer Tonqualitätskorrektur, um das verarbeitete Signal
den Faltungsschaltungen 3-1 und 3-2 als Daten
zu liefern.
-
Die
Koeffizienten, die durch den digitalen Signalprozessor 2-1 erzeugt
werden, werden zeitweilig im RAM 4 gespeichert. Die Koeffizienten
werden dann den Faltungsschaltungen 3-1 und 3-2 unter
der Steuerung bzw. Kontrolle der CPU 5 zugeführt. Die Faltungsschaltungen 3-1 und 3-2 führen jeweils
eine Faltungsoperation auf der Grundlage der Koeffizienten vom digitalen
Signalprozessor 2-1 und der Daten vom digitalen Signalprozessor 2-2 aus.
Ausgaben von den Faltungsschaltungen 3-1, 3-2 werden
mit Effekten belegt, wie beispielsweise einer Tonqualitätskorrektur
und Echos, und zwar durch die digitale Signalverarbeitungsschaltung 6,
und sie werden dann mittels des D/A-Wandlers 7 in ein analoges
Signal rückgewandelt,
um als ein synthetisiertes Sprachsignal ausgegeben zu werden. In
der vorliegenden Ausführungsform
führt der
digitale Signalprozessor 6 im Gegensatz zur Konfiguration
in 2 einen Cross-Fade-Ablauf durch.
-
Der
Cross-Fade-Ablauf, der durch den digitalen Signalprozessor 6 ausgeführt wird,
ist in 7 gezeigt. Das heißt, dass die Ausgabe CNV1 von
der ersten Faltungsschaltung 3-1 und die Ausgabe CNV2 von
der zweiten Faltungsschaltung 3-2 dazu gebracht werden,
sich auf der Zeitachse teilweise zu überlappen und sich so zu kreuzen,
dass die letztere Hälfte
der vorhergehenden Ausgabe ausgeblendet wird, während die erstere Hälfte der
folgenden Ausgabe gleichzeitig eingeblendet wird, wodurch ein Rauschen
verringert wird, welches auftreten kann, falls die Koeffizienten
augenblicklich umgeschaltet werden. Wenn beispielsweise die letztere
Hälfte
B der Ausgabe CNV1 ausgeblendet wird, wird die erstere Hälfte C der
Ausgabe CNV2 gleichzeitig eingeblendet. Wenn als Nächstes die
letztere Hälfte
D der Ausgabe CNV2 ausgebildet wird, wird die erstere Hälfte E der
nächsten
Ausgabe CNV1 gleichzeitig eingeblendet. In dem gezeigten Beispiel
ist die Länge des
Abschnitts, über
welchem sich die Ausgaben CNV1 und CNV2 überlappen, zum dynamisch veränderlichen
Schaltzyklus Δt
gleich ausgeführt,
welcher oben in Bezug auf die 4 beschrieben
worden ist. Daher ist die von jedem Wellenlängenausschnitt vom digitalen
Signalprozessor 2-1 in 6 benötigte Länge im Wesentlichen
zweimal oder mehr so groß wie diejenige
aus der Konfiguration aus 2.