DE60031812T2

DE60031812T2 - Vorrichtung und Verfahren zur Klangsynthesierung

Info

Publication number: DE60031812T2
Application number: DE60031812T
Authority: DE
Inventors: c/o Yamaha Corporation Akio Hamamatsu-shi Takahashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1999-08-05
Filing date: 2000-08-03
Publication date: 2007-09-13
Anticipated expiration: 2020-08-04
Also published as: JP3430985B2; EP1074968B1; US6513007B1; EP1074968A1; JP2001051687A; DE60031812D1

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Vorrichtung zum Erzeugen synthetisierter Klänge und ein Verfahren, das geeignet ist zum Eingeben und Synthetisieren von Stimmen und Instrumentalklängen bzw. -geräuschen und zum Ausgeben synthetisierter Instrumentalklänge und dergleichen mit der charakteristischen Information der Stimmen.
Stand der Technik
Vocoder, bzw. Sprachent- bzw. Sprachverschlüsselungsgeräte, welche eine Funktion zum Analysieren und Synthetisieren von Stimmen aufweisen, werden üblicherweise mit Musiksynthesizern bzw. Musiktongeneratoren aufgrund ihrer Fähigkeit verwendet, Instrumentalklänge, -geräusche oder dergleichen onomatopo(i)etisch zu erzeugen. Hauptsächliche bekannte entwickelte Vocoder umfassen Formanten-Vocoder, Systeme zur linear-prädiktiven Analyse und Synthetisierung (PARCO-Analyse und -Synthese), Cepstrum-Vocoder (Sprachsynthese auf der Grundlage einer homomorphen Filterung), Kanal-Vocoder (welche Dudley-Vocoder genannt werden) und dergleichen.
Die Formanten-Vocoder nutzen einen analogen Endgeräte-Synthesizer, um die Geräuschsynthese auf der Grundlage von Parametern für die Vokaltrakteigenschaften durchzuführen, die aus einem Formant und einem Anti-Formant einer spektralen Umhüllenden bestimmt werden, d.h., Pole und Nullpunkte davon. Der analoge Endgeräte-Synthesizer besteht aus einer Vielzahl von Resonanzschaltkreisen und Anti-Resonanz-Schaltkreisen, die in einer Kaskadenverbindung zum Simulieren von Resonanz/Anti-Resonanz-Eigenschaften eines Vokaltrakts angeordnet sind. Das System zur linearen prädiktiven Analyse und Synthese ist eine Erweiterung des prädiktiven Verschlüsselungsverfahrens, das unter den Sprachsyntheseverfahren das am weitesten verbreitete ist. Das PARCO-Analyse- und -Synthesesystem ist eine verbesserte Versi on des Systems zur linearen prädiktiven Analyse und Synthese. Der Cepstrum-Vocoder ist ein Sprachsynthesesystem, das eine logarithmische Amplitudeneigenschaft eines Filters und eine inverse Fourier-Transformation und eine inversen Faltung eines logarithmischen Spektrums einer Geräusch- bzw. Klangquelle verwendet.
Der Kanal-Vocoder verwendet Bandpassfilter 10-1 bis 10-N für unterschiedliche Bänder, um eine Information über eine spektrale Umhüllende eines Eingabesprachsignals zu extrahieren, d.h., Parameter für die Sprachkanaleigenschaften, wie beispielsweise in 1 gezeigt. Andererseits erzeugen ein Pulsfolgengenerator 21 und ein Rauschgenerator 22 zwei Arten von Klangquellensignalen, welche unter Verwendung der Parameter für die spektrale Umhüllende amplitudenmoduliert werden. Diese Amplitudenmodulation wird durch Multiplizierer (Modulatoren) 30-1 bis 30-N durchgeführt. Die modulierten Signale, die von den Multiplizierern (Modulatoren) 30-1 bis 30-N ausgegeben werden, laufen durch Bandpassfilter 40-1 bis 40-N, und sie werden dann durch einen Addierer 50 zusammenaddiert, wodurch ein synthetisiertes Sprachsignal erzeugt und ausgegeben wird.
Im Beispiel des in der japanischen offengelegten Patentveröffentlichung (Kokai) Nr. JP-A-05-204397 offenbarten Kanal-Vocoder werden Ausgaben von den Bandpaßfiltern 10-1 bis 10-N gleichgerichtet und geglättet, wenn sie durch Kurzzeitdurchschnitts-Amplitudenerfassungs-Schaltkreise 60-1 bis 60-N laufen. Ein Stimmgeräusch/Nicht-Stimmgeräusch-Detektor 71 bestimmt eine Stimmgeräuschkomponente und eine Nicht-Stimmgeräuschkomponente des Eingabesprachsignals und bei Erfassen der Stimmgeräuschkomponente betätigt der Detektor 71 einen Schalter 23, um so eine Ausgabe (Pulsfolge) von dem Pulsfolgengenerator 21 zu den Multiplizierern 30-1 bis 30-N auszuwählen und zu liefern. Zusätzlich betätigt der Stimmgeräusch/Nicht-Stimmgeräusch-Detektor 71 den Schalter 23 bei Erfassen der Nicht-Stimmgeräuschkomponente, um so eine Ausgabe (Rauschen) vom Rauschgenerator an die Multiplizierer 30-1 bis 30-N auszuwählen und zu liefern. Zugleich erkennt ein Tonhöhendetektor 72 eine Tonhöhe des Eingangssprachsignals, um zu bewirken, dass es in der Ausgabepulsfolge vom Pulsgenerator reflektiert wird. Wenn daher die Stimmgeräuschkomponente erfasst wird, enthält die Ausgabe vom Pulsgenerator 21 eine Tonhöheninformation, welche unter der charakteristischen Information am Eingabesprachsignal ist.
Gemäß dem oben beschriebenen Formanten-Vocoder benötigt der Formanten-Vocoder jedoch einen komplizierten Analyseprozess oder einen händischen Betrieb, da der Formant und der Anti-Formant aus der Spektral-Umhüllenden nicht einfach extrahiert werden können. Das System für die lineare prädiktive Analyse und Synthese verwendet ein All-Pol-Modell, um Geräusche zu erzeugen und verwendet einen einfachen Mittelwert der Prädiktionsfehler als eine Auswertereferenz zum Bestimmen der Koeffizienten für das Modell. Daher fokussiert dieses Verfahren sich nicht auf die Natur der Stimmen. Der Cepstrum-Vocoder benötigt eine lange Zeitdauer zum spektralen Verarbeiten und zum Durchführen der Fourier-Transformation und ist daher in Echtzeit nicht ausreichend ansprechbar.
Andererseits drückt der Kanal-Vocoder die Parameter für die Vokaltrakteigenschaften direkt in physikalischen Größen in der Frequenz-Domäne aus und berücksichtigt daher die Natur der Stimmen. Aufgrund des Fehlens einer mathematischen Strenge ist jedoch der Kanal-Vocoder nicht zur Digitalverarbeitung geeignet.
US-A-4,907,484 offenbart, dass mindestens zwei Sätze von Filterkoeffizienten, die unterschiedlichen Filtereigenschaften entsprechen, durch Verwenden eines Steuersignals zum Steuern der Tonfarbe als einem Parameter einer Interpolation interpoliert werden. Filterkoeffizienten, die durch die Interpolation erlangt werden, werden einem digitalen Filter zugeführt, um ihre Filtereigenschaften zu bestimmen, und ein Eingabetonsignal wird in Übereinstimmung mit den so bestimmten Filtereigenschaften modifiziert. Filtereigenschaften verschiedener Variation, wie verglichen mit der Zahl vorbereiteter Filterkoeffizienten, können dadurch realisiert werden. Ferner kann die zeitweilige Änderung von Filtereigenschaften realisiert werden durch Ändern eines Interpolati onsparameters mit dem Ablauf einer Zeit oder durch Ändern zweier Sätze von zu interpolierenden Filterkoeffizienten mit Ablauf einer Zeit. Eine Festsetzung von Filterkoeffizienten kann durchgeführt werden durch Festsetzen von Koordinatendaten von Koordinaten mit mindestens zwei Achsen. In diesem Fall können die Filterkoeffizienten durch Verändern von Koordinatendaten mindestens einer Achse gemäß der Tonfarbensteuerinformation geändert werden, wodurch Filtereigenschaften variabel gesteuert werden können.
Das Dokument "The use of linear prediction of speech in computer music applications" von Moorer, AES Convention 1978, S. 134–140, offenbart eine Faltung von Rahmen eines ersten Tonsignals mit Rahmen eines zweiten Tonsignals. Probleme einer Inkonsistenz werden durch eine Tonhöhensynchronisationsanalyse gelöst.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zur Erzeugung von synthetischen Klängen bereitzustellen, welche eine reaktive und hoch qualitative Sprachsynthese auf der Grundlage einer Faltungsoperation in Echtzeit erreichen kann.
Um die obige Aufgabe zu lösen, ist gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung eine Vorrichtung zur Erzeugung von synthetischem Klang nach Anspruch 1 vorgesehen.
In einer bevorzugten Ausführungsform des ersten Gesichtspunkts weist die Synthesesignalerzeugungsvorrichtung eine Faltungsschaltung auf, die einen Interpolationsablauf an den Koeffizienten ausführt, um einen schnellen Wechsel im Pegel des erzeugten Synthesesignals beim Umschalten der Koeffizienten zu verhindern.
In einem typischen Beispiel des ersten Gesichtspunkts ist das erste Signal ein Sprachsignal, und die charakteristische Information, die aus dem Sprachsig nal extrahiert wird, gibt eine Wellenform an, die an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, der von dem Nulldurchgangspunkt durch ein Zeitintervall getrennt ist, das nahe einem Referenzumschaltzyklus liegt.
Vorzugsweise wird das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals bestimmt.
In einem typischen Beispiel nach dem ersten Gesichtspunkt ist das zweite Signal ein Instrumentenklangsignal.
Um die obige Aufgabe zu lösen, ist gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung eine Synthesesignalerzeugungsvorrichtung nach Anspruch 3 vorgesehen.
In einem typischen Beispiel nach dem zweiten Gesichtspunkt ist das erste Signal ein Sprachsignal, und die aus dem Sprachsignal extrahierte charakteristische Information gibt eine Wellenform an, die an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, welcher vom Nulldurchgangspunkt durch ein Zeitintervall getrennt ist, das nahe einem Referenzschaltzyklus liegt.
Vorzugsweise wird das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals bestimmt.
In einem typischen Beispiel nach dem zweiten Gesichtspunkt ist das zweite Signal ein Instrumentengeräuschsignal bzw. -klangsignal.
Um die obige Aufgabe zu lösen, ist gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung ein Synthesegeräuscherzeugungsverfahren nach Anspruch 7 vorgesehen.
Um die obige Aufgabe zu lösen, ist gemäß einem vierten Gesichtspunkt der vorliegenden Erfindung ein Synthesesignalerzeugungsverfahren nach Anspruch 8 vorgesehen.
Erfindungsgemäß kann eine Echtzeit-Faltungsoperation umgesetzt werden, um eine empfindliche und qualitativ hochwertige Sprachsynthese zu erreichen. Erfindungsgemäß ist es nicht notwendig, zwischen der Stimmgeräuschkomponente und der Nicht-Stimmgeräuschkomponente des Eingabesprachsignals, so wie im herkömmlichen Kanal-Vocoder, zu unterscheiden. Ferner kann die vorliegende Erfindung die Größe der Schaltung verringern. Die vorliegende Erfindung ist nicht auf Sprachsignale beschränkt und kann verschiedene Eingabesignale aufnehmen. Der Umfang der Erfindung ist nur durch die angehängten Ansprüche beschränkt.
Die obigen und andere Aufgaben der Erfindung werden aus der folgenden genauen Beschreibung klar, die zusammen mit den beigefügten Zeichnungen zu lesen ist.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das ein Beispiel eines herkömmlichen Vocoders zeigt;
2 ist ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
3 ist eine Ansicht, die nützlich ist zum Erklären einer Faltungsoperation;
4 ist ein Wellenformdiagramm, das nützlich ist zum Erklären einer Art eines dynamischen Ausschneidens von Wellenformen, die als Koeffizienten verwendet werden;
5A ist ein Wellenformdiagramm, das nützlich ist zum Erklären einer Art von Koeffizienteninterpolation, die beim Umschalten von einem Koeffizienten A zu einem Koeffizienten B durchgeführt wird;
5B ist ein Wellenformdiagramm, das nützlich ist beim Erklären einer Art von Koeffizienteninterpolation, die beim Umschalten von einem Koeffizienten A zu einem Koeffizienten B' durchgeführt wird;
6 ist ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungsvorrichtung gemäß einer anderen Ausführungsform der vorliegenden Erfindung zeigt; und
7 ist ein Diagramm, das nützlich ist zum Erklären eines Cross-Fade-Ablaufs.
GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Die vorliegende Erfindung wird weiter unten genauer mit Bezug auf die Zeichnungen beschrieben, welche bevorzugte Ausführungsformen davon zeigen.
2 ist ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. In dieser Ausführungsform wird die Synthesegeräuscherzeugungsvorrichtung gemäß der vorliegenden Erfindung auf einen Vocoder angewandt, um ein Synthesesignal zu erzeugen durch dynamisches Ausschneiden von Wellenformen aus einer Eingabe eines analogen Sprachsignals (einem ersten Signal) von einem Mikrofon oder dergleichen, um die charakteristische Information daraus zu extrahieren, um dadurch Koeffizienten zu erzeugen und die erzeugten Koeffizienten in ein analoges Instrumentengeräuschsignal (oder ein Musiksignal (zweites Signal)) einer elektrischen Gitarre, eines Synthesizers oder dergleichen zu falten.
Das analoge Eingangssprachsignal wird in einen digitalen Wert (digitales Sprachsignal) mittels eines A/D-Wandlers 1-1 umgewandelt. Zur gleichen Zeit wird ein analoges Eingabe-Instrumentengeräuschsignal in einen digitalen Wert (digitales Instrumentengeräuschsignal) mittels eines A/D-Wandlers 1-2 umgewandelt. Ausgaben von den A/D-Wandlern 1-1, 1-2 werden von den digitalen Prozessoren (DSP) 2-1 bzw. 2-2 verarbeitet.
Der digitale Signalprozessor 2-1 unterwirft das digitale Sprachsignal vom A/D-Wandler 1-1 einer Schalldruckkontrolle und einer Tonqualitätskorrektur und schneidet Ton- bzw. Geräuschwellenformen aus dem Sprachsignal zu vorbestimmten Zeitintervallen von beispielsweise 10 bis 20 ms aus, um Koeffizienten h zu erzeigen, die zu einer Faltungsschaltung ("convolution circuit"; CNV) 3 übertragen werden. Der digitale Signalprozessor 2-2 unterwirft das digitale Instrumentengeräuschsignal einer Schalldruckkontrolle und Tonqualitätskorrektur, um das verarbeitete Signal der Faltungsschaltung 3 als Daten zuzuführen.
Die Schalldruckkontrolle durch die digitalen Signalprozessoren 2-1, 2-2 umfasst ein Korrigieren und Kontrollieren bzw. Steuern beispielsweise des Schalldruckpegels (dynamischer Bereich), und die Tonqualitätskorrektur umfasst beispielsweise ein Korrigieren der Frequenzeigenschaft. Ferner umfasst die Schalldrucksteuerung bzw. -kontrolle ein Erzeugen von Geräuscheigentümlichkeiten. Auch wird ein niedrigfrequentes Rauschen aus dem Mikrofon abgeschnitten.
Die Faltungsschaltung 3 führt eine Faltungsoperation auf der Grundlage der von dem digitalen Signalprozessor 2-1 ausgegebenen Koeffizienten h und der Datenausgabe vom digitalen Signalprozessor 2-2 durch. Die Koeffizienten zu den gleichen Zeitintervallen (Zyklus) aktualisiert wie diejenigen, deren Geräuschwellenformen ausgeschnitten werden, d.h. alle 10 bis 20 ms.
Die Faltungsschaltung 3 führt die Faltungsoperation auf eine wie in 3 gezeigte Art durch. Das heißt, dass eine Eingabe x(n), welches den Ausgabe daten vom digitalen Signalprozessor 2-2 entspricht, folgend durch Ein-Abtastungs-Verzögerungsvorrichtungen D1 bis DN – 1, verzögert. Dann multiplizieren die Multiplizierer MO bis MN – 1 die Eingabe x(n) und die Signale x(n – 1) bis x(n – N + 1), welche man durch Verzögern der Eingabe x(n) erhält, mit den Koeffizienten h(0) bis h(N – 1), die entsprechend von dem digitalen Prozessor 2-1 ausgegeben werden. Ausgaben von den Multiplizierern MO bis MN – 1 werden sequenziell durch die Addierer A1 bis AN – 1 zusammenaddiert, um eine Ausgabe y(n) zu erlangen.
Daher wird die Ausgabe y(n) ausgedrückt durch die unten stehende Gl. 1:
Diese Faltungsoperation wird mittels eines gut bekannten FIR ("Finite Impuls Response"; Finite Impulsantwort)-Filter umgesetzt. Bei kleiner Filterlänge dient der Filter als ein Equalizer bzw. Entzerrer, um eine Frequenzeigenschafts-korrigierende Funktion auszuführen, während das Filter bei einer großen Filterlänge eine Signalverarbeitung ausführen kann, die Reverberation bzw. Nachhall genannt wird. Bei herkömmlichen Faltungsoperationen sind die Koeffizienten h fest, aber in der vorliegenden Erfindung werden diese Koeffizienten verändert. Insbesondere werden in der vorliegenden Erfindung Wellenformen der Sprachsignale, die zu den kurzen Zeitintervallen ausgeschnitten werden, wie oben beschrieben, als die Koeffizienten verwendet. Die Koeffizienten werden automatisch in Antwort auf das sich sequenziell verändernde Sprachsignal aktualisiert. Das Instrumentengeräuschsignal bzw. -klangsignal, das so mit den Koeffizienten, wie oben beschrieben, gefaltet wird, ist ähnlich denjenigen Signalen, die man durch ein Verarbeiten mittels der herkömmlichen Vocoder erhält.
Der Koeffizientenumschaltzyklus beträgt vorzugsweise zwischen 10 und 20 ms sowohl für Männer als auch für Frauen. Das Ausschneiden der Wellenform mit einem festen Zyklus führt jedoch zu einem Ausschnittsrauschen oder einer Verzerrung im Signal, das hörbar erfasst wird. Um dies zu vermeiden, erlangt der digitale Signalprozessor 2-1 die Koeffizienten h, die für die Faltungsoperation verwendet werden, durch dynamisches Ausschneiden von Wellenformen dergestalt, dass jede Wellenform an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, der von dem ersten durch einen Zeitintervall getrennt ist, das sich nahe an einem Referenzumschaltzyklus Δt befindet.
Falls sich beispielsweise das Eingabesprachsignal wie in 4 gezeigt verändert, und wenn die Wellenformen W1, W2, ... mit dem festen Schaltzyklus Δt ausgeschnitten werden, gibt es eine hohe Wahrscheinlichkeit, dass die Start- und Endpunkte jeder Wellenform nicht mit den Nulldurchgangspunkten P1, P2 übereinstimmen. Daher verändert der digitale Signalprozessor 2-1 den Ausschneidezyklus dynamisch. Insbesondere wird das Wellenformenausschneiden ausgeführt durch Bestimmen aus den aktuellen Wellenformen der Zeitintervalle Δt – α, Δt – β, Δt – α', Δt + β', ... welche jeweils einem Abschnitt zwischen zwei Nulldurchgangspunkten entsprechen, welcher nahe dem festen Umschaltzyklus Δt liegt.
Eine ähnliche Technik ist von einer Geräuschwellenformausschneidevorrichtung bekannt, die in einer Spracherzeugungsvorrichtung verwendet wird, welche von der japanischen offengelegten Patentveröffentlichung (Kokai) JP-A-7-129196 vorgeschlagen wird. Die Aufgabe dieses Patents ist es jedoch, Wellenformen für eine Tonhöhe zu erzeugen und betrifft nicht die Faltungskoeffizienten für Vocoder. Die Tonhöheninformation ist für den erfindungsgemäßen Vocoder nicht so wichtig, weil dieser die Koeffizienten durch Interpolation aktualisiert.
Sogar falls die dynamisch ausgeschnittenen Koeffizienten für die Faltungsoperation, wie oben beschrieben, verwendet werden, unterliegt die Wellenform des aktuell ausgegebenen synthetisierten Signals einer schnellen Veränderung im Pegel, falls ein Koeffizient A eine Wellenform aufweist, welche durch die Nulldurchgangspunkte, wie in den 5A und 5B gezeigt, läuft, wenn der Koeffizient A unmittelbar auf den nächsten Koeffizienten B umgeschaltet wird. Dies kann auch zu einem Ausschnittsrauschen oder Verzerrung führen, die hörbar erfassbar ist. Um eine solche schnelle Veränderung im Pegel zu vermeiden, schaltet die Faltungsschaltung 3 in 2 vom Koeffizienten A zum nächsten Koeffizienten B' langsam um durch Ausführen einer Interpolation über eine Zeitdauer, die im Wesentlichen gleich dem Ausschneideintervall ist, wie in 5B gezeigt. Dies löst das Rausch- oder Verzerrungsproblem.
Verschiedene Interpolationsoperationsverfahren können auf die obige Interpolation angewandt werden, von denen die lineare Interpolation die einfachste ist. Falls, gemäß der linearen Interpolation, die Interpolationszeit mit c [ms] bezeichnet wird, der anfängliche Wert des Koeffizienten mit a und der endgültige Koeffizientenwert mit b, beträgt dann der Koeffizientenwert, den man zu einer Zeit x = t [ms] nach dem Start der Interpolation erhält, f(x) = (b – a)/c·x + a, wenn x ≦ c, und f(x) = b, wenn x > c. Tatsächlich wird ein neuer endgültiger Koeffizientenwert festgelegt, wenn x = c ist, um eine neue Koeffizienteninterpolation zu beginnen.
Die Koeffizienten, die durch den digitalen Signalprozessor 2-1 durch das oben beschriebene Verarbeiten erzeugt werden, werden in einem Speicher (RAM) 4 gespeichert. Die Koeffizienten werden dann der Faltungsschaltung 3 unter der Steuerung einer CPU bzw. eines Zentralprozessors 5 zugeführt. Eine Ausgabe von der Faltungsschaltung 3 wird mit Effekten, wie beispielsweise einer Tonqualitätskorrektur und Echos, durch eine Digitalsignalverarbeitungsschaltung 6 versehen, und wird dann mittels eines D/A-Wandlers 7 in ein analoges Signal rückgewandelt, um als ein synthetisiertes Sprachsignal ausgegeben zu werden.
6 zeigt den Aufbau einer Synthesegeräuscherzeugungsvorrichtung (Vocoder) gemäß einer anderen Ausführungsform der vorliegenden Erfindung. Bei der Synthesegeräuscherzeugungsvorrichtung gemäß der vorliegenden Erfindung werden zwei Faltungsschaltungen 3-1, 3-2 parallel angeordnet, um einen Cross-Fade-Interpolationsablauf durchzuführen. Das heißt, die zwei Faltungsschaltungen 3-1, 3-2 weisen keine solche Interpolation auf, wie sie durch die Faltungsschaltung 3 in 2 bereitgestellt wird, und weisen jeweils einen preiswerten hohen Integrationsgrad ("large scale integration"; LSI).
Gleichzeitig zur Synthesegeräuscherzeugungsvorrichtung in 2 wandelt der A/D-Wandler 1-1 ein analoges Eingabesprachsignal in einen digitalen Wert (digitales Sprachsignal) um. Zur gleichen Zeit wandelt der A/D-Wandler 1-2 ein analoges Eingabe-Instrumentengeräuschsignal in einen digitalen Wert (digitales Instrumentengeräusch- bzw. Tonsignal) um. Der digitale Signalprozessor 2-1 unterwirft das digitale Sprachsignal vom A/D-Wandler 1-1 einer Schalldruckkontrolle und einer Tonqualitätskorrektur und schneidet Geräuschwellenformen aus dem Sprachsignal zu vorbestimmten Zeitintervallen von beispielsweise 10 bis 20 ms aus, um die Koeffizienten h zu erzeugen, welche den Faltungsschaltungen (CNV) 3-1 und 3-2 übertragen werden. Der digitale Signalprozessor 2-2 unterwirft das digitale Instrumentengeräuschsignal einer Schalldruckkontrolle und einer Tonqualitätskorrektur, um das verarbeitete Signal den Faltungsschaltungen 3-1 und 3-2 als Daten zu liefern.
Die Koeffizienten, die durch den digitalen Signalprozessor 2-1 erzeugt werden, werden zeitweilig im RAM 4 gespeichert. Die Koeffizienten werden dann den Faltungsschaltungen 3-1 und 3-2 unter der Steuerung bzw. Kontrolle der CPU 5 zugeführt. Die Faltungsschaltungen 3-1 und 3-2 führen jeweils eine Faltungsoperation auf der Grundlage der Koeffizienten vom digitalen Signalprozessor 2-1 und der Daten vom digitalen Signalprozessor 2-2 aus. Ausgaben von den Faltungsschaltungen 3-1, 3-2 werden mit Effekten belegt, wie beispielsweise einer Tonqualitätskorrektur und Echos, und zwar durch die digitale Signalverarbeitungsschaltung 6, und sie werden dann mittels des D/A-Wandlers 7 in ein analoges Signal rückgewandelt, um als ein synthetisiertes Sprachsignal ausgegeben zu werden. In der vorliegenden Ausführungsform führt der digitale Signalprozessor 6 im Gegensatz zur Konfiguration in 2 einen Cross-Fade-Ablauf durch.
Der Cross-Fade-Ablauf, der durch den digitalen Signalprozessor 6 ausgeführt wird, ist in 7 gezeigt. Das heißt, dass die Ausgabe CNV1 von der ersten Faltungsschaltung 3-1 und die Ausgabe CNV2 von der zweiten Faltungsschaltung 3-2 dazu gebracht werden, sich auf der Zeitachse teilweise zu überlappen und sich so zu kreuzen, dass die letztere Hälfte der vorhergehenden Ausgabe ausgeblendet wird, während die erstere Hälfte der folgenden Ausgabe gleichzeitig eingeblendet wird, wodurch ein Rauschen verringert wird, welches auftreten kann, falls die Koeffizienten augenblicklich umgeschaltet werden. Wenn beispielsweise die letztere Hälfte B der Ausgabe CNV1 ausgeblendet wird, wird die erstere Hälfte C der Ausgabe CNV2 gleichzeitig eingeblendet. Wenn als Nächstes die letztere Hälfte D der Ausgabe CNV2 ausgebildet wird, wird die erstere Hälfte E der nächsten Ausgabe CNV1 gleichzeitig eingeblendet. In dem gezeigten Beispiel ist die Länge des Abschnitts, über welchem sich die Ausgaben CNV1 und CNV2 überlappen, zum dynamisch veränderlichen Schaltzyklus Δt gleich ausgeführt, welcher oben in Bezug auf die 4 beschrieben worden ist. Daher ist die von jedem Wellenlängenausschnitt vom digitalen Signalprozessor 2-1 in 6 benötigte Länge im Wesentlichen zweimal oder mehr so groß wie diejenige aus der Konfiguration aus 2.

Claims

Vorrichtung zum Erzeugen von synthetisiertem Klang, die Folgendes aufweist: ein Koeffizientenerzeugungsmittel (2-1) zum Erzeugen von Koeffizienten durch sequenzielles Ausschneiden von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten, wobei jede Wellenform einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; und ein Synthesesignalerzeugungsmittel (3) zum Ausführen einer Faltungsoperation an einem zweiten Signal durch Umschalten der durch das Koeffizientenerzeugungsmittel erzeugten Koeffizienten bei Zeitintervallen zum Ausschneiden der Wellenformen, um ein synthetisiertes Signal zu erzeugen.
Synthesesignalerzeugungsvorrichtung nach Anspruch 1, bei der das Synthesesignalerzeugungsmittel (3) eine Faltungsschaltung umfasst, die einen Interpolationsablauf an den Koeffizienten ausführt, um einen schnellen Wechsel im Pegel des erzeugten Synthesesignals bei Umschalten der Koeffizienten zu verhindern.
Synthesesignalerzeugungsvorrichtung, aufweisend: ein Koeffizientenerzeugungsmittel (2-1) zum sequenziellen Ausschneiden von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten dergestalt, dass benachbarte Wellenformen, die aus dem ersten Signal ausgeschnitten worden sind, sich zumindest teilweise überlappen, wobei jede der Wellenformen einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; ein Faltungsmittel (3-1, 3-2) zum abwechselnden Empfangen, und zwar zu Zeitintervallen zum Ausschneiden der Wellenformen, der Koeffizienten, die aus den Wellenformen erzeugt worden sind, welche durch das Koeffizientenerzeugungsmittel sequenziell ausgeschnitten worden sind, und zum Ausführen von Faltungsoperationen an einem zweiten Signal unter Verwendung der Koeffizienten, um ein erstes synthetisiertes Signal bzw. ein zweites synthetisiertes Signal zu erzeugen; und ein Überblend- oder Cross-Fade-Verarbeitungsmittel (6) zum Ausführen eines Überblendvorgangs oder Cross-Fade-Ablaufs an dem ersten synthetisierten Signal und dem zweiten synthetisierten Signal, die durch das Faltungsmittel erzeugt worden sind, und zwar bei Umschalten der Koeffizienten.
Synthesesignalerzeugungsvorrichtung nach Anspruch 1 oder 3, wobei das erste Signal ein Sprachsignal ist und die eigentümliche Information, die dem Sprachsignal entnommen wird, eine Wellenform angibt, die an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, der von dem Nulldurchgangspunkt durch ein Zeitintervall getrennt ist, das nahe einem Referenzschaltzyklus liegt.
Synthesesignalerzeugungsvorrichtung nach Anspruch 4, bei der das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals bestimmt wird.
Synthesesignalerzeugungsvorrichtung nach Anspruch 4 oder 5, bei der das zweite Signal ein Instrumentengeräuschsignal ist.
Verfahren zum Erzeugen von synthetisiertem Klang, das Folgendes aufweist: einen Koeffizientenerzeugungsschritt des Erzeugens von Koeffizienten durch sequenzielles Ausschneiden von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten, wobei jede Wellenform einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; und einen Synthesesignalerzeugungsschritt des Ausführens einer Faltungsoperation an einem zweiten Signal durch Umschalten der durch den Koeffizientenerzeugungsschritt erzeugten Koeffizienten bei Zeitintervallen zum Ausschneiden der Wellenformen, um ein synthetisiertes Signal zu erzeugen.
Synthesesignalerzeugungsverfahren, aufweisend: einen Koeffizientenerzeugungsschritt des sequenziellen Ausschneidens von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten dergestalt, dass benachbarte Wellenformen, die aus dem ersten Signal ausgeschnitten worden sind, sich zumindest teilweise überlappen, wobei jede der Wellenformen einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; einen Faltungsschritt des abwechselnden Empfangen, bei Zeitintervallen zum Ausschneiden der Wellenformen, der Koeffizienten, die aus den Wellenformen erzeugt worden sind, welche durch den Koeffizientenerzeugungsschritt sequenziell ausgeschnitten worden sind, und zum Ausführen von Faltungsoperationen an einem zweiten Signal unter Verwendung der Koeffizienten, um ein erstes synthetisiertes Signal und ein zweites synthetisiertes Signal zu erzeugen; und einen Überblend- oder Cross-Fade-Verarbeitungsschritt des Ausführens eines Überblendvorgangs oder Cross-Fade-Ablaufs an dem ersten synthetisierten Signal und dem zweiten synthetisierten Signal, die durch den Faltungsschritt erzeugt worden sind, und zwar bei Umschalten der Koeffizienten.