DE60031812T2 - Vorrichtung und Verfahren zur Klangsynthesierung - Google Patents

Vorrichtung und Verfahren zur Klangsynthesierung Download PDF

Info

Publication number
DE60031812T2
DE60031812T2 DE60031812T DE60031812T DE60031812T2 DE 60031812 T2 DE60031812 T2 DE 60031812T2 DE 60031812 T DE60031812 T DE 60031812T DE 60031812 T DE60031812 T DE 60031812T DE 60031812 T2 DE60031812 T2 DE 60031812T2
Authority
DE
Germany
Prior art keywords
signal
coefficients
waveforms
zero crossing
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60031812T
Other languages
English (en)
Other versions
DE60031812D1 (de
Inventor
c/o Yamaha Corporation Akio Hamamatsu-shi Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Application granted granted Critical
Publication of DE60031812D1 publication Critical patent/DE60031812D1/de
Publication of DE60031812T2 publication Critical patent/DE60031812T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • G10H1/125Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/10Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform using coefficients or parameters stored in a memory, e.g. Fourier coefficients

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Vorrichtung zum Erzeugen synthetisierter Klänge und ein Verfahren, das geeignet ist zum Eingeben und Synthetisieren von Stimmen und Instrumentalklängen bzw. -geräuschen und zum Ausgeben synthetisierter Instrumentalklänge und dergleichen mit der charakteristischen Information der Stimmen.
  • Stand der Technik
  • Vocoder, bzw. Sprachent- bzw. Sprachverschlüsselungsgeräte, welche eine Funktion zum Analysieren und Synthetisieren von Stimmen aufweisen, werden üblicherweise mit Musiksynthesizern bzw. Musiktongeneratoren aufgrund ihrer Fähigkeit verwendet, Instrumentalklänge, -geräusche oder dergleichen onomatopo(i)etisch zu erzeugen. Hauptsächliche bekannte entwickelte Vocoder umfassen Formanten-Vocoder, Systeme zur linear-prädiktiven Analyse und Synthetisierung (PARCO-Analyse und -Synthese), Cepstrum-Vocoder (Sprachsynthese auf der Grundlage einer homomorphen Filterung), Kanal-Vocoder (welche Dudley-Vocoder genannt werden) und dergleichen.
  • Die Formanten-Vocoder nutzen einen analogen Endgeräte-Synthesizer, um die Geräuschsynthese auf der Grundlage von Parametern für die Vokaltrakteigenschaften durchzuführen, die aus einem Formant und einem Anti-Formant einer spektralen Umhüllenden bestimmt werden, d.h., Pole und Nullpunkte davon. Der analoge Endgeräte-Synthesizer besteht aus einer Vielzahl von Resonanzschaltkreisen und Anti-Resonanz-Schaltkreisen, die in einer Kaskadenverbindung zum Simulieren von Resonanz/Anti-Resonanz-Eigenschaften eines Vokaltrakts angeordnet sind. Das System zur linearen prädiktiven Analyse und Synthese ist eine Erweiterung des prädiktiven Verschlüsselungsverfahrens, das unter den Sprachsyntheseverfahren das am weitesten verbreitete ist. Das PARCO-Analyse- und -Synthesesystem ist eine verbesserte Versi on des Systems zur linearen prädiktiven Analyse und Synthese. Der Cepstrum-Vocoder ist ein Sprachsynthesesystem, das eine logarithmische Amplitudeneigenschaft eines Filters und eine inverse Fourier-Transformation und eine inversen Faltung eines logarithmischen Spektrums einer Geräusch- bzw. Klangquelle verwendet.
  • Der Kanal-Vocoder verwendet Bandpassfilter 10-1 bis 10-N für unterschiedliche Bänder, um eine Information über eine spektrale Umhüllende eines Eingabesprachsignals zu extrahieren, d.h., Parameter für die Sprachkanaleigenschaften, wie beispielsweise in 1 gezeigt. Andererseits erzeugen ein Pulsfolgengenerator 21 und ein Rauschgenerator 22 zwei Arten von Klangquellensignalen, welche unter Verwendung der Parameter für die spektrale Umhüllende amplitudenmoduliert werden. Diese Amplitudenmodulation wird durch Multiplizierer (Modulatoren) 30-1 bis 30-N durchgeführt. Die modulierten Signale, die von den Multiplizierern (Modulatoren) 30-1 bis 30-N ausgegeben werden, laufen durch Bandpassfilter 40-1 bis 40-N, und sie werden dann durch einen Addierer 50 zusammenaddiert, wodurch ein synthetisiertes Sprachsignal erzeugt und ausgegeben wird.
  • Im Beispiel des in der japanischen offengelegten Patentveröffentlichung (Kokai) Nr. JP-A-05-204397 offenbarten Kanal-Vocoder werden Ausgaben von den Bandpaßfiltern 10-1 bis 10-N gleichgerichtet und geglättet, wenn sie durch Kurzzeitdurchschnitts-Amplitudenerfassungs-Schaltkreise 60-1 bis 60-N laufen. Ein Stimmgeräusch/Nicht-Stimmgeräusch-Detektor 71 bestimmt eine Stimmgeräuschkomponente und eine Nicht-Stimmgeräuschkomponente des Eingabesprachsignals und bei Erfassen der Stimmgeräuschkomponente betätigt der Detektor 71 einen Schalter 23, um so eine Ausgabe (Pulsfolge) von dem Pulsfolgengenerator 21 zu den Multiplizierern 30-1 bis 30-N auszuwählen und zu liefern. Zusätzlich betätigt der Stimmgeräusch/Nicht-Stimmgeräusch-Detektor 71 den Schalter 23 bei Erfassen der Nicht-Stimmgeräuschkomponente, um so eine Ausgabe (Rauschen) vom Rauschgenerator an die Multiplizierer 30-1 bis 30-N auszuwählen und zu liefern. Zugleich erkennt ein Tonhöhendetektor 72 eine Tonhöhe des Eingangssprachsignals, um zu bewirken, dass es in der Ausgabepulsfolge vom Pulsgenerator reflektiert wird. Wenn daher die Stimmgeräuschkomponente erfasst wird, enthält die Ausgabe vom Pulsgenerator 21 eine Tonhöheninformation, welche unter der charakteristischen Information am Eingabesprachsignal ist.
  • Gemäß dem oben beschriebenen Formanten-Vocoder benötigt der Formanten-Vocoder jedoch einen komplizierten Analyseprozess oder einen händischen Betrieb, da der Formant und der Anti-Formant aus der Spektral-Umhüllenden nicht einfach extrahiert werden können. Das System für die lineare prädiktive Analyse und Synthese verwendet ein All-Pol-Modell, um Geräusche zu erzeugen und verwendet einen einfachen Mittelwert der Prädiktionsfehler als eine Auswertereferenz zum Bestimmen der Koeffizienten für das Modell. Daher fokussiert dieses Verfahren sich nicht auf die Natur der Stimmen. Der Cepstrum-Vocoder benötigt eine lange Zeitdauer zum spektralen Verarbeiten und zum Durchführen der Fourier-Transformation und ist daher in Echtzeit nicht ausreichend ansprechbar.
  • Andererseits drückt der Kanal-Vocoder die Parameter für die Vokaltrakteigenschaften direkt in physikalischen Größen in der Frequenz-Domäne aus und berücksichtigt daher die Natur der Stimmen. Aufgrund des Fehlens einer mathematischen Strenge ist jedoch der Kanal-Vocoder nicht zur Digitalverarbeitung geeignet.
  • US-A-4,907,484 offenbart, dass mindestens zwei Sätze von Filterkoeffizienten, die unterschiedlichen Filtereigenschaften entsprechen, durch Verwenden eines Steuersignals zum Steuern der Tonfarbe als einem Parameter einer Interpolation interpoliert werden. Filterkoeffizienten, die durch die Interpolation erlangt werden, werden einem digitalen Filter zugeführt, um ihre Filtereigenschaften zu bestimmen, und ein Eingabetonsignal wird in Übereinstimmung mit den so bestimmten Filtereigenschaften modifiziert. Filtereigenschaften verschiedener Variation, wie verglichen mit der Zahl vorbereiteter Filterkoeffizienten, können dadurch realisiert werden. Ferner kann die zeitweilige Änderung von Filtereigenschaften realisiert werden durch Ändern eines Interpolati onsparameters mit dem Ablauf einer Zeit oder durch Ändern zweier Sätze von zu interpolierenden Filterkoeffizienten mit Ablauf einer Zeit. Eine Festsetzung von Filterkoeffizienten kann durchgeführt werden durch Festsetzen von Koordinatendaten von Koordinaten mit mindestens zwei Achsen. In diesem Fall können die Filterkoeffizienten durch Verändern von Koordinatendaten mindestens einer Achse gemäß der Tonfarbensteuerinformation geändert werden, wodurch Filtereigenschaften variabel gesteuert werden können.
  • Das Dokument "The use of linear prediction of speech in computer music applications" von Moorer, AES Convention 1978, S. 134–140, offenbart eine Faltung von Rahmen eines ersten Tonsignals mit Rahmen eines zweiten Tonsignals. Probleme einer Inkonsistenz werden durch eine Tonhöhensynchronisationsanalyse gelöst.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zur Erzeugung von synthetischen Klängen bereitzustellen, welche eine reaktive und hoch qualitative Sprachsynthese auf der Grundlage einer Faltungsoperation in Echtzeit erreichen kann.
  • Um die obige Aufgabe zu lösen, ist gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung eine Vorrichtung zur Erzeugung von synthetischem Klang nach Anspruch 1 vorgesehen.
  • In einer bevorzugten Ausführungsform des ersten Gesichtspunkts weist die Synthesesignalerzeugungsvorrichtung eine Faltungsschaltung auf, die einen Interpolationsablauf an den Koeffizienten ausführt, um einen schnellen Wechsel im Pegel des erzeugten Synthesesignals beim Umschalten der Koeffizienten zu verhindern.
  • In einem typischen Beispiel des ersten Gesichtspunkts ist das erste Signal ein Sprachsignal, und die charakteristische Information, die aus dem Sprachsig nal extrahiert wird, gibt eine Wellenform an, die an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, der von dem Nulldurchgangspunkt durch ein Zeitintervall getrennt ist, das nahe einem Referenzumschaltzyklus liegt.
  • Vorzugsweise wird das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals bestimmt.
  • In einem typischen Beispiel nach dem ersten Gesichtspunkt ist das zweite Signal ein Instrumentenklangsignal.
  • Um die obige Aufgabe zu lösen, ist gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung eine Synthesesignalerzeugungsvorrichtung nach Anspruch 3 vorgesehen.
  • In einem typischen Beispiel nach dem zweiten Gesichtspunkt ist das erste Signal ein Sprachsignal, und die aus dem Sprachsignal extrahierte charakteristische Information gibt eine Wellenform an, die an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, welcher vom Nulldurchgangspunkt durch ein Zeitintervall getrennt ist, das nahe einem Referenzschaltzyklus liegt.
  • Vorzugsweise wird das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals bestimmt.
  • In einem typischen Beispiel nach dem zweiten Gesichtspunkt ist das zweite Signal ein Instrumentengeräuschsignal bzw. -klangsignal.
  • Um die obige Aufgabe zu lösen, ist gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung ein Synthesegeräuscherzeugungsverfahren nach Anspruch 7 vorgesehen.
  • Um die obige Aufgabe zu lösen, ist gemäß einem vierten Gesichtspunkt der vorliegenden Erfindung ein Synthesesignalerzeugungsverfahren nach Anspruch 8 vorgesehen.
  • Erfindungsgemäß kann eine Echtzeit-Faltungsoperation umgesetzt werden, um eine empfindliche und qualitativ hochwertige Sprachsynthese zu erreichen. Erfindungsgemäß ist es nicht notwendig, zwischen der Stimmgeräuschkomponente und der Nicht-Stimmgeräuschkomponente des Eingabesprachsignals, so wie im herkömmlichen Kanal-Vocoder, zu unterscheiden. Ferner kann die vorliegende Erfindung die Größe der Schaltung verringern. Die vorliegende Erfindung ist nicht auf Sprachsignale beschränkt und kann verschiedene Eingabesignale aufnehmen. Der Umfang der Erfindung ist nur durch die angehängten Ansprüche beschränkt.
  • Die obigen und andere Aufgaben der Erfindung werden aus der folgenden genauen Beschreibung klar, die zusammen mit den beigefügten Zeichnungen zu lesen ist.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, das ein Beispiel eines herkömmlichen Vocoders zeigt;
  • 2 ist ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 3 ist eine Ansicht, die nützlich ist zum Erklären einer Faltungsoperation;
  • 4 ist ein Wellenformdiagramm, das nützlich ist zum Erklären einer Art eines dynamischen Ausschneidens von Wellenformen, die als Koeffizienten verwendet werden;
  • 5A ist ein Wellenformdiagramm, das nützlich ist zum Erklären einer Art von Koeffizienteninterpolation, die beim Umschalten von einem Koeffizienten A zu einem Koeffizienten B durchgeführt wird;
  • 5B ist ein Wellenformdiagramm, das nützlich ist beim Erklären einer Art von Koeffizienteninterpolation, die beim Umschalten von einem Koeffizienten A zu einem Koeffizienten B' durchgeführt wird;
  • 6 ist ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungsvorrichtung gemäß einer anderen Ausführungsform der vorliegenden Erfindung zeigt; und
  • 7 ist ein Diagramm, das nützlich ist zum Erklären eines Cross-Fade-Ablaufs.
  • GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung wird weiter unten genauer mit Bezug auf die Zeichnungen beschrieben, welche bevorzugte Ausführungsformen davon zeigen.
  • 2 ist ein Blockdiagramm, das den Aufbau einer Synthesegeräuscherzeugungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. In dieser Ausführungsform wird die Synthesegeräuscherzeugungsvorrichtung gemäß der vorliegenden Erfindung auf einen Vocoder angewandt, um ein Synthesesignal zu erzeugen durch dynamisches Ausschneiden von Wellenformen aus einer Eingabe eines analogen Sprachsignals (einem ersten Signal) von einem Mikrofon oder dergleichen, um die charakteristische Information daraus zu extrahieren, um dadurch Koeffizienten zu erzeugen und die erzeugten Koeffizienten in ein analoges Instrumentengeräuschsignal (oder ein Musiksignal (zweites Signal)) einer elektrischen Gitarre, eines Synthesizers oder dergleichen zu falten.
  • Das analoge Eingangssprachsignal wird in einen digitalen Wert (digitales Sprachsignal) mittels eines A/D-Wandlers 1-1 umgewandelt. Zur gleichen Zeit wird ein analoges Eingabe-Instrumentengeräuschsignal in einen digitalen Wert (digitales Instrumentengeräuschsignal) mittels eines A/D-Wandlers 1-2 umgewandelt. Ausgaben von den A/D-Wandlern 1-1, 1-2 werden von den digitalen Prozessoren (DSP) 2-1 bzw. 2-2 verarbeitet.
  • Der digitale Signalprozessor 2-1 unterwirft das digitale Sprachsignal vom A/D-Wandler 1-1 einer Schalldruckkontrolle und einer Tonqualitätskorrektur und schneidet Ton- bzw. Geräuschwellenformen aus dem Sprachsignal zu vorbestimmten Zeitintervallen von beispielsweise 10 bis 20 ms aus, um Koeffizienten h zu erzeigen, die zu einer Faltungsschaltung ("convolution circuit"; CNV) 3 übertragen werden. Der digitale Signalprozessor 2-2 unterwirft das digitale Instrumentengeräuschsignal einer Schalldruckkontrolle und Tonqualitätskorrektur, um das verarbeitete Signal der Faltungsschaltung 3 als Daten zuzuführen.
  • Die Schalldruckkontrolle durch die digitalen Signalprozessoren 2-1, 2-2 umfasst ein Korrigieren und Kontrollieren bzw. Steuern beispielsweise des Schalldruckpegels (dynamischer Bereich), und die Tonqualitätskorrektur umfasst beispielsweise ein Korrigieren der Frequenzeigenschaft. Ferner umfasst die Schalldrucksteuerung bzw. -kontrolle ein Erzeugen von Geräuscheigentümlichkeiten. Auch wird ein niedrigfrequentes Rauschen aus dem Mikrofon abgeschnitten.
  • Die Faltungsschaltung 3 führt eine Faltungsoperation auf der Grundlage der von dem digitalen Signalprozessor 2-1 ausgegebenen Koeffizienten h und der Datenausgabe vom digitalen Signalprozessor 2-2 durch. Die Koeffizienten zu den gleichen Zeitintervallen (Zyklus) aktualisiert wie diejenigen, deren Geräuschwellenformen ausgeschnitten werden, d.h. alle 10 bis 20 ms.
  • Die Faltungsschaltung 3 führt die Faltungsoperation auf eine wie in 3 gezeigte Art durch. Das heißt, dass eine Eingabe x(n), welches den Ausgabe daten vom digitalen Signalprozessor 2-2 entspricht, folgend durch Ein-Abtastungs-Verzögerungsvorrichtungen D1 bis DN – 1, verzögert. Dann multiplizieren die Multiplizierer MO bis MN – 1 die Eingabe x(n) und die Signale x(n – 1) bis x(n – N + 1), welche man durch Verzögern der Eingabe x(n) erhält, mit den Koeffizienten h(0) bis h(N – 1), die entsprechend von dem digitalen Prozessor 2-1 ausgegeben werden. Ausgaben von den Multiplizierern MO bis MN – 1 werden sequenziell durch die Addierer A1 bis AN – 1 zusammenaddiert, um eine Ausgabe y(n) zu erlangen.
  • Daher wird die Ausgabe y(n) ausgedrückt durch die unten stehende Gl. 1:
  • Figure 00090001
  • Diese Faltungsoperation wird mittels eines gut bekannten FIR ("Finite Impuls Response"; Finite Impulsantwort)-Filter umgesetzt. Bei kleiner Filterlänge dient der Filter als ein Equalizer bzw. Entzerrer, um eine Frequenzeigenschafts-korrigierende Funktion auszuführen, während das Filter bei einer großen Filterlänge eine Signalverarbeitung ausführen kann, die Reverberation bzw. Nachhall genannt wird. Bei herkömmlichen Faltungsoperationen sind die Koeffizienten h fest, aber in der vorliegenden Erfindung werden diese Koeffizienten verändert. Insbesondere werden in der vorliegenden Erfindung Wellenformen der Sprachsignale, die zu den kurzen Zeitintervallen ausgeschnitten werden, wie oben beschrieben, als die Koeffizienten verwendet. Die Koeffizienten werden automatisch in Antwort auf das sich sequenziell verändernde Sprachsignal aktualisiert. Das Instrumentengeräuschsignal bzw. -klangsignal, das so mit den Koeffizienten, wie oben beschrieben, gefaltet wird, ist ähnlich denjenigen Signalen, die man durch ein Verarbeiten mittels der herkömmlichen Vocoder erhält.
  • Der Koeffizientenumschaltzyklus beträgt vorzugsweise zwischen 10 und 20 ms sowohl für Männer als auch für Frauen. Das Ausschneiden der Wellenform mit einem festen Zyklus führt jedoch zu einem Ausschnittsrauschen oder einer Verzerrung im Signal, das hörbar erfasst wird. Um dies zu vermeiden, erlangt der digitale Signalprozessor 2-1 die Koeffizienten h, die für die Faltungsoperation verwendet werden, durch dynamisches Ausschneiden von Wellenformen dergestalt, dass jede Wellenform an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, der von dem ersten durch einen Zeitintervall getrennt ist, das sich nahe an einem Referenzumschaltzyklus Δt befindet.
  • Falls sich beispielsweise das Eingabesprachsignal wie in 4 gezeigt verändert, und wenn die Wellenformen W1, W2, ... mit dem festen Schaltzyklus Δt ausgeschnitten werden, gibt es eine hohe Wahrscheinlichkeit, dass die Start- und Endpunkte jeder Wellenform nicht mit den Nulldurchgangspunkten P1, P2 übereinstimmen. Daher verändert der digitale Signalprozessor 2-1 den Ausschneidezyklus dynamisch. Insbesondere wird das Wellenformenausschneiden ausgeführt durch Bestimmen aus den aktuellen Wellenformen der Zeitintervalle Δt – α, Δt – β, Δt – α', Δt + β', ... welche jeweils einem Abschnitt zwischen zwei Nulldurchgangspunkten entsprechen, welcher nahe dem festen Umschaltzyklus Δt liegt.
  • Eine ähnliche Technik ist von einer Geräuschwellenformausschneidevorrichtung bekannt, die in einer Spracherzeugungsvorrichtung verwendet wird, welche von der japanischen offengelegten Patentveröffentlichung (Kokai) JP-A-7-129196 vorgeschlagen wird. Die Aufgabe dieses Patents ist es jedoch, Wellenformen für eine Tonhöhe zu erzeugen und betrifft nicht die Faltungskoeffizienten für Vocoder. Die Tonhöheninformation ist für den erfindungsgemäßen Vocoder nicht so wichtig, weil dieser die Koeffizienten durch Interpolation aktualisiert.
  • Sogar falls die dynamisch ausgeschnittenen Koeffizienten für die Faltungsoperation, wie oben beschrieben, verwendet werden, unterliegt die Wellenform des aktuell ausgegebenen synthetisierten Signals einer schnellen Veränderung im Pegel, falls ein Koeffizient A eine Wellenform aufweist, welche durch die Nulldurchgangspunkte, wie in den 5A und 5B gezeigt, läuft, wenn der Koeffizient A unmittelbar auf den nächsten Koeffizienten B umgeschaltet wird. Dies kann auch zu einem Ausschnittsrauschen oder Verzerrung führen, die hörbar erfassbar ist. Um eine solche schnelle Veränderung im Pegel zu vermeiden, schaltet die Faltungsschaltung 3 in 2 vom Koeffizienten A zum nächsten Koeffizienten B' langsam um durch Ausführen einer Interpolation über eine Zeitdauer, die im Wesentlichen gleich dem Ausschneideintervall ist, wie in 5B gezeigt. Dies löst das Rausch- oder Verzerrungsproblem.
  • Verschiedene Interpolationsoperationsverfahren können auf die obige Interpolation angewandt werden, von denen die lineare Interpolation die einfachste ist. Falls, gemäß der linearen Interpolation, die Interpolationszeit mit c [ms] bezeichnet wird, der anfängliche Wert des Koeffizienten mit a und der endgültige Koeffizientenwert mit b, beträgt dann der Koeffizientenwert, den man zu einer Zeit x = t [ms] nach dem Start der Interpolation erhält, f(x) = (b – a)/c·x + a, wenn x ≦ c, und f(x) = b, wenn x > c. Tatsächlich wird ein neuer endgültiger Koeffizientenwert festgelegt, wenn x = c ist, um eine neue Koeffizienteninterpolation zu beginnen.
  • Die Koeffizienten, die durch den digitalen Signalprozessor 2-1 durch das oben beschriebene Verarbeiten erzeugt werden, werden in einem Speicher (RAM) 4 gespeichert. Die Koeffizienten werden dann der Faltungsschaltung 3 unter der Steuerung einer CPU bzw. eines Zentralprozessors 5 zugeführt. Eine Ausgabe von der Faltungsschaltung 3 wird mit Effekten, wie beispielsweise einer Tonqualitätskorrektur und Echos, durch eine Digitalsignalverarbeitungsschaltung 6 versehen, und wird dann mittels eines D/A-Wandlers 7 in ein analoges Signal rückgewandelt, um als ein synthetisiertes Sprachsignal ausgegeben zu werden.
  • 6 zeigt den Aufbau einer Synthesegeräuscherzeugungsvorrichtung (Vocoder) gemäß einer anderen Ausführungsform der vorliegenden Erfindung. Bei der Synthesegeräuscherzeugungsvorrichtung gemäß der vorliegenden Erfindung werden zwei Faltungsschaltungen 3-1, 3-2 parallel angeordnet, um einen Cross-Fade-Interpolationsablauf durchzuführen. Das heißt, die zwei Faltungsschaltungen 3-1, 3-2 weisen keine solche Interpolation auf, wie sie durch die Faltungsschaltung 3 in 2 bereitgestellt wird, und weisen jeweils einen preiswerten hohen Integrationsgrad ("large scale integration"; LSI).
  • Gleichzeitig zur Synthesegeräuscherzeugungsvorrichtung in 2 wandelt der A/D-Wandler 1-1 ein analoges Eingabesprachsignal in einen digitalen Wert (digitales Sprachsignal) um. Zur gleichen Zeit wandelt der A/D-Wandler 1-2 ein analoges Eingabe-Instrumentengeräuschsignal in einen digitalen Wert (digitales Instrumentengeräusch- bzw. Tonsignal) um. Der digitale Signalprozessor 2-1 unterwirft das digitale Sprachsignal vom A/D-Wandler 1-1 einer Schalldruckkontrolle und einer Tonqualitätskorrektur und schneidet Geräuschwellenformen aus dem Sprachsignal zu vorbestimmten Zeitintervallen von beispielsweise 10 bis 20 ms aus, um die Koeffizienten h zu erzeugen, welche den Faltungsschaltungen (CNV) 3-1 und 3-2 übertragen werden. Der digitale Signalprozessor 2-2 unterwirft das digitale Instrumentengeräuschsignal einer Schalldruckkontrolle und einer Tonqualitätskorrektur, um das verarbeitete Signal den Faltungsschaltungen 3-1 und 3-2 als Daten zu liefern.
  • Die Koeffizienten, die durch den digitalen Signalprozessor 2-1 erzeugt werden, werden zeitweilig im RAM 4 gespeichert. Die Koeffizienten werden dann den Faltungsschaltungen 3-1 und 3-2 unter der Steuerung bzw. Kontrolle der CPU 5 zugeführt. Die Faltungsschaltungen 3-1 und 3-2 führen jeweils eine Faltungsoperation auf der Grundlage der Koeffizienten vom digitalen Signalprozessor 2-1 und der Daten vom digitalen Signalprozessor 2-2 aus. Ausgaben von den Faltungsschaltungen 3-1, 3-2 werden mit Effekten belegt, wie beispielsweise einer Tonqualitätskorrektur und Echos, und zwar durch die digitale Signalverarbeitungsschaltung 6, und sie werden dann mittels des D/A-Wandlers 7 in ein analoges Signal rückgewandelt, um als ein synthetisiertes Sprachsignal ausgegeben zu werden. In der vorliegenden Ausführungsform führt der digitale Signalprozessor 6 im Gegensatz zur Konfiguration in 2 einen Cross-Fade-Ablauf durch.
  • Der Cross-Fade-Ablauf, der durch den digitalen Signalprozessor 6 ausgeführt wird, ist in 7 gezeigt. Das heißt, dass die Ausgabe CNV1 von der ersten Faltungsschaltung 3-1 und die Ausgabe CNV2 von der zweiten Faltungsschaltung 3-2 dazu gebracht werden, sich auf der Zeitachse teilweise zu überlappen und sich so zu kreuzen, dass die letztere Hälfte der vorhergehenden Ausgabe ausgeblendet wird, während die erstere Hälfte der folgenden Ausgabe gleichzeitig eingeblendet wird, wodurch ein Rauschen verringert wird, welches auftreten kann, falls die Koeffizienten augenblicklich umgeschaltet werden. Wenn beispielsweise die letztere Hälfte B der Ausgabe CNV1 ausgeblendet wird, wird die erstere Hälfte C der Ausgabe CNV2 gleichzeitig eingeblendet. Wenn als Nächstes die letztere Hälfte D der Ausgabe CNV2 ausgebildet wird, wird die erstere Hälfte E der nächsten Ausgabe CNV1 gleichzeitig eingeblendet. In dem gezeigten Beispiel ist die Länge des Abschnitts, über welchem sich die Ausgaben CNV1 und CNV2 überlappen, zum dynamisch veränderlichen Schaltzyklus Δt gleich ausgeführt, welcher oben in Bezug auf die 4 beschrieben worden ist. Daher ist die von jedem Wellenlängenausschnitt vom digitalen Signalprozessor 2-1 in 6 benötigte Länge im Wesentlichen zweimal oder mehr so groß wie diejenige aus der Konfiguration aus 2.

Claims (8)

  1. Vorrichtung zum Erzeugen von synthetisiertem Klang, die Folgendes aufweist: ein Koeffizientenerzeugungsmittel (2-1) zum Erzeugen von Koeffizienten durch sequenzielles Ausschneiden von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten, wobei jede Wellenform einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; und ein Synthesesignalerzeugungsmittel (3) zum Ausführen einer Faltungsoperation an einem zweiten Signal durch Umschalten der durch das Koeffizientenerzeugungsmittel erzeugten Koeffizienten bei Zeitintervallen zum Ausschneiden der Wellenformen, um ein synthetisiertes Signal zu erzeugen.
  2. Synthesesignalerzeugungsvorrichtung nach Anspruch 1, bei der das Synthesesignalerzeugungsmittel (3) eine Faltungsschaltung umfasst, die einen Interpolationsablauf an den Koeffizienten ausführt, um einen schnellen Wechsel im Pegel des erzeugten Synthesesignals bei Umschalten der Koeffizienten zu verhindern.
  3. Synthesesignalerzeugungsvorrichtung, aufweisend: ein Koeffizientenerzeugungsmittel (2-1) zum sequenziellen Ausschneiden von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten dergestalt, dass benachbarte Wellenformen, die aus dem ersten Signal ausgeschnitten worden sind, sich zumindest teilweise überlappen, wobei jede der Wellenformen einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; ein Faltungsmittel (3-1, 3-2) zum abwechselnden Empfangen, und zwar zu Zeitintervallen zum Ausschneiden der Wellenformen, der Koeffizienten, die aus den Wellenformen erzeugt worden sind, welche durch das Koeffizientenerzeugungsmittel sequenziell ausgeschnitten worden sind, und zum Ausführen von Faltungsoperationen an einem zweiten Signal unter Verwendung der Koeffizienten, um ein erstes synthetisiertes Signal bzw. ein zweites synthetisiertes Signal zu erzeugen; und ein Überblend- oder Cross-Fade-Verarbeitungsmittel (6) zum Ausführen eines Überblendvorgangs oder Cross-Fade-Ablaufs an dem ersten synthetisierten Signal und dem zweiten synthetisierten Signal, die durch das Faltungsmittel erzeugt worden sind, und zwar bei Umschalten der Koeffizienten.
  4. Synthesesignalerzeugungsvorrichtung nach Anspruch 1 oder 3, wobei das erste Signal ein Sprachsignal ist und die eigentümliche Information, die dem Sprachsignal entnommen wird, eine Wellenform angibt, die an einem Nulldurchgangspunkt beginnt und an einem anderen Nulldurchgangspunkt endet, der von dem Nulldurchgangspunkt durch ein Zeitintervall getrennt ist, das nahe einem Referenzschaltzyklus liegt.
  5. Synthesesignalerzeugungsvorrichtung nach Anspruch 4, bei der das Zeitintervall aus einer tatsächlichen Wellenform des Sprachsignals bestimmt wird.
  6. Synthesesignalerzeugungsvorrichtung nach Anspruch 4 oder 5, bei der das zweite Signal ein Instrumentengeräuschsignal ist.
  7. Verfahren zum Erzeugen von synthetisiertem Klang, das Folgendes aufweist: einen Koeffizientenerzeugungsschritt des Erzeugens von Koeffizienten durch sequenzielles Ausschneiden von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten, wobei jede Wellenform einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; und einen Synthesesignalerzeugungsschritt des Ausführens einer Faltungsoperation an einem zweiten Signal durch Umschalten der durch den Koeffizientenerzeugungsschritt erzeugten Koeffizienten bei Zeitintervallen zum Ausschneiden der Wellenformen, um ein synthetisiertes Signal zu erzeugen.
  8. Synthesesignalerzeugungsverfahren, aufweisend: einen Koeffizientenerzeugungsschritt des sequenziellen Ausschneidens von Wellenformen aus einem ersten Signal mit einer Vielzahl von Nulldurchgangspunkten dergestalt, dass benachbarte Wellenformen, die aus dem ersten Signal ausgeschnitten worden sind, sich zumindest teilweise überlappen, wobei jede der Wellenformen einem Abschnitt zwischen zwei Nulldurchgangspunkten entspricht, der sich neben einem Referenzschaltzyklus befindet; einen Faltungsschritt des abwechselnden Empfangen, bei Zeitintervallen zum Ausschneiden der Wellenformen, der Koeffizienten, die aus den Wellenformen erzeugt worden sind, welche durch den Koeffizientenerzeugungsschritt sequenziell ausgeschnitten worden sind, und zum Ausführen von Faltungsoperationen an einem zweiten Signal unter Verwendung der Koeffizienten, um ein erstes synthetisiertes Signal und ein zweites synthetisiertes Signal zu erzeugen; und einen Überblend- oder Cross-Fade-Verarbeitungsschritt des Ausführens eines Überblendvorgangs oder Cross-Fade-Ablaufs an dem ersten synthetisierten Signal und dem zweiten synthetisierten Signal, die durch den Faltungsschritt erzeugt worden sind, und zwar bei Umschalten der Koeffizienten.
DE60031812T 1999-08-05 2000-08-03 Vorrichtung und Verfahren zur Klangsynthesierung Expired - Lifetime DE60031812T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP22280999 1999-08-05
JP22280999A JP3430985B2 (ja) 1999-08-05 1999-08-05 合成音生成装置

Publications (2)

Publication Number Publication Date
DE60031812D1 DE60031812D1 (de) 2006-12-28
DE60031812T2 true DE60031812T2 (de) 2007-09-13

Family

ID=16788249

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60031812T Expired - Lifetime DE60031812T2 (de) 1999-08-05 2000-08-03 Vorrichtung und Verfahren zur Klangsynthesierung

Country Status (4)

Country Link
US (1) US6513007B1 (de)
EP (1) EP1074968B1 (de)
JP (1) JP3430985B2 (de)
DE (1) DE60031812T2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009029615A1 (de) * 2009-09-18 2011-03-31 Native Instruments Gmbh Verfahren und Anordnung zur Verarbeitung von Audiodaten sowie ein entsprechendes Computerprogramm und ein entsprechendes computer-lesbares Speichermedium
US8750530B2 (en) 2009-09-15 2014-06-10 Native Instruments Gmbh Method and arrangement for processing audio data, and a corresponding corresponding computer-readable storage medium

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356800A (ja) * 2000-06-16 2001-12-26 Korg Inc ホルマント付加装置
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
US7433097B2 (en) * 2003-04-18 2008-10-07 Hewlett-Packard Development Company, L.P. Optical image scanner with moveable calibration target
JP4179268B2 (ja) * 2004-11-25 2008-11-12 カシオ計算機株式会社 データ合成装置およびデータ合成処理のプログラム
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
JP5354485B2 (ja) * 2007-12-28 2013-11-27 公立大学法人広島市立大学 発声支援方法
JP5115818B2 (ja) * 2008-10-10 2013-01-09 国立大学法人九州大学 音声信号強調装置
JP6019803B2 (ja) * 2012-06-26 2016-11-02 ヤマハ株式会社 自動演奏装置及びプログラム
JP6390130B2 (ja) * 2014-03-19 2018-09-19 カシオ計算機株式会社 楽曲演奏装置、楽曲演奏方法及びプログラム
JP2016135346A (ja) * 2016-04-27 2016-07-28 株式会社三共 遊技機
JP6267757B2 (ja) * 2016-08-10 2018-01-24 株式会社三共 遊技機

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3624301A (en) * 1970-04-15 1971-11-30 Magnavox Co Speech synthesizer utilizing stored phonemes
JPS5681900A (en) * 1979-12-10 1981-07-04 Nippon Electric Co Voice synthesizer
US4907484A (en) 1986-11-02 1990-03-13 Yamaha Corporation Tone signal processing device using a digital filter
US5250748A (en) 1986-12-30 1993-10-05 Yamaha Corporation Tone signal generation device employing a digital filter
US5111727A (en) 1990-01-05 1992-05-12 E-Mu Systems, Inc. Digital sampling instrument for digital audio data
JP2643553B2 (ja) 1990-07-24 1997-08-20 ヤマハ株式会社 楽音信号処理装置
FR2678103B1 (fr) * 1991-06-18 1996-10-25 Sextant Avionique Procede de synthese vocale.
JPH05204397A (ja) 1991-09-03 1993-08-13 Yamaha Corp 音声分析合成装置
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
JP3046213B2 (ja) * 1995-02-02 2000-05-29 三菱電機株式会社 サブバンド・オーディオ信号合成装置
WO1997017692A1 (en) 1995-11-07 1997-05-15 Euphonics, Incorporated Parametric signal modeling musical synthesizer
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8750530B2 (en) 2009-09-15 2014-06-10 Native Instruments Gmbh Method and arrangement for processing audio data, and a corresponding corresponding computer-readable storage medium
DE102009029615A1 (de) * 2009-09-18 2011-03-31 Native Instruments Gmbh Verfahren und Anordnung zur Verarbeitung von Audiodaten sowie ein entsprechendes Computerprogramm und ein entsprechendes computer-lesbares Speichermedium
DE102009029615B4 (de) 2009-09-18 2018-03-29 Native Instruments Gmbh Verfahren und Anordnung zur Verarbeitung von Audiodaten sowie ein entsprechendes Computerprogramm und ein entsprechendes computer-lesbares Speichermedium

Also Published As

Publication number Publication date
JP3430985B2 (ja) 2003-07-28
EP1074968B1 (de) 2006-11-15
US6513007B1 (en) 2003-01-28
EP1074968A1 (de) 2001-02-07
JP2001051687A (ja) 2001-02-23
DE60031812D1 (de) 2006-12-28

Similar Documents

Publication Publication Date Title
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69932786T2 (de) Tonhöhenerkennung
DE102008015702B4 (de) Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE602004005846T2 (de) Audiosignalgenerierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE602005002403T2 (de) Gerät und Programm zur Sprachverarbeitung
DE3036680A1 (de) Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
EP1388145B1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE69736279T2 (de) Tonwiedergabe-geschwindigkeitsumwandler
DE4218623C2 (de) Sprachsynthesizer
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE60214409T2 (de) Verfahren und vorrichtung zur zweiphasen-grundfrequenzdetektion
EP1758096A1 (de) Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition