DE60218587T2 - Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen - Google Patents

Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen Download PDF

Info

Publication number
DE60218587T2
DE60218587T2 DE60218587T DE60218587T DE60218587T2 DE 60218587 T2 DE60218587 T2 DE 60218587T2 DE 60218587 T DE60218587 T DE 60218587T DE 60218587 T DE60218587 T DE 60218587T DE 60218587 T2 DE60218587 T2 DE 60218587T2
Authority
DE
Germany
Prior art keywords
vibrato
parameter
voice
database
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60218587T
Other languages
English (en)
Other versions
DE60218587D1 (de
Inventor
Yasuo Hamamatsu-shi Yoshioka
Alex Loscos
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of DE60218587D1 publication Critical patent/DE60218587D1/de
Application granted granted Critical
Publication of DE60218587T2 publication Critical patent/DE60218587T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Telephone Function (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • A) GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft eine Stimmensynthetisiervorrichtung, und insbesondere betrifft sie eine Stimmensynthetisiervorrichtung, welche eine Singstimme mit Vibrato synthetisieren kann.
  • B) BESCHREIBUNG DES RELEVANTEN HINTERGRUNDS
  • Vibrato, welches eine von Singtechniken ist, ist eine Technik, welche zyklisch Vibration zu der Amplitude und einer Tonhöhe einer Singstimme gibt. Insbesondere wenn eine lange musikalische Note verwendet wird, tendiert eine Variation einer Stimme dazu, schlecht zu sein, und das Lied tendiert dazu, monoton zu sein, bis Vibrato hinzugefügt wird, deshalb wird das Vibrato verwendet, um diesem einen Ausdruck zu geben.
  • Das Vibrato ist eine hochgradige Singtechnik, und es ist schwierig, mit dem schönen Vibrato zu singen. Aus diesem Grund wird ein Gerät als ein Karaokegerät, welches Vibrato automatisch zu einem Lied hinzufügt, welches durch einen Sänger gesungen wird, welcher nicht sehr gut im Singen ist, vorgeschlagen.
  • Zum Beispiel wird in der japanischen Patentveröffentlichung Nummer 9-044158 als eine Vibratohinzufügungstechnik Vibrato durch Erzeugung eines Tonveränderungssignals gemäß einem Zustand wie einer Tonhöhe, einer Lautstärke und der gleichen Tondauer eines eingegebenen Singstimmensignals, und Tonveränderung der Tonhöhe und der Amplitude des eingegebenen Singstimmensignals durch dieses Tonveränderungssignal erzeugt.
  • Die Vibratohinzufügungstechnik, welche oben stehend beschrieben wurde, wird im Allgemeinen auch in einer Singstimmensynthese verwendet.
  • Jedoch weil in der oben beschriebenen Technik das Tonveränderungssignal basierend auf einem Synthetisiersignal wie einer Sinuswelle und einer Dreieckswelle, erzeugt durch einen Niederfrequenzoszillator (LFO = low frequency oscillator) erzeugt wird, kann keine Tonhöhe und eine Vibration der Amplitude von Vibrato, gesungen durch einen tatsächlichen Sänger, reproduziert werden, und auch kann einer natürlichen Veränderung des Tons kein Vibrato hinzugefügt werden.
  • Auch ist es im Stand der Technik, obwohl eine Welle, welche aus einer realen Vibratowelle gesampelt wurde, verwendet wird, anstatt der Sinuswelle, schwierig, die natürliche Tonhöhe, Amplitude und Tonvibrationen von einer Welle zu allen Wellen zu reproduzieren.
  • EP-A-1 239 457 bildet einen Teil des Stands der Technik gemäß Art. 54(3) EPÜ und offenbart eine Stimmensynthetisiervorrichtung, welche folgendes aufweist: Mittel zum Speichern von Phonemstücken, welche eine Vielzahl von unterschiedlichen Tonhöhen für jedes Phonem, repräsentiert durch das gleiche Phonemsymbol, haben; Mittel zum Auslesen eines Phonemstücks durch Verwendung einer Tonhöhe als ein Index; und einen Stimmensynthetisierer, welcher eine Stimme gemäß dem ausgelesenen Phonemstück synthetisiert. Eine Vibratospur kann diesen Eingabedatennoten hinzugefügt werden. Die Vibratospur nimmt einen Vibratowert von 0 bis 1 auf. In diesem Fall wird eine Funktion, welche eine Sequenz von Tonhöhen und Dynamiken durch Verwendung eines Vibratowerts als ein Argument zurück gibt oder eine Tabelle von Vibratovorlagen speichert, in der Datenbank gespeichert. Im Berechnen der Tonhöhen und Dynamiken wird die Vibratovorlage derart angewandt, dass die Tonhöhen und Dynamiken, welchen die Vibratoeffekte hinzugefügt wurden, erhalten werden können. Die Vibratovorlage kann durch Analysieren von tatsächlicher menschlicher Singstimme erhalten werden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist ein Ziel der vorliegenden Erfindung, eine Stimmensynthetisiervorrichtung vorzusehen, welche ein sehr reales Vibrato hinzufügen kann.
  • Es ist ein anderes Ziel der vorliegenden Erfindung, eine Stimmensynthetisiervorrichtung vorzusehen, welche Vibrato gefolgt von einer Tonveränderung hinzufügen kann.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird eine Stimmensynthetisiervorrichtung vorgesehen, welche Folgendes aufweist: Speichermittel zum Speichern einer ersten Datenbank, welche einen ersten Parameter speichert, welcher durch Analysieren einer Stimme erhalten wurde, und eine zweite Datenbank, welche für jeden eines Vibratoanfangsteils und eines Vibratohauptteils einen zweiten Parameter speichert, welcher durch Analysieren einer Stimme mit Vibrato erhalten wurde; Eingabemittel zum Eingeben von Information für eine Stimme, welche synthetisiert werden soll; Erzeugungsmittel zum Erzeugen eines dritten Parameters basierend auf dem ersten Parameter, welcher aus der ersten Datenbank ausgelesen wurde, und dem zweiten Parameter, welcher aus der zweiten Datenbank gemäß der eingegebenen Information ausgelesen wurde; und Synthetisiermittel zum Synthetisieren der Stimme gemäß dem dritten Parameter.
  • Gemäß der vorliegenden Erfindung kann eine Stimmensynthetisiervorrichtung, welche ein sehr reales Vibrato hinzufügen kann, vorgesehen werden.
  • Ferner kann gemäß der vorliegenden Erfindung eine Stimmensynthetisiervorrichtung, welche Vibrato gefolgt von einer Tonveränderung hinzufügen kann, vorgesehen werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, welches die Struktur einer Stimmensynthetisiervorrichtung 1 gemäß einem Ausführungsbeispiel der Erfindung zeigt.
  • 2 ist ein Diagramm, welches eine Tonhöhenwelle einer Stimme mit Vibrato zeigt.
  • 3 ist ein Beispiel eines Vibratoanfangsteils.
  • 4 ist ein Beispiel eines Vibratohauptteils.
  • 5 ist ein Graph, welcher ein Beispiel eines Schleifenprozesses des Vibratohauptteils zeigt.
  • 6 ist ein Graph, welcher ein Beispiel eines Versatzabziehprozesses zu dem Vibratohauptteil in dem Ausführungsbeispiel der vorliegenden Erfindung zeigt.
  • 7 ist ein Flussdiagramm, welches einen Vibratohinzufügungsprozess in dem Fall zeigt, in welchem ein Vibratoende, durchgeführt in einem Vibratohinzufügungsteil 5 einer Stimmensynthetisiervorrichtung in 1 nicht verwendet wird.
  • 8 ist ein Graph, welcher ein Beispiel eines Koeffizienten MulDelta zeigt.
  • 9 ist ein Flussdiagramm, welches den Vibratohinzufügungsprozess in dem Fall zeigt, in welchem ein Vibratoende in einem Vibratohinzufügungsteil 5 einer Stimmensynthetisiervorrichtung in 1 verwendet wird.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • 1 ist ein Blockdiagramm, welches die Struktur einer Stimmensynthetisiervorrichtung 1 gemäß einem Ausführungsbeispiel der Erfindung zeigt.
  • Die Stimmensynthetisiervorrichtung 1 wird aus einer Dateneingabeeinheit 2, einer Datenbank 3, einer Merkmalparametererzeugungseinheit 4, einem Vibratohinzufügungsteil 5, einer EpR Stimmensynthetisiermaschine 6 und einer Stimmensynthetisierausgabeeinheit 7 gebildet. Das EpR wird später beschrieben.
  • Daten, welche in die Dateneingabeeinheit 2 eingegeben werden, werden zu der Merkmalparametererzeugungseinheit 4, dem Vibratohinzufügungsteil 5 und der EpR Stimmensynthetisiermaschine 6 gesendet. Die eingegebenen Daten bestehen aus einem Steuerungsparameter zum Hinzufügen von Vibrato zusätzlich zu einer Stimmentonhöhe, Dynamiken und Phonemnamen oder Ähnlichem zum Synthetisieren.
  • Der Steuerungsparameter, welcher oben stehend beschrieben wurde, weist eine Vibratoanfangszeit (VibBeginTime), eine Vibratodauer (VibDuration), eine Vibratorate (VibRate), eine Vibrato-(Tonhöhen-) Tiefe (Vibrato (Pitch) Depth) und eine Tremolotiefe (TremoloDepth) auf.
  • Eine Datenbank 3 wird mindestens aus einer Klangfarben- bzw. Timbredatenbank, welche eine Vielzahl von EpR Parametern in jedem Phonem, einer Vorlagendatenbank TDB, welche verschiedene Vorlagen speichert, welche Zeitsequenzveränderungen in den EpR Parametern speichert, und einer Vibratodatenbank VDB gebildet.
  • Die EpR Parameter gemäß dem Ausführungsbeispiel der vorliegenden Erfindung können zum Beispiel in vier Typen klassifiziert werden: Eine Einhüllende des Anregungswellenformspektrums; Anregungsresonanzen; Formanten; und differenzielle Spektren. Diese vier EpR Parameter können durch Auflösen einer Spektumseinhüllenden (ursprüngliche Spektumseinhüllende) von harmonischen Komponenten erhalten werden, welche durch Analysieren von Stimmen (ursprünglicher Stimmen) einer realen Person oder Ähnlichem erhalten wurden.
  • Die Einhüllende (ExcitationCurve) des Anregungswellenformspektrums ist aus drei Parametern gebildet: EGain [dB], anzeigend für eine Amplitude einer Glottalwellenform; ESlope, anzeigend für eine Steigung der Spektrumseinhüllenden der Glottalwellenform; und ESlopeDepth [dB], anzeigend für eine Tiefe von einem Maximalwert zu einem Minimalwert der Spektrumseinhüllenden der Glottalwellenform.
  • Die Anregungsresonanz repräsentiert eine Brustresonanz und hat die Filtercharakteristika zweiter Ordnung. Dieser Formant zeigt eine Stimmtraktresonanz an, welche aus einer Vielzahl von Resonanzen gebildet ist.
  • Das differenzielle Spektrum ist ein Merkmalparameter, welcher ein differenzielles Spektrum von dem ursprünglichen Spektrum hat, wobei das differenzielle Spektrum nicht durch die drei Parameter ausgedrückt werden kann: Einhüllende des Anregungswellenformspektrums, Anregungsresonanzen und Formanten.
  • Die Vibratodatenbank VDB speichert später beschriebenen Vibratoanfang, Vibratohauptteil und Vibratodaten (VD) Satz, gebildet aus einem Vibratoende.
  • In dieser Vibratodatenbank VDB kann zum Beispiel der VD Satz, welcher durch Analysieren der Singstimme mit Vibrato in verschiedenen Tonhöhen erhalten wurde, bevorzugterweise gespeichert werden. In dem dies getan wird kann ein realeres Vibrato hinzugefügt werden unter Verwendung des VD Satzes, welcher der Tonhöhe am Nächsten ist, wenn die Stimme synthetisiert wird (wenn Vibrato hinzugefügt wird).
  • Die Merkmalparametererzeugungseinheit 4 liest die EpR Parameter und die verschiedenen Vorlagen von der Datenbank 3 basierend auf den eingegebenen Daten aus. Ferner wendet die Merkmalparametererzeugungseinheit 4 die verschiedenen Vorlagen auf die ausgelesenen EpR Parameter an, und erzeugt die schlussendlichen EpR Parameter, um sie zu dem Vibratohinzufügungsteil 5 zu senden.
  • In dem Vibratohinzufügungsteil 5 wird Vibrato zu dem Merkmalparameter, welcher von der Merkmalparametererzeugungseinheit 4 eingegeben wurde, durch den Vibratohinzufügungsprozess, welcher später beschrieben wird, hinzugefügt, und wird zu der EpR Stimmensynthetisiermaschine 6 ausgegeben.
  • In der EpR Stimmensynthetisiermaschine 6 wird ein Puls basierend auf einer Tonhöhe und Dynamiken der eingegebenen Daten erzeugt, und die Stimme wird synthetisiert und zu der Stimmensynthetisierausgabeeinheit 7 durch Anwenden (Hinzufügen) der Merkmalparameter, welche aus dem Vibratohinzufügungsteil 5 eingegeben wurden, auf ein Spektrum oder Frequenzbereiche, welche von dem erzeugten Puls konvertiert wurden, ausgegeben.
  • Ferner sind Details der Datenbank 3, außer der Vibratodatenbank VDB, der Merkmalparametererzeugungseinheit 4 und der EpR Stimmensynthetisiermaschine 6 in EP-A-1239463 und EP-A-1239457 offenbart, welche durch den gleichen Anmelder wie die vorliegende Erfindung angemeldet wurden.
  • Als nächstes wird eine Erzeugung der Vibratodatenbank VDB erklärt werden. Zunächst wird eine Analyse einer Stimme mit Vibrato, welche durch eine reale Person erzeugt wurde, durch ein Verfahren wie eine Spektrummoduliersynthese (SMS = spectrum modeling synthesis) durchgeführt.
  • Durch Durchführen der SMS Analyse wird Information (Rahmeninformation), welche in eine harmonische Komponente und eine anharmonische Komponente bei einem festen Analysierzyklus analysiert wurde, ausgegeben. Ferner wird Rahmeninformation der harmonischen Komponente des Obigen analysiert in die vier EpR Parameter, welche in Obigem beschrieben wurden.
  • 2 ist ein Diagramm, welches eine Tonhöhenwelle einer Stimme mit Vibrato zeigt. Der Vibratodaten (VD) Satz, welcher in der Vibratodatenbank VDB gespeichert werden soll, besteht aus drei Teilen, in welche eine Stimmenwelle mit Vibrato wie in der Zeichnung gezeigt aufgeteilt wird. Die drei Teile sind der Vibratoanfangsteil, der Vibratohauptteil und der Vibratoendteil, und sie werden durch Analysieren der Stimmenwelle unter Verwendung der SMS Analyse oder Ähnlichem erzeugt.
  • Jedoch kann Vibrato nur mit dem Vibratohauptteil hinzugefügt werden, realerer Vibratoeffekt wird durch Verwendung der oben beschriebenen zwei Teile hinzugefügt: Der Vibratoanfangsteil und der Vibratohauptteil, oder drei Teile: Der Vibratoanfangsteil, der Vibratohauptteil und der Vibratoendteil in dem Ausführungsbeispiel der vorliegenden Erfindung.
  • Der Vibratoanfangsteil ist wie in der Zeichnung gezeigt der Anfang des Vibratoeffekts; deshalb ist ein Bereich von einem Punkt, in welchem eine Tonhöhe damit beginnt, sich zu verändern, zu einem Punkt gerade vor periodischer Veränderung der Tonhöhe.
  • Eine Grenze des Endpunkts des Vibratoanfangsteils ist der maximale Wert der Tonhöhe für eine glatte Verbindung mit dem nächsten Vibratohauptteil.
  • Der Vibratohauptteil ist ein Teil eines zyklischen Vibratoeffekts gefolgt von einem Vibratoanfangsteil, wie in der Figur gezeigt ist. Durch Schleifen des Vibratohauptteils gemäß einem später beschriebenen Schleifenverfahren gemäß einer Länge der synthetisierten Stimme (EpR Parameter), welcher Vibrato hinzugefügt werden soll, ist es möglich, Vibrato länger als die Länge der Datenbankdauer hinzuzufügen.
  • Ferner wird es entschieden, dass die Anfangs- und Endpunkte des Vibratohauptteils Grenzen an den maximalen Punkten der Tonhöhenveränderung für eine glatte Verbindung mit einem vorhergehenden Vibratoanfangsteil und einem folgenden Vibratoendteil haben.
  • Weil auch der zyklische Vibratoeffektteil ausreichend ist für den Vibratohauptteil, kann ein Teil zwischen dem Vibratoanfangsteil und dem Vibratoendteil herausgegriffen werden, wie in der Figur gezeigt ist.
  • Der Vibratoendteil ist der Endpunkt gefolgt von dem Vibratohauptteil, wie in der Figur gezeigt ist, und von dem Bereich von dem Anfang der Abschwächung der Tonhöhenveränderung zu dem Ende des Vibratoeffekts.
  • 3 ist ein Beispiel eines Vibratoanfangsteils. Jedoch ist nur die Tonhöhe mit dem klarsten Vibratoeffekt in der Figur gezeigt, tatsächlich werden die Lautstärke und der Ton verändert, und diese Lautstärke und Tonfarben werden auch in einer Datenbank durch das gleiche Verfahren angeordnet.
  • Zunächst wird eine Welle des Vibratoanfangsteils herausgegriffen, wie in der Figur gezeigt ist. Diese Welle wird in die harmonischen Komponenten und die anharmonischen Komponenten durch die SMS Analyse oder Ähnliches analysiert, und ferner wird die harmonische Komponente davon in die EpR Parameter analysiert. Zu dieser Zeit wird zusätzliche Information, wie unten stehend beschrieben, zusätzlich zu dem EpR Parameter in der Vibratodatenbank VDB gespeichert.
  • Die zusätzliche Information wird von der Welle des Vibratoanfangsteils erhalten. Die zusätzliche Information enthält eine Anfangsvibratotiefe (mBegin-Depth [cent]), eine Endvibratotiefe (mEndDepth [cent]), eine Anfangsvibratorate (mBeginRate [Hz]), eine Endvibratorate (mEndRate [Hz]), eine maximale Vibratoposition (MaxVibrato [size] [s]), eine Datenbankdauer (mDuration [s]), eine Anfangstonhöhe (mPitch [cent]), etc. Und sie enthält auch eine Anfangsverstärkung (mGain [dB]), eine Anfangstremolotiefe (mBeginTremolo-Depth [dB]), eine Endtremolotiefe (mEndTremoloDepth [dB]), etc, welche in der Figur nicht gezeigt sind.
  • Die Anfangsvibratotiefe (mBeginDepth [cent]), ist eine Differenz zwischen den Maximal- und Minimalwerten des ersten Vibratozyklus, und die Endvibratotiefe (mEndDepth [cent]), ist die Differenz zwischen den Maximal- und Minimalwerten des letzten Vibratozyklus.
  • Der Vibratozyklus ist zum Beispiel Dauer (Sekunde), vom Maximalwert einer Tonhöhe zu dem nächsten Maximalwert.
  • Die Anfangsvibratorate (mBeginRate [Hz]) ist eine reziproke Zahl des Anfangsvibratozyklus (1/der Anfangsvibratozyklus), und die Endvibratorate (mEndRate [Hz]) ist eine reziproke Zahl des Endvibratozyklus (1/der Endvibratozyklus).
  • Die maximale Vibratoposition (MaxVibrato [size] [s]) ist eine Zeitsequenzposition, in welcher die Tonhöhenveränderung maximal ist, die Datenbankdauer (mDuration [s]) ist eine Zeitdauer der Datenbank, und die Anfangstonhöhe (mPitch (cent]) ist eine Anfangstonhöhe des ersten Rahmens (der Vibratozyklus) in dem Vibratoanfangsteil.
  • Die anfängliche Verstärkung (mGain [dB]) ist ein EGain des ersten Rahmens in dem Vibratoanfangsgebiet, die Anfangstremolotiefe (mBeginTremoloDepth [dB]) ist eine Differenz zwischen den Maximal- und Minimalwerten des EGain des ersten Vibratozyklus, und die Endtremolotiefe (mEndTremoloDepth [dB]) ist eine Differenz zwischen den Maximal- und Minimalwerten des EGain des letzten Vibratozyklus. Die zusätzliche Information wird verwendet, um den gewünschten Vibratozyklus, wie Vibrato- (Tonhöhen-) Tiefe, und Tremolotiefe durch Veränderung der Vibratodatenbank VDB Daten zur Zeit der Stimmensynthese zu erhalten. Auch wird die Information verwendet zum Verhindern von unerwünschter Veränderung, wenn die Tonhöhe oder Verstärkung sich nicht um die durchschnittliche Tonhöhe oder Verstärkung des Bereichs verändert, sondern sich allgemein ansteigend oder absteigend verändert.
  • 4 ist ein Beispiel eines Vibratohauptteils. Jedoch ist die Tonhöhe mit der bemerkenswertesten Veränderung in dieser Figur gleich wie in 2 gezeigt, tatsächlich verändern sich auch die Lautstärke und die Tonfarbe und diese Lautstärke und Tonfarben sind auch in der Datenbank durch das gleiche Verfahren angeordnet.
  • Zuerst wird eine Welle des Vibratoanfangsteils herausgegriffen, wie in der Figur gezeigt ist. Der Vibratohauptteil ist ein Teil, welcher sich zyklisch verändert, folgend auf den Vibratoanfangsteil. Ein Anfang und ein Ende des Vibratohauptteils ist der Maximalwert der Tonhöhenveränderung mit Betrachtung einer glatten Verbindung zwischen dem Vibratoanfangsteil und dem Vibratoendteil.
  • Die Welle, welche herausgegriffen wurde, wird in harmonische Komponenten und anharmonische Komponenten durch die SMS Analyse oder Ähnliches analysiert. Dann werden die harmonischen Komponenten davon weiter in die EpR Parameter analysiert. Zu dieser Zeit wird die zusätzliche Information, welche oben stehend beschrieben wurde, mit den EpR Parametern in der Vibratodatenbank VDB als gleich zu dem Vibratoanfangsteil gespeichert.
  • Eine Vibratodauer, welche länger ist als die Datenbankdauer der Vibratodatenbank VDB, wird durch ein Verfahren realisiert, welches später beschrieben wird, um diesen Vibratohauptteil korrespondierend zu der Dauer zu schleifen, um Vibrato hinzuzufügen.
  • Obwohl es in der Figur nicht gezeigt ist, wird der Vibratoendteil der ursprünglichen Stimme in dem Vibratoendteil auch durch dasselbe Verfahren wie der Vibratoanfangsteil analysiert, und der Vibratohauptteil wird mit der zusätzlichen Information in der Vibratodatenbank VDB gespeichert.
  • 5 ist ein Graph, welcher ein Beispiel eines Schleifenprozesses des Vibratohauptteils zeigt. Die Schleife des Vibratohauptteils wird durch eine Spiegelschleife durchgeführt. Das bedeutet, die Schleife beginnt mit dem Anfang des Vibratohauptteils, und wenn sie das Ende erreicht, wird die Datenbank aus der rückwärtigen Seite ausgelesen. Ferner, wenn sie den Anfang erreicht, wird die Datenbank von dem Start in der ordinalen Richtung erneut ausgelesen.
  • 5A ist ein Graph, welcher ein Beispiel eines Schleifenprozesses des Vibratohauptteils in dem Fall zeigt, in welchem die Anfangs- und Endposition des Vibratohauptteils der Vibratodatenbank VDB mittig zwischen den Maximal- und Minimalwerten der Tonhöhe ist.
  • Wie in 5A gezeigt ist wird die Tonhöhe eine Tonhöhe sein, deren Wert bei der Schleifengrenze umgekehrt wird, durch Umkehren der Zeitsequenz von der Schleifengrenze.
  • In dem Schleifenprozess in 5A verändert sich eine Beziehung zwischen der Tonhöhe und der Verstärkung, weil eine Manipulation an den Tonhöhen- und Verstärkungswerten zur Zeit des Schleifenprozesses ausgeführt wird. Deshalb ist es schwierig, ein natürliches Vibrato zu erhalten.
  • Gemäß dem Ausführungsbeispiel der vorliegenden Erfindung wird ein Schleifenprozess, wie in 5B gezeigt ist, in welchem die Anfangs- und Endpositionen des Vibratohauptteils der Vibratodatenbank VDB der Maximalwert ist, durchgeführt.
  • 5B ist ein Graph, welcher ein Beispiel des Schleifenprozesses des Vibratohauptteils zeigt, wenn die Anfangs- und Endposition des Vibratohauptteils der Vibratodatenbank VDB der Maximalwert der Tonhöhe sind.
  • Wie in 5B gezeigt ist werden jedoch, obwohl eine Datenbank von der umgekehrten Seite durch Umkehren der Zeitsequenz von der Schleifengrenzenposition ausgelesen wurde, die ursprünglichen Werte von Tonhöhe und Verstärkung anders als in dem Fall in 5A verwendet. Indem dies getan wird, wird die Beziehung zwischen der Tonhöhe und der Verstärkung erhalten, und eine natürliche Vibratoschleife kann durchgeführt werden.
  • Als nächstes wird ein Verfahren zum Hinzufügen von Vibrato, welche Inhalte einer Vibratodatenbank VDB anwendet, auf eine Singstimmensynthese angewandt.
  • Die Vibratohinzufügung wird im Wesentlichen durch Hinzufügen eines Deltawertes Pitch [cent] und EGain [dB] basierend auf der Anfangstonhöhe (mPitch [cent]) der Vibratodatenbank VDB und der Anfangsverstärkung (mGain [dB]) auf die Tonhöhe und die Verstärkung des ursprünglichen (ohne hinzugefügtes Vibrato) Rahmens durchgeführt.
  • Durch Verwendung des Deltawerts kann eine Diskontinuität in jedem Verbindungsteil des Vibratoanfangs, des Hauptteils und des Endes verhindert werden.
  • Zur Zeit des Vibratoanfangs wird ein Vibratoanfangsteil nur einmal verwendet, und der Vibratohauptteil wird als nächstes verwendet. Ein Vibrato länger als die Dauer des Vibratohauptteils wird durch den oben beschriebenen Schleifenprozess realisiert. Zur Zeit des Vibratoendes wird der Vibratoendteil nur einmal verwendet. Der Vibratohauptteil kann geschleift werden, bis zum Vibratoende, ohne den Vibratoendteil zu verwenden.
  • Jedoch kann das natürliche Vibrato unter Verwendung des geschleiften Vibratohauptteils, wiederholt wie oben, erhalten werden, die Verwendung eines Vibratohauptteils langer Dauer ohne Wiederholung ist im Vergleich zur wiederholten Verwendung eines Vibratohauptteils kurzer Dauer bevorzugt, um ein natürlicheres Vibrato zu erhalten. Das bedeutet, dass je länger der Vibratohauptteil ist, desto natürlicheres Vibrato kann hinzugefügt werden.
  • Aber wenn der Vibratohauptteil verlängert wird, wird Vibrato instabil. Ein ideales Vibrato hat symmetrische Vibration zentriert um den Durchschnittswert. Wenn ein Sänger ein langes Vibrato tatsächlich singt, kann es nicht helfen, die Tonhöhe und die Verstärkung kontinuierlich zu senken, und die Tonhöhe und Verstärkung werden verschlankt werden.
  • In diesem Fall, wenn das Vibrato zu einer synthetisierten Liedstimme hinzugefügt wird mit der Verschlankung, wird unnatürliches Vibrato, welches im Allgemeinen verschlankt ist, erzeugt werden. Ferner zeichnet sich das Schleifen aus und der Vibratoeffekt wird unnatürlich, wenn der lange Vibratohauptteil geschleift wird, durch das Verfahren, welches in 5B beschrieben wurde, weil die Tonhöhe und die Verstärkung, welche allmählich abfallen sollten, allmählich ansteigen, zur Zeit des rückwärts Lesens.
  • Ein Versatzabziehprozess wie unten stehend gezeigt, wird durchgeführt unter Verwendung des Vibratohauptteils langer Dauer, um ein natürliches und stabiles Vibrato hinzuzufügen, das bedeutet, welches ideale symmetrische Vibration zentriert um den Durchschnittswert hat.
  • 6 ist ein Graph, welcher ein Beispiel eines Versatzabziehprozesses zu dem Vibratohauptteil in dem Ausführungsbeispiel der vorliegenden Erfindung zeigt. In der Figur zeigt ein oberer Teil Spuren der Vibratohauptteiltonhöhe, und ein unierer Teil zeigt eine Funktion PitchOffsetEnvelope (TimeOffset) [cent], um die Steigung der Tonhöhe zu entfernen, welche die ursprüngliche Datenbank hat.
  • Zunächst, wie in dem oberen Teil in 6 gezeigt ist, wird ein Datenbankteil durch eine Zeit des Maximalwerts der Tonhöhenveränderung (MaxVibrato [] [s]) geteilt. In der Region Nummer (i), welche oben geteilt wurde, wird ein Wert TimeOffset [i] Body, welcher standardisiert die Mittenposition der Zeitsequenz in der Region Nummer (i) ist, durch die Teildauer VipBodyDuration [s] des Vibratohauptteils durch die unten stehende Gleichung berechnet. Die Berechnung wird für alle Bereiche durchgeführt. TimeOffSet[i] = (MaxVibratio[i + 1] + MaxVibrato[i])/2/VibBodyDuration (1)
  • Ein Wert TimeOffsetEnvelope (TimeOffset) [i], welcher durch die obige Gleichung (1) berechnet wurde, wird ein Wert einer horizontalen Achse der Funktion PitchOffsetEnvelope (TimeOffset) [cent] in dem Graph in dem unteren Teil von 6 sein.
  • Als nächstes werden der Maximal- und der Minimalwert der Tonhöhe in der Region Nummer (i) erhalten, und jeder davon wird ein MaxPitch [i] und ein MinPitch[i] sein. Dann wird ein Wert PitchOffset [i] [cent] einer vertikalen Achse bei einer Position des TimeOffset [i] durch eine unten stehende Gleichung (2) berechnet, wie in dem unteren Teil von 6 gezeigt ist. PitchOffset[i] = (MaxPitch[i] + MinPitch[i])/2 – mPitch (2)
  • Obwohl es in der Zeichnung nicht gezeigt ist, wird wie für EGain [dB] der Maximal- und der Minimalwert der Verstärkung in dem Bereich Nummer (i) gleich erhalten wie für die Tonhöhe, und jeder davon wird ein MaxEGain [i] und ein MinEGain [i] sein. Dann wird ein Wert EGainOffset [i] [dB] der vertikalen Achse bei einer Position des TimeOffset (i] durch eine unten stehende Gleichung (3) berechnet. EGainOffset[i] = (MaxGain[i] + MinGain[i])/2 – mEGain (3)
  • Dann wird ein Wert zwischen den berechneten Werten in jedem Bereich durch eine Linieninterpolation berechnet, und eine Funktion PitchOffsetEnvelope (TimeOffset) [cent] wie in dem unteren Teil von 6 gezeigt, wird erhalten. EGainOffsetEnvelope wird als gleich wie für die Verstärkung erhalten.
  • In dem Synthetisieren von Liedstimme, wenn eine vergangene Zeit von dem Anfang des Vibratokörperteils Time [s] ist, wird ein Deltawert von dem oben beschriebenen mPitch [cent] und mEGain [dB] zu dem vorliegenden Pitch [cent] und EGain [dB] hinzugefügt. Pitch [cent] und EGain [dB] zu der Datenbankzeit Time [s] werden DBPitch [cent] und DBEGain [dB] sein, und ein Deltawert der Tonhöhe und der Verstärkung wird durch die unten stehenden Gleichungen (4) und (5) berechnet. Pitch = DBPitch (Time) – mPitch (4) EGain = DBEGain (Time) – mEGain (5)
  • Die Steigung der Tonhöhe und der Verstärkung, welche die ursprünglichen Daten haben, können durch Versetzen dieser Werte durch Verwendung der Gleichungen (6) und (7) entfernt werden. pitch = pitch – PitchOffsetEnvelope (Time/VibBodyDuration) (6) EGain = EGain – EgainOftsetEnvelope (Time/VibBodyDuration) (7)
  • Schlussendlich kann eine natürliche Erweiterung des Vibratos durch Hinzufügen eines Deltawerts der ursprünglichen Tonhöhe (Pitch) und der Verstärkung (EGain) durch die unten stehenden Gleichungen (8) und (9) erreicht werden. Pitch = Pitch + Pitch (8) Egain = Egain + EGain (9)
  • Als nächstes wird ein Verfahren zum Erhalten von Vibrato, welches eine gewünschte Rate (Zyklus), Tonhöhentiefe (Tonhöhenwellentiefe) und Tremolotiefe (Verstärkungswellentiefe) hat, durch Verwendung dieser Vibratodatenbank VDB erklärt.
  • Zunächst wird eine Lesezeit (Geschwindigkeit) der Vibratodatenbank VDB verändert, um eine gewünschte Vibratorate durch Verwendung der unten stehenden Gleichungen (10) und (11) zu erhalten. VibRateFactor = VibRate/[(mBeginRate + mEndRate)/2] (10) Time = Time·VibRateFactor (11)
  • Wobei VibRate [Hz] die gewünschte Vibratorate repräsentiert, und mBeginRate (Hz] und mEndRate [Hz] repräsentiert den Beginn der Datenbank und die Endvibratorate. Time [s] repräsentiert die Startzeit der Datenbank als „0".
  • Als nächstes wird die gewünschte Tonhöhentiefe durch eine unten stehende Gleichung (12) erhalten. PitchDepth [cent] repräsentiert die gewünschte Tonhöhentiefe, und mBeginDepth [cent] und mEndDepth (cent] repräsentiert die Anfangsvibrato-(Tonhöhen-) Tiefe und die Endvibrato-(Tonhöhen-) Tiefe in der Gleichung (12). Auch repräsentiert Time [s] die Startzeit der Datenbank als „0" (Lesezeit der Datenbank), und Pitch (time) [cent] repräsentiert einen Deltawert der Tonhöhe bei Time [s]. Pitch = pitch (Time)·PitchDepth/[(mBeginDepth + mEndDepth)/2] (12)
  • Die gewünschte Tremolotiefe wird durch Verändern des EGain [dB] Werts durch eine unten stehende Gleichung (13) erhalten. TremoloDepth [dB] repräsentiert die gewünschte Tremolotiefe, und mBeginTremoloDepth [dB] und mEndTremoloDepth[dB] repräsentiert die Anfangstremolotiefe und die Endtremolotiefe der Datenbank in der Gleichung (13). Auch repräsentiert Time [s] die Anfangszeit der Datenbank als „0" (Lesezeit der Datenbank), und EGain (time) [dB] repräsentiert einen Deltawert von EGain bei Time [s]. Egain = Egain + EGain (Time)·TremoloDepth/[(mBeginTremoloDepth + mEndTremoloDepth)/2] (13)
  • Jedoch sind Verfahren zum Verändern der Tonhöhe und der Verstärkung oben stehend erklärt, wie für ESlope, ESlopeDepth, etc., anders als diese, ein Reproduzieren einer Tonfarbenveränderung zusammen mit einem Vibrato dessen ursprüngliche Stimme möglich wurde durch Hinzufügen des Deltawerts genauso wie für die Tonhöhe und die Verstärkung. Deshalb wird ein natürlicherer Vibratoeffekt hinzugefügt.
  • Zum Beispiel wird der Weg zum Verändern der Steigung des Frequenzcharakters zusammen mit dem Vibratoeffekt der Gleiche sein wie derjenige der Veränderung durch Hinzufügen von ESlope-Wert zu dem ESlope-Wert des Rahmens der ursprünglich synthetisierten Liedstimme.
  • Auch kann eine Reproduktion einer sensitiven bzw. feinen Tonfarbenveränderung der ursprünglichen Vibratostimme erreicht werden durch Hinzufügen eines Deltawerts zu den Parametern (Amplitude, Frequenz und Bandbreite) von Resonanz (Anregungsresonanz und Formanten).
  • Deshalb wird eine Reproduktion einer feinen Tonfarbenveränderung oder Ähnlichem der ursprünglichen Vibratostimme möglich durch Manipulieren des Prozesses zu jedem EpR Parameter gleich wie für die Tonhöhe und die Verstärkung.
  • 7 ist ein Flussdiagramm, welches einen Vibratohinzufügungsprozess in dem Fall zeigt, in welchem eine Vibratofreigabe in einem Vibratohinzufügungsteil 5 einer Stimmensynthetisiervorrichtung in 1 nicht verwendet wird. EpR Parameter zu der derzeitigen Zeit Time [s] werden immer in den Vibratohinzufügungsteil 5 von der Merkmalparametererzeugungseinheit 4 eingegeben.
  • Bei Schritt SA1 wird der Vibratohinzufügungsprozess gestartet, und der Prozess fährt zu Schritt SA2 fort.
  • Steuerungsparameter zum Hinzufügen von Vibrato, welche aus dem Dateneingabeteil 2 in 1 eingegeben wurden, werden bei Schritt SA2 erhalten. Die Steuerungsparameter, welche eingegeben werden sollen, sind zum Beispiel eine Vibratoanfangszeit (VibBeginTime), eine Vibratodauer (VibDuration), eine Vibratorate (VibRate), eine Vibrato- (Tonhöhen-) Tiefe (Vibrato (Pitch) Depth) und eine Tremolotiefe (TremoloDepth). Dann fährt der Prozess zu Schritt SA3 weiter.
  • Die Vibratoanfangszeit (VibBeginTime [s]) ist ein Parameter zum Bezeichnen einer Zeit zum Starten des Vibratoeffekts, und ein Prozess nach demjenigen im Flussdiagramm wird gestartet, wenn die derzeitige Zeit die Startzeit er reicht. Die Vibratodauer (VibDuration[s]) ist ein Parameter zum Bezeichnen einer Dauer zum Hinzufügen des Vibratoeffekts.
  • Das bedeutet, dass der Vibratoeffekt zu den EpR Parametern hinzugefügt wird, welcher von der Merkmalparametererzeugungseinheit 4 zwischen Time [s] = VibBeginTime [s] und Time [s] = (VibBeginTime [s] + VibDuration [s]) in diesem Vibratohinzufügungsteil 5 vorgesehen wird.
  • Die Vibratorate (VibRate [Hz]) ist ein Parameter zum Bezeichnen des Vibratozyklus. Die Vibrato-(Tonhöhen-) Tiefe (Vibrato (Pitch) Depth [cent]) ist ein Parameter zum Bezeichnen einer Vibratotiefe der Tonhöhe in dem Vibratoeffekt durch Cent- bzw. Prozentwert. Die Tremolotiefe (TremoloDepth [dB]) ist ein Parameter zum Bezeichnen einer Vibratotiefe der Lautstärkenänderung in dem Vibratoeffekt um den dB Wert.
  • Bei Schritt SA3, wenn die derzeitige Zeit Time [s] = VibBeginTime [s] ist, wird eine Initialisierung des Algorithmus zum Hinzufügen von Vibrato durchgeführt. Zum Beispiel wird das Flag bzw. der Marker VibAttackFlag und das Flag VibBodyFlag auf „1" gesetzt. Dann fährt der Prozess zu Schritt SA4 fort.
  • Bei Schritt SA4 wird ein Vibratodatensatz, welcher zu der derzeitigen synthetisierten Tonhöhe passt, aus der Vibratodatenbank VDB in der Datenbank 3 in 1 gesucht, um eine Vibratodatendauer zu erhalten, welche verwendet werden soll. Die Dauer des Vibratoanfangsteils wird auf VibAttackDuration [s] eingestellt, und die Dauer des Vibratohauptteils wird auf VibBodyDuration [s] eingestellt. Dann fährt der Prozess zu Schritt SA5 fort.
  • Bei Schritt SA5 wird das Flag VibAttackFlag überprüft. Wenn das Flag VibAttackFlag = 1 ist, fährt der Prozess zu Schritt SA6 weiter, angezeigt durch einen JA Pfeil. Wenn das Flag VibAttackFlag = 0 ist, fährt der Prozess zu Schritt SA10 fort, welcher durch einen NEIN Pfeil angezeigt ist.
  • Bei Schritt SA6 wird der Vibratoanfangsteil aus der Vibratodatenbank VDB ausgelesen, und wird derart eingestellt, dass er DBData ist. Dann fährt dieser Prozess zu Schritt SA7 fort.
  • Bei Schritt SA7 wird VibRateFactor durch die oben beschriebene Gleichung (10) berechnet. Ferner wird die Lesezeit (Geschwindigkeit) der Vibratodatenbank VDB durch die oben beschriebene Gleichung (11) berechnet, und das Resultat wird derart eingestellt, dass es NewTime [s] ist. Dann fährt der Prozess zu Schritt SA8 fort.
  • Bei Schritt SA8 wird NewTime [s], berechnet bei Schritt SA7, mit der Dauer des Vibratoanfangsteils VibAttackDuration [s] verglichen. Wenn NewTime [s] VibAttackDuration [s] übersteigt (NewTime [s] > VibAttackDuration [s]), das bedeutet, wenn der Vibratoanfangsteil von dem Anfang bis zum Ende verwendet wird, fährt der Prozess mit Schritt SA9 fort, angezeigt durch einen JA Pfeil zum Hinzufügen von Vibrato unter Verwendung des Vibratohauptteils. Wenn NewTime [s] VibAttackDuration [s] nicht übersteigt, fährt der Prozess zu Schritt SA15 fort, angezeigt durch einen NEIN Pfeil.
  • Bei Schritt SA9 wird das Flag VibAttackFlag auf „0" eingestellt, und der Vibratoeffekt wird beendet. Ferner wird die Zeit zu dieser Zeit derart eingestellt, dass die VibAttackEndTime [s] ist. Dann fährt der Prozess zu Schritt SA10 fort.
  • Bei Schritt SA10 wird das Flag VibBodyFlag überprüft. Wenn das Flag VibBodyFlag = 1 ist, fährt der Prozess zu Schritt SA11 fort, angezeigt durch einen JA Pfeil. Wenn das Flag VibBodyFlag = 0 ist, wird der Vibratohinzufügungsprozess als beendet betrachtet, und der Prozess fährt zu Schritt SA21 fort, angezeigt durch einen NEIN Pfeil.
  • Bei Schritt SA11 wird der Vibratohauptteil aus der Vibratodatenbank VDB ausgelesen, und wird derart eingestellt, dass er DBData ist. Dann fährt der Prozess zu Schritt SA12 fort.
  • Bei Schritt SA12 wird VibRateFactor durch die obige Gleichung (10) berechnet. Ferner wird die Lesezeit (Geschwindigkeit) der Vibratodatenbank VDB berechnet durch die unten beschriebenen Gleichungen (14) bis (17), und das Resultat wird derart eingestellt, dass es NewTime [s] ist. Die unten stehenden Gleichungen (14) bis (17) sind Gleichungen zum Spiegelschleifen des Vibratohauptteils durch das vorstehend beschriebene Verfahren. Dann fährt der Prozess zu Schritt SA13 fort. NewTime = Time – VibAttackEndTime (14) NewTime = NewTime·VibRateFactor (15) NewTime = NewTime – ((int)(NewTime/(VibBodyDuration·2))) ·(VibBodyDuration·2) (16) If (NewTime >= VibBodyDuration) [NewTime = VibBodyDuration·2 – NewTime] (17)
  • Bei Schritt SA13 wird es detektiert, ob eine vergangene Zeit (Time – VibBeginTime) von der Vibratoanfangszeit zu der derzeitigen Zeit die Vibratodauer (VibDuration) übersteigt oder nicht. Wenn die vergangene Zeit die Vibratodauer übersteigt, fährt der Prozess zu Schritt SA14 fort, angezeigt durch einen JA Pfeil. Wenn die vergangene Zeit nicht die Vibratodauer übersteigt, fährt der Prozess zu Schritt SA15 fort, angezeigt durch einen NEIN Pfeil.
  • Bei Schritt SA14 wird das Flag VibBodyFlag auf „0" gesetzt. Dann fährt der Prozess zu Schritt SA21 fort.
  • Bei Schritt SA15 wird der Epr Parameter (Pitch, EGain, etc) zu der Zeit NewTime[s] aus DBData erhalten. Wenn die Zeit NewTime [s] die Mitte der Rahmenzeit ist in einem tatsächlichen Datum in DBData, werden die EpR Parameter in den Rahmen vor und nach der Zeit NewTime [s] durch eine Interpolation (zum Beispiel die Linieninterpolation) berechnet. Dann fährt der Prozess zu Schritt SA16 fort.
  • Wenn der Prozess durch Folgen des „NEIN" Pfeils bei Schritt SA6 fortgeführt wird, ist DBData der Vibratoanfang DB. Und wenn der Prozess auf den „NEIN" Pfeil bei Schritt SA13 folgt, ist DBData der Vibratohauptteil DB.
  • Bei Schritt SA16 wird ein Deltawert (zum Beispiel Pitch oder EGain, etc.) von jedem EpR Parameter zu der derzeitigen Zeit durch das vorstehend beschriebenen Verfahren erhalten. In diesem Prozess wird der Deltawert gemäß dem Wert von PitchDepth [cent] und TremoloDepth [cent] wie vorstehend beschrieben erhalten. Dann fährt der Prozess zu dem nächsten Schritt SA17 fort.
  • Bei Schritt SA17 wird ein Koeffizient MulDelta erhalten, wie in 8 gezeigt ist. MulDelta ist ein Koeffizient zum Absenken des Vibratoeffekts durch allmähliches Verringern des Deltawerts des EpR Parameters, wenn die vergangene Zeit (Time [s] – VibBeginTime [s]) zum Beispiel 80 % der Dauer des gewünschten Vibratoeffekts (VibDuration [s]) erreicht. Dann fährt der Prozess zu dem nächsten Schritt SA18 fort.
  • Bei Schritt SA18 wird der Deltawert des EpR Parameters, welcher bei Schritt SA16 erhalten wurde, mit dem Koeffizienten MulDelta multipliziert. Dann fährt der Prozess zu Schritt SA19 fort.
  • Die Prozesse in dem obigen Schritt SA17 und Schritt SA18 werden durchgeführt, um die schnelle Veränderung in der Tonhöhe, Lautstärke, etc. zur Zeit des Erreichens der Vibratodauer zu vermeiden.
  • Die schnelle Veränderung des EpR Parameters zu der Zeit des Vibratoendes kann verhindert werden durch Multiplizieren des Koeffizienten MulDelta mit dem Deltawert des EpR Parameters und Verringern des Deltawerts von einer Position in der Vibratodauer. Deshalb kann Vibrato natürlich ohne den Vibratoendteil beendet werden.
  • Bei Schritt SA19 wird ein neuer EpR Parameter erzeugt durch Hinzufügen eines Deltawerts multipliziert zu dem Koeffizienten MulDelta bei Schritt SA18, zu jedem EpR Parameterwert, welcher von der Merkmalparametererzeugungseinheit 4 in 1 geliefert wird. Dann fährt der Prozess zu dem nächsten Schritt SA20 fort.
  • Bei Schritt SA20 wird der neue EpR Parameter, welcher bei Schritt SA19 erzeugt wurde, zu einer EpR Synthetisiermaschine 6 in 1 ausgegeben. Dann fährt der Prozess zu dem nächsten Schritt SA21 fort, und der Vibratohinzufügungsprozess wird beendet.
  • 9 ist ein Flussdiagramm, welches den Vibratohinzufügungsprazess in dem Fall zeigt, in welchem das Vibratoende, welches in einem Vibratohinzufügungsteil 5 einer Stimmensynthetisiervorrichtung in 1 durchgeführt wird, verwendet wird. Der EpR Parameter zur derzeitigen Zeit Time [s] wird immer in dem Vibratohinzufügungsteil 5 von der Merkmalparametererzeugungseinheit 4 in 1 eingegeben.
  • Bei Schritt SB1 wird der Vibratohinzufügungsprozess gestartet und er fährt zu dem nächsten Schritt SB2 fort.
  • Bei Schritt SB2 wird ein Steuerungsparameter für den Vibratohinzufügungsteil von dem Dateneingabeteil in 1 erhalten. Der Steuerungsparameter, welcher eingegeben werden soll, ist der Gleiche, wie derjenige, welcher bei Schritt SA2 in 7 eingegeben werden soll.
  • Das bedeutet, dass ein Vibratoeffekt zu dem EpR Parameter hinzugefügt werden soll, welcher von der Merkmalparametererzeugungseinheit 4 zwischen Time [s] = VibBeginTime [s] und Time [s] = (VibBeginTime [s] + VibDuration [s]) in dem Vibratohinzufügungsteil 5 geliefert wird.
  • Bei Schritt SB3 wird der Algorithmus zur Vibratohinzufügung initialisiert, wenn die derzeitige Zeit Time [s] = VibBeginTime [s] ist. In diesem Prozess werden zum Beispiel das Flag VibAttackFlag, das Flag VibBodyFlag und das Flag VibReleaseFlag auf „1" gesetzt. Dann fährt der Prozess zu dem nächsten Schritt SB4 fort.
  • Bei Schritt SB4 wird ein Vibratodatensatz, welcher zu der derzeitigen Synthetisiertonhöhe der Vibratodatenbank in der Datenbank 3 in 1 passt, und eine Vibratodatendauer, welche verwendet werden soll, erhalten. Die Dauer des Vibratoanfangsteils wird derart eingestellt, dass sie VibAttackDuration [s] ist, die Dauer des Vibratohauptteils wird derart eingestellt, dass sie VibBodyDuration [s] ist, und die Dauer des Vibratoendteils wird derart eingestellt, dass die VibReleaseDuration [s] ist. Dann fährt der Prozess zu dem nächsten Schritt SB5 fort.
  • Bei Schritt SB5 wird das Flag VibAttackFlag überprüft. Wenn das Flag VibAttackFlag = 1 ist, fährt der Prozess zu einem Schritt SB6 fort, welcher durch einen JA Pfeil angezeigt ist. Wenn das Flag VibAttackFlag = 0 ist, fährt der Prozess zu einem Schritt SB10 fort, welcher durch einen NEIN Pfeil angezeigt ist.
  • Bei Schritt SB6 wird der Vibratoanfangsteil von der Vibratodatenbank VDB ausgelesen, und auf DBData eingestellt. Dann fährt der Prozess zu dem nächsten Schritt SB7 fort.
  • Bei Schritt SB7 wird VibRateFactor berechnet durch die vorstehend beschriebene Gleichung (10). Ferner wird eine Lesezeit (Geschwindigkeit) der Vibratodatenbank VDB durch die vorstehend beschriebene Gleichung (11) berechnet, und das Resultat wird derart eingestellt, dass es NewTime [s] ist. Dann fährt der Prozess zu dem nächsten Schritt SB8 fort.
  • Bei Schritt SB8 wird NewTime [s], berechnet bei Schritt SB7, mit der Dauer des Vibratoanfangsteils VibAttackDuration [s] verglichen. Wenn NewTime [s] VibAttackDuration [s] übersteigt (NewTime [s] > VibAttackDuration [s]), das bedeutet, wenn der Vibratoanfangsteil von dem Anfang zu dem Ende ver wendet wird, fährt der Prozess zu Schritt SB9 fort, angezeigt durch einen JA Pfeil zum Hinzufügen von Vibrato unter Verwendung des Vibratohauptteils. Wenn NewTime [s] nicht VibAttackDuration [s] übersteigt, fährt der Prozess zu Schritt SB20 fort, angezeigt durch einen NEIN Pfeil.
  • Bei Schritt SB9 wird das Flag VibAttackFlag auf „0" gesetzt, und der Vibratoanfang wird beendet. Ferner wird die Zeit zu dieser Zeit derart eingestellt, dass sie VibAttackEndTime [s] ist. Dann fährt der Prozess zu Schritt SB10 fort.
  • Bei Schritt SB10 wird das Flag VibBodyFlag überprüft. Wenn das Flag VibBodyFlag = 1 ist, fährt der Prozess zu Schritt SB11 fort, angezeigt durch einen JA Pfeil. Wenn das Flag VibBodyFlag = 0 ist, wird der Vibratohinzufügungsprozess als beendet betrachtet, und der Prozess fährt zu Schritt SB15 fort, angezeigt durch einen NEIN Pfeil.
  • Bei Schritt SB11 wird der Vibratohauptteil von der Vibratodatenbank VDB gelesen und derart eingestellt, dass er DBData ist. Dann fährt dieser Prozess zu Schritt SB12 fort.
  • Bei Schritt SB12 wird VibRateFactor durch die obige Gleichung (10) berechnet. Ferner wird die Lesezeit (Geschwindigkeit) der Vibratodatenbank VDB durch die oben beschriebenen Gleichungen (14) bis (17) berechnet, welche gleich sind wie bei Schritt SA12, um den Vibratohauptteil Spiegel zu schleifen, und das Resultat wird derart eingestellt, dass es NewTime [s] ist.
  • Auch wird die Nummer, welche in den Vibratohauptteil geschleift wurde, durch zum Beispiel eine unten stehende Gleichung (18) berechnet. Dann fährt der Prozess zu dem nächsten Schritt SB13 fort. If ((VibDuration·VibRateFactor – (VibAttackDuration + VibReleaseDuration)) < 0) nBodyLoop = 0; else nBodyLoop = (int)((VibDuration·VibRateFactor – (VibAttackDuration + VibReleaseDuration))/VibBodyDuration)
  • Bei Schritt SB13 wird es selektiert, ob nach dem Eintreten in den Vibratohauptteil mehr als die Anzahl von Malen einer Schleife ist (nBodyLoop). Wenn die Anzahl von Malen einer Wiederholung des Vibratos mehr als die Anzahl von Malen einer Schleife (nBodyLoop) ist, fährt der Prozess zu Schritt SB14 fort, angezeigt durch einen JA Pfeil. Wenn die Anzahl von Malen einer Wiederholung des Vibratos nicht mehr ist als die Anzahl von Malen einer Schleife (nBodyLoop), fährt der Prozess zu Schritt SB20 fort, angezeigt durch einen NEIN Pfeil.
  • Bei Schritt SB14 wird das Flag VibBodyFlag auf „0" gesetzt, und die Verwendung des Vibratohauptteils wird beendet. Dann fährt der Prozess zu Schritt SB15 fort.
  • Bei Schritt SB15 wird das Flag VibReleaseFlag überprüft. Wenn das Flag VibReleaseFlag = 1 ist, fährt der Prozess zu einem Schritt SB16 fort, welcher durch einen JA Pfeil angezeigt ist. Wenn das Flag VibReleaseFlag = 0 ist, fährt der Prozess zu einem Schritt SB24 fort, welcher durch einen NEIN Pfeil angezeigt ist.
  • Bei Schritt SB16 wird der Vibratoendteil aus der Vibratodatenbank VDB gelesen und derart eingestellt, dass er DBData ist. Dann fährt der Prozess zu Schritt SB17 fort.
  • Bei Schritt SB17 wird VibRateFactor durch die obige Gleichung (10) berechnet. Ferner wird eine Lesezeit (Geschwindigkeit) der Vibratodatenbank VDB durch die oben beschriebene Gleichung (11) berechnet, und das Resultat wird derart eingestellt, dass es NewTime [s] ist. Dann fährt der Prozess zu dem nächsten Schritt SB18 fort.
  • Bei Schritt SB18 wird NewTime [s], berechnet bei Schritt 17, mit der Dauer des Vibratoendteils VibReleaseDuration [s] verglichen. Wenn NewTime (s] VibReleaseDuration [s] übersteigt (NewTime [s] > VibReleaseDuration [s]), dass heißt, wenn der Vibratoanfangsteil von dem Anfang zu dem Ende verwendet wird, fährt der Prozess mit Schritt SB19 fort, angezeigt durch einen JA Pfeil zum Hinzufügen von Vibrato unter Verwendung des Vibratoendteils. Wenn NewTime [s] nicht VibReleaseDuration [s] übersteigt, fährt der Prozess zu Schritt SB20 fort, welcher durch einen NEIN Pfeil angezeigt ist.
  • Bei Schritt SB19 wird das Flag VibReleaseFlag auf „0" eingestellt, und das Vibratoende wird beendet. Dann fährt der Prozess zu Schritt SB24 fort.
  • Der EpR Parameter (Pitch, EGain, etc.) zu der Zeit New Time (s] wird von DBData erhalten. Wenn die Zeit NewTime [s] in der Mitte der Rahmenzeit in einem tatsächlichen Datum in DBData ist, werden die EpR Parameter in den Rahmen vor und nach der Zeit NewTime [s] durch eine Interpolation (zum Beispiel Linieninterpolation) berechnet. Dann fährt der Prozess zu Schritt SA21 fort.
  • Wenn der Prozess fortgeführt wurde folgend auf den „NEIN" Pfeil bei Schritt SB8, ist DBData der Vibratoanfang DB. Und wenn der Prozess folgend auf den „NEIN" Pfeil bei Schritt SB13 fortgeführt wurde, ist DBDAta der Vibratohauptteil DB, und wenn der Prozess folgend auf den „NEIN" Pfeil bei Schritt SB18 fortgeführt wurde, ist DBData das Vibratoende DB.
  • Bei Schritt SA16 wird ein Deltawert (zum Beispiel Pitch oder EGain, etc.) für jeden EpR Parameter zu der derzeitigen Zeit durch das vorstehend beschriebene Verfahren erhalten. In diesem Prozess wird der Deltawert gemäß dem Wert von PitchDepth [cent] und TremoloDepth [cent] wie oben stehend beschrieben erhalten. Dann fährt der Prozess zu dem nächsten Schritt SB22 fort.
  • Bei Schritt SB22 wird ein Deltawert des EpR Parameters, welcher bei Schritt SB21 erhalten wurde, zu jedem Parameterwert hinzugefügt, welcher von der Merkmalparametererzeugungseinheit 4 in 1 geliefert wurde, und ein neuer EpR Parameter wird erzeugt. Dann fährt der Prozess zu dem nächsten Schritt SB23 fort.
  • Bei Schritt SB23 wird der neue EpR Parameter, welcher bei Schritt SB22 erzeugt wurde, zu der EpR Synthetisiermaschine 6 in 1 ausgegeben. Dann fährt der Prozess zu dem nächsten Schritt SB24 fort, und der Vibratohinzufügungsprozess wird beendet.
  • Wie oben stehend kann gemäß diesem Ausführungsbeispiel der vorliegenden Erfindung ein reales Vibrato zu der Synthetisierstimme durch Verwendung der Datenbank hinzugefügt werden, welche in die EpR analysierten Daten der Vibrato hinzugefügten realen Stimme in den Anfangsteil, den Hauptteil und den Endteil zu der Zeit der Stimmensynthese aufgeteilt ist.
  • Auch kann gemäß diesem Ausführungsbeispiel der vorliegenden Erfindung, obwohl wenn der Vibratoparameter (zum Beispiel die Tonhöhe oder Ähnliches) basierend auf einer realen Stimme, gespeichert in der ursprünglichen Datenbank verschlankt wird, eine Parameterveränderung mit entfernter Verschlankung zu der Zeit der Synthese gegeben werden. Deshalb kann natürlicheres und ideales Vibrato hinzugefügt werden.
  • Auch kann gemäß dem Ausführungsbeispiel der vorliegenden Erfindung, obwohl wenn der Vibratoendteil nicht verwendet wird, Vibrato durch Multiplizieren des Deltawerts des EpR Parameters mit dem Koeffizienten MulDelta und Verringern des Deltawerts von einer Position in der Vibratodauer abgeschwächt werden. Vibrato kann natürlich beendet werden durch Entfernen der schnellen Veränderung des EpR Parameters zu der Zeit des Vibratoendes.
  • Auch kann gemäß dem Ausführungsbeispiel der vorliegenden Erfindung, weil die Datenbank für den Anfang und das Ende des Vibratohauptteils derart erzeugt wird, dass sie den Maximalwert des Parameters annimmt, ein Vibratohauptteil nur durch Lesen von Zeit rückwärts zu der Zeit der Spiegelschleife des Vibratohauptteils ohne Verändern des Werts des Parameters wiederholt werden.
  • Ferner kann das Ausführungsbeispiel der vorliegenden Erfindung auch in einem Karaokesystem oder Ähnlichem verwendet werden. In diesem Fall wird eine Vibratodatenbank für das Karaokesystem vorher vorbereitet, und der EpR Parameter wird durch eine EpR Analyse der Stimme, welche in Echtzeit eingegeben werden soll, erhalten. Dann kann ein Vibratohinzufügungsprozess durch das gleiche Verfahren wie dasjenige des Ausführungsbeispiels der vorliegenden Erfindung zu dem EpR Parameter manipuliert werden. In dem dies getan wird, kann ein reales Vibrato zu dem Karaoke hinzugefügt werden, zum Beispiel kann ein Vibrato zu einem Lied durch einen nicht in Singtechnik ausgebildeten Sänger hinzugefügt werden, wie wenn ein professioneller Sänger singt.
  • Obwohl das Ausführungsbeispiel der vorliegenden Erfindung hauptsächlich die synthetisierte Singstimme erklärt, können Stimmen in gewöhnlichen Unterhaltungen oder Klänge von Musikinstrumenten auch synthetisiert werden.
  • Ferner kann das Ausführungsbeispiel der vorliegenden Erfindung durch einen Computer auf dem Markt realisiert werden, auf welchem ein Computerprogramm oder Ähnliches korrespondierend zu dem Ausführungsbeispiel der vorliegenden Erfindung installiert ist.
  • In diesem Fall wird ein Speichermedium vorgesehen, welches ein Computer lesen kann, wie eine CD-Rom, Floppydiskette, etc., welches ein Computerprogramm zum Realisieren des Ausführungsbeispiels der vorliegenden Erfindung speichert.
  • Wenn der Computer oder Ähnliches mit einem Kommunikationsnetzwerk wie dem LAN, dem Internet oder einem Telefonschaltkreis, verbunden ist, können das Computerprogramm, verschiedene Arten von Daten, etc. zu dem Computer oder Ähnlichem über das Kommunikationsnetzwerk geliefert werden.

Claims (9)

  1. Eine Stimmensynthetisiervorrichtung, welche Folgendes aufweist: Speichermittel (3) zum Speichern einer ersten Datenbank, welche einen ersten Parameter speichert, welcher durch Analysieren einer Stimme erhalten wurde, und einer zweiten Datenbank, welche für jeden eines Vibratoanschlags- bzw. -anfangsteils und eines Vibratokörper- bzw. -haupteils einen zweiten Parameter speichert, welcher durch Analysieren einer Stimme mit Vibrato erhalten wurde; Eingabemittel (2) zum Eingeben von Information für eine Stimme, welche synthetisiere werden soll; Erzeugungsmittel (4) zum Erzeugen eines dritten Parameters basierend auf dem ersten Parameter, ausgelesen von der ersten Datenbank und dem zweiten Parameter, ausgelesen von der zweiten Datenbank, gemäß der Eingabeinformation; und Synthetisiermittel (7) zum Synthetisieren der Sprache gemäß dem dritten Parameter.
  2. Eine Stimmensynthetisiervorrichtung gemäß Anspruch 1, wobei die zweite Datenbank ferner den zweiten Parameter für einen Loslass- bzw. Endteil speichert.
  3. Eine Stimmensynthetisiervorrichtung gemäß einem der Ansprüche 1 oder 2, wobei ein Anfangspunkt oder ein Endpunkt des zweiten Parameters ein Maximalwert des zweiten Parameters ist.
  4. Eine Stimmensynthetisiervorrichtung gemäß Anspruch 3, welche ferner Folgendes aufweist: Looping- bzw. Schleifenmittel zum Erzeugen eines vierten Parameters zum Hinzufügen von Vibratoeffekt länger als die Dauer des Hauptteils des zweiten Parameters durch Schleifenbildung bzw. Wiederholen des Hauptteils, wobei das Synthetisiermittel Stimme mit dem Vibratoeffekt gemäß dem vierten Parameter synthetisiert.
  5. Eine Stimmensynthetisiervorrichtung gemäß Anspruch 1, wobei ein Versatzabziehprozess in dem Hauptteil des zweiten Parameters durchgeführt wird, bevor der dritte Parameter erzeugt wird.
  6. Eine Stimmensynthetisiervorrichtung gemäß Anspruch 1, wobei das Erzeugungsmittel den dritten Parameter durch Hinzufügen des ersten Parameters und eines Werts, welcher gemäß dem zweiten Parameter berechnet wurde, erzeugt.
  7. Eine Stimmensynthetisiervorrichtung gemäß Anspruch 6, wobei der Wert, welcher gemäß dem zweiten Parameter berechnet wurde, ein Differenzwert von einem vorbestimmten Wert ist.
  8. Ein Stimmensynthetisierverfahren, welches folgende Schritte aufweist: (a) Eingeben von Information für eine Stimme, welche synthetisiert werden soll; (b) Auslesen des ersten Parameters und des zweiten Parameters gemäß der eingegebenen Information, und zwar aus Speichermitteln zum Speichern einer ersten Datenbank, welche einen ersten Parameter speichert, welcher durch Analysieren einer Stimme erhalten wurde, und einer zweiten Datenbank, welche für jeden eines Vibratoanschlags- bzw. -anfangsteils und eines Vibratokörper- bzw. -hauptteils einen zweiten Parameter speichert, welcher durch Analysieren einer Stimme mit Vibrato erhalten wurde; (c) Erzeugen eines dritten Parameters basierend auf dem ersten Parameter, welcher aus der ersten Datenbank ausgelesen wurde, und dem zweiten Parameter, welcher aus der zweiten Datenbank ausgelesen wurde; und (d) Synthetisieren der Stimme gemäß dem dritten Parameter.
  9. Ein Speichermedium, welches ein Programm speichert, welches ein Computer ausführt, um einen Stimmensynthetisierprozess zu realisieren, welches folgende Anweisungen aufweist: (a) Eingeben von Information für eine Stimme, welche synthetisiert werden soll; (b) Auslesen des ersten Parameters und des zweiten Parameters gemäß der eingegebenen Information, und zwar aus Speichermitteln zum Speichern einer ersten Datenbank, welche einen ersten Parameter speichert, welcher durch Analysieren einer Stimme erhalten wurde, und einer zweiten Datenbank, welche für jeden eines Vibratoanschlags- bzw. -anfangsteils und eines Vibratokörper- bzw. -hauptteils einen zweiten Parameter speichert, welcher durch Analysieren einer Stimme mit Vibrato erhalten wurde; (c) Erzeugen eines dritten Parameters basierend auf dem ersten Parameter, welcher aus der ersten Datenbank ausgelesen wurde, und dem zweiten Parameter, welcher aus der zweiten Datenbank ausgelesen wurde; und (d) Synthetisieren der Stimme gemäß dem dritten Parameter.
DE60218587T 2001-09-03 2002-09-03 Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen Expired - Lifetime DE60218587T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001265489 2001-09-03
JP2001265489A JP3709817B2 (ja) 2001-09-03 2001-09-03 音声合成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
DE60218587D1 DE60218587D1 (de) 2007-04-19
DE60218587T2 true DE60218587T2 (de) 2007-06-28

Family

ID=19091945

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60218587T Expired - Lifetime DE60218587T2 (de) 2001-09-03 2002-09-03 Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen

Country Status (4)

Country Link
US (1) US7389231B2 (de)
EP (1) EP1291846B1 (de)
JP (1) JP3709817B2 (de)
DE (1) DE60218587T2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4327241B2 (ja) * 2007-10-01 2009-09-09 パナソニック株式会社 音声強調装置および音声強調方法
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
WO2010097870A1 (ja) * 2009-02-27 2010-09-02 三菱電機株式会社 音楽検索装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4866777A (en) * 1984-11-09 1989-09-12 Alcatel Usa Corporation Apparatus for extracting features from a speech signal
US4862503A (en) * 1988-01-19 1989-08-29 Syracuse University Voice parameter extractor using oral airflow
JP2627770B2 (ja) * 1988-05-26 1997-07-09 株式会社河合楽器製作所 電子楽器
US5444818A (en) * 1992-12-03 1995-08-22 International Business Machines Corporation System and method for dynamically configuring synthesizers
US5536902A (en) 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JP3663681B2 (ja) 1995-08-01 2005-06-22 ヤマハ株式会社 ビブラート付加装置
JP3144273B2 (ja) 1995-08-04 2001-03-12 ヤマハ株式会社 自動歌唱装置
US5781636A (en) * 1996-04-22 1998-07-14 United Microelectronics Corporation Method and apparatus for generating sounds with tremolo and vibrato sound effects
US5744739A (en) * 1996-09-13 1998-04-28 Crystal Semiconductor Wavetable synthesizer and operating method using a variable sampling rate approximation
JPH10124082A (ja) 1996-10-18 1998-05-15 Matsushita Electric Ind Co Ltd 歌声合成装置
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
US5890115A (en) * 1997-03-07 1999-03-30 Advanced Micro Devices, Inc. Speech synthesizer utilizing wavetable synthesis
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JPH11352997A (ja) 1998-06-12 1999-12-24 Oki Electric Ind Co Ltd 音声合成装置およびその制御方法
DE60018626T2 (de) 1999-01-29 2006-04-13 Yamaha Corp., Hamamatsu Vorrichtung und Verfahren zur Eingabe von Steuerungsdateien für Musikvorträge
JP3702691B2 (ja) 1999-01-29 2005-10-05 ヤマハ株式会社 自動演奏の制御データ入力装置
JP3116937B2 (ja) 1999-02-08 2000-12-11 ヤマハ株式会社 カラオケ装置
JP3832147B2 (ja) 1999-07-07 2006-10-11 ヤマハ株式会社 曲データ加工方法
US6392135B1 (en) 1999-07-07 2002-05-21 Yamaha Corporation Musical sound modification apparatus and method
JP3430985B2 (ja) * 1999-08-05 2003-07-28 ヤマハ株式会社 合成音生成装置
US6316710B1 (en) * 1999-09-27 2001-11-13 Eric Lindemann Musical synthesizer capable of expressive phrasing
JP3716725B2 (ja) 2000-08-28 2005-11-16 ヤマハ株式会社 音声処理装置、音声処理方法および情報記録媒体
JP3838039B2 (ja) 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech

Also Published As

Publication number Publication date
EP1291846B1 (de) 2007-03-07
US20030046079A1 (en) 2003-03-06
JP2003076387A (ja) 2003-03-14
DE60218587D1 (de) 2007-04-19
EP1291846A2 (de) 2003-03-12
EP1291846A3 (de) 2004-02-11
US7389231B2 (en) 2008-06-17
JP3709817B2 (ja) 2005-10-26

Similar Documents

Publication Publication Date Title
DE69614938T2 (de) Verfahren und vorrichtung zur änderung des klanges und/oder der tonhöhe von audiosignalen
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE69222782T2 (de) Verfahren und vorrichtung für die erzeugung von vokal-harmonien
DE60313539T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE602004000873T2 (de) Vorrichtung zur Synthese einer singenden Stimme unter Berücksichtigung unterschiedlicher Modelle je nach Ansatzkontext der gesungenen Töne
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE60026189T2 (de) Verfahren und Vorrichtung zur Wellenformkomprimierung und Erzeugung
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
DE60024157T2 (de) Vorrichtung und Verfahren zur Eingabe eines Vortragstils
DE112013005807T5 (de) Vorrichtung und Verfahren zur Erzeugung einer Echtzeitmusikbegleitung
DE69720861T2 (de) Verfahren zur Tonsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE60318282T2 (de) Methoden und Vorrichtung zur Verarbeitung von Ausführungsdaten und zur Synthetisierung von Tonsignalen
DE60033098T2 (de) Verfahren und Vorrichtung zur Aufnahme/Wiedergabe oder Erzeugung von Wellenformen mittels Zeitlageinformation
DE60218587T2 (de) Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen
DE69722585T2 (de) Synthese von wellenformen
DE69009571T2 (de) Sprachsynthesizer.
DE69014680T2 (de) Einrichtung zur Stimmensynthese.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition