DE69826446T2 - Stimmumwandlung - Google Patents

Stimmumwandlung Download PDF

Info

Publication number
DE69826446T2
DE69826446T2 DE69826446T DE69826446T DE69826446T2 DE 69826446 T2 DE69826446 T2 DE 69826446T2 DE 69826446 T DE69826446 T DE 69826446T DE 69826446 T DE69826446 T DE 69826446T DE 69826446 T2 DE69826446 T2 DE 69826446T2
Authority
DE
Germany
Prior art keywords
target
signal segment
source signal
source
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69826446T
Other languages
English (en)
Other versions
DE69826446D1 (de
Inventor
M. Levent ARSLAN
David Talkin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Application granted granted Critical
Publication of DE69826446D1 publication Critical patent/DE69826446D1/de
Publication of DE69826446T2 publication Critical patent/DE69826446T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Description

  • VERWANDTE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung Nr. US 19970036227P mit dem Titel "Voice Conversion by Segmental Codebook Mapping of Line Spectral Frequencies and Excitation System", die am 27. Januar 1997 von Levent M. Arslan und David Talkin eingereicht wurde.
  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Stimmumwandlung und insbesondere Systeme und Methodologien zur Codebuch-basierten Stimmumwandlung.
  • ALLGEMEINER STAND DER ERFINDUNG
  • Ein System zur Stimmumwandlung empfängt Sprache von einem Sprecher und wandelt die Sprache so um, dass sie wie die Sprache eines anderen Sprechers klingt. Stimmumwandlung ist in einer Vielfalt von Anwendungen nützlich. Beispielsweise kann ein Spracherkennungssystem so ausgebildet werden, dass es die Stimme einer bestimmten Person oder eine normalisierte Zusammensetzung von Stimmen erkennt. Die Stimmumwandlung im Vorfeld (front-end) des Spracherkennungssystems ermöglicht es einer neuen Person, das System effizient zu nutzen, indem die Stimme der neuen Person in die Stimme umgewandelt wird, für deren Erkennung das Spracherkennungssystem ausgelegt ist. In einem nachgeschalteten Verarbeitungsschritt ändert die Stimmumwandlung die Stimme eines Text/Sprache-Sprachgenerators. Die Stimmumwandlung findet auch Anwendungen beim Stimmen unkenntlich machen, bei Dialekt-Modifizierungen, beim Synchronisieren in Fremdsprachen, um die Stimme eines Original-Schauspielers beizubehalten, und bei neuen Systemen, wie beispielsweise der Nachahmung der Stimme von Prominenten, beispielsweise in Karaoke-Anlagen.
  • Um Sprache von einer "Ausgangs"-Stimme in eine "Ziel"-Stimme umzuwandeln, werden Codebücher der Ausgangsstimme und Zielstimme üblicherweise in einer Ausbildungs phase vorbreitet. Ein Codebuch ist eine Sammlung von "Phonemen" (phones), die Einheiten von Sprachklängen sind, die eine Person äußert. Beispielsweise enthält das gesprochene englische Wort "cat" im allgemeinen amerikanischen Dialekt drei Phoneme [K], [AE] und [T], und das Wort "cot" enthält drei Phoneme [K], [AA] und [T]. In diesem Beispiel haben "cat" und "cot" den Anfangs- und Endkonsonanten gemeinsam, verwenden aber unterschiedliche Vokale. Codebücher sind so strukturiert, dass sie eine Eins-zu-Eins-Zuordnung zwischen den Phonem-Einträgen in einem Quellen-Codebuch und den Phonem-Einträgen in dem Ziel-Codebuch bereitstellen.
  • Das US-Patent Nr. 5,327,521 beschreibt ein herkömmliches System zur Stimmumwandlung, das eine Codebuch-Methode verwendet. Ein Eingangssignal von einem Ausgangssprecher wird abgetastet und durch Segmentierung in "Rahmen" aufbereitet, die einer Spracheinheit entsprechen. Jeder Rahmen wird mit dem "am nächsten kommenden" Quellen-Codebucheintrag abgeglichen und anschließend zu dem entsprechenden Ziel-Codebucheintrag zugeordnet, um ein Phonem in der Stimme des Zielsprechers zu erhalten. Die zugeordneten Rahmen werden verkettet, um Sprache in der Zielstimme zu erzeugen. Ein Nachteil bei diesem und ähnlichen Systemen zur Stimmumwandlung ist die Einführung von Artefakten an Rahmengrenzen, die zu einem ziemlich groben Übergang zwischen den Zielrahmen führen. Des Weiteren wird die Abweichung zwischen dem Klang des Rahmens mit eingegebener Sprache (input speech frame) und dem Quellen-Codebucheintrag verworfen, der die beste Entsprechung ist, was zu einer Stimmumwandlung mit geringer Qualität führt.
  • Eine allgemeine Ursache für die Abweichung zwischen den Klängen in der Sprache und im Codebuch besteht darin, dass die Klänge je nach ihrer Position in einem Wort unterschiedlich sind. Beispielsweise besitzt das Phonem /t/ mehrere "Allophone". Am Anfang eines Worts, wie in der allgemeinen amerikanischen Aussprache des Worts "top", ist das /t/-Phonem ein stimmloser, harter, gehauchter alveolarer Stopplaut. In einer Anfangsgruppe mit einem /s/, wie im Wort "stop", ist es ein stimmloser, harter, nicht gehauchter alveolarer Stopplaut. In der Mitte eines Worts zwischen Vokalen, wie in "potter", ist es ein alveolarer Flap. Am Ende eines Wortes, wie in "pot", ist es ein stimmloser, weicher, nicht gehauchter alveolarer Stopplaut. Obwohl die Allophone eines Konsonanten wie /t/ unterschiedlich ausgesprochen werden, erzeugt ein Codebuch mit nur einem Eintrag für das /t/-Phonem nur eine Art von /t/-Klang und damit eine nicht überzeugende Ausgabe. Der Satzrhythmus trägt ebenfalls zu Unterschieden im Klang bei, da ein Konsonant oder Vokal etwas anders klingen, wenn sie in einer höheren oder tieferen Stimmlage, mehr oder weniger schnell und mit mehr oder weniger Betonung gesprochen werden.
  • Dementsprechend besteht ein herkömmlicher Versuch, die Qualität der Stimmumwandlung zu verbessern darin, die Menge der Ausbildungsdaten und die Anzahl der Codebuch-Einträge stark zu erhöhen, um die verschiedene Allophone der gleichen Phoneme und unterschiedliche prosodische Bedingungen zu berücksichtigen. Umfangreichere Codebuch-Größen führen zu erhöhten Speicher- und Rechnerkosten. Herkömmliche Systeme zur Stimmumwandlung leiden auch deswegen unter einem Qualitätsverlust, weil sie ihre Codebuch-Zuordnung typischerweise in einem akustischen Raum durchführen, der durch lineare prädiktive Codierungskoeffizienten definiert wird. Die lineare prädiktive Codierung ist eine allpolige Modellierung von Sprache und stellt daher die Nullen in einem Sprachsignal, die im Allgemeinen häufiger in Nasallauten und in nicht an der Stimmritze erzeugten Klängen zu finden sind, nicht adäquat dar. Die lineare prädiktive Codierung hat auch Schwierigkeiten mit Klängen in höheren Stimmlagen, beispielsweise Frauenstimmen und Kinderstimmen.
  • Der Artikel "Speaker adaptation and voice conversion by codebook mapping", Shikano K. und andere, 1999, IEEE Internationales Symposium über Schaltkreise und Systeme offenbart ein Verfahren zum Umwandeln eines Quellensignals einer Ausgangsstimme in ein Zielsignal, das eine Zielstimme darstellt. Das System weist maschinenimplementierte Schritte auf.
  • Es besteht ein Bedarf an einem System und einer Methodologie zur Stimmumwandlung, die eine Ausgabe mit verbesserter Qualität aufweisen, die vorzugsweise aber immer noch rechnerisch handhabbar sind. Unterschiede im Klang auf Grund von Wortstellung und Satzrhythmus müssen behandelt werden, ohne die Größe der Codebücher zu erhöhen. Des Weiteren besteht ein Bedarf, Stimm-Merkmale zu berücksichtigen, die von der linearen prädiktiven Codierung nicht gut unterstützt werden, wie beispielsweise die Anregung der Glottis, nasalierte Klänge und Klänge, die nicht an der Stimmritze entstehen.
  • Dementsprechend ist ein Gesichtspunkt der Erfindung ein Verfahren zum Umwandeln eines Quellensignals, das eine Ausgangsstimme darstellt, in ein Zielsignal, das eine Zielstimme darstellt, wobei das Verfahren die folgenden maschinenimplementierten Schritte umfasst:
    • Aufbereiten des Quellensignals zum Erzeugen eines Quellensignalsegments;
    • Vergleichen des Quellensignalsegments mit einer Vielzahl von Quellen-Codebucheinträgen, die Sprecheinheiten in der Ausgangsstimme darstellen, um daraus eine Vielzahl von entsprechenden Wertigkeiten zu erzeugen;
    • Umwandeln des Quellensignalsegments in ein Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von Ziel-Codebucheinträgen, die Sprecheinheiten in der Zielstimme darstellen, wobei die Ziel-Codebucheinträge der Vielzahl von Quellen-Codebucheinträgen entsprechen; und
    • Nachbearbeiten des Zielsignalsegments zum Generieren des Zielsignals; dadurch gekennzeichnet, dass das Umwandeln des Quellensignalsegments in ein Zielsignalsegment das Reduzieren von Formanten-Bandbreiten in dem Zielsegment umfasst.
  • Die Erfindung umfasst auch ein entsprechendes computerlesbares Medium.
  • Unter einem anderen Gesichtspunkt der Erfindung wird das Quellensignalsegment mit den Quellen-Codebucheinträgen als Linienspektrum-Frequenzen verglichen, um das Berechnen des gewichteten Durchschnittwerts zu erleichtern. Unter noch einem weiteren Gesichtspunkt der Erfindung werden die Wertigkeiten durch eine Gradientabfall-Analyse verfeinert, um die Stimmenqualität weiter zu verbessern. Unter einem weiteren Gesichtspunkt der Erfindung werden beide, Vokaltrakt-Merkmale und Anregungsmerkmale entsprechend den Wertigkeiten umgewandelt, wobei Anregungsmerkmale in einer rechnerisch handhabbaren Weise bearbeitet werden.
  • Weitere Anforderungen, Aufgaben, Vorteile und neue Merkmale der vorliegenden Erfindung werden teilweise in der folgenden Beschreibung erläutert und werden teilweise aus der Prüfung oder durch die Anwendung der Prüfung offenkundig oder erfahren. Die Aufgaben und Vorteile der Erfindung können durch die in den Ansprüchen im Anhang besonders hervorgehobenen Mitwirkungen und Kombinationen ausgeführt und erhalten werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die vorliegende Erfindung wird beispielhaft, aber nicht einschränkend in den Figuren der folgenden begleitenden Zeichnungen veranschaulicht, und in diesen beziehen sich gleiche Bezugszeichen auf ähnliche Elemente:
  • 1 stellt schematisch ein Computersystem dar, das die vorliegende Erfindung implementieren kann;
  • 2 stellt Codebuch-Einträge für einen Ausgangssprecher und einen Zielsprecher dar;
  • 3 ist ein Ablaufdiagramm, das den Vorgang der Stimmumwandlung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
  • 4 ist ein Ablaufdiagramm, das den Vorgang des Verfeinerns der Codebuch-Wertigkeit durch eine Gradientabfall-Analyse gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht; und
  • 5 stellt eine Bandbreitenreduzierung von Formanten eines gewichteten Zielstimmenspektrums gemäß einer Ausführungsform der vorliegenden Erfindung dar.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Es wird ein Verfahren und eine Vorrichtung zur Stimmumwandlung beschrieben. In der folgenden Beschreibung werden zu Erklärungszwecken zahlreiche spezifische Details erläutert, um ein gründliches Verständnis der vorliegenden Erfindung bereitzustellen.
  • Für einen Fachmann wird es jedoch offenkundig, dass die vorliegende Erfindung ohne diese spezifischen Details angewendet werden kann. In anderen Beispielen werden bekannte Strukturen und Einrichtungen im Blockschaltbild-Format gezeigt, um die vorliegende Erfindung nicht unnötig undeutlich zu machen.
  • HARDWARE-ÜBERSICHT
  • 1 ist ein Blockschaltbild, das ein Computersystem 100 darstellt, auf dem eine Ausführungsform der Erfindung implementiert werden kann. Das Computersystem 100 enthält einen Bus 102 oder einen anderen Kommunikationsmechanismus zum Übermitteln von Informationen und einen Prozessor (oder eine Vielzahl von Zentraleinheiten, die zusammenwirkend arbeiten) 104, der mit dem Bus 102 für die Verarbeitung von Informationen gekoppelt ist. Das Computersystem 100 enthält auch einen Hauptspeicher 106, wie beispielsweise einen Direktzugriffsspeicher (RAM) oder eine andere dynamische Speichereinrichtung, die mit dem Bus 102 zum Speichern von Informationen und Anweisungen gekoppelt sind, die vom Prozessor 104 ausgeführt werden sollen. Der Hauptspeicher 106 kann auch zum Speichern von temporären Variablen oder anderen Zwischeninformationen während der Ausführung von Anweisungen verwendet werden, die vom Prozessor 104 ausgeführt werden sollen. Der Computer 100 enthält des Weiteren einen Festwertspeicher (ROM) 108 oder eine andere statische Speichereinrichtung, die zum Speichern statischer Informationen und Anweisungen für den Prozessor 104 an den Bis 102 gekoppelt sind. Eine Speichereinrichtung 110, wie beispielsweise eine Magnetplatte oder Bildplatte, ist bereitgestellt und mit dem Bus 102 zum Speichern von Informationen und Anweisungen gekoppelt.
  • Das Computersystem 100 kann über den Bus 102 mit einer Anzeigevorrichtung 111, wie beispielsweise einer Kathodenstrahlröhre (CRT), zum Anzeigen von Informationen für einen Computer-Benutzer gekoppelt werden. Eine Eingabeeinrichtung 113, die alphanumerische und andere Tasten umfasst, ist mit dem Bus 102 zum Übermitteln von Informationen und Befehlsauswahlen an den Prozessor 104 gekoppelt. Eine weitere Art von Benutzer-Eingabeeinrichtung ist die Schreibmarkensteuerung 115, wie beispielsweise eine Maus, eine Rollkugel oder Schreibmarken-Richtungstasten zum Übermitteln von Richtungsinformationen und Befehlsauswahlen an den Prozessor 104 und zum Steuern der Schreibmarken-Bewegung auf der Anzeigevorrichtung 111. Diese Eingabeeinrich tung weist üblicherweise zwei Freiheitsgrade in zwei Achsen auf, einer ersten Achse (z.B. x) und einer zweiten Achse (z.B. y), die es der Einrichtung ermöglichen, Positionen in einer Ebene anzugeben. Für eine Audio-Ausgabe und -Eingabe kann das Computersystem 100 jeweils mit einem Lautsprecher 117 und einem Mikrofon 119 gekoppelt werden.
  • Die Erfindung steht in Beziehung mit der Verwendung des Computersystems 100 zur Stimmumwandlung. Gemäß einer Ausführungsform der Erfindung wird die Stimmumwandlung durch ein Computersystems 100 in Reaktion auf einen Prozessor 104 bereitgestellt, der eine oder mehr Sequenzen von einer oder mehr Anweisungen ausführt, die im Hauptspeicher 106 gespeichert sind. Solche Anweisungen können in den Hauptspeicher 106 aus einem anderen computerlesbaren Medium eingelesen werden, wie beispielsweise der Speichereinrichtung 110. Die Ausführung der Anweisungssequenzen, die im Hauptspeicher 106 enthalten sind, veranlasst den Prozessor 104, die darin beschriebenen Schritte auszuführen. Einer oder mehr Prozessoren in einer Simultanverarbeitungs-Anordnung können ebenfalls eingesetzt werden, um die im Hauptspeicher 106 enthaltenen Anweisungssequenzen auszuführen. In alternativen Ausführungsformen können festverdrahtete Schaltkreise an Stelle von oder in Kombination mit Software-Anweisungen zum Implementieren der Erfindung verwendet werden. Daher sind Ausführungsformen der Erfindung nicht auf eine bestimmte Kombination von Hardware-Schaltkreisen und Software beschränkt.
  • Der Begriff "computerlesbares Medium", wie er hier verwendet wird, bezieht sich auf jedes Medium, das an der Bereitstellung von Anweisungen für den Prozessor 104 zur Ausführung teilnimmt. Ein solches Medium kann viele Formen annehmen, einschließlich, jedoch nicht darauf beschränkt, nicht-flüchtige Medien, flüchtige Medien und Übertragungsmedien. Nicht-flüchtige Medien umfassen beispielsweise Bild- oder Magnetplatten, wie die Speichereinrichtung 110. Flüchtige Medien umfassen dynamische Speicher, wie beispielsweise den Hauptspeicher 106. Übertragungsmedien umfassen koaxiale Kabel, Kupferdraht und Glasfasern, einschließlich der Drähte, die den Bus 102 enthalten. Übertragungsmedien können auch die Form von Schall- oder Lichtwellen annehmen, wie diejenigen, die während der Hochfrequenz- (HF) und Infrarot- (IR) Datenkommunikationen erzeugt werden. Allgemeine Formen von computerlesbaren Medien umfassen beispielsweise eine Diskette, eine Floppy-Disk, eine Festplatte, ein Magnetband, jedes andere Magnetmedium, eine CD-ROM, eine DVD, jedes andere Bildmedium, Lochkarten, Lochstreifen, jedes andere physikalische Medium mit Lochmustern, ein RAM, ein PROM und EPROM, ein Flash-EPROM, jeden anderen Speicher-Chip bzw. Speicher-Steckmodul, eine Trägerwelle, wie im Folgenden beschrieben, oder jedes andere Medium, aus dem ein Computer lesen kann.
  • Verschiedene Formen von computerlesbaren Medien können als Träger von einer oder mehr Sequenzen von einer oder mehr Anweisungen zur Ausführung an den Prozessor 104 beteiligt sein. Beispielsweise können die Anweisungen anfänglich auf einer Magnetplatte eines entfernten Computers getragen werden. Der entfernte Computer kann die Anweisungen in seinen dynamischen Speicher laden und die Anweisungen unter Verwendung eines Modems über eine Telefonleitung senden. Ein lokales Modem des Computersystems 100 kann die Daten auf der Telefonleitung empfangen und einen Infrarot-Sender verwenden, um die Daten in ein Infrarot-Signal umzuwandeln. Ein Infrarot-Detektor, der mit dem Bus 102 gekoppelt ist, kann die Daten empfangen, die in dem Infrarot-Signal getragen werden, und die Daten auf den Bus 102 stellen. Der Bus 102 trägt die Daten zum Hauptspeicher 106, von dem aus der Prozessor 104 die Anweisungen abruft und ausführt. Die vom Hauptspeicher 106 empfangenen Anweisungen können vor oder nach der Ausführung durch den Prozessor 104 optional in der Speichereinrichtung 110 gespeichert werden.
  • Das Computersystem 100 umfasst auch eine Kommunikationsschnittstelle 120, die an den Bus 102 gekoppelt ist. Die Kommunikationsschnittstelle 120 stellt eine Zweiwege-Datenübertragungskopplung an eine Netzwerkverbindung 121 bereit, die mit einem lokalen Netzwerk 122 verbunden ist. Beispiele für die Kommunikationsschnittstelle 120 umfassen eine Karte für ein diensteintegrierendes digitales Netzwerk (ISDN), ein Modem für die Bereitstellung einer Datenübertragungs-Verbindung mit einem entsprechenden Typ von Telefonleitung und eine Karte für ein lokales Netzwerk (LAN) für die Bereitstellung einer Datenübertragungs-Verbindung zu einem kompatiblen LAN. Es können auch drahtlose Verbindungen implementiert werden. In jeder derartigen Implementierung sendet und empfängt die Kommunikationsschnittstelle 120 elektrische, elektromagnetische oder optische Signale, die digitale Datenströme tragen, die verschiedene Arten von Informationen aufweisen.
  • Die Netzwerkverbindung 121 stellt üblicherweise eine Datenübertragung über ein oder mehr Netzwerke zu anderen Dateneinrichtungen bereit. Beispielsweise kann die Netzwerkverbindung 121 eine Verbindung über ein lokales Netzwerk 122 zu einem Host-Rechner 124 oder einer Dateneinrichtung bereitstellen, die über einen Internetdienstanbieter (ISP) 126 betrieben werden. Der ISP 126 wiederum stellt eine Datenübertragung über das weltweite Paketdaten-Übertragungsnetzwerk bereit, das jetzt im Allgemeinen als das "Internet" 128 bezeichnet wird. Das lokale Netzwerk 122 und das Internet 128 verwenden beide elektrische, elektromagnetische oder optische Signale, die digitale Datenströme tragen. Die Signale über die verschiedenen Netzwerke und die Signale auf der Netzwerkverbindung 121 und über die Kommunikationsschnittstelle 120, die digitale Daten zu und von dem Computersystem 100 tragen, sind beispielhafte Formen von Trägerwellen, welche die Informationen transportieren.
  • Das Computersystem 100 kann über das bzw. die Netzwerke, die Netzwerkverbindung 121 und die Kommunikationsschnittstelle Nachrichten senden und Daten empfangen, einschließlich Programmcode. Im Internet-Beispiel könnte ein Server 130 einen angeforderten Code für ein Anwendungsprogramm über das Internet 128, den ISP 126, das lokale Netzwerk 122 und die Kommunikationsschnittstelle 118 übertragen. In Übereinstimmung mit der Erfindung ermöglicht eine solche heruntergeladene Anwendung die hier beschriebene Stimmumwandlung. Der empfangene Code kann vom Prozessor 104 ausgeführt werden, nachdem er empfangen wurde, und/oder in einer Speichereinrichtung 110 oder einem anderen nicht-flüchtigen Speicher für die spätere Ausführung gespeichert werden. Auf diese Weise kann das Computersystem 100 einen Anwendungscode in der Form einer Trägerwelle erhalten.
  • QUELLEN- UND ZIEL-CODEBÜCHER
  • In Übereinstimmung mit der vorliegenden Erfindung werden Codebücher für die Ausgangsstimme und die Zielstimme als einleitender Schritt vorbereitet, wobei jeweils verarbeitete Abtastungen der Ausgangs- und Zielsprache verwendet werden. Die Anzahl der Einträge in den Codebüchern kann von Implementierung zu Implementierung unterschiedlich sein und hängt von einer abgestimmten Umwandlungsqualität (trade-off conversion quality) und der rechnerischen Handhabbarkeit (tractability) ab. Beispielsweise kann eine bessere Umwandlungsqualität durch die Aufnahme einer größeren Anzahl von Phonemen in verschiedenen phonetischen Kontexten erhalten werden, allerdings auf Kosten einer erhöhten Nutzung von Rechnerressourcen und einem höheren Bedarf an Ausbildungsdaten. Vorzugsweise enthalten die Codebücher wenigstens einen Eintrag für jedes Phonem in der Umwandlungssprache. Allerdings können die Codebücher erweitert werden, um Allophone von Phonemen aufzunehmen, und allgemeine Phonemkombinationen können das Codebuch erweitern. 2 veranschaulicht ein beispielhaftes Codebuch, das 64 Einträge enthält. Da die Vokalqualität oft von der Länge und Betonung des Vokals abhängt, wird eine Vielzahl von Vokalphonemen für einen bestimmten Vokal, beispielsweise [AA], [AA1] und [AA2] in das beispielhafte Codebuch aufgenommen.
  • Die Einträge in das Quellen-Codebuch und das Ziel-Codebuch werden jeweils durch Aufzeichnen der Sprache des Ausgangssprechers und des Zielsprechers und ihrer Sprache in Phonemen erhalten. Gemäß einem Ausbildungsansatz werden die Ausgangs- und Ziel-Sprecher gebeten, Wörter und Sätze zu sagen, für die eine orthografische Umschrift vorbereitet wird. Die Ausbildungssprache wird bei einer entsprechenden Frequenz abgetastet, wie beispielsweise 16 kHz, und automatisch segmentiert, wozu beispielsweise eine erzwungene Ausrichtung auf eine phonetische Übersetzung der orthografischen Umschrift innerhalb eines HMM-Bezugssystems verwendet wird, das Mel-Cepstrum-Koeffzienten und Delta-Koeffizienten verwendet, wie dies im Detail beschrieben ist bei C. Wightman & D. Talkin, The Aligner User's Manual, Entropic Research Laboratory, Inc. Washington, D.C., 1994.
  • Vorzugsweise werden die Quellen- und Ziel-Vokaltraktmerkmale in den Codebucheinträgen als Linienspektrum-Frequenzen (LSF) dargestellt. Im Gegensatz zu herkömmlichen Ansätzen, bei denen lineare prädiktive Koeffizienten (LPC) oder Formanten-Frequenzen verwendet werden, können Linienspektrum-Frequenzen ziemlich zuverlässig geschätzt werden und besitzen einen festen Bereich, der für die Implementierung einer Digitalsignal-Echtzeitverarbeitung von Nutzen ist. Die Linienspektrum-Frequenzwerte für die Quellen- und Ziel-Codebücher können erhalten werden, indem zuerst die linearen prädiktiven Koeffizienten ak für das abgetastete Signal gemäß im Fach bekannten Techniken ermittelt werden. Beispielsweise können eine spezielle Hardware, das Ausführen von Software auf einem Mehrzweck-Computer oder einem Mikroprozessor oder eine Kombination davon die linearen prädiktiven Koeffizienten durch Techniken wie beispiels weise Quadratwurzel- oder Cholesky-Zerlegung, Levinson-Durbin-Rekursion und Gitteranalyse bestimmt werden, die von Itakura und Saito eingeführt wurde. Die linearen prädiktiven Koeffizienten ak, die rekursiv mit einer Sequenz von Teilkorrelations-Koeffizienten (PARCOR) in Beziehung stehen, bilden ein umgekehrtes Filterpolynom
    Figure 00110001
    das mit +1 und –1 vergrößert werden kann, um folgende Polynome zu bilden, wobei die Winkel der Wurzeln wk die Linienspektrum-Frequenzen sind:
  • Figure 00110002
  • Vorzugsweise wird eine Vielzahl von Abtastungen für jeden Quellen- und Ziel-Codebucheintrag vorgenommen und gemittelt oder anderweitig verarbeitet, wie beispielsweise das Übernehmen der mittleren Abtastung oder der Abtastung, die dem Mittelwert am nächsten kommt, um einen jeweils Quellen-Schwerpunktsvektor Si und Ziel-Vektor-Schwerpunkt Ti zu erzeugen, wobei i ∊ 1..L ist und L die Größe des Codebuchs ist. Linienspektrum-Frequenzen können zurück in lineare prädiktive Koeffizienten umgewandelt werden, indem eine Sequenz von Koeffizienten über die Polynome P(z) und Q(z) generiert wird und von dort aus die linearen prädiktiven Koeffizienten ak.
  • Daher weisen das Quellen-Codebuch und das Ziel-Codebuch entsprechende Einträge auf, die Sprachabtastungen enthalten, die jeweils vom Ausgangssprecher und vom Zielsprecher stammen. Unter Bezugnahme auf 2 stellen die hellen Kurven in jedem Codebucheintrag die Stimme des (männlichen) Ausgangssprechers dar, und die dunklen Kurven in jedem Codebucheintrag stellen die Stimme des (weiblichen) Zielsprechers dar.
  • UMWANDELN VON SPRACHE
  • Wenn die entsprechenden Codebücher für die Quellen- und Zielsprecher vorbereitet worden sind, wird die in der Ausgangsstimme eingegebene Sprechweise in die Stimme des Zielsprechers gemäß einer Ausführungsform der vorliegenden Erfindung umgewandelt, indem die in 2 dargestellten Schritte ausgeführt werden. In Schritt 300 wird die eingegebene Sprechweise aufbereitet, um einen Rahmen für die eingegebene Sprache zu erhalten. Insbesondere wird die eingegebene Sprache bei einer entsprechenden Frequenz abgetastet, wie beispielsweise 16 kHz, und die Gleichstromvorspannung (DC bias) wird durch Entfernen des Mittelwerts entfernt (removed as by mean removal). Das abgetastete Signal wird auch gefenstert, um den Rahmen für die eingegebene Sprache x(n) = w(n)s(n) zu erzeugen, wobei w(n) eine Datenfenstertechnik-Funktion ist, die ein gewichtetes Cosinusfenster bereitstellt, z.B. ein Hamming-Fenster oder ein Hanning-Fenster oder ein anderes Fenster, wie beispielsweise ein Rechteckfenster oder mittengewichtetes (center-weighted) Fenster.
  • In Schritt 302 wird der Rahmen für die eingegebene Sprache in das Linienspektrum-Frequenzformat umgewandelt. Gemäß einer Ausführungsform der vorliegenden Erfindung wird zunächst eine lineare prädiktive Codierungsanalyse durchgeführt, um die Prädiktionskoeffizienten ak für den Rahmen für die eingegebene Sprache zu ermitteln. Die lineare prädiktive Codierungsanalyse weist eine entsprechende Ordnung auf, beispielsweise aus einer Analyse von einer 14. Ordnung bis zu einer 30. Ordnung, zum Beispiel eine Analyse 18. Ordnung oder 20. Ordnung. Basierend auf den Prädiktionskoeffizienten ak wird ein Linienspektrum-Frequenzvektor wk unter Verwendung der Polynome P(z) und Q(z) abgeleitet, die oben im Detail erläutert wurden.
  • CODEBUCH-WERTIGKEITEN
  • Herkömmliche Stimmumwandlungen mittels Codebuch-Methodologien leiden unter Informationsverlust auf Grund der Abstimmung auf nur ein einziges, "nächstliegendes" Ausgangsphonem. Infolgedessen können Artefakte an Rahmengrenzen eingeführt werden, die zu groben Übergängen von einem Rahmen zum nächsten führen. Dementsprechend stimmt eine Ausführungsform der Erfindung den Rahmen für die eingegebene Sprache mit einem gewichteten Durchschnitt einer Vielzahl von Codebucheinträgen ab, statt nur mit einem einzigen Codebucheintrag. Die Wertigkeit der Codebucheinträge gibt vorzugsweise Wahrnehmungskriterien wieder. Die Verwendung einer Vielzahl von Codebucheinträgen glättet den Übergang zwischen Sprachrahmen und erfasst stimmliche Nuancen zwischen zusammengehörigen Klängen in der Zielsprachen-Ausgabe. Daher werden in Schritt 304 Codebuch-Wertigkeiten vi durch Vergleichen des eingegebenen Linienspektrum-Frequenzvektors wk mit jedem Schwerpunktsvektor Si im Quellen-Codebuch geschätzt, um einen entsprechenden Abstand di zu berechnen:
    Figure 00130001
    wobei L die Codebuch-Größe ist. Die Abstandsberechnung enthält einen Wertigkeitsfaktor hk, der auf einem Wahrnehmungskriterium basiert, wobei eng beabstandeten Linienspektrum-Frequenzpaare, die voraussichtlich Formanten-Positionen entsprechen, höhere Wertigkeiten zugeordnet werden:
    Figure 00130002
    wobei K für stimmhafte Klänge 3 und für stimmlose 6 ist, da die durchschnittliche Energie bei zunehmender Frequenz (für stimmhafte Töne) abnimmt und (für stimmlose Klänge) zunimmt. Auf der Basis der berechneten Abstände d; werden die normierten Codebuch-Wertigkeiten vi wie folgt erhalten.
    Figure 00130003
    wobei der Wert von y für jeden Rahmen durch eine inkrementelle Suche im Bereich von 0,2 bis 2,0 mit dem Kriterium zur Minimierung des wahrzunehmenden gewichteten Abstands zwischen dem geschätzten Linienspektrum-Frequenzvektor vSk und dem eingegebenen Linienspektrum-Frequenzvektors wk gefunden wird.
  • VERFEINERN DER CODEBUCH-WERTIGKEITEN
  • In einigen Anwendungen kann es vorkommen, dass selbst die normierten Codebuch-Wertigkeiten vi keine optimale Gruppe von Wertigkeiten für das ursprüngliche Sprachspektrum sein würden. Gemäß einer Ausführungsform der vorliegenden Erfindung wird eine Gradientabfall-Analyse durchgeführt, um die geschätzten Codebuch-Wertigkeiten vi zu verbessern. Unter Bezugnahme auf das in 4 dargestellt Ablaufdiagramm umfasst eine Implementierung einer Gradientabfall-Analyse einen Initialisierungsschritt 400, in dem ein Fehlerwert E mit einer sehr hohen Zahl initialisiert wird, und eine Konvergenzkonstante η auf einen geeigneten Wert von 0,05 bis 0,5 initialisiert wird, wie beispielsweise 0,1.
  • In der Hauptschleife der Gradientabfall-Analyse, die bei Schritt 402 beginnt, wird ein Fehlervektor e basierend auf dem Abstand zwischen dem geschätzten Linienspektrum-Frequenzvektor vS und dem eingegebenen Linienspektrum-Frequenzvektor v berechnet und durch den Höhenfaktor h gewichtet. In Schritt 404 wird der Fehlerwert E unter einer alten Fehlervariablen oldE gespeichert und der neue Fehlerwert E wird aus dem Fehlervektor e berechnet, beispielsweise durch eine Summe der absoluten Werte oder eine Summe von Quadraten. In Schritt 406 werden die Codebuch-Wertigkeiten vi aktualisiert durch eine Addition des Fehlers in Bezug auf den Quellen-Codebuchvektor eS, der durch die Konvergenzkonstante η gewichtet wird und erzwungen positiv ist, um unrealistische Schätzwerte zu verhindern. Um die Berechnung gemäß einer Ausführungsform der vorliegenden Erfindung zu reduzieren, wird die Konvergenzkonstante η basierend auf der fehlerhaften Reduzierung (reduction in error) eingestellt. Insbesondere, wenn eine fehlerhafte Reduzierung vorliegt, wird die Konvergenzkonstante η erhöht, andernfalls wird sie verringert (Schritt 408). Die Hauptschleife wird wiederholt, bis die fehlerhafte Reduzierung unter einen entsprechenden Schwellenwert fällt, wie beispielsweise ein Zehntausendstel (Schritt 410).
  • Es wird beobachtet, dass nur einigen wenigen Codebucheinträgen erheblich große Wertigkeitswerte in der ersten Wertigkeitsvektor-Schätzung v zugewiesen werden. Um daher Rechnerressourcen zu sparen, aktualisiert eine Ausführungsform der vorliegenden Erfindung die Wertigkeiten v im Schritt 406 nur bei den ersten wenigen größten Wertigkeiten, beispielsweise bei den fünf größten Wertigkeiten. Die Verwendung dieses Gradientabfall-Verfahrens führte zu zusätzlichen 15% Verringerung des durchschnittlichen Itakura-Saito-Abstands zwischen den ursprünglichen Spektren wk und den geschätzten Spektren vSk. Die durchschnittliche spektrale Verzerrung (SD), die eine allgemeine Bewertung der spektralen Quantisierungsleistung (common spectral quantizer performance evaluation) ist, wurde ebenfalls von 1,8 dB auf 1,4 dB reduziert.
  • ZUORDNUNG DES VOKALTRAKTSPEKTRUMS
  • Unter erneuter Bezugnahme auf 3 wird in Schritt 306 ein Ziel-Vokaltraktfilter (target vocal tract filter) Vi(ω) als gewichteter Durchschnitt der Einträge in das Ziel-Codebuch berechnet, um die Stimme des Zielsprechers für den gegenwärtigen Sprachrahmen darzustellen. Gemäß einer Ausführungsform der vorliegenden Erfindung werden die verfeinerten Codebuch-Wertigkeiten vi auf die Ziel-Linienspektrum-Frequenzvektoren Ti angewendet, um den Ziel-Linienspektrum-Frequenzvektor vTk zu konstruieren:
  • Figure 00150001
  • Die Ziel-Linienspektrum-Frequenzen werden anschließend in zielbezogene lineare Prädiktionskoeffizienten ãk umgewandelt, beispielsweise mittels der Polynome P(z) und Q(z). Die zielbezogenen linearen Prädiktionskoeffizienten ak werden wiederum verwendet, um den Ziel-Vokaltraktfilter Vi(ω) zu schätzen:
    Figure 00150002
    wobei β theoretisch 0,5 betragen sollte. Die Durchschnittsberechnung von Linienspektrum-Frequenzen führt jedoch oft zu Formanten oder spektralen Spitzenwerten mit größeren Bandbreiten, was als Summ-Artefakt zu hören ist. Ein Ansatz zur Bewältigung dieses Problems besteht darin, den Wert von β zu erhöhen, wodurch der dynamische Bereich des Spektrum angepasst wird und damit die Bandbreiten der Formanten-Frequenzen reduziert werden. Ein Nachteil der Erhöhung von β ist jedoch, dass die Bandbreite auch in anderen Frequenzbändern reduziert wird, nicht nur an den Formanten-Stellen (formant locations), wodurch das Zielstimmenspektrum verzerrt wird.
  • Dementsprechend besteht ein anderer Ansatz darin, die Bandbreiten der Formanten durch direktes Anpassen der Linienspektrum-Frequenzen zu reduzieren. Die Ziel-Linienspektrum-Paare
    Figure 00150003
    und
    Figure 00150004
    um die ersten F Formanten-Frequenzstellen fj, j∈1..F werden geändert, wenn F auf eine kleinere Ganzzahl gesetzt wird, wie beispielsweise vier (4). Die Quellen-Formantenbandbreiten bj und die Ziel-Formantenbandbreiten
    Figure 00160001
    werden zum Schätzen eines Bandbreiten-Anpassungsverhältnisses r verwendet:
  • Figure 00160002
  • Dementsprechend wird jedes Ziel-Linienspektrum-Paar
    Figure 00160003
    um die entsprechenden Formanten-Frequenzstellen f; wie folgt angepasst:
  • Figure 00160004
  • Ein Bandbreiten-Mindestwert, z.B.
    Figure 00160005
    oder 50 Hz, kann eingestellt werden, um die Schätzung von unangemessenen Bandbreiten zu verhindern. 5 veranschaulicht einen Vergleich des Zielsprachen-Leistungsspektrums (target speech power spectrum) für den Vokal [AA] vor (helle Kurve 500) und nach (dunkle Kurve 510) der Anwendung dieser Bandbreiten-Reduzierungstechnik. Die Reduzierung in den Bandbreiten der ersten vier Formaten 520, 530, 540 und 550 führt zu höheren und ausgeprägteren spektralen Spitzen. Gemäß detaillierten Beobachtungen und subjektiven Hörtests führte die Verwendung dieser Bandbreiten-Reduzierungstechnik zu einer verbesserten Stimm-Ausgabenqualität.
  • ZUORDNUNG DER ANREGUNGSMERKMALE
  • Ein weiterer Faktor, der die Sprecher-Individualität und damit die Qualität der Stimmumwandlung beeinflusst, sind die Anregungsmerkmale. Die Anregung kann für verschiedene Phoneme sehr unterschiedlich sein. Beispielsweise werden stimmhafte Klänge durch eine periodische Impulsfolge bzw. ein "Summen" angeregt, und stimmlose Klänge wer den durch weißes Rauschen bzw. "Zischen" angeregt. Gemäß einer Ausführungsform der vorliegenden Erfindung wird der lineare prädiktive Codierungs-Restwert (linear predictive coding residual) als eine Approximation des Anregungssignals verwendet. Insbesondere werden die linearen prädiktiven Codierungs-Restwerte für jeden Eintrag in das Quellen-Codebuch und das Ziel-Codebuch als die Anregungssignale aus den Ausbildungsdaten gesammelt, um eine entsprechende kurzzeitige durchschnittliche diskrete (short-time average discrete) Fourier-Analyse oder ein stimmlagensynchrones (pitchsynchronous) Größenspektrum der Anregungssignale zu berechnen. Die Anregungsspektren werden auch verwendet, um Anregungs-Umwandlungsspektren für Einträge des Quellen-Codebuchs
    Figure 00170001
    und des Ziel-Codebuchs
    Figure 00170002
    zu formulieren. Da die lineare prädiktive Codierung ein allpoliges Modell ist, dienen die formulierten Anregungs-Umwandlungsfilter ebenfalls zum Umwandeln der Nullen im Spektrum, wodurch die Qualität der Stimmumwandlung des Weiteren verbessert wird.
  • Unter erneuter Bezugnahme auf 3 werden in Schritt 308 die Anregungen im eingegebenen Sprachsegment von der Ausgangsstimme in die Zielstimme durch die gleichen Codebuch-Wertigkeiten vi umgewandelt, die zum Umwandeln der Vokaltraktmerkmale verwendet werden. Insbesondere wird ein allumfassender Anregungsfilter konstruiert als eine gewichtete Kombination der Anregungs-Codebuch-Anregungsspektren (excitation codebook excitation spectra):
  • Figure 00170003
  • Gemäß einer Ausführungsform der vorliegenden Erfindung wird der allumfassende Anregungsfilter Hg(ω) auf den linearen prädiktiven Codierungs-Restwert e(n) des Eingabe-Sprachsignals x(n) angewendet, um einen Ziel-Anregungsfilter zu erzeugen:
    Figure 00170004
    wobei der lineare prädiktive Codierungs-Restwert e(n) angegebenen wird durch:
  • Figure 00180001
  • Sowohl die Vokaltrakt-Merkmale als auch die Anregungsmerkmale werden in dem gleichen rechnerischen Bezugssystem umgewandelt, indem ein gewichteter Durchschnitt der Codebucheinträge berechnet wird. Demzufolge ermöglicht dieser Gesichtspunkt der vorliegenden Erfindung die Aufnahme von Anregungsmerkmalen in ein System zur Stimmumwandlung in einer rechnerisch handhabbaren Weise.
  • ZIELSPRACHE-FILTER
  • Unter erneuter Bezugnahme auf 3 basiert ein Zielsprache-Filter Y(ω) auf dem Vokaltraktfilter Vt(ω), und in einigen Ausführungsformen der vorliegenden Erfindung auf dem Anregungsfilter Gt(ω). Gemäß einer Ausführungsform wird der Zielsprachefilter Y(ω) als der Anregungsfilter Gt(ω) definiert, auf den der Vokaltraktfilter Vt(ω) folgt:
  • Figure 00180002
  • In Übereinstimmung mit einer anderen Ausführungsform der vorliegenden Erfindung kann eine weitere Verfeinerung an der Konstruktion des Zielsprachefilters Y(ω) für eine verbesserte Handhabung von stimmlosen Klängen wünschenswert sein. Das eingehende Sprachspektrum X(ω), das von der abgetasteten und gefensterten eingegebenen Sprache x(n) abgeleitet wird, kann dargestellt werden als:
    Figure 00180003
    wobei Gs(ω) und Vs(ω) jeweils die Filter für Ausgangssprecher-Anregung und Vokaltrakt-Spektrum darstellen. Demzufolge kann der Zielsprache-Spektrumsfilter Y(ω) formuliert werden als:
  • Figure 00180004
  • Unter Verwendung des allumfassenden Anregungsfilters Hg(ω) als einen Schätzwert des Anregungsfilters, wird der Zielsprache-Spektrumsfilter Y(ω) zu:
  • Figure 00190001
  • Wenn die Menge der Ausbildungsdaten klein oder die Genauigkeit der Segmentierung fraglich ist, ist es schwierig, stimmlose Segmente exakt darzustellen, was zu einer Fehlanpassung in den Ausgangs- und Ziel-Vokaltraktfiltern führt. Demzufolge schätzt eine Ausführungsform der vorliegenden Erfindung einen Ausgangssprecher-Vokaltrakt-Spektrumsfilter Vs(ω) für stimmhafte Segmente und für stimmlose Segmente verschieden. In stimmhaften Segmenten wird der Ausgangssprecher-Vokaltrakt-Spektrumsfilter Vs(ω) durch das Spektrum ersetzt, das von dem ursprünglichen linearen prädiktiven Koeffizientenvektor ak abgeleitet wird:
  • Figure 00190002
  • Andererseits werden die linearen prädiktiven Vektor-Approximationskoeffizienten, die von der Codebuch-gewichteten Linienspektrums-Frequenzvektor-Approximation vSk (codebook weighted line spectral frequency vector approximation) abgeleitet werden, für die Ermittlung des Ausgangssprecher-Vokaltrakt-Spektrumsfilters Vs(ω) für stimmlose Segmente verwendet.
  • In Schritt 312 wird das Ergebnis der Anwendung des Vokaltrakt-Spektrumfilters Y(ω) auf das aktuelle Segment in ein Zeitbereich-Zielsignal in der Stimme des Zielsprechers nachbearbeitet. Insbesondere wird eine umgekehrte diskrete Fourier-Umwandlung angewendet, um die synthetische Zielstimme zu erzeugen:
    Figure 00190003
  • SATZRHYTHMUSUMWANDLUNG
  • Gemäß einer Ausführungsform der vorliegenden Erfindung können prosodische Umwandlungen auf das Frequenzbereich-Zielstimmensignal Y(ω) vor der Nachbearbeitung in den Zeitbereich angewendet werden. Prosodische Umwandlungen gestatten es, die Zielstimme an die Ausgangsstimme in Stimmlage, Dauer und Betonung anzugleichen. Beispielsweise kann ein Stimmlagenskala-Änderungsfaktor β in jedem Rahmen eingestellt werden als
    Figure 00200001
    wobei σ 2 / s die Ausgangsstimmen-Abweichung ist, σ 2 / t ist die Zielstimmen-Abweichung, f0 ist die Ausgangssprecher-Grundfrequenz, μs ist der mittlere Ausgangsstimmlagenwert und μt ist der mittlere Zielstimmlagenwert. Für die Dauermerkmale kann ein Zeitskalen-Änderungsfaktor γ gemäß den gleichen Codebuch-Wertigkeiten eingestellt werden:
    Figure 00200002
    wobei d s / i die durchschnittliche Ausgangssprecher-Dauer und d s / j die durchschnittliche Zielsprecher-Dauer ist. Hinsichtlich der Betonungsmerkmale der Sprecher kann ein Energieskalen-Änderungsfaktor η gemäß den gleichen Codebuch-Wertigkeiten eingestellt werden:
    Figure 00200003
    wobei e s / i die durchschnittliche Effektivenergie (RMS energy) des Ausgangssprechers und e t / i die durchschnittliche Effektivenergie des Zielsprechers ist.
  • Der Stimmlagenskala-Änderungsfaktor β, der Zeitskalen-Änderungsfaktor γ und der Energieskalen-Änderungsfaktor η werden mit einer entsprechenden Methodologie angewendet, wie beispielsweise innerhalb eines stimmlagensynchronen Überlappungs-Additions-Synthese-Bezugssystems (overlap-add synthesis framework), um die prosodische Synthese auszuführen. Eine Methodologie zur Überlappungs-Additions-Synthese ist in größerem Detail in EP-A-1 019906 erläutert.
  • Obwohl diese Erfindung in Verbindung mit der Ausführungsform, die als gegenwärtig am praktischsten und als bevorzugt betrachtet wird, beschrieben wurde, sollte klar sein, dass die Erfindung nicht auf die offenbarte Ausführungsform beschränkt ist, sondern im Gegenteil verschiedene Modifizierungen und gleichwertige Anordnungen abdecken soll, die im Umfang der Ansprüche im Anhang enthalten sind.

Claims (15)

  1. Verfahren zum Umwandeln eines Quellensignals, das eine Ausgangsstimme (source voice) darstellt, in ein Zielsignal, das eine Zielstimme darstellt, wobei das Verfahren die folgenden maschinenimplementierten Schritte umfasst: Vorverarbeiten des Quellensignals zum Erzeugen eines Quellensignalsegments; Vergleichen des Quellensignalsegments mit einer Vielzahl von Quellen-Codebucheinträgen (source codebook entries), die Sprecheinheiten in der Ausgangsstimme darstellen, um daraus eine Vielzahl von entsprechenden Wertigkeiten (weights) zu erzeugen; Umwandeln des Quellensignalsegments in ein Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von Ziel-Codebucheinträgen, die Sprecheinheiten in der Zielstimme darstellen, wobei die Ziel-Codebucheinträge der Vielzahl von Quellen-Codebucheinträgen entsprechen; und Nachverarbeiten des Zielsignalsegments zum Generieren des Zielsignals; dadurch gekennzeichnet, dass das Umwandeln des Quellensignalsegments in ein Zielsignalsegment das Reduzieren von Formanten-Bandbreiten in dem Zielsegment umfasst.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Vorverarbeitens des Quellensignals den Schritt des Abtastens des Quellensignals umfasst, um ein Abtast-Quellensignal zu erzeugen.
  3. Verfahren nach Anspruch 2, wobei der Schritt des Vorverarbeitens des Quellensignals den Schritt des Segmentierens des Abtast-Quellensignals umfasst, um das Quellensignalsegment zu erzeugen.
  4. Verfahren nach Anspruch 1, wobei der Schritt des Vergleichens des Quellensignalsegments, um daraus eine Vielzahl von entsprechenden Wertigkeiten zu erzeugen, den Schritt des Vergleichens des Quellensignalsegments, um daraus eine Vielzahl von Wahrnehmungs-Wertigkeiten (perceptual weights) zu erzeugen, umfasst.
  5. Verfahren nach Anspruch 1, wobei der Schritt des Vergleichens des Quellensignalsegments die folgenden Schritte umfasst: Umwandeln des Quellensignalsegments in eine Vielzahl von Linienspektrum-Frequenzen; und Vergleichen der Vielzahl von Linienspektrum-Frequenzen mit der Vielzahl von Quellencodeeinträgen, um daraus die Vielzahl der jeweiligen Wertigkeiten zu erzeugen, wobei jeder der Quellencodeeinträge eine jeweilige Vielzahl von Linienspektrum-Frequenzen umfasst.
  6. Verfahren nach Anspruch 5, wobei der Schritt des Umwandelns des Quellensignalsegments die folgenden Schritte umfasst: Festlegen einer Vielzahl von Koeffizienten für das Quellensignalsegment; und Umwandeln der Vielzahl von Koeffizienten in die Vielzahl der Linienspektrum-Frequenzen (line spectral frequencies).
  7. Verfahren nach Anspruch 6, wobei der Schritt des Festlegens einer Vielzahl von Koeffizienten den Schritt des Festlegens einer Vielzahl von linearen Prädiktionskoeffizienten oder PARCOR-Koeffizienten umfasst.
  8. Verfahren nach Anspruch 5, wobei der Schritt des Vergleichens der Vielzahl von Linienspektrum-Frequenzen die folgenden Schritte umfasst: Berechnen einer Vielzahl von Abständen zwischen dem Quellensignalsegment, das von der Vielzahl der Linienspektrum-Frequenzen dargestellt wird, und jedem von der Vielzahl von jeweiligen Quellencodeeinträgen, die durch eine jeweilige Vielzahl von Linienspektrum-Frequenzen dargestellt werden; und Erzeugen der Vielzahl von Wertigkeiten auf der Basis der Vielzahl von jeweiligen Abständen.
  9. Verfahren nach Anspruch 8, des Weiteren umfassend den Schritt des Verbesserns der Vielzahl von Wertigkeiten durch ein Gradientabfall-Verfahren (gradient descent method).
  10. Verfahren nach Anspruch 1, wobei der Schritt des Umwandelns des Quellensignalsegments in ein Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von Ziel-Codebucheinträgen den Schritt des Umwandelns von Stimmsystem-Merkmalen (vocal tract characteristics) des Quellensignalsegments in das Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von Ziel-Codebucheinträgen umfasst.
  11. Verfahren nach Anspruch 10, wobei der Schritt des Umwandelns des Quellensignalsegments in ein Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von Ziel-Codebucheinträgen den Schritt des Umwandelns von Anregungsmerkmalen (excitation characteristics) des Quellensignalsegments in das Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten umfasst.
  12. Verfahren nach Anspruch 1, des Weiteren umfassend den Schritt des Änderns der Prosodie des Zielsignalsegments auf der Basis der Vielzahl von Wertigkeiten.
  13. Verfahren nach Anspruch 12, wobei der Schritt des Änderns der Prosodie des Zielsignalsegments auf der Basis der Vielzahl von Wertigkeiten den Schritt des Änderns der Dauer des Zielsignalsegments umfasst.
  14. Verfahren nach Anspruch 12, wobei der Schritt des Änderns der Prosodie des Zielsignalsegments auf der Basis der Vielzahl von Wertigkeiten den Schritt des Änderns der Betonung (stress) des Zielsignalsegments umfasst.
  15. Computerlesbares Medium mit Anweisungen zum Umwandeln eines Quellensignals, das eine Ausgangsstimme darstellt, in ein Zielsignal, das eine Zielstimme darstellt, wobei die Anweisungen so angeordnet sind, dass sie, wenn sie ausgeführt werden, einen oder mehrere Prozessoren veranlassen, die folgenden Schritte auszuführen: Vorverarbeiten des Quellensignals zum Erzeugen eines Quellensignalsegments; Vergleichen des Quellensignalsegments mit einer Vielzahl von Quellen-Codebucheinträgen, die Sprecheinheiten in der Ausgangsstimme darstellen, um daraus eine Vielzahl von entsprechenden Wertigkeiten zu erzeugen; Umwandeln des Quellensignalsegments in ein Zielsignalsegment auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von Ziel-Codebucheinträgen, die Sprecheinheiten in der Zielstimme darstellen, wobei die Ziel-Codebucheinträge der Vielzahl von Quellen-Codebucheinträgen entsprechen; und Nachverarbeiten des Zielsignalsegments zum Generieren des Zielsignals; dadurch gekennzeichnet, dass das Umwandeln des Quellensignalsegments in ein Zielsignalsegment das Reduzieren von Formanten-Bandbreiten in dem Zielsegment umfasst.
DE69826446T 1997-01-27 1998-01-27 Stimmumwandlung Expired - Lifetime DE69826446T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3622797P 1997-01-27 1997-01-27
US36227P 1997-01-27
PCT/US1998/001538 WO1998035340A2 (en) 1997-01-27 1998-01-27 Voice conversion system and methodology

Publications (2)

Publication Number Publication Date
DE69826446D1 DE69826446D1 (de) 2004-10-28
DE69826446T2 true DE69826446T2 (de) 2005-01-20

Family

ID=21887401

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69826446T Expired - Lifetime DE69826446T2 (de) 1997-01-27 1998-01-27 Stimmumwandlung

Country Status (6)

Country Link
US (1) US6615174B1 (de)
EP (1) EP0970466B1 (de)
AT (1) ATE277405T1 (de)
AU (1) AU6044298A (de)
DE (1) DE69826446T2 (de)
WO (1) WO1998035340A2 (de)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464310B1 (ko) * 1999-03-13 2004-12-31 삼성전자주식회사 선 스펙트럼 쌍을 이용한 패턴 정합 방법
JP2001117576A (ja) 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法
US6973575B2 (en) * 2001-04-05 2005-12-06 International Business Machines Corporation System and method for voice recognition password reset
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
JP2003248488A (ja) * 2002-02-22 2003-09-05 Ricoh Co Ltd 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
GB0209770D0 (en) * 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound
FR2839836B1 (fr) 2002-05-16 2004-09-10 Cit Alcatel Terminal de telecommunication permettant de modifier la voix transmise lors d'une communication telephonique
FR2843479B1 (fr) * 2002-08-07 2004-10-22 Smart Inf Sa Procede de calibrage d'audio-intonation
KR100499047B1 (ko) * 2002-11-25 2005-07-04 한국전자통신연구원 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR20040058855A (ko) * 2002-12-27 2004-07-05 엘지전자 주식회사 음성 변조 장치 및 방법
FR2853125A1 (fr) * 2003-03-27 2004-10-01 France Telecom Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.
US20050123886A1 (en) * 2003-11-26 2005-06-09 Xian-Sheng Hua Systems and methods for personalized karaoke
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
DE102004048707B3 (de) * 2004-10-06 2005-12-29 Siemens Ag Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem
WO2006053256A2 (en) * 2004-11-10 2006-05-18 Voxonic, Inc. Speech conversion system and method
WO2006099467A2 (en) * 2005-03-14 2006-09-21 Voxonic, Inc. An automatic donor ranking and selection system and method for voice conversion
US20080161057A1 (en) * 2005-04-15 2008-07-03 Nokia Corporation Voice conversion in ring tones and other features for a communication device
US20060235685A1 (en) * 2005-04-15 2006-10-19 Nokia Corporation Framework for voice conversion
US8630849B2 (en) * 2005-11-15 2014-01-14 Samsung Electronics Co., Ltd. Coefficient splitting structure for vector quantization bit allocation and dequantization
US8417185B2 (en) 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US20070213987A1 (en) * 2006-03-08 2007-09-13 Voxonic, Inc. Codebook-less speech conversion method and system
TWI312501B (en) * 2006-03-13 2009-07-21 Asustek Comp Inc Audio processing system capable of comparing audio signals of different sources and method thereof
KR100809368B1 (ko) 2006-08-09 2008-03-05 한국과학기술원 성대파를 이용한 음색 변환 시스템
US8694318B2 (en) * 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
US20080147385A1 (en) * 2006-12-15 2008-06-19 Nokia Corporation Memory-efficient method for high-quality codebook based voice conversion
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
CN101589430B (zh) * 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
JP4469883B2 (ja) * 2007-08-17 2010-06-02 株式会社東芝 音声合成方法及びその装置
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
JP4445536B2 (ja) * 2007-09-21 2010-04-07 株式会社東芝 移動無線端末装置、音声変換方法およびプログラム
CN101399044B (zh) * 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和系统
US8131550B2 (en) * 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
RU2510954C2 (ru) * 2012-05-18 2014-04-10 Александр Юрьевич Бредихин Способ переозвучивания аудиоматериалов и устройство для его осуществления
GB201315142D0 (en) * 2013-08-23 2013-10-09 Ucl Business Plc Audio-Visual Dialogue System and Method
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
EP3217399B1 (de) 2016-03-11 2018-11-21 GN Hearing A/S Kalman-filterungsbasierende sprachverbesserung mit einem kodebuch-basierten ansatz
JP7334942B2 (ja) * 2019-08-19 2023-08-29 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
US11848005B2 (en) 2022-04-28 2023-12-19 Meaning.Team, Inc Voice attribute conversion using speech to speech

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
WO1993018505A1 (en) 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
JP3536996B2 (ja) * 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム

Also Published As

Publication number Publication date
AU6044298A (en) 1998-08-26
WO1998035340A3 (en) 1998-11-19
WO1998035340A2 (en) 1998-08-13
US6615174B1 (en) 2003-09-02
EP0970466A2 (de) 2000-01-12
EP0970466A4 (de) 2000-05-31
ATE277405T1 (de) 2004-10-15
DE69826446D1 (de) 2004-10-28
EP0970466B1 (de) 2004-09-22

Similar Documents

Publication Publication Date Title
DE69826446T2 (de) Stimmumwandlung
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
CA2161540C (en) A method and apparatus for converting text into audible signals using a neural network
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE112012002524B4 (de) Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem
DE69827667T2 (de) Vokoder basierter spracherkenner
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
RU2557469C2 (ru) Способы синтеза и кодирования речи
EP0925579A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
CN108108357B (zh) 口音转换方法及装置、电子设备
DE69720861T2 (de) Verfahren zur Tonsynthese
DE4237563A1 (de)
Lukose et al. Text to speech synthesizer-formant synthesis
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE60305907T2 (de) Verfahren zur modellierung von beträgen der oberwellen in der sprache
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
Deiv et al. Automatic gender identification for hindi speech recognition

Legal Events

Date Code Title Description
8364 No opposition during term of opposition