DE69824613T2 - Ein system und verfahren zur prosodyanpassung - Google Patents

Ein system und verfahren zur prosodyanpassung Download PDF

Info

Publication number
DE69824613T2
DE69824613T2 DE69824613T DE69824613T DE69824613T2 DE 69824613 T2 DE69824613 T2 DE 69824613T2 DE 69824613 T DE69824613 T DE 69824613T DE 69824613 T DE69824613 T DE 69824613T DE 69824613 T2 DE69824613 T2 DE 69824613T2
Authority
DE
Germany
Prior art keywords
original
characters
synthetic
synchronization
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69824613T
Other languages
English (en)
Other versions
DE69824613D1 (de
Inventor
M. Francisco GIMENEZ DE LOS GALANES
David Talkin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE69824613D1 publication Critical patent/DE69824613D1/de
Application granted granted Critical
Publication of DE69824613T2 publication Critical patent/DE69824613T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Navigation (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Compositions Of Oxide Ceramics (AREA)

Description

  • Diese Anmeldung beansprucht den Schutz der hierin durch Bezugnahme aufgenommenen vorläufigen U.S.-Patentanmeldung Nr. 60/036,228 mit dem Titel „Verfahren und System zum Modifizieren der Tonhöhenkontur von Sprache", beantragt am 27. Januar 1997 durch Francisco M. Gimenez de los Galanes.
  • Die vorliegende Erfindung bezieht sich auf die Signalweiterverarbeitung und insbesondere auf die Prosodieanpassung eines quasiperiodischen Signals.
  • Prosodieanpassung ist die Signalanpassung eines quasiperiodischen Signals, ohne die Klangfarbe zu beeinflussen. Quasiperiodische Signale umfassen menschliche Sprache, zum Beispiel Sprechen und Singen, synthetische Sprache und Töne von Musikinstrumenten, wie beispielsweise Töne von Holzblasinstrumenten, Blechblasinstrumenten oder Saiteninstrumenten. Bestimmte Beispiele der Prosodieanpassung umfassen das Anpassen der Tonhöhe eines quasiperiodischen Signals ohne die Beeinflussung der Klangfarbe, beispielsweise das Ändern eines abgetasteten Klarinetten-Tons von C auf A, während er noch immer wie eine Klarinette klingt. Ein anderer Zweck der Prosodieanpassung ist der, die Dauer eines quasiperiodischen Signals zu ändern, ohne weder die Tonhöhe noch die Klangfarbe zu beeinflussen.
  • Praktische Anwendungen der Prosodieanpassung umfassen das Hinzufügen von Betonungen auf voraufgezeichnete Nachrichten und die Veränderung eines menschlichen Dialogs, um in einen bestimmten Zeitabschnitt zu passen, beispielsweise einer Werbeanzeige, oder der Lippensynchronität bei der Nachbearbeitung eines Videos oder eines Spielfilms. Die Prosodieanpassung wird ebenso benutzt, die Tonhöhe eines Sängers oder Musikinstrumentes anzupassen, beispielsweise, um die Tonart zu ändern, Vibrato hinzuzufügen oder schlechte Stimmkontrolle zu korrigieren. Die Sprachsynthese erfordert die Prosodieanpassung von kurzen Sprachsegmenten vor der Konkatenation, um Wörter und längere Nachrichten zu erzeugen.
  • Ein konventioneller Ansatz der Prosodieanpassung ist eine Technik des tonhöhensynchronen Overlap-and-Add. Das U.S.-Patent Nr. 5,524,172 beschreibt ein konventionelles Overlap-and-Add-Verfahren zur Prosodieanpassung von Sprachsynthesesegmenten, die von menschlichen Tönen abgeleitet werden, die, wegen der engen Beschränkungen durch Berechnungs- und Speicherkosten, mit einer relativ langsamen Abtastgeschwindigkeit von 16 kHz abgetastet werden. Eine Reihe von originalen Synchronisationszeichen innerhalb des Sprachsegments wird durch die Sample-Nummer indiziert und in einem Speicher gespeichert. Die Dauer des Sprachsegmentes wird durch Time-Warping der Synchronisationszeichen modifiziert, um eine Reihe von synthetischen Synchronisationszeichen herzustellen, die ebenso durch eine Sample-Nummer indiziert werden. Die unter Verwendung eines symmetrischen Hanning-Fensters an den originalen Synchronisationszeichen aus dem Sprachsegment extrahierten Wellenformen werden durch Verschieben auf die entsprechenden synthetischen Synchronisationszeichen überlappt und dem Ausgabesignal hinzugefügt.
  • Konventionelle Techniken des Overlap-and-Add führen etwas Rauschen in Form eines künstlichen Jitters oder eines harmonischen Mix-Ups in das Signal ein, die als eine „Unschärfe" oder vibrationsartige Eigenschaft gehört werden. Insbesondere höhertonige Signale, wie zum Beispiel die Stimmen von Frauen, Kinderstimmen, Singstimmen und die Töne der meisten Musikinstrumente, werden besonders beeinflusst. Weiterhin haben die konventionellen Overlap-and-Add-Verfahren Schwierigkeiten mit Signalen, die das schnelle Wechseln der Tonhöhe involvieren, zum Beispiel bei Musik, beim Singen oder bei dem Spielen von Musikinstrumenten.
  • WO-A-9526024 legt eine Sprachsynthesevorrichtung offen, die Einrichtungen enthält, die gesteuert werden können, die Tonhöhe eines durch die Vorrichtung synthetisierten Sprachsignals zu variieren.
  • Es besteht ein Bedarf für ein Prosodieanpassungssystem und ein Prosodieanpassungsverfahren, die das Einführen von Rauschen oder Unschärfe in die Ausgabe reduzieren. Es besteht ebenso ein Bedarf, die Prosodie von Signalen effektiv anzupassen ohne die Musikalität schwerwiegend zu beeinflussen oder die erwünschte Tonhöhe zu gefährden, beispielsweise bei höhertonigen Signalen, wie den Stimmen von Frauen, Kinderstim men, Singstimmen und den meisten Tönen von Musikinstrumenten und bei Signalen, die den schnellen Wechsel von Tonhöhen involvieren.
  • Ein Aspekt der vorliegenden Erfindung entstammt der Erkenntnis, dass eine weitere Fehlerquelle bei konventionellen Verfahren des Overlap-and-Adds die Verwendung von symmetrischen Fenstern beim Extrahieren der Wellenformen um die Synchronisationszeichen herum ist, wenn sich die Tonhöhe schnell verändert. Die symmetrischen Fenster neigen dazu, entweder zu viel oder zu wenig von der zu überlappenden und hinzuzufügenden Wellenform zu extrahieren.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zur Durchführung der Prosodieanpassung eines quasiperiodischen Signals bereitgestellt, wobei das Verfahren die folgenden Schritte umfasst:
    Bestimmen einer Reihe von Original-Synchronisationszeichen bei dem Originalsignal,
    Bestimmen einer Reihe von synthetischen Synchronisationszeichen auf der Basis der Original-Synchronisationszeichen und auf Prosodieinformation,
    Extrahieren der Wellenformen um eines der Original-Synchronisationszeichen herum durch Anwenden eines Filterfensters und Zeitverschiebung entsprechend einem der Original-Synchronisationszeichen und einem der synthetischen Synchronisationszeichen, das dem einen der Original-Synchronisationszeichen entspricht und
    Summieren der extrahierten Wellenformen, um das quasiperiodische Signal zu synthetisieren, wobei
    das asymmetrische Filterfenster einen ersten Halbwertsbreiteabschnitt auf einer Seite des Original-Synchronisationszeichens und einen zweiten Halbwertsbreiteabschnitt auf einer anderen Seite des Original-Synchronisationszeichens aufweist, wobei der erste Halbwertsbreiteabschnitt in der Größe unterschiedlich zu dem zweiten Halbwertsbreiteabschnitt ist,
    der erste und der zweite Abschnitt in einer Nebeneinanderstellung zueinander sind,
    der erste Abschnitt eine progressiv von null auf einen Nicht-Null-Wert entlang der ersten Halbwertbreite ansteigende Amplitude aufweist und
    der zweite Abschnitt eine von dem Nicht-Null-Wert progressiv auf null entlang der zweiten Halbwertbreite abfallende Amplitude aufweist, dadurch gekennzeichnet, dass:
    die erste Halbwertbreite das kleinere von den Intervallen zwischen dem einen der Original-Synchronisationszeichen und einem vorhergehenden Original-Synchronisationszeichen und dem Intervall zwischen dem einen der Synchronisationszeichen und einem vorhergehenden synthetischen Synchronisationszeichen ist.
  • Es kann ein rechnerlesbares Medium verwendet werden, um ein derartiges Synthetisierungsverfahren durchzuführen.
  • Zusätzliche Anforderungen, Ziele, Vorteile und neue Leistungsmerkmale der vorliegenden Erfindung werden teilweise in dem folgenden Beschreibungsteil und teilweise während der Prüfung offensichtlich werden oder werden während der praktischen Umsetzung der Erfindung erkannt. Die Ziele und Vorteile der Erfindung können durch die Verfahren und Kombinationen, die in den angehängten Patentansprüchen besonders dargelegt werden, realisiert werden.
  • Die vorliegende Erfindung wird in den Figuren der begleitenden Zeichnungen, bei denen gleiche Referenzzahlen gleichartige Elemente bezeichnen, durch Beispiele dargestellt und nicht durch Beschränkungen.
  • Kurzbeschreibung der Figuren
  • 1 bildet schematisch ein Computersystem ab, das bei der vorliegenden Erfindung implementiert werden kann.
  • 2 ist ein Fließdiagramm, das den Betrieb einer Ausführung der vorliegenden Erfindung darstellt und
  • 3(a) und 3(b) bilden ein exemplarisches Sample mit einem Original-Synchronisationszeichen und einem synthetischen Synchronisationszeichen ab.
  • Bei der folgenden Beschreibung werden für den Zweck der Erklärung zahlreiche Details dargelegt, um für ein vollständiges Verständnis der vorliegenden Erfindung zu sorgen.
  • Es wird jedoch für einen Fachmann in dieser Technik offensichtlich sein, dass die vorliegende Erfindung ohne diese besonderen Einzelheiten ausgeführt werden kann. Bei anderen Gelegenheiten werden wohlbekannte Aufbauten und Vorrichtungen in Form von Blockdiagrammen gezeigt, um ein unnötiges Komplizieren der vorliegenden Erfindung zu vermeiden.
  • Übersicht über die Hardware
  • Die 1 ist ein Blockdiagramm, das ein Computersystem 100 darstellt, auf dem eine Ausführung der vorliegenden Erfindung implementiert werden kann. Das Computersystem 100 enthält einen Bus 102 oder andere Kommunikationseinrichtungen zum Kommunizieren von Information und einen Rechner (oder eine Vielzahl von gemeinsam arbeitenden CPUs) 104, gekoppelt an den Bus 102 zum Weiterverarbeiten von Information. Das Computersystem 100 enthält ebenso einen Hauptspeicher 106, wie einen Direktzugriffsspeicher (RAM) oder andere dynamische Speichereinrichtungen, gekoppelt an den Bus 102, zum Speichern von Information und von Anweisungen, die durch den Rechner 104 auszuführen sind. Der Hauptspeicher 106 kann ebenso benutzt werden, um, während der Ausführung der durch den Rechner 104 auszuführenden Anweisungen, temporäre Variable oder andere Zwischeninformation zu speichern. Das Computersystem 100 enthält ebenso einen Festwertspeicher (ROM) 108 oder andere statische Speichereinrichtungen, gekoppelt an den Bus 102, zum Speichern von statischen Informationen und Anweisungen für den Rechner 104. Eine Speichereinrichtung 110, wie zum Beispiel eine Magnetplatte oder eine optische Platte, wird bereitgestellt und zum Speichern von Informationen und Anweisungen an den Bus 102 gekoppelt.
  • Das Computersystem 100 kann über den Bus 102, zum Anzeigen der Informationen an einen Benutzer des Rechners, an eine Anzeige 111, wie zum Beispiel eine Kathodenstrahlröhre (CRT), gekoppelt sein. Eine Eingabevorrichtung, einschließlich alphanumerischer und anderer Tasten, ist zum Kommunizieren von Information und zur Befehlsauswahl an den Rechner 104 gekoppelt. Eine weitere Art von Benutzereingabevorrichtung ist eine Cursor-Steuerung 115, wie zum Beispiel eine Maus, eine Kugelführung oder Cursor-Richtungstasten, zum Kommunizieren von Richtungsinformation und zur Be fehlsauswahl an den Rechner 104 und zum Steuern der Cursor-Bewegung auf der Anzeige 111. Diese Eingabevorrichtung hat üblicherweise zwei Bewegungsfreiheiten auf zwei Achsen, einer ersten Achse (z. B. x), die es der Vorrichtung ermöglicht, Positionen in einer Ebene zu bestimmen. Für die Audioeingabe und die Audioausgabe kann das Computersystem 100 jeweils an einen Lautsprecher 117 und an ein Mikrofon 119 gekoppelt werden.
  • Die Prosodieanpassung wird durch das Computersystem 100 als Reaktion auf das Ausführen von einer oder mehreren Abfolge(n) von in dem Hauptspeicher 106 enthaltenen Anweisungen durch den Rechner 104 bereitgestellt. Solche Anweisungen können in den Hauptspeicher 106 von einem anderen rechnerlesbaren Medium, wie zum Beispiel der Speichereinrichtung 110, eingelesen werden. Die Ausführung der in dem Hauptspeicher 106 enthaltenen Anweisungen veranlasst den Rechner 104, die hierin beschriebenen Prozessschritte auszuführen. Ein oder mehrere Rechner in einer Mehrfachprozessanordnung kann bzw. können ebenso verwendet werden, um die Abfolge von in dem Hauptspeicher 106 enthaltenen Anweisungen auszuführen. Alternativ können festverdrahtete Schaltkreise anstelle von – oder in Kombination mit – Softwareanweisungen verwendet werden.
  • Der hierin verwendete Begriff „rechnerlesbares Medium" bezieht sich auf jedes Medium, das daran beteiligt ist, für den Rechner 104 Anweisungen zur Ausführung bereitzustellen. Solch ein Medium kann viele Formen aufweisen, einschließlich, jedoch nicht darauf beschränkt, nichtflüchtiger Medien, flüchtiger Medien und Übertragungsmedien. Nichtflüchtige Medien schließen zum Beispiel optische oder magnetische Platten, wie die Speichereinrichtung 110, ein. Flüchtige Medien können dynamische Speicher einschließen, wie den Hauptspeicher 106. Übertragungsmedien schließen Koaxialkabel, Kupferdrähte und Glasfasern ein, die den Bus 102 umfassen. Übertragungsmedien können ebenso die Form von optischen Lichtwellen annehmen, wie jene, die während Hochfrequenz-(RF-)Kommunikation und Infrarot-Datenkommunikation erzeugt werden. Gewöhnliche Formen der rechnerlesbaren Medien schließen beispielsweise eine Diskette, eine Floppy-Disk, eine Magnetplatte, ein Magnetband oder jedes andere magnetische Medium, eine CD-ROM, eine DVD, jedes andere optische Medium, Lochkarten, Lochstreifen, jedes andere physikalische Medium mit Lochmustern, einen RAM, einen PROM und EPROM, einen FLASH-EPROM, jeden anderen Speicherchip oder jede andere Kasset te, eine Trägerwelle, wie sie hier später beschrieben wird, oder jedes andere Medium, von dem ein Computer lesen kann, ein.
  • Verschiedene Formen von rechnerlesbaren Medien können beim Übertragen einer oder mehrerer Abfolge(n) von einer oder mehreren Anweisungen) zum Ausführen für den Rechner 104 involviert sein. Zum Beispiel können die Anweisungen anfänglich auf einer Magnetplatte eines entfernten Rechners getragen werden. Der entfernte Rechner kann die Anweisungen in seinen dynamischen Speicher laden und die Anweisungen unter Verwendung eines Modems über eine Telefonleitung senden. Ein lokales Modem an dem Computersystem 100 kann die Daten auf der Telefonleitung empfangen und einen Infrarotsender verwenden, um die Daten in ein Infrarotsignal umzuwandeln. Ein an den Bus 102 gekoppelter Infrarotdetektor kann die in dem Infrarotsignal übertragenen Daten empfangen und die Daten auf dem Bus 102 platzieren. Der Bus 102 überträgt die Daten an den Hauptspeicher 106, aus dem der Rechner 104 die Anweisungen abruft und dann ausführt. Die durch den Hauptspeicher 106 empfangenen Daten können wahlweise vor oder nach der Ausführung durch den Rechner 104 in einer Speichereinrichtung 110 gespeichert werden.
  • Das Computersystem 100 enthält ebenso eine an den Bus 102 gekoppelte Kommunikationsschnittstelle 120. Die Kommunikationsschnittstelle 120 stellt eine Zweiweg-Datenkommunikation, die an eine Netzwerkverbindung 121 koppelt, die mit einem lokalen Netzwerk 122 verbunden ist, bereit. Beispiele für die Kommunikationsschnittstelle 120 schließen eine dienstintegrierende digitale Netzwerk-(ISDN-)Karte, ein Modem, um eine Datenkommunikationsverbindung für eine entsprechende Telefonleitung bereitzustellen, und eine lokale Netzwerk-(LAN-)Karte, um eine Datenkommunikationsverbindung für ein kompatibles LAN bereitzustellen, ein. Bei jeder dieser Implementierungen empfängt und sendet die Kommunikationsschnittstelle 120 elektromagnetische oder optische Signale, die verschiedene Arten von Informationen darstellende digitale Datenströme übertragen.
  • Die Netzwerkverbindung 121 stellt üblicherweise durch ein Netzwerk oder durch mehrere Netzwerke Datenkommunikation für andere Dateneinrichtungen bereit. Beispielsweise kann die Netzwerkverbindung 121 eine Verbindung durch das lokale Netzwerk 122 zu einem Hostrechner 124 oder zu durch einen Internetdienstanbieter (ISP) 126 bereit gestellten Datengeräten bereitstellen. Der ISP 126 wiederum stellt Datenkommunikationsdienste über das weltweite Paketdatenkommunikationsnetzwerk, das heute gewöhnlich als das „Internet" 128 bezeichnet wird, bereit. Sowohl das lokale Netzwerk 122 als auch das Internet 128 nutzen elektromagnetische oder optische Signale, die digitale Datenströme übertragen. Die Signale durch die verschiedenen Netzwerke und die Signale an der Netzwerkverbindung 121 und durch die Kommunikationsschnittstelle 120, die die digitalen Daten von und zu dem Computersystem 100 übertragen, sind exemplarische Formen von Trägerwellen, die Information transportieren.
  • Das Computersystem 100 kann durch die Netzwerke, die Netzwerkverbindung 121 und die Kommunikationsschnittstelle 120 Nachrichten senden und Daten, einschließlich Programmcodes empfangen. Bei dem Internetbeispiel könnte ein Server 130 einen Anforderungscode für ein Anwendungsprogramm über das Internet 128, den ISP 126, das lokale Netzwerk 122 und die Kommunikationsschnittstelle 120 übertragen.
  • Eine dieser heruntergeladenen Anwendungen stellt die hierin beschriebene Prosodieanpassung bereit. Der empfangene Datencode könnte durch den Rechner 104 bei Empfang ausgeführt werden oder in einer Speichereinrichtung 110 oder einem anderen nichtflüchtigen Speicher für die spätere Ausführung gespeichert werden. Auf diese Art und Weise kann das Computersystem 100 den Anwendungscode in Form einer Trägerwelle erhalten.
  • Prosodieanpassung
  • Die 2 ist ein Fließdiagramm, das den Vorgang der Prosodiemodifikation eines original quasiperiodischen Signals in ein synthetisches Signal darstellt.
  • In dem Schritt 200 wird eine Reihe von Original-Synchronisationszeichen für das originale Signal eingerichtet. Im Gegensatz zu konventionellen Verfahren werden die Original-Synchronisationszeichen mit einer größeren Genauigkeit berechnet als die Abtastgeschwindigkeit mit der das Originalsignal weiterverarbeitet wird. Wenn die Weiterverarbeitungsabtastgeschwindigkeit beispielsweise 16 kHz ist, können die Synchronisationszeichen bei dem Originalsignal mit einer Auflösung von 21 μs eingerichtet werden, ob wohl das Signal für die Weiterverarbeitung bei Intervallen von ungefähr 63 μs abgetastet wird. Ein Ansatz ist, die Synchronisationszeichen einer mit höherer Abtastgeschwindigkeit abgetasteten Version des Originalsignals zu bestimmen, beispielsweise mit einer Geschwindigkeit, wie mindestens drei Mal schneller ist als die Weiterverarbeitungsabtastgeschwindigkeit. Ein anderer Ansatz, der keine Erhöhung der Abtastgeschwindigkeit sondern mathematische Kurvenanpassung verwendet, wird im Folgenden ausführlicher beschrieben.
  • Bezug nehmend auf die 3(a) wird ein quasiperiodisches Signal abgebildet, bei dem ein Original-Synchronisationszeichen 310 zwischen dem Sample 300 und dem Sample 302 angeordnet ist. Das Sample 300 ist eine Amplitude des originalen quasiperiodischen Signals in einem Zeitmoment und das Sample 302 ist eine Amplitude des gleichen quasiperiodischen Signals bei einem späteren Zeitmoment. Das Original-Synchronisationszeichen 310 wird mit einer feineren Auflösung als die Abtastgeschwindigkeit berechnet und ist deshalb nicht notwendigerweise übereinstimmend mit jedweden Samples in dem abgetasteten Originalsignal. In der 3(a) ist das Original-Synchronisationszeichen 310 grob 80% von der Strecke von Sample 300 zu Sample 302.
  • Die Original-Synchronisationszeichen können durch eine Vielzahl von Einrichtungen eingerichtet werden und bei der menschlichen Sprache werden die Synchronisationszeichen vorzugsweise bei Momenten von Kehlkopfverschlüssen, Epochen genannt, angeordnet. Eine Epoche tritt auf wenn sich die Stimmritze (Glottis), die der Abstand zwischen den Stimmbändern des oberen Teils des Kehlkopfs ist, schließt und einen „tief klingenden" Schwingungsdämpfungseffekt in dem Sprachsignal verursacht. Eine geeignete Definition des Zeitpunkts des Kehlkopfverschlusses ist der Moment, in dem die maximale Luftflussveränderungsrate durch die Stimmritze vorhanden ist. Ein Ansatz für das Feststellen der Epochen ist die Anwendung von Standard-Epochen-Erfassungsverfahren bei einer mit höherer Geschwindigkeit abgetasteten Version des Originalsignals, bei beispielsweise ungefähr 48 kHz. Ein weiterer Ansatz für das Ermitteln der Epochen, gleichfalls bei der mit höherer Geschwindigkeit abgetasteten Originalversion des Signals, verwendet Grundfrequenzzuordnung, wie in D. Talkins „A robust Algorithm for Pitch Tracking (RAPT)", Speech Coding & Synthesis, Kleijn & Paliwal (Amsterdam, Elsevier, 1995) beschrieben, worin eine Grundfrequenz f0 unter Verwendung der Querkorrelation und von dynamischen Programmierungstechniken erfasst wird. Die erfasste Grundfrequenz wird mit Höchstwerten (Peaks) kombiniert, die aus dem Residuum einer Codierung mit linearer Vorhersage in einem Programmierungsrahmen, der das Set von Epochen feststellt, das am besten mit den lokalen Schätzungen der Grundfrequenz f0 übereinstimmt, ausgewählt werden. Ein weiterer Ansatz, der kein explizites Abtasten mit höherer Geschwindigkeit involviert, ist, eine Funktion, wie zum Beispiel eine ganzrationale Funktion, in das Sprachsignal in der Nähe des Höchstwertes einzusetzen und dann die Analysetechniken zu verwenden, um den Höchstwert in der Funktion, der der Grobschätzung der Epoche bei der Originalabtastgeschwindigkeit am nächsten kommt, festzustellen. Die Time-Warping-Funktion richtet eine Projektion der originalen und der synthetischen Zeitachsen ein, die ein Frame-Stufen-Mapping von Segmenten der Originalwellenform zu einem Zeitpunkt auf den synthetischen Achsen bestimmt. Wenn die Kombination der Grundfrequenz und der Zeitskalamodifikationen ein verdichteteres oder ausgedünnteres Set von Synchronisationszeichen verwendet, werden die Frames, um zu Kompensieren, jeweils wiederholt oder ausgelassen.
  • Im Gegensatz zu konventionellen Techniken werden die synthetischen Synchronisationszeichen nicht auf die Signal-Sampling-Frequenzintervalle quantisiert, sondern auf eine feinere Auflösung als das Sampling-Intervall, die vorzugsweise nur durch die Genauigkeit der zu Grunde liegenden Hardware beschränkt wird. Beispielsweise stellt die Mantisse einer 32-Bit-Gleitzahl 24-Bit-Auflösung bereit.
  • Bezug nehmend auf die 3(b) wird ein synthetisches Synchronisationszeichen 320, das zwischen dem Sample 300 und dem Sample 302 liegt, abgebildet. Das synthetische Synchronisationszeichen 320 wird nicht generell an der gleichen Stelle des entsprechenden Original-Synchronisationszeichens 310 erscheinen und wird, durch die geringe Verzögerung δ, von dem Original-Synchronisationszeichen 310 versetzt sein. Die Verzögerung δ ist nicht notwendigerweise ein integrales Mehrfaches des Sampling-Intervalls (die Zeitdauer zwischen Sample 300 und Sample 302) und kann tatsächlich ein Bruchteil des Sampling-Intervalls sein.
  • Das Erzeugen synthetischer Frames
  • Nachdem die originalen und die synthetischen Synchronisationszeichen generiert wurden, werden in dem Schritt 204 Wellenformen des Originalsignals durch die Anwendung eines Filterfensters um ein Original-Synchronisationszeichen herum extrahiert. Dieses Filterfenster kann ein rechteckiges Fenster sein, das einen Frame von dem vorhergehenden Synchronisationszeichen bis zu dem nächsten Synchronisationszeichen definiert. Folglich umfasst ein Frame zwei Perioden: die erste Periode von dem vorhergehenden Synchronisationszeichen bis zu dem aktuellen Synchronisationszeichen und die zweite Periode von dem aktuellen Synchronisationszeichen bis zu dem nächsten Synchronisationszeichen. Jedoch können andere Implementierungen ein vergrößertes Kosinusfenster, wie zum Beispiel ein Hamming-Fenster, ein symmetrisches Hamming-Fenster oder ein asymmetrisches Hamming-Fenster, das hierin in Verbindung mit dem Schritt 210 im Folgenden genauer beschrieben wird, oder ein mittig gewichtetes Fenster verwenden.
  • Nachdem die Wellenformen in dem ausgewählten Frame aus dem Originalsignal um ein Original-Synchronisationszeichen herum extrahiert wurden, werden die Wellenformen auf das entsprechende synthetische Synchronisationszeichen verschoben. Einem Beispiel entsprechend, werden die Wellenformen in einem Zwei-Schritte-Prozess verschoben. Als Erstes wird, wie bei den konventionellen Techniken, der ausgewählte Frame auf das naheste Sampling-Intervall, das vor dem synthetischen Synchronisationszeichen ist, verschoben (Schritt 206).
  • Der zweite Schritt ist ein Feinverschieben, das den Frame auf die genaue Zeitposition für das synthetische Synchronisationszeichen verschiebt (Schritt 208). Ein Ansatz zu dem Feinverschieben ist, das Originalsignal aus seinen Samples zu rekonstruieren und das Originalsignal, nach der Einführung der erwünschten Verzögerung in die Log-Domain, erneut abzutasten. Das Neuabtasten des Originalsignals kann digital durch Abtasten des Digitalsignals (d. h. des abgetasteten Originalsignals) mit erhöhter Geschwindigkeit, wobei ein digitaler Rekonstruktionsfilter bei erhöhter Abtastgeschwindigkeit eine ganzzahlige Verzögerung bei dieser erhöhten Abtastgeschwindigkeit einführt, und durch das Abtasten des verzögerten Signals mit bis auf die originale Abtastgeschwindigkeit verringerter Geschwindigkeit durchgeführt werden. Die erhöhte Ge schwindigkeit zum Abtasten wird durch die vernachlässigbare Quantisierung der Verzögerung bei dem Abtasten mit der höheren Sampling-Geschwindigkeit bestimmt. Unter Verwendung eines Sinc(x)-Rekonstruktionsfilters kann das neu abgetastete Signal mit der folgenden Gleichung dargestellt werden:
    Figure 00120001
    wobei x[n] das lang verschobene Signal ist, y(m) das fein verschobene Signal ist und α der Quotient der Feinverzögerung δ und der Sampling-Periode Ts ist. In der Praxis sind die Grenzen der Summation auf einen sensiblen ganzzahligen Wert wie 40 beschränkt, der geringe Verzerrung in das sich ergebende Signal einführt. Diese Verzerrung kann jedoch durch das Anwenden eines Tapering-Fensters, wie in F. M. Gimenez de los Galanes u. a., „Speech Synthesis System Based on a Variable Decimation/Interpolation Factor", IEEE Proc. ICASSP '95 (Detroit 1995), erläutert wird. Zu diesem Zeitpunkt können weitere Prosodieanpassungen angewendet werden, beispielsweise die Betonungssteuerung durch Multiplizieren der Wellenformen mit einem Verstärkungsfaktor.
  • Signalsynthese
  • Nachdem die extrahierten Wellenformen feinverschoben wurden, werden die Wellenformen kombiniert, um das synthetisierte Signal zu erzeugen, vorzugsweise durch die Anwendung des folgenden Overlap-and-Add-Verfahrens, um den schnellen Wechseln von Tonhöhen Rechnung zu tragen. Genauer gesagt, ist, gemäß einer Ausführung der vorliegenden Erfindung, der erste Abschnitt des asymmetrischen Fensters die Hälfte eines Hamming-Fensters, das sich in der Amplitude von 0 auf einen Nicht-Null-Wert, wie zum Beispiel 1, erhöht, mit einer Länge, die die kleinere der Längen der ersten Originalperiode und der ersten synthetischen Periode ist. Der zweite Abschnitt des asymmetrischen Fensters ist die Hälfte eines Hamming-Fensters, das sich in der Amplitude von dem Nicht-Null-Wert auf 0 vermindert, mit einer Länge, die die kleinere der Längen der zweiten Originalperiode und der zweiten synthetischen Periode ist. Es ist offensichtlich, dass ein weiteres Filterfenster angewendet werden kann, beispielsweise ein inhärent asymmetrisches Fenster, wie eine Gammafunktion oder die Hälften von symmetrischen Fenstern, wie zum Beispiel die eines Hamming-Fensters oder ein vergrößertes Kosinus-Fenster. Die Strategie des asymmetrischen Fensters verringert die Verzerrung in dem Fenster-Schritt eines Overlap-and-Add-Verfahrens dadurch, dass sie nicht zu viel und nicht zu wenig der Wellenform extrahiert.
  • Bei der in dem Fließdiagramm der 2 dargestellten Ausführung der vorliegenden Erfindung wird das asymmetrische Fenster auf eine zeitverschobene Wellenform angewendet. In einer weiteren Ausführung der vorliegenden Erfindung wird jedoch die Wellenform, selbst bei konventionellen Verfahren, zuerst durch ein asymmetrisches Fenster extrahiert und dann zeitverschoben. Nachdem die gefensterte zeitverschobene Wellenform extrahiert ist, wird sie mit weiteren überlappend gefensterten zeitverschobenen Wellenformen summiert, um in Übereinstimmung mit konventionellen Overlap-and-Add-Techniken das synthetische Signal zu erzeugen (Schritt 212).

Claims (15)

  1. Verfahren zum Durchführen der Prosodieanpassung eines quasiperiodischen Signals, das Verfahren umfasst die folgenden Schritte: Bestimmen einer Reihe (200) von Original-Synchronisationszeichen (310) in dem Originalsignal, Bestimmen (202) einer Reihe von synthetischen Synchronisationszeichen (320) auf der Basis der Original-Synchronisationszeichen und auf Prosodieinformationen, Extrahieren (204) der Wellenformen um eines der Original-Synchronisationszeichen herum durch Anwenden (210) eines Filterfensters und Zeitverschiebung entsprechend dem einem der Original-Synchronisationszeichen und dem einem der synthetischen Synchronisationszeichen, das dem einen der Original-Synchronisationszeichen entspricht und Addieren (212) der extrahierten Wellenformen, um das quasiperiodische Signal zu synthetisieren, wobei das asymmetrische Filterfenster einen ersten Halbwertsbreiteabschnitt auf einer Seite des Original-Synchronisationszeichens (310) und einen zweiten Halbwertsbreiteabschnitt auf einer anderen Seite des Original-Synchronisationszeichens aufweist, wobei der erste Halbwertsbreiteabschnitt in der Größe unterschiedlich von dem zweiten Halbwertsbreiteabschnitt ist, der erste und der zweite Abschnitt in einer Juxtaposition zueinander sind, der erste Abschnitt eine progressiv von null auf einen Nicht-Null-Wert entlang der ersten Halbwertsbreite ansteigende Amplitude aufweist und der zweite Abschnitt eine von dem Nicht-Null-Wert progressiv auf null entlang der zweiten Halbwertsbreite abfallende Amplitude aufweist, dadurch gekennzeichnet, dass die erste Halbwertsbreite das kleinere von den Intervallen zwischen dem einen der Original-Synchronisationszeichen und einem vorhergehenden Original-Synchronisationszeichen (310) und dem Intervall zwischen dem einen der Synchronisationszeichen (320) und einem vorhergehenden synthetischen Synchronisationszeichen ist und die zweite Halbwertsbreite das kleinere von den Intervallen zwischen dem einen der Original-Synchronisationszeichen und einem nachfolgenden Original-Synchronisationszeichen und dem Intervall zwischen dem einen der synthetischen Synchronisationszeichen und einem nachfolgenden Synchronisationszeichen ist.
  2. Verfahren nach Anspruch 1, wobei der erste Abschnitt die erste Hälfte eines Hanning-Fensters ist und der zweite Abschnitt die zweite Hälfte eines Hanning-Fensters ist.
  3. Verfahren nach Anspruch 1, wobei der Schritt der Fensterung (210) vor dem Schritt des Zeitverschiebens (206) durchgeführt wird.
  4. Verfahren nach Anspruch 1, wobei der Schritt der Fensterung (210) nach dem Schritt des Zeitverschiebens (206) durchgeführt wird.
  5. Verfahren nach Anspruch 1, wobei eine Differenz von dem einen der Original-Synchronisationszeichen (310) und dem einen der synthetischen Synchronisationszeichen (320) ein nicht ganzzahliges Vielfaches des Sampling-Intervalls ist.
  6. Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens einer Reihe von Original-Synchronisationszeichen (310) in dem quasiperiodischen Signal den Schritt des Bestimmens wenigstens eines der Original-Synchronisationszeichen in einer feineren Auflösung als das Sampling-Intervall enthält.
  7. Verfahren nach Anspruch 6, abhängig von Anspruch 1, wobei der Schritt des Bestimmens wenigstens eines der Original-Synchronisationszeichen (310) in einer feineren Auflösung als das Sampling-Intervall den Schritt des Anpassens einer mathematischen Kurve, um einen Höchstwert in dem quasiperiodischen Signal festzustellen, enthält.
  8. Verfahren nach Anspruch 6, wobei der Schritt des Bestimmens wenigstens eines der Original-Synchronisationszeichen (310) in einer feineren Auflösung als das Sampling-Intervall den Schritt des Abtastens des quasiperiodischen Signals in einem kürzeren Sampling-Intervall in Bezug auf das Sampling-Intervall enthält.
  9. Verfahren nach Anspruch 8, wobei das kürzere Intervall höchstens ein Drittel des Sampling-Intervalls ist.
  10. Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens einer Reihe von Original-Synchronisationszeichen (310) in dem quasiperiodischen Signal den Schritt des Bestimmens der Epochen in dem quasiperiodischen Signal enthält.
  11. Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens einer Reihe von synthetischen Synchronisationszeichen (320) den Schritt des Bestimmens wenigstens eines der synthetischen Synchronisationszeichen in einer feineren Auflösung als das Sampling-Intervall enthält.
  12. Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens wenigstens eines der synthetischen Synchronisationszeichen (320) in einer feineren Auflösung als das Sampling-Intervall den Schritt des Bestimmens wenigstens eines der synthetischen Synchronisationszeichen durch eine Gleitpunktzahl mit einer Mantisse von wenigstens vierundzwanzig Bit enthält.
  13. Verfahren nach Anspruch 5, wobei der Schritt des Verschiebens (206) der Wellenform auf eines der dem einen der Original-Synchronisationszeichen ent sprechenden synthetischen Synchronisationszeichen (320) den Schritt der Wiederabtastung (208) der Wellenformen zum Anpassen der Wellenformen an das eine der synthetischen Synchronisationszeichen enthält.
  14. Verfahren nach Anspruch 13, wobei der Schritt des Verschiebens (206) der Wellenformen auf eines der dem einen der Original-Synchronisationszeichen entsprechenden synthetischen Synchronisationszeichen (320) weiterhin, bevor der Schritt der Wiederabtastung durchgeführt wird, den Schritt des Verschiebens der Wellenform auf das naheste vorhergehende Sampling-Intervall von dem einen der synthetischen Synchronisationszeichen enthält.
  15. Ein rechnerlesbares Medium (100), das Anweisungen für ein quasiperiodisches Signal eine Prosodieanpassung durchzuführen, trägt, wobei die Anweisungen angeordnet sind, wenn sie ausgeführt werden, den bzw. die Rechner (104) zu veranlassen, die Schritte des Anspruchs 1 oder die der von Anspruch 1 abhängigen Ansprüche auszuführen.
DE69824613T 1997-01-27 1998-01-27 Ein system und verfahren zur prosodyanpassung Expired - Lifetime DE69824613T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3622897P 1997-01-27 1997-01-27
US36228P 1997-01-27
PCT/US1998/001539 WO1998035339A2 (en) 1997-01-27 1998-01-27 A system and methodology for prosody modification

Publications (2)

Publication Number Publication Date
DE69824613D1 DE69824613D1 (de) 2004-07-22
DE69824613T2 true DE69824613T2 (de) 2005-07-14

Family

ID=21887409

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69824613T Expired - Lifetime DE69824613T2 (de) 1997-01-27 1998-01-27 Ein system und verfahren zur prosodyanpassung

Country Status (6)

Country Link
US (1) US6377917B1 (de)
EP (1) EP1019906B1 (de)
AT (1) ATE269575T1 (de)
AU (1) AU6044398A (de)
DE (1) DE69824613T2 (de)
WO (1) WO1998035339A2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
EP1297646B1 (de) * 2000-06-12 2006-04-19 BRITISH TELECOMMUNICATIONS public limited company Messung der wahrgenommenen sprachqualität während des betriebs durch messung von objektiven fehlergrössen
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
US20060013412A1 (en) * 2004-07-16 2006-01-19 Alexander Goldin Method and system for reduction of noise in microphone signals
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
EP3288027B1 (de) 2006-10-25 2021-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum erzeugen von komplexen wertvollen audiosubbandwerten
USRE50009E1 (en) 2006-10-25 2024-06-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
ES2401014B1 (es) * 2011-09-28 2014-07-01 Telef�Nica, S.A. Método y sistema para la síntesis de segmentos de voz
CN108682426A (zh) * 2018-05-17 2018-10-19 深圳市沃特沃德股份有限公司 语音声色转换方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
US5278943A (en) 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
SG43076A1 (en) * 1994-03-18 1997-10-17 British Telecommuncations Plc Speech synthesis

Also Published As

Publication number Publication date
AU6044398A (en) 1998-08-26
WO1998035339A3 (en) 1998-11-19
EP1019906B1 (de) 2004-06-16
EP1019906A2 (de) 2000-07-19
WO1998035339A2 (en) 1998-08-13
DE69824613D1 (de) 2004-07-22
US6377917B1 (en) 2002-04-23
ATE269575T1 (de) 2004-07-15
EP1019906A4 (de) 2000-09-27

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE69932786T2 (de) Tonhöhenerkennung
DE69826446T2 (de) Stimmumwandlung
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69824613T2 (de) Ein system und verfahren zur prosodyanpassung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE602004005784T2 (de) Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE69720861T2 (de) Verfahren zur Tonsynthese
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE3733659C2 (de)
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
EP0191531B1 (de) Verfahren und Einrichtung zur Sprachsegmentierung
DE69736279T2 (de) Tonwiedergabe-geschwindigkeitsumwandler

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: MICROSOFT CORP., REDMOND, WASH., US

8364 No opposition during term of opposition