DE69926462T2 - Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung - Google Patents

Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung Download PDF

Info

Publication number
DE69926462T2
DE69926462T2 DE69926462T DE69926462T DE69926462T2 DE 69926462 T2 DE69926462 T2 DE 69926462T2 DE 69926462 T DE69926462 T DE 69926462T DE 69926462 T DE69926462 T DE 69926462T DE 69926462 T2 DE69926462 T2 DE 69926462T2
Authority
DE
Germany
Prior art keywords
signal
frequency
pitch
value
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69926462T
Other languages
English (en)
Other versions
DE69926462D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69926462D1 publication Critical patent/DE69926462D1/de
Publication of DE69926462T2 publication Critical patent/DE69926462T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Codieren eines Audiosignals. Die vorliegende Erfindung bezieht sich ebenfalls auf eine Anordnung zum Codieren eines Audiosignals. Die vorliegende Erfindung bezieht sich weiterhin auf ein Verfahren zum Synthetisieren eines Audiosignals aus codierten Signalfragmenten.
  • Die vorliegende Erfindung bezieht sich ebenfalls auf ein System zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten. Die vorliegende Erfindung bezieht sich weiterhin auf einen Synthesizer.
  • Die vorliegende Erfindung bezieht sich auf ein parametrisches Produktionsmodell zum Codieren eines Audiosignals. Eine weit verbreitete Codierungstechnik auf Basis eines parametrischen Produktionsmodells ist die sog. "Linear Predictive Coding" Technik (LPC-Technik). Diese Technik wird insbesondere zur Sprachcodierung angewandt. Das codierte Signal kann beispielsweise über ein Telekommunikationsnetzwerk übertragen und in der Empfangsstation decodiert (neu-synthetisiert) werden oder es kann in einem Sprachsynthesesystem verwendet werden zum Synthetisieren von Sprache, die beispielsweise Texteingabe darstellt. Entsprechend dem LPC-Modell wird die Spektralenergie-Umhüllende eines Audiosignals in Termen eines optimalen All-Pol-Filters und eines Verstärkungsfaktors beschrieben, der den Filterausgang an den Eingangspegel anpasst. Für Sprache bestimmt eine binäre Sprachentscheidung, ob eine periodische Impulsfolge oder weißes Rauschen das LPC-Synthesefilter erregt. Für laufende Sprache werden die Modellparameter, d.h. Stimmhaftigkeit, Tonhöhenperiode, Verstärkungs- und Filterkoeffizienten alle Frames, mit einer typischen Dauer von 10 ms, aktualisiert. Dies reduziert die Bitrate drastisch. Obschon ein bekannter LPC-Vocoder verständliche Sprache erzeugen kann, klingt es oft wie Gebrumm. LPC basiert auf Autokorrelationsanalyse und ignoriert ganz einfach das Phasenspektrum. Die Synthese ist minimale Phase. Eine Begrenzung der bekannten LPC ist die binäre Selektion entweder einer periodischen oder einer Störungsquelle. In natürlicher Sprache wirken die beiden Quellen oft simultan. Nicht nur bei stimmhaften Reibelauten, sondern auch bei vielen anderen stimmhaften Lauten. Eine verbesserte LPC-Codierungstechnik ist bekannt aus "A mixed excitation LPC vocoder model for low bit rate speech coding", McCree & Barnwell, "IEEE Transactions on speech and audio pro cessing", Heft 3, Nr. 4, Juli 1995. Nach dieser Codierungstechnik wird eine Filterbank verwendet um das Eingangssignal in eine Anzahl von beispielsweise fünf Frequenzbänder aufzuteilen. Für jedes Band wird die relative Impuls- und Störungsleistung durch eine Schätzung der Stärke der Stimmleistung bei dieser Frequenz in dem Eingangssprache geschätzt. Die Stimmkraft in jedem Frequenzband wird als die größte der Korrelation der bandpassgefilterten Eingangssprache und der Korrelation der Umhüllenden der bandpassgefilterten Sprache gewählt. Das LPC-Synthesefilter wird durch eine frequenzgewichtete Summe einer Impulsfolge und weißes Rauschen angeregt.
  • Im Allgemeinen ist die durch LPC erhaltene Qualität relativ gering und deswegen wird LPC hauptsächlich für Kommunikationszwecke mit niedrigen Bitraten angewandt (beispielsweise 2400/4800 bps). Sogar die verbesserte LPC-Codierung eignet sich nicht für Systeme, wie Sprachsynthese (Text-zu-Sprache), wobei eine hohe Qualität an dem Ausgang erwünscht ist. Bei der Anwendung der LPC-Codierungsmethoden fehlt ein Großteil der Natürlichkeit. Dies ist eine Behinderung für umfangreiche Applikation von synthetischer Sprache in beispielsweise Telefondiensten oder in automatischen Verkehrssystemen in einer Kraftwagenumgebung.
  • US-A-5189701 beschreibt einen Stimmcodierer/Decoder, der die Amplitude und die Phase der Pitch-Frequenz und der Harmonischen, durch Verwendung eines Frames mit fester Länge und mit fester Überlappung.
  • Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein parametrisches Codierungs/Syntheseverfahren und -system zu schaffen, das imstande ist, mehr natürliche Sprache zu erzeugen.
  • Um diese Aufgabe der vorliegenden Erfindung zu erfüllen umfasst das Verfahren zum Codieren eines Audiosignals:
    • – das Ermitteln aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal;
    • – das Bilden einer Sequenz einander überlappender oder aneinander grenzender Analysensegmente des Signals dadurch, dass eine Kette von Zeitfenstern gesetzt wird, durch Verlagerung jedes nachfolgenden Zeitfensters um im Wesentlichen eine örtliche Pitch-Periode gegenüber einem unmittelbar vorhergehenden Zeitfenster, und dass das Audiosignal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird;
    • – für jedes Analysensegment:
    • – das Ermitteln eines Amplitudenwertes und eines Phasenwertes für eine Anzahl Fre quenzanteile des Analysensegmentes, einschließlich einer Anzahl harmonischer Frequenzen der Pitch-Frequenz entsprechend dem Analysensegment,
    • – das Ermitteln eines Rauschwertes der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil des Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil, der einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils des Analysensegmentes mit der Frequenz darstellt; und
    • – das Darstellen des Analysensegmentes durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile.
  • Der Erfinder hat gefunden, dass eine genaue Schätzung des Verhältnisses zwischen dem Rauschwert und dem periodischen Anteil dadurch erreicht wird, dass die Phasenentwicklung des Signals Pitch-synchron analysiert wird, statt einer (oder zusätzlich zu einer) Analyse der Amplitudenentwicklung. Diese verbesserte Detektion des Rauschbeitrags kann angewandt werden zum Verbessern der bekannten LPC-Codierung. Auf vorteilhafte Weise wird die Codierung für Sprachsynthesesysteme angewandt.
  • Wenn das Analysenfenster sehr schmal ist, kann die relativ schnelle Änderung des "Lärms", die in Sprache auftreten kann, genau detektiert werden.
  • Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 2 beschrieben, wird die Pitch-Entwicklung unter Anwendung einer Zwei-Schritt-Annäherung genau bestimmt. Nachdem eine grobe Schätzung des Pitches erhalten worden ist, wird das Signal gefiltert zum Extrahieren der Frequenzanteile in der Nähe der detektierten Pitch-Frequenz. Der wirkliche Pitch wird in dem Pitch-gefilterten Signal detektiert.
  • Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 3 beschrieben, basiert die Filterung auf Konvolution mit einem Sinus/Kosinuspaar innerhalb eines Segmentes, was eine genaue Bestimmung des Pitch-Frequenzanteils innerhalb des Segmentes berücksichtigt.
  • Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 4 beschrieben, wird Interpolation angewandt zur Steigerung der Auflösung für abgetastete Signale.
  • Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 5 beschrieben, werden der Amplituden- und/oder Phasenwert der Frequenz anteile durch eine Transformation zu der Frequenzdomäne bestimmt, und zwar unter Verwendung der genau bestimmten Pitch-Frequenz als Grundfrequenz der Transformation. Dies berücksichtigt eine genaue Beschreibung des periodischen Teils des Signals.
  • Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 6 beschrieben, wird der Rauschwert von der Differenz des Phasenwertes für den Frequenzanteil des Analysensegmentes und dem entsprechenden Phasenwert wenigstens eines vorhergehenden oder nachfolgenden Analysensegmentes hergeleitet. Dies ist eine einfache Art und Weise ein Maß zu erhalten, wie hoch der Rauschwert bei dieser Frequenz in dem Signal ist. Wenn das Signal weitgehend durch das periodische Signal beherrscht wird, mit einem sehr niedrigen Rauschwert, wird die Phase im Wesentlichen dieselbe sein. Andererseits wird für ein durch Rauschanteile beherrschtes Signal die Phase "beliebig" sich ändern. An sich liefert der Vergleich der Phase einen Hinweis auf den Beitrag der periodischen und der aperiodischen Anteile zu dem Eingangssignal. Es dürfte einleuchten, dass das Maß auch basiert auf Phaseninformation von mehr als zwei Segmenten (so kann beispielsweise der Phaseninformation der beiden Nachbarsegmenten mit der Phase des aktuellen Segmentes verglichen werden).
  • Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 7 beschrieben, basiert der Rauschwert auf einer Differenz zwischen einer Abgeleiteten des Phasenwertes für den Frequenzanteil des Analysensegmentes und dem entsprechenden Phasenwert wenigstens eines vorhergehenden oder nachfolgenden Analysensegmentes. Dies schafft ein mehr robustes Mass.
  • Zum Erfüllen der Aufgabe der vorliegenden Erfindung umfasst das Verfahren zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten, wie Diphonen
    • – das Wiedergewinnen selektierter, codierter Signalfragmente, wobei die Signalfragmente als Amplitudenwert und als Rauschwert für jedes der Frequenzanteile codiert worden sind, und zwar entsprechend dem Verfahren nach Anspruch 1; und
    • – für jedes der wieder gewonnenen codieren Signalfragmente das Schaffen eines entsprechenden Signalfragmentes durch Transformation des Signalfragmentes zu einer Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzugefügt wird, und zwar entsprechend dem betreffenden Rauschwert für den Frequenzanteil, wobei der aperiodische Signalanteil eine beliebige Anfangsphase hat.
  • Auf diese Weise kann ein Synthesesignal hoher Qualität erhalten werden. Bisher ist eine synthetische Sprache einer angemessenen Qualität dadurch erhalten worden, dass aufgezeichnete wirkliche Sprachfragmente, die Diphone, aneinander gekoppelt wurden. Mit diesen Techniken kann innerhalb eines Fragmentes ein hoher Pegel der Natürlichkeit des Ausgangs erreicht werden. Die Sprachfragmente werden selektiert und in einer sequentiellen Reihenfolge aneinander gekoppelt um den gewünschten Ausgang zu erzeugen. So wird beispielsweise ein eingegebener Text (ein Satz) zu einer Folge von Diphonen transkribiert, wonach die Sprachfragmente (Diphonen) entsprechend der Transkription erhalten werden. Normalerweise haben die aufgezeichneten Sprachfragmente nicht die Pitch-Frequenz und/oder die Dauer entsprechend der gewünschten Prosodie des auszusprechenden Satzes. Die Manipulation kann dadurch durchgeführt werden, dass das Basis-Sprachsignal in Segmente aufgeteilt wird. Die Segmente werden dadurch gebildet, dass eine Kette von Fenstern längs des Signals gesetzt wird. Aufeinander folgende Fenster werden meistens um eine Dauer, entsprechend der örtlichen Pitch-Periode verlagert. In dem System von EP-A 0527527 und EP-A 0527529, das als das PIOLA-System bezeichnet wird, wird die örtliche Pitch-Periode automatisch detektiert und die Fenster werden entsprechend der detektierten Pitch-Dauer verlagert. In dem sog. PSOLA-System von EP-A 363233 sind die Fenster um handmäßig bestimmte Stellen, sog. Stimmmerker, zentriert. Die Stimmmerker entsprechen den periodischen Zeitpunkten stärkster Erregung der Stimmbänder. Das Sprachsignal wird entsprechend der Fensterfunktion der betreffenden Fenster gewichtet zum Erhalten der Segmente. Ein Ausgangssignal wird dadurch erzeugt, dass die Signalsegmente aneinander gekoppelt werden. Ein verlängertes Ausgangssignal wird dadurch erhalten, dass Segmente wiederholt werden (beispielsweise Wiederholung von einem zu vier Segmenten um ein um 25% längeres Signal zu erhalten). Auf gleiche Weise kann ein verkürztes Ausgangssignal dadurch erreicht werden, dass Segmente unterdrückt werden. Der Pitch des Ausgangssignals wird erhöht, bzw. verringert und zwar durch Steigerung bzw. Verringerung der Überlappung zwischen den Segmenten. Angewandt auf laufende Sprache kann die Qualität der auf diese Art und Weise manipulierten Sprache sehr hoch sein, vorausgesetzt, dass der Bereich der Pitch-Änderungen nicht zu groß ist. Es treten aber Komplikationen auf, wenn die Sprache aus relativ kurzen Sprachsegmenten, wie Diphonen, aufgebaut ist. Die harmonischen Phasenläufe der stimmhaften Sprachteile können ziemlich verschieden sein und es ist schwer, glatte Übergänge an den Rändern zwischen aufeinander schen aufeinander folgenden Fragmenten zu erzeugen, wodurch die Natürlichkeit der synthetisierten Sprache reduziert wird. Bei derartigen Systemen kann die Codierungstechnik nach der vorliegenden Erfindung auf vorteilhafte Weise angewandt werden. Dadurch, dass nicht mit den wirklichen Audio-Fragmenten mit einer nicht steuerbaren Phase gearbeitet wird, werden stattdessen Fragmente aus den codierten Fragmenten nach der vorliegenden Erfindung geschaffen. Jede beliebige geeignete Technik kann angewandt werden um die Fragmente zu decodieren, denen eine Segmentmanipulation nach der PIOLA/PSOLA-Technik folgt. Durch Anwendung einer geeigneten Decodierungstechnik kann die Phase der betreffenden Frequenzanteile völlig gesteuert werden, so dass ungesteuerte Phasenübergänge bei Fragmentgrenzen vermieden werden können. Vorzugsweise wird sinusförmige Synthese angewandt zum Decodieren der codierten Fragmente. Nach der vorliegenden Erfindung werden ebenfalls eine Anordnung wie in Anspruch 8 beschrieben sowie ein Synthesizer, wie in Anspruch 11 beschrieben, vorgesehen.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 ein gesamtes Codierungsverfahren nach der vorliegenden Erfindung,
  • 2 Segmentierung eines Signals,
  • 3 genaue Bestimmung eines Pitch-Wertes, wobei die erste Harmonische-Filtertechnik nach der vorliegenden Erfindung angewandt wird,
  • 4 die Ergebnisse der ersten-Harmonischen Filterung,
  • 5 den Rauschwert, wobei die Analyse nach der vorliegenden Erfindung angewandt wird, und
  • 6 eine Illustration der Verlängerung eines synthetisierten Signals.
  • Allgemeine Beschreibung
  • Das gesamte Codierungsverfahren nach der vorliegenden Erfindung ist in 1 dargestellt. In dem Schritt 10 wird die Entwicklung der Pitch-Periode (oder als Äquivalent: die Pitch-Frequenz) eines Audio-Eingangssignals detektiert. Das Signal kann beispielsweise ein Sprachsignal oder ein Sprachsignalfragment darstellen, wie dies für diphone Sprachsynthese verwendet wird. Obschon die Technik auf Sprachsignale gerichtet ist, kann die Technik auch auf andere Audiosignale, wie Musik, angewandt werden. Für derartige Signale kann die Pitch-Frequenz mit dem dominanten periodischen Frequenzanteil assoziiert werden. Die Beschreibung fokussiert aber auf Sprachsignale.
  • Im Schritt 12 wird das Signal in eine Sequenz einander überlappender oder aneinander grenzender Analysensegmente aufgeteilt. Um die Segmente zu bilden wird gegenüber dem Eingangssignal eine Kette von Zeitfenstern gesetzt. Jedes Zeitfenster ist mit einer Fensterfunktion assoziiert, wie nachstehend noch näher beschrieben wird. Durch Gewichtung des Signals entsprechend der Fensterfunktion der betreffenden Fenster, werden die Segmente erzeugt.
  • In den nachfolgenden Schritten wird jedes der Analysensegmente auf eine Pitch-synchrone Art und Weise analysiert, und zwar um die Phasenwerte zu ermitteln (und vorzugsweise gleichzeitig die Amplitudenwerte) einer Anzahl harmonischer Frequenzen innerhalb des Segmentes. Die harmonischen Frequenzen umfassen die Pitch-Frequenz, die als erste Harmonische bezeichnet wird. Die für das Segment betreffende Pitch-Frequenz ist bereits in dem Schritt 10 bestimmt worden. Die Phase wird in Bezug auf einen vorbestimmten Zeitpunkt in dem Segment bestimmt (beispielsweise der Start oder die Mitte des Segmentes). Zum Erhalten der höchsten Qualität der Codierung werden möglichst viele Harmonische analysiert (innerhalb der Bandbreite des Signals). Wenn aber beispielsweise ein bandgefiltertes Signal erforderlich ist, brauchen nur die Harmonischen innerhalb des gewünschten Frequenzbereichs in Betracht gezogen zu werden. Auf gleiche Weise können, wenn ein Ausgangssignal geringerer Qualität akzeptierbar ist, eine Harmonische außer Betracht gelassen werden. Auch für einige der Harmonischen kann es sein, dass nur die Amplitude bestimmt wird, wobei der Rauschwert für einen Subsatz der Harmonischen bestimmt wird. Insbesondere für die niedrigeren Harmonischen neigt das Signal vorwiegend periodisch zu sein, wodurch es ermöglicht wird, einen geschätzten Rauschwert für diese Harmonischen zu verwenden. Weiterhin ändert sich der Rauschwert allmählicher als die Amplitude. Dies ermöglicht es, den Rauschwert für nur einen einzigen Subsatz der Harmonischen zu bestimmen (beispielsweise einmal je zwei aufeinander folgende Harmonische). Für diejenigen Harmonischen, für die kein Rauschwert bestimmt worden ist, kann der Rauschwert bestimmt werden (beispielsweise durch Interpolation). Zum Erhalten einer Codierung hoher Qualität wird der Rauschwert für alle Harmonischen innerhalb des gewünschten Frequenzbereichs. Sollten alle Rauschwerte dargestellt werden, so würde dies zu viel Speicherraum oder Übertragungskapazität erfordern, die Rauschwerte können auf effiziente Weise komp rimiert werden, und zwar auf Basis der relativ langsamen Änderung des Rauschwertes. Jede beliebige geeignete Kompressionstechnik kann dazu angewandt werden.
  • In dem Schritt 14 wird das erste Segment selektiert, angegeben durch einen Segmentzeiger (s – ptr = 0). Das Segment wird in dem Schritt 16 wieder gefunden (beispielsweise aus dem Hauptspeicher oder einem Hintergrundspeicher). In dem Schritt 18 wird die erste zu analysierende Harmonische selektiert (h = 1). In dem Schritt 20 wird die Phase (und vorzugsweise auch die Amplitude) der Harmonischen ermittelt. Im Grunde kann zum Bestimmen der Phase jede beliebige geeignete Methode angewandt werden. Danach wird in dem schritt 22 für die selektierte harmonische Frequenz ein Maß (Rauschwert) bestimmt, das den Beitrag eines periodischen Signalanteils und eines aperiodischen Signalanteils (Rauschen) zu dem selektierten Analysensegment bei dieser Frequenz angibt. Das Maß kann ein Verhältnis zwischen den Anteilen oder ein anderes geeignetes Maß sein (beispielsweise ein absoluter Wert eines der Anteile oder der beiden Anteile). Das Maß wird für jede der betreffenden Frequenzen dadurch bestimmt, dass die Phase der Frequenz in einem Segment mit der Phase derselben Frequenz in einem nachfolgenden Segment (oder auf alternative Weise in einem vorhergehenden Segment) verglichen wird. Wenn das Signal weitgehend durch das periodische Signal dominiert wird, mit einem sehr geringen Beitrag an Rauschen, wird die Phase im Wesentlichen dieselbe sein. Andererseits wird für ein Signal, das durch Rauschen beherrscht wird, die Phase "beliebig" sich ändern. An sich liefert der Vergleich der Phase eine Angabe für den Beitrag der periodischen und aperiodischen Anteile zu dem Eingangssignal. Es dürfte einleuchten, dass das Maß auch auf Phaseninformation von mehr als zwei Segmenten basieren kann (so kann beispielsweise der Phaseninformation von den beiden Nachbarsegmenten mit der Phase des betreffenden Segmentes verglichen werden). Auch andere Information, wie die Amplitude des Frequenzanteils kann berücksichtigt werden, sowie Information über benachbarte Harmonische.
  • In dem Schritt 24 tritt Codierung des selektierten Analysesegmentes dadurch auf, dass für jeden der selektierten Frequenzanteile der Amplitudenwert und der Rauschwert gespeichert wird (auch als Rauschfaktor bezeichnet). Es dürfte einleuchten, dass da der Rauschwert von dem Phasenwert hergeleitet wird, als eine Alternative zur Speicherung des Rauschwertes auch die Phasenwerte gespeichert werden können.
  • In dem Schritt 26 wird geprüft, ob alle gewünschten Harmonischen codiert worden sind; sollte dies nicht der Fall sein, so wird die nächste zu codierende Harmonische in dem Schritt 28 selektiert. Wenn alle Harmonischen codiert worden sind, wird in dem Schritt 30 geprüft, ob alle Analysensegmente erledigt worden sind. Sollte dies nicht der Fall sein, so wird in dem Schritt 32 das nächste Segment zur Codierung selektiert.
  • Die codierten Segmente werden in einer späteren Stufe verwendet. So werden beispielsweise die codierten Segmente über ein Telekommunikationsnetzwerk übertragen und decodiert zum Reproduzieren des ursprünglichen Eingangssignals. Eine derartige Übertragung kann in Echtzeit während der Codierung stattfinden. Die codierten Segmente werden vorzugsweise in einem Sprachsynthesesystem (Text-zu-Sprache-Umwandlung) verwendet. Für eine derartige Applikation werden die codierten Segmente gespeichert, beispielsweise in einem Hintergrundspeicher, wie einer Festplatte oder einem CD-ROM. Für Sprachsynthese wird typischerweise ein Satz in eine Darstellung umgewandelt, die angibt, welche Sprachfragmente (beispielsweise Diphone) konkateniert werden sollen und die Sequenz der Konkatenation. Die Darstellung gibt auch die prosodische Information des Satzes an. Im Vergleich zu der Information, wie Dauer und Pitch, verfügbar für die gespeicherten codierten Segmente, gibt dies an, wie der Pitch und die Dauer der betreffenden Segmente manipuliert werden soll. Die betreffenden Fragmente werden von dem Speicher erhalten und decodiert (beispielsweise in ein Sprachsignal verwandelt, typischerweise in eine digitale Form). Der Pitch und/oder die Dauer wird unter Anwendung einer geeigneten Technik (beispielsweise die PSOLA/PIOLA-Manipulationstechnik) manipuliert.
  • Die Codierung nach der vorliegenden Erfindung kann in Sprachsynthesesys temen (Text-zu-Sprache-Verwandlung) angewandt werden. Bei derartigen Systemen kann der Decodierung der codierten Fragmente eine weitere Manipulation des Ausgangssignalfragmentes folgen, und zwar unter Anwendung einer Segmentierungstechnik, wie PSOLA oder PIOLA. Diese Techniken benutzen Überlappungsfenster mit einer Dauer von im Wesentlichen der doppelten lokalen Pitchperiode. Wenn die Codierung zur späteren Verwendung in derartigen Applikationen durchgeführt worden ist, werden vorzugsweise bereits in dieser Stufe dieselben Fenster verwendet wie diese auch zum Manipulieren der Prosodie der Sprache während der Sprachsynthese verwendet worden ist. Auf diese Art und Weise können die von der Decodierung herrührenden Signalsegmente beibehalten werden und es braucht keine zusätzliche Segmentierung für die Prosodiemanipulation durchgeführt zu werden.
  • Segmentierung
  • Die Sequenz von Analysensegmenten wird durch Positionierung einer Kette einander überlappender oder aneinander grenzender Zeitfenster gegenüber dem Signal gebildet. Jedes Zeitfenster ist mit einer betreffenden Fensterfunktion assoziiert. Das Signal wird entsprechend der assoziierten Fensterfunktion eines betreffenden Fensters der Kette von Fenstern gewichtet. Auf diese Art und Weise führt jedes Fenster zu der Erzeugung eines entsprechenden Segmentes. Im Grunde kann die Fensterfunktion eine Blockform sein. Dies führt dazu, dass im Endeffekt das Eingangssignal in nicht überlappende benachbarte Segmente geschnitten wird. Dazu kann die zum Bilden des Segmentes verwendete Fensterfunktion eine einfache Blockwelle sein: W(t) = 1, für 0 ≤ t ≤ L W(t) = 0, sonst.
  • Vorzugsweise werden Fenster verwendet, die breiter sind als die Verlagerung der Fenster (d.h. die Fenster überlappen sich). Vorzugsweise erstreckt sich jedes Fenster zu der Mitte des nächsten Fensters. Auf diese Art und Weise wird jeder Zeitpunkt des Sprachsignals (typischerweise) durch zwei Fenster bedeckt. Die Fensterfunktion variiert als eine Funktion der Position in dem Fenster, wobei die Funktion in der Nähe des Randes des Fensters dem Wert Null erreicht. Vorzugsweise ist die Fensterfunktion "selbst ergänzend", und zwar in dem Sinne, dass die Summe der zwei Fensterfunktionen, die denselben Zeitpunkt in dem Signal decken, unabhängig von dem Zeitpunkt ist. Ein Beispiel derartiger Fenster ist in 2 dargestellt. Auf vorteilhafte Weise ist die Fensterfunktion selbst ergänzend in dem Sinne, dass die Summe der überlappenden Fensterfunktionen unabhängig von der Zeit ist: W(t) + W(T – L) – konstant, für 0 ≤ t < L.
  • Diese Bedingung wird beispielsweise erfüllt, wenn: W(t) = ½ – A(t)Cosinus[2πt/L ± ϕ(t)]wobei A(t) und >(t) periodische Funktionen von t sind mit einer Periode von L. Eine typische Fensterfunktion wird erhalten, wenn A(t) = ½ und ϕ(t) = 0 ist. Durchaus bekannte Beispiele derartiger selbst ergänzender Fensterfunktionen sind das Hamming- oder Hanning-Fenster. Die Verwendung von Fenstern, die breiter sind als die Verlagerung führt dazu, dass Segmente sich überlappen.
  • Die Fenster werden um eine örtliche Pitchperiode verlagert. Auf diese Art und Weise werden "schmale" Analysensegmente erhalten (für ein blockförmiges Fenster entspricht die Breite des Segmentes im Wesentlichen der örtlichen Pitchperiode; für überlappende Segmente kann dies die doppelte örtliche Pitchperiode sein). Da der "Lärm" sich schnell ändern kann, ermöglicht die Verwendung schmaler Analysensegmente eine genaue Detektion der Rauschwerte.
  • In 2 ist die Segmentierungstechnik für einen periodischen Teil des Audiosignals 10 dargestellt. In diesem Teil wiederholt sich das Signal nach aufeinander folgenden Perioden 11a, 11b, 11c mit einer Dauer L (die Pitchperiode). Für ein Sprachsignal ist eine derartige Dauer im Schnitt etwa 5 ms für eine weibliche Stimme und 10 ms für eine männliche Stimme. Eine Kette von Zeitfenstern 12a, 12b, 12c wird gegenüber dem Signal 10 positioniert. In 2 werden sich Überlappende Zeitfenster verwendet, zentriert zu Zeitpunkten "ti" (i = 1, 2, 3, ..). Die dargestellten Fenster erstrecken sich je über zwei Perioden "L", ausgehend von der Mitte des vorhergehenden Fensters und endend in der Mitte des nachfolgenden Fensters. Dadurch wird jeder Zeitpunkt durch zwei Fenster bedeckt. Jedes Zeitfenster 12a, 12b, 12c ist mit einer betreffenden Fensterfunktion W(t) 13a, 13b, 13c assoziiert. Eine erste Kette mit Signalsegmenten 14a, 14b, 14c wird durch Gewichtung des Signals 10 entsprechend den Fensterfunktionen der betreffenden Fenster 12a, 12b, 12c gebildet. Die Gewichtung umfasst das Multiplizieren des Audiosignals 100 innerhalb jedes Fensters mit der Fensterfunktion des Fensters. Das Segmentsignal Si(t) wird erhalten als: Si(t) = W(t)X(t – ti)
  • Jedes der auf diese Art und Weise erhaltenen Segmente wird analysiert und codiert, wie nachstehend detailliert beschrieben wird, und zwar nachdem eine Beschreibung für eine bevorzugte Art und Weise der Bestimmung der Pitch-Perioden gegeben worden ist.
  • Bestimmung des Pitches
  • Die Pitch-synchrone Analyse nach der vorliegenden Erfindung erfordert eine genaue Schätzung des Pitches des Eingangssignals. Im Grunde kann jede beliebige geeignete Pitch-Detektionstechnik angewandt werden, die eine ziemlich genaue Schätzung des Pitchwertes liefert. Es wird bevorzugt, dass ein vorbestimmter Zeitpunkt (wie der Nulldurchgang) der höchsten Harmonischen innerhalb des erforderlichen Frequenzbandes mit einer Genauigkeit von etwa einem Zehntel eines Abtastwertes detektiert werden kann.
  • Eine bevorzugte Art und Weise einer genauen Bestimmung des Pitches umfasst die nachfolgenden Schritte, wie diese in 3 dargestellt sind. In dem Schritt 310 wird ein grober Wert für den Pitch erhalten. Im Grunde kann jede beliebige geeignete Technik angewandt werden um diesen groben Wert zu erhalten. Vorzugsweise wird dieselbe Technik auch abgewandt um eine binäre Stimmenentscheidung zu erhalten, die angibt, welche Teile des Sprachsignals stimmhaft sind (d.h. mit einem identifizierbaren periodischen Signal) und welche Segmente stimmlos sind. Nur die stimmhaften Segmente sollen weiter analysiert werden. Der Pitch kann handmäßig angegeben werden, beispielsweise dadurch, dass den Signalen Stimmmarkierungen hinzugefügt werden. Vorzugsweise wird die örtliche Periodenlänge, d.h. der Pitchwert, automatisch bestimmt. Die bekanntesten Methoden einer automatischen Pitchdetektion basieren auf der Bestimmung des Abstandes zwischen Spitzen in dem Spektrum des Signals, wie dies beispielsweise in "Measurement of Pitch by subharmonic summation" von D.J. Hermes, "Journal of the Acoustical Society of America", Heft 83 (1988) Nr. 1, Seiten 257–264 beschrieben worden ist. Diese Technik kann beispielsweise mit einer Framerate von 100 Hz durchgeführt werden. Andere Methoden selektieren eine Periode, welche die Änderung in dem Signal zwischen aufeinander folgenden Perioden minimiert. Die meisten dieser Techniken eignen sich zum Erhalten einer groben Angabe des Pitches, wie für den Schritt 310 erforderlich, sind aber nicht genau genug um unmittelbar als Basis für die Analyse bei der Bestimmung des Rauschwertes verwendet zu werden.
  • Deswegen findet auf Basis des groben Pitchwertes eine genauere Ermittlung statt. In dem Schritt 320 wird das Eingangssignal in eine Sequenz von Segmenten aufgeteilt, die als Pitchdetektionssegmente bezeichnet werden. Auf ähnliche Weise wie oben beschrieben wird dies dadurch erreicht, dass eine Kette von Zeitfenstern gegenüber dem Signal positioniert wird und dass das Signal mit der Fensterfunktion der betreffenden Zeitfenster gewichtet wird. Es können überlappende oder nicht überlappende Fenster verwendet werden. Vorzugsweise wird ein überlappendes Fenster, wie ein Hamming- oder ein Hannig-Fenster verwendet. Das Fenster wird um die gesamte Pitchperiode des Signals verlagert.
  • In dem Schritt 330 wird jedes der Pitchdetektionssegmente gefiltert zum Extrahieren des Grundfrequenzanteils (aus als die erste Harmonische bezeichnet) dieses Segmentes. Die Filterung kann beispielsweise dadurch durchgeführt werden, dass ein Bandpassfilter um die erste Harmonische verwendet wird. Vorzugsweise wird die Filterung durch Konvolution des Eingangssignals mit einem Sinus/Kosinuspaar durchgeführt. Die Modulationsfrequenz des Sinus/Kosinuspaares wird auf einen groben Pitchwert gesetzt. Die Konvolutionstechnik ist im Bereich der Signalverarbeitung durchaus bekannt. Kurz gesagt, ein Sinus und ein Kosinus liegen gegenüber dem Segment. Für jeden Abtastwert in dem Segment wird der Wert des Abtastwertes mit dem Wert des Sinus zu dem entsprechenden Zeitpunkt multipliziert. Alle erhaltenen Produkte werden voneinander subtrahiert, was den imaginären Teil des Pitchfrequenzanteils in der Frequenzdomäne ergibt. Auf gleiche Weise wird für jeden Abtastwert in dem Segment der Wert des Abtastwertes mit dem Wert des Kosinus zu dem entsprechenden Zeitpunkt multipliziert. Alle erhaltenen Produkte werden zusammen addiert, was der reellen Teil des Pitchfrequenzanteils in der Frequenzdomäne ergibt. Die Amplitude des Pitchfrequenzanteils wird dann als die Quandratwurzel der Summe der Quadrate des reellen und den imaginären Teils gegeben. Die Phase wird als der Arctan des imaginären Teils geteilt durch den reellen Teil gegeben (mit Korrekturen um die Phase in den gewünschten Bereich zu bringen und einen reellen Teil gleich Null zu erledigen).
  • Der nachfolgende "C" Code zeigt die Konvolution.
  • FORMULE PAG 11 ENGELS
  • In dem Schritt 340 tritt eine Konkatenation der gefilterten Pitchdetektionssegmente auf. Wenn die Segmente unter Verwendung der beschriebenen Konvolution mit dem Sinus/Kosinuspaar gefiltert worden sind, wird zunächst das gefilterte Segment geschaffen, und zwar auf Basis der bestimmten Phase und Amplitude. Dies geschieht dadurch, dass ein Kosinus (oder ein Sinus) mit einer Modulationsfrequenz erzeugt wird, die auf den groben Pitchwert und die bestimmte Phase und Amplitude gesetzt wird. Der Kosinus wird mit dem betreffenden Fenster gewichtet, und zwar zum Erhalten eines gefensterten gefilterten Pitchdetektionssegments. Die gefilterten Pitchdetektionssegmente werden dadurch konkateniert, dass jedes Segment zu dem ursprünglichen Zeitpunkt angebracht wird und dass die Segmente zusammen addiert werden (die Segmente können sich überlappen). Die Konkatenation führt dazu, dass ein gefiltertes Signal erhalten wird. In dem Schritt 350 wird ein genauer Wert für die Pitchperiode/-frequenz aus dem gefilterten Signal bestimmt. Im Grunde kann die Pitchperiode als das Zeitintervall zwischen maximalen und/oder minimalen Amplituden des gefilterten Signals bestimmt werden. Auf vorteilhafte Weise wird die Pitchperiode auf Basis aufeinander folgender Nulldurchgänge des gefilterten Signals bestimmt, da es einfacher ist, die Nulldurchgänge zu bestimmen. Normalerweise wird das gefilterte Signal durch digitale Abtastwerte gebildet, abgetastet beispielsweise bei 8 oder 16 kHz. Vorzugsweise wird die Genauigkeit der Bestimmung der Momente, zu denen eine gewünschte Amplitude (beispielsweise die maximale Amplitude oder der Nulldurchgang) in dem Signal auftritt, durch Interpolation gesteigert. Jede beliebige herkömmliche Interpolationstechnik kann angewandt werden (wie eine parabolische Interpolation zur Bestimmung des Zeitpunktes einer maximalen Amplitude oder eine lineare Interpolation zur Bestimmung des Zeitpunktes eines Nulldurchgangs). Auf diese Art und Weise kann eine Genauigkeit weit über der Abtastrate erreicht werden.
  • Die Ergebnisse der Technik der "ersten Harmonischen Filterung" nach der vorliegenden Erfindung sind in 4 dargestellt. 4A zeigt einen Teil der Eingangssignalwellenform des Wortes "(t)went(y)", ausgesprochen durch eine Frau. 4B zeigt den groben Pitchwert, gemessen unter Anwendung einer herkömmlichen Technik. 4C und 4D zeigen die Wellenform bzw. das Spektogramm nach der Durchführung der erste-Harmonische-Filterung des Eingangssignals nach 4A.
  • Es dürfte einleuchten, dass die genaue Art und Weise der Bestimmung des Pitches, wie oben beschrieben, auch angewandt werden kann für andere Methoden der Codierung eines Audiosignals oder einer anderen Art und Weise der Manipulation eines derartigen Signals. So kann beispielsweise die Pitchdetektion bei Spracherkennungssystemen angewandt werden, insbesondere für asiatische Sprachen oder bei Sprachsynthesesystemen zur Ermöglichung einer pitchsynchronen Manipulation (beispielsweise Pitcheinstellung oder Verlängerung).
  • Bestimmung des Rauschwertes für die Harmonischen
  • Wenn eine genaue Pitchfrequenz einmal bestimmt worden ist, wird ein Phasenwert für eine Anzahl Harmonische der Grundfrequenz (Pitchfrequenz) als hergeleitet von der genau bestimmten Pitchperiode bestimmt. Vorzugsweise wird eine Transformation zu der Frequenzdomäne, wie eine diskrete Fourier-Transformation (DFT) angewandt um die Phase der Harmonischen zu bestimmen, wobei die genau bestimmte Pitchfrequenz als die Grundfrequenz für die Transformation verwendet wird. Diese Transformation ergibt auch Amplitudenwerte für die Harmonischen, die vorteilhafterweise zur Synthese/Decodierung in einer späteren Stufe verwendet werden. Die Phasenwerte werden verwendet zum Schätzen eines Rauschwertes für jede Harmonische. Wenn das Eingangssignal periodisch oder nahezu periodisch ist, zeigt jede Harmonische eine Phasendifferenz zwischen aufeinander folgenden Perioden, die klein oder Null ist. Wenn das Eingangssignal aperiodisch ist, wird die Phasendifferenz zwischen aufeinander folgenden Perioden für eine bestimmte Harmonische beliebig sein. An sich ist die Phasendifferenz ein Maß für das Vorhandensein der periodischen und aperiodischen Anteile in dem Eingangssignal. Es dürfte einleuchten, dass für einen wesentlich aperiodischen Teil des Signals, wegen des beliebigen Verhaltens der Phasendifferenz kein absolutes Maß des Rauschanteils für einzelne Harmonische erhalten wird. Wenn beispielsweise bei einer bestimmten harmonischen Frequenz das Signal durch den aperiodischen Anteil beherrscht wird, kann dies dennoch dazu führen, dass die Phasen für zwei aufeinander folgende Perioden einander nahezu gleich sind. Aber im Schnitt wird bei der Betrachtung mehrerer Harmonischer ein Signal mit einer weitgehend Periode eine geringfügige Phasenänderung aufweisen, während ein weitgehend aperiodisches Signal eine viel größere Phasenänderung aufweisen wird (im Schnitt eine Phasenänderung gleich π). Vorzugsweise wird ein "Faktor des Lärms" zwischen 1 und 0 für jede Harmonische dadurch ermittelt, dass der absolute Wert der Phasendifferenzen genommen wird und dass dieser Wert durch 2π geteilt wird. In stimmhafter Sprache (ein weitgehend periodisches Signal) ist dieser Faktor klein oder 0, während für ein Signal mit einem kleineren periodischen Signal, wie bei stimmhaften Reibelauten, der Faktor des Lärms wesentlich höher ist als 0. Vorzugsweise wird der Faktor des Lärms in Abhängigkeit von einer Abgeleiteten, wie der ersten oder der zweiten Abgeleiteten, der Phasendifferenzen als eine Funktion der Frequenz ermittelt. Auf diese Art und Weise werden robustere Ergebnisse erhalten. Dadurch, dass die abgeleiteten Anteile des Phasenspektrums, die nicht durch Rauschen beeinflusst sind, genommen werden, werden diese entfernt. Der Faktor des Lärms kann skaliert werden um die Diskrimination zu verbessern.
  • 5 zeigt ein Beispiel des "Faktors des Lärms" (basiert auf der zweiten Abgeleiteten) für alle Harmonischen in einem stimmhaften Frame. Das stimmhafte Frame ist eine Aufzeichnung des Wortes "(k)no(w)", ausgesprochen von einem Mann, abgetastet bei 16 kHz. 5 zeigt das Spektrum, das die Amplitude der einzelnen Harmonischen darstellt, ermittelt über eine DFT mit einer Grundfrequenz von 135.41 Hz, ermittelt mit Hilfe des genauen Pitchfrequenzermittlungsverfahrens nach der vorliegenden Erfindung. Eine Abtastrate von 16 kHz wurde verwendet, was zu 59 Harmonischen führt. Es ist ersichtlich, dass einige Amplitudenwerte von der 35. bis zur 38. Harmonischen sehr niedrig sind. 5B zeigt den "Faktor des Lärms" wie dieser unter Anwendung des Verfahrens nach der vorliegenden Erfindung für jede Harmonische gefunden wurde. Es ist nun sehr deutlich sichtbar, dass in dem Gebiet zwischen der 32. und der 39. Harmonischen ein relativ hoher "Lärm" auftritt. An sich unterscheidet das Verfahren nach der vorliegenden Erfindung deutlich zwischen lärmbehafteten und weniger lärmbehafteten Anteilen des Eingangssignals. Es ist auch deutlich, dass der Faktor des Lärms in Abhängigkeit von der Frequenz wesentlich variieren kann. Gewünschtenfalls kann die Diskrimination dadurch noch weiter gesteigert werden, dass auch die Amplitude der Harmonischen in Betracht gezogen wird, wobei eine relativ niedrige Amplitude einer Harmonischen einen hohen Pegel des Lärms angibt. Wenn beispielsweise für eine bestimmte Harmonische die Phasendifferenz zwischen zwei aufeinander folgenden Perioden durch ein beliebiges Verhalten des Lärms, der bei dieser Frequenz durchaus vorhanden ist, niedrig ist, wird der Faktor des Lärms vorzugsweise von nahe bei 0 bis beispielsweise 0,5 (oder sogar höher) korrigiert, wenn die Amplitude niedrig ist, da die niedrige Amplitude angibt, dass bei dieser Frequenz der Beitrag des aperiodischen Anteils vergleichbar ist mit dem Beitrag des periodischen Anteils oder sogar höher ist.
  • Die oben beschriebene Analyse wird vorzugsweise nur für stimmhafte Teile des Signals durchgeführt (d.h. diejenigen teile mit einem identifizierbaren periodischen Anteil). Für stimmlose Teile wird der "Faktor des Lärms" für alle Frequenzanteile auf 1 gesetzt, was der Wert ist, der den maximalen Rauschbeitrag angibt. Je nach dem Typ der angewandten Synthese zum Synthetisieren eines Ausgangssignals kann es erforderlich sein, auch Information für die stimmlosen Teile des Eingangssignals zu erhalten. Vorzugsweise geschieht dies unter Anwendung desselben Analysenverfahrens, wie dies oben für die stimmhaften Teile beschrieben worden ist, wobei das Signal unter Anwendung einer DFT analysiert wird. Für die Synthese der stimmlosen Teile braucht nur die Amplitude berechnet zu werden; die Phaseninformation ist nicht erforderlich, da der Rauschwert fest ist.
  • Synthese
  • Vorzugsweise wird ein Signalsegment aus der Amplitudeninformation geschaffen, die während der Analyse für jede Harmonische erhalten worden ist. Dies kann dadurch geschehen, dass eine geeignete Transformation von der Frequenzdomäne in die Zeitdomäne angewandt wird, wie eine invertierte DFT Transformation. Vorzugsweise wird die sog. sinusoidale Synthese angewandt. Nach dieser Technik wird eine Sinuswelle mit der betreffenden Amplitude für jede Harmonische erzeugt und alle Sinuswellen werden zusammen addiert. Es sei bemerkt, dass dies normalerweise digital durchgeführt wird, und zwar dadurch, dass für jede Harmonische eine einzige Sinuswelle mit der Frequenz der Harmonischen und die Amplitude, wie diese für die Harmonische ermittelt wurde, addiert wird. Es ist nicht erforderlich, parallel analoge Signale zu erzeugen und diese Signale zu addieren. Die Amplitude für jede Harmonische, wie diese aus der Analyse erhalten wird, stellt die kombinierte Stärke des Periodenanteils und des aperiodischen Anteils bei dieser Frequenz dar. An sich stellt das neu synthetisierte Signal die Stärke der beiden Anteile dar.
  • Für einen periodischen Anteil kann im Grunde die Phase für jede Harmonische frei gewählt werden. Nach der vorliegenden Erfindung wird für eine bestimmte Harmonische die Anfangsphase für aufeinander folgende Signalsegmente derart gewählt, dass wenn die Segmente konkateniert werden (erforderlichenfalls auf eine überlappende Art und Weise, wie nachstehend detailliert beschrieben), keine nicht gesteuerte Phasensprünge in dem Ausgangssignal auftreten. So hat beispielsweise ein Segment eine Dauer entsprechend einem Vielfachen (beispielsweise zwei) der Pitchperiode und die Phase einer bestimmten Harmonischen am Anfang der Segmente (und da die Segmente ein ganzes Vielfaches der harmonischen Periode dauern, auch am Ende der Segmente) derart gewählt, dass sie gleich sind. Dadurch, dass ein Phasensprung in der Konkatenation aufeinander folgender Segmente vermieden werden, wird die Natürlichkeit des Ausgangssignals gesteigert.
  • Es ist nicht erforderlich, dass innerhalb eines einzigen Segmentes alle Harmonischen mit derselben Phase starten. Es wird bevorzugt, dass die Anfangsphasen der jeweiligen Harmonischen auf vernünftige Art und Weise zwischen 0 und 2π verteilt werden. So kann beispielsweise der Anfangswert auf (einen ziemlich beliebigen) Wert gesetzt werden: 2π(k – 0,5)/k wobei k die Nummer der Harmonischen ist und wobei Zeit Null in der Mitte des Fensters genommen wird. Diese Verteilung von Nicht-Nullwerten über das Spektrum streut die Energie des synthetisierten Signals in der Zeit und vermeidet hohe Spitzen in der synthetisierten Wellenform.
  • Der aperiodische Anteil wird durch Verwendung eines beliebigen Teils in der Anfangsphase der Harmonischen dargstellt, wobei dieser Teil zu dem beschriebenen Anfangswert hinzu addiert wird. Für jede der Harmonischen wird der Betrag an Beliebigkeit durch den "Faktor des Lärms" für die Harmonische, wie diese in der Analyse bestimmt wurde, bestimmt. Wenn kein bemerkenswerter aperiodischer Anteil detektiert wird, wird kein Lärm hinzugefügt (d.h. es wird kein beliebiger Teil benutzt), während. Wenn der aperiodische Anteil vorherrschend ist, ist die Anfangsphase der Harmonischen einer beliebigen Änderung beträchtlich ausgesetzt (für ein völlig aperiodisches Signal bis zur maximalen Phasenvariation zwischen –π und π). Wenn der beliebige Rauschfaktor wie oben gegeben definiert ist, wobei 0 kein Rauschen und 1 ein "völlig aperiodisches" Eingangssignal bezeichnet, kann der beliebige Teil dadurch erhalten werden, dass der beliebige Rauschfaktor mit einer beliebigen Zahl zwischen –π und +π multipliziert wird. Die Erzeugung sich nicht wiederholender Rauschsignale ergibt eine wesentliche Verbesserung der wahrgenommenen Natürlichkeit der erzeugten Sprache. Tests, in denen ein Eingangssignal in Form laufender Sprache analysiert und nach der vorliegenden Erfindung neu synthetisiert wird, zeigen, dass kaum eine Differenz zwischen dem ursprünglichen Eingangssignal und dem Ausgangssignal gehört werden kann. In diesen Tests fand keine Pitch- oder Dauermanipulation des Signals statt.
  • Manipulation der Dauer oder des Pitches
  • In 2 wurden Analysensegmente Si(t) dadurch erhalten, dass das Signal 10 mit der betreffenden Fensterfunktion W(t) gewichtet wurde. Die Analysensegmente wurden in einer codierten Form gespeichert. Für die Synthese werden die Analysensegmente neu geschaffen, wie oben beschrieben. Durch einfache Überlagerung der decodierten Segmente wird ein Signal mit einem gesteuerten Phasenverhalten neu geschaffen, und zwar entsprechend dem ursprünglichen Eingangssignal. Vorzugsweise werden die Segmente derart aufbewahrt, dass ihre Dauer oder der Pitch einer Sequenz decodierter Sprachfrag mente über die nachfolgende Überlappung und mit Hilfe einer Addiertechnik manipuliert werden können.
  • 6 zeigt die Bildung eines verlängerten Audiosignals, indem systematisch betreffende Signalsegmente beibehalten bzw. wiederholt werden. Die Signalsegmente sind vorzugsweise dieselben Segmente, wie sie in dem Schritt 10 nach 1 erhalten wurden (nach Codierung und Decodierung). In 6A ist eine erste Sequenz 14 von Signalsegmenten 14a bis 14f dargestellt. 6B zeigt ein Signal, dessen Dauer 1,5 mal länger ist. Dies wird durch Beibehaltung aller Segmente der ersten Sequenz 14 und systematische Wiederholung jedes zweiten Segmentes der Kette (beispielsweise Wiederholung jedes "ungeraden" oder jedes "geraden" Segmentes) erreicht. Das Signal nach 6C wird um einen Faktor 3 durch dreifache Wiederholung jedes Segmentes der Sequenz 14 verlängert. Es dürfte einleuchten, dass das Signal durch Anwendung der umgekehrten Technik (d.h. systematische Unterdrückung/Überspringung von Segmenten) gekürzt werden kann.
  • Die Verlängerungstechnik kann auch zur Verlängerung von Teilen des Audio-Eingangssignals um einen nicht identifizierbaren periodischen Anteil angewandt werden. Für ein Sprachsignal ist ein Beispiel eines derartigen Teils eine stimmlose Dehnung, d.h. eine Dehnung mit Reibelauten wie der Schall "ssss", wobei die Stimmbänder nicht erregt werden. Für Musik ist ein Beispiel eines nicht periodischen Teils ein "Rausch"-Teil. Um die Dauer im Wesentlichen nicht periodischer Teile zu verlängern, und zwar auf eine Art und Weise wie für die periodischen Teile, werden Fenster gesetzt, und zwar zunehmend in Bezug auf das Signal. Die Fenster können dennoch an handmäßig bestimmten Stellen gesetzt werden. Auf alternative Weise werden aufeinander folgende Fenster über einen Zeitabstand verlagert, der von der Pitchperiode periodischer Teile hergeleitet ist, die den nicht periodischen Teil umgeben. So kann beispielsweise die Verlagerung derart gewählt werden, dass diese dieselbe ist wie diejenige, die für das letzte periodische Segment angewandt wurde (d.h. die Verlagerung entspricht der Periode des letzten Segmentes). Die Verlagerung kann auch durch Interpolation der Verlagerungen des letzten vorhergehenden periodischen Segmentes und des ersten nachfolgenden periodischen Segmentes bestimmt werden. Es kann auch eine feste Verlagerung gewählt werden, was für Sprache vorzugsweise geschlechtsspezifisch ist, beispielsweise die Anwendung einer Verlagerung von 10 ms für eine männliche Stimme und einer Verlagerung von 5 ms für eine weibliche Stimme.
  • Zur Verlängerung des Signals können im Grunde nicht-überlappene Segmente verwendet werden, geschaffen durch Positionierung des Fensters auf eine nichtüberlappende Art und Weise, einfach grenzend an einander. Wenn dieselbe Technik auch zum Ändern des Pitches des Signals angewandt wird, wird bevorzugt, überlappende Fenster zu verwenden, beispielsweise wie diejenigen, die in 2 dargestellt sind. Auf vorteilhafte Weise ist die Fensterfunktion selber komplementär. Die selbstkomplementäre Eigenschaft der Fensterfunktion gewährleistet, dass durch Überlagerung der Segmente in derselben Zeitbeziehung, wie sie hergeleitet wurden, das ursprüngliche Signal wieder erhalten wird. Die decodierten Segmente Si(t) werden überlagert zum Erhalten eines Ausgangssignals Y(t). Eine Pitchänderung der örtlich periodischen Signale (wie beispielsweise stimmhafte Sprache oder Musik) kann dadurch erhalten werden, dass die Segmente an neuen Stellen Ti gesetzt werden, die anders sind als die ursprünglichen Stellen ti (i = 1, 2, 3, ...) bevor die Segmente überlagert werden. Zum Bilden beispielsweise eines Ausgangssignals mit einem zugenommenen Pitch, werden die Segmente überlagert mit einem im Vergleich zu dem Abstand der Segmente, wie diese von dem ursprünglichen Signal hergeleitet wurden, komprimierten Mittenabstand zueinander. Die Länge der Segmente ist nach wie vor die gleiche. Zum Schluss werden die Segmentsignale summiert, und zwar zum Erhalten des überlagerten Ausgangssignals Y: Y(t) = Σi Si(t – Ti)(in dem Beispiel nach 2, wobei die Fenster zwei Perioden breit sind, ist die Summe auf die Indizes i begrenzt, für die gilt: –L < t – Ti < L). Durch die Konstruktion wird dieses Ausgangssignal Y(t) periodisch sein, wenn das Eingangssignal 10 periodisch ist, aber die Periode des Ausgangs ist um einen Faktor (ti – ti – 1)/(Ti – Ti – 1)anders als die Eingangsperiode, d.h. ebensoviel wie die gegenseitige Kompression/Expansion der Abstände zwischen den Segmenten, wenn diese für die Überlagerung gesetzt werden. Wenn der Segmentabstand sich nicht geändert hat, reproduziert das Ausgangssignal Y(t) das Audioeingangssignal X(t). Änderung der Zeitposition der Segmente führt zu einem Ausgangssignal, das darin von dem Ausgangssignal abweicht, dass es eine andere örtliche Periode hat, aber die Umhüllende des Spektrums ist nach wie vor nahezu dieselbe. Wahrnehmungsversuche haben gezeigt, dass dies eine sehr gut wahrgenommene Sprachqualität ergibt, sogar wenn der Pitch um mehr als eine Oktave geändert ist.
  • Es dürfte einleuchten, dass ein Nebeneffekt der Steigerung des Pitches ist, dass die Signal kürzer werden. Dies kann dadurch kompensiert werden, dass das Signal verlängert wird, wie oben beschrieben.
  • Das Verfahren zum Manipulieren der Dauer/des Pitches transformiert periodische Signale in neue periodische Signale mit einer anderen Periode aber mit etwa derselben spektralen Umhüllenden. Das Verfahren kann auf gleiche Weise durchaus auf Signale angewandt werden, die eine örtlich bestimmte Periode haben, wie beispielsweise stimmhafte Sprachsignale oder Musiksignale. Für diese Signale variiert die Periodenlänge L in der Zeit, d.h. die i. Periode hat eine periodenspezifische Länge Li. In diesem Fall muss die Länge der Fenster in der Zeit variiert werden, wenn die Periodenlänge variiert, und die Fensterfunktionen W(t) muss in der Zeit um einen Faktor Li gedehnt werden, und zwar entsprechend der örtlichen Periode, um derartige Fenster zu decken: Si(t) = W(t/Li)X(t – ti).
  • Für selbst-komplementäre, überlappende Fenster ist es erwünscht, die Selbstkomplementärität der Fensterfunktionen aufrecht zu erhalten. Dies kann durch Anwendung einer Fensterfunktion mit einzelnen gedehnten linken und rechten Teilen (für t < 0 bzw. t > 0) Si(t) = W(t/Li)X(t + ti)(–Li < t < 0) Si(t) = W(t/Li + 1)X(t + ti)(0 < t < Li + 1)wobei jeder Teil um den eigenen Faktor (Li bzw. Li + 1) gedehnt wird. Diese Faktoren entsprechen den entsprechenden Faktoren der betreffenden linken und rechten überlappenden Fenster.
  • Versuche haben gezeigt, dass örtlich periodische Eingangs-Audiosignalfragmente, die auf die oben beschriebene Art und Weise manipuliert worden sind, zu Ausgangssignalen führen, die für das menschliche Ohr dieselbe Qualität haben wie das Eingangs-Audiosignal, aber mit einem anderen Pitch und/oder einer anderen Dauer. Wenn nun das Codierungsverfahren nach der vorliegenden Erfindung angewandt wird, kann gewährleistet werden, dass keine Phasensprünge auftreten für die harmonischen Frequenzen an den Stellen, wo ein Übergang zwischen Sprachfragmenten auftritt. Auf diese Art und Weise wird insbesondere für Sprachsynthese auf Basis von Konkatenation relativ kurzer Sprachfragmente, die Qualität verbessert. Tests haben gezeigt, dass die Verbesserung der Sprachsynthese durch Verwendung von Segmenten mit einer gesteuerten Phase für die Harmonischen noch bemerkenswerter sind, wenn Segmente wiederholt werden, um das Signal zu verlängern. Wiederholung von Segmenten, sogar wenn die Segmente an sich weitgehend aperiodisch sind, führt zu einem Signal, das wahrgenommen wird als ein periodisches Element enthaltend. Dadurch, dass für die aperiodischen Segmente gewährleistet wird, dass die Phase aufeinander folgender Segmente im Wesentlichen beliebig ändert, wird Wiederholung vermieden.
  • 2 zeigt Fenster 12, die in der Mitte an Stelle in der Zeit gesetzt sind, wo die Stimmbänder erregt werden. Um derartige Stellen herum, insbesondere an der scharf definierten Stelle der Schließung, gibt es die Neigung zu einer größeren Signalamplitude (insbesondere bei höheren Frequenzen). Für Signale, deren Intensität in einem kurzen Intervall der Periode konzentriert ist, wird die Zentrierung der Fenster um derartige Intervalle zu der meist getreue Reproduktion des Signals führen. Aus EP-A 0527527 und EP-A 0527529 ist es bekannt, dass es in den meisten Fällen für eine gut wahrnehmbare Qualität der Sprachreproduktion nicht notwendig ist, die Fenster um Punkte zu zentrieren, die Zeitpunkten der Erregung der Stimmbänder entsprechen oder was das betrifft zu jedem beliebigen detektierbaren Ereignis in dem Sprachsignal. Sogar wenn das Fenster beliebig gegenüber dem Zeitpunkt der Erregung des Stimmbandes positioniert wird, und sogar wenn Positionen aufeinander folgender Fenster langsam variiert werden, werden hörbare Signale guter Qualität erzielt. Für eine derartige Technik werden die Fenster zunehmend platziert an örtlichen Periodenlängen vereinzelt, ohne eine absolute Phasenbeziehung.
  • Eine völlige Implementierung des Codierungs- und Synthetisierungsverfahrens ist verwirklicht und mit vielen anderen Vocoder-Implementierungen, worunter dem bekannten LPC-Vocoder, verglichen worden. Es hat sich herausgestellt, dass zur Manipulation von Pitch und Dauer die neue Synthesetechnik außergewöhnlich ist. Das Testsystem gestattete Manipulation des ursprünglichen Pitch- und Dauerumrisse. Sprache, die mit diesen neuen Pitchkursen nach dem neuen Verfahren synthetisiert worden ist, klingt viel besser als nach der herkömmlichen PSOLA-Manipulation, die unmittelbar auf die ursprünglich aufgezeichneten Sprachfragmente einwirkte. Auch eine wesentliche Verlängerung stimmloser Sprachteile liefert bessere Ergebnisse, wenn das neue Verfahren angewandt wird. Während dieser Tests wird jedes wiederholte Segment mit einem Rauschanteil von neunen beliebigen Nummern synthetisiert, wobei das Artefakt der Einführung der Periodizität in Rauschsignale vermieden wird.
  • Die beschriebenen Verfahren zur Codierung und Synthetisierung kann in geeigneten Geräten und Systemen implementiert werden. Derartige Geräte können unter Anwendung herkömmlicher Computertechnologie gebaut und programmiert werden zum Durchführen der Schritte nach der vorliegenden Erfindung. Typischerweise umfasst der Codierer nach der vorliegenden Erfindung einen Analog-Digital-Wandler zur Umwandlung eines analogen Audio-Eingangssignal in ein digitales Signal. Das digitale Signal kann in einem Hauptspeicher oder in einem Hintergrundspeicher gespeichert werden. Ein Prozessor, wie ein DSP, kann derart programmiert werden, dass er die Codierung durchführt. An sich führt der programmierte Prozessor die Aufgabe der Bestimmung aufeinander folgender Pitchperioden/-frequenzen in dem Signal durch. Der Prozessor bildet auch eine Sequenz einander überlappender oder aneinander grenzender Analysensegmente dadurch, dass eine Kette von Zeitfenstern gegenüber dem Signal positioniert wird und dass das Signal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird. Der Prozessor kann auch derart programmiert werden, dass er einen Amplitudenwert und einen Phasenwert für eine Anzahl Frequenzanteile jedes der Analysensegmente bestimmt, wobei die Frequenzanteile eine Anzahl harmonischer Frequenzen der Pitchfrequenz enthalten, entsprechend dem Analysensegment. Der Prozessor des Codierers bestimmt ebenfalls einen Rauschwert für jeden der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil eines Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils zu dem Analysensegment bei der Frequenz darstellt. Zum Schluss stellt der Prozessor das Audiosignal durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile für jedes der Analysensegmente dar. Der Prozessor kann das codierte Signal in einem Speichermedium des Codierers speichern (beispielsweise Festplatte, CD-ROM, oder Floppy), oder er kann das codierte Signal zu einem anderen Gerät übertragen, und zwar unter Verwendung von Mitteln, wie einem Modem oder dem Codierer. Das codierte Signal kann von einem Decoder wieder hergestellt oder empfangen werden, der (typischerweise unter Ansteuerung eines Prozessors) das Signal decodiert. Der Decoder schafft für jedes der selektierten, codierten Signalfragmente ein entsprechendes Signalfragment durch Transformation des codierten Signalfragmentes in eine Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzu addiert wird, und zwar entspre chend dem betreffenden Rauschwert für den Frequenzanteil. Zum Reproduzieren des Signals kann der Decoder auch einen Digital-Analog-Wandler und einen Verstärker enthalten. Der Decoder kann ein teil eines Synthesizers sein, wie eines Sprachsynthesizers. Der Synthesizer selektiert codierte Sprachfragmente, beispielsweise wie diese für die Reproduktion eines textmäßig dargestellten Satz erforderlich sind, decodiert diese Fragmente und konkateniert die Fragmente. Auch die Dauer und die Prosodie des Signals kann manipuliert werden.
  • 1
  • 10
    Detektion des Pitches
    12
    Segmentierung
    14
    Segmentzeiger
    16
    Segment besorgen
    20
    Bestimmung der Amplitude
    22
    Rauschanteil bestimmen
    32
    Selektion des nächsten Segmentes
  • 3
  • 310
    Bestimmung des groben Pitches
    350
    Bestimmung des genauen Pitchwertes
  • 4B
  • Zeit
  • 4D
  • Zeit
  • 5A
  • Anzahl Harmonische
  • 5B
  • Faktor des Lärms
    Anzahl Harmonische

Claims (12)

  1. Verfahren zum Codieren eines Audiosignals, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Ermitteln (10) aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal; – das Bilden (12) einer Sequenz einander überlappender oder aneinander grenzender Analysensegmente des Signals dadurch, dass eine Kette von Zeitfenstern gesetzt wird, durch Verlagerung jedes nachfolgenden Zeitfensters um im Wesentlichen eine örtliche Pitch-Periode gegenüber einem unmittelbar vorhergehenden Zeitfenster, und dass das Audiosignal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird; – für jedes Analysensegment: – das Ermitteln (20) eines Amplitudenwertes und eines Phasenwertes für eine Anzahl Frequenzanteile des Analysensegmentes, einschließlich einer Anzahl harmonischer Frequenzen der Pitch-Frequenz entsprechend dem Analysensegment, – das Ermitteln (22) eines Rauschwertes der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil des Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil, der einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils des Analysensegmentes mit der Frequenz darstellt; und – das Darstellen (24) des Analysensegmentes durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile.
  2. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Verfahrensschritt der Ermittlung aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal die nachfolgenden Schritte umfasst: – das Bilden einer Sequenz einander überlappender oder aneinander grenzender Pitch-Detektionssegmente durch Gewichtung des Signals entsprechend einer assoziierten Funktion eines betreffenden Zeitfensters einer Kette von Zeitfenstern, positioniert gegenüber dem Signal; – das Bilden eines gefilterten Signals für jedes der Pitch-Detektionssegmente durch: – Schätzung eines Anfangswertes der Pitch-Frequenz/periode des Pitch-Detektionssegmentes; und – Filterung des Pitch-Detektionssegmentes zum Extrahieren eines Frequenzanteils mit einer Frequenz, die im Wesentlichen der anfangs ermittelten Pitch-Frequenz entspricht; und – Ermittlung der aufeinander folgenden Pitch-Perioden/Frequenzen aus dem gefilterten Signal.
  3. Verfahren zum Codieren eines Audiosignals nach Anspruch 2, dadurch gekennzeichnet, dass der Schritt der Bildung des gefilterten Signals Folgendes umfasst: – Faltung des Pitch-Detektionssegmentes mit einem Sinus/Kosinuspaar mit einer Modulationsfrequenz im Wesentlichen entsprechend der anfangs geschätzten Pitch-Frequenz, was einen Amplituden- und Phasenwert für Sinus und Kosinus mit derselben Modulationsfrequenz ergibt; – Bildung eines gefilterten Pitch-Detektionssegmentes durch Erzeugung eines gefensterten Sinus oder Kosinus mit der ermittelten Amplitude und Phase; und – Verkettung der Sequenz gefilterter Pitch-Detektionssegmente.
  4. Verfahren zum Codieren eines Audiosignals nach Anspruch 2, dadurch gekennzeichnet, dass das gefilterte Signal als eine Zeitfolge digitaler Abtastwerte dargestellt wird und dass der Schritt der Ermittlung der aufeinander folgenden Pitch-Perioden/Frequenzen des gefilterten Signals Folgendes umfasst: – das Schätzen aufeinander folgender Zeitpunkte, an denen die Folge von Abtastwerten einer vorbestimmten Bedingung entspricht, so dass der Abtastwert ein örtliches Maximum-/Minimum ist oder einen Nullwert kreuzt, und – das genauere Ermitteln jedes der Zeitpunkte durch Interpolation einer Anzahl Abtastwerte um den geschätzten Zeitpunkt herum.
  5. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Ermittlung des Amplituden- und/oder des Phasenwertes das Transformieren des Signalsegmentes zu einer Frequenzdomäne umfasst, und zwar unter Verwendung der Pitch-Frequenz als Basisfrequenz der Transformation.
  6. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Ermittlung eines Rauschwertes das Berechnen einer Differenz des Phasenwertes für den Frequenzanteil des Analysensegmentes und des entsprechenden Phasenwertes wenigstens eines vorhergehenden oder nachfolgenden Analysensegmenten umfasst.
  7. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Ermittlung eines Rauschwertes das Berechnen einer Differenz eines Hergeleiteten des Phasenwertes für den Frequenzanteil des Analysensegmenten und des entsprechenden Phasenwertes wenigstens eines vorhergehenden oder nachfolgenden Analysensegmentes umfasst.
  8. Anordnung zum Codieren eines Audiosignals, wobei diese Anordnung die nachfolgenden Elemente umfasst: – Mittel zum Ermitteln aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal; – Mittel zum Bilden einer Sequenz einander überlappender oder aneinander grenzender Analysensegmente dadurch, dass eine Kette von Zeitfenstern gesetzt wird, durch Verlagerung jedes nachfolgenden Zeitfensters um im Wesentlichen eine örtliche Pitch-Periode gegenüber einem unmittelbar vorhergehenden Zeitfenster, und dass das Audiosignal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird; – Mittel zum Ermitteln eines Amplitudenwertes und eines Phasenwertes für eine Anzahl Frequenzanteile jedes der Analysensegmente, wobei die Frequenzanteile eine Anzahl harmonischer Frequenzen der Pitch-Frequenz entsprechend dem Analysensegment enthalten, – Mittel zum Ermitteln eines Rauschwertes für jeden der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil des Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil, der einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils des Analysensegmentes mit der Frequenz darstellt; und – Mittel zum Darstellen des Audiosignals durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile für jedes der Analysensegmente.
  9. Verfahren zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten, wie Diphonen; wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Wiedergewinnen selektierter, codierter Signalfragmente, wobei die Signalfragmente als Amplitudenwert und als Rauschwert für jedes der Frequenzanteile codiert worden sind, und zwar entsprechend dem Verfahren nach Anspruch 1; und – für jedes der wieder gewonnenen codierten Signalfragmente das Schaffen eines entsprechenden Signalfragmentes durch Transformation des Signalfragmentes zu einer Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzugefügt wird, und zwar entsprechend dem betreffenden Rauschwert für den Frequenzanteil, wobei der aperiodische Signalanteil eine beliebige Anfangsphase hat.
  10. Verfahren zum Synthetisieren eines Audiosignals nach Anspruch 9, dadurch gekennzeichnet, dass die Transformation zu der Zeitdomäne das Durchführen einer sinusförmigen Synthese umfasst.
  11. Synthesizer zum Synthetisieren eines Audiosignals, wobei dieser Synthesizer die nachfolgenden Elemente umfasst: – Mittel zum Wiedergewinnen selektierter codierter Signalfragmente von dem Speichermedium, wobei die Signalfragmente durch die Codieranordnung nach Anspruch 8 codiert worden sind; und – Mittel um für jedes der selektierten codierten Signalfragmente ein entsprechendes Signalfragment zu schaffen durch Transformation des codierten Signalfragmentes zu einer Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzugefügt wird, und zwar entsprechend dem betreffenden Rauschwert für den Frequenzanteil, wobei der aperiodische Signalanteil eine beliebige Anfangsphase hat.
  12. System zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten, wie Diphonen; wobei das System Folgendes umfasst: – eine Codieranordnung zum Codieren eines Audiosignals nach Anspruch 8; wobei die Anordnung weiterhin Mittel aufweist zum Speichern der codierten Darstellung des Audiosig nals in einem Speichermedium; und – einen Synthesizer nach Anspruch 11.
DE69926462T 1998-05-11 1999-04-30 Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung Expired - Fee Related DE69926462T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98201525 1998-05-11
EP98201525 1998-05-11
PCT/IB1999/000790 WO1999059139A2 (en) 1998-05-11 1999-04-30 Speech coding based on determining a noise contribution from a phase change

Publications (2)

Publication Number Publication Date
DE69926462D1 DE69926462D1 (de) 2005-09-08
DE69926462T2 true DE69926462T2 (de) 2006-05-24

Family

ID=8233703

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69926462T Expired - Fee Related DE69926462T2 (de) 1998-05-11 1999-04-30 Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung

Country Status (5)

Country Link
US (1) US6453283B1 (de)
EP (1) EP0995190B1 (de)
JP (1) JP2002515610A (de)
DE (1) DE69926462T2 (de)
WO (1) WO1999059139A2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
GB2375027B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
JP4451665B2 (ja) * 2002-04-19 2010-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声を合成する方法
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
JP2006196978A (ja) * 2005-01-11 2006-07-27 Kddi Corp ビーム制御装置、アレーアンテナシステムおよび無線装置
US8073042B1 (en) * 2005-04-13 2011-12-06 Cypress Semiconductor Corporation Recursive range controller
US8000958B2 (en) * 2006-05-15 2011-08-16 Kent State University Device and method for improving communication through dichotic input of a speech signal
JP5141688B2 (ja) 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
US8352274B2 (en) * 2007-09-11 2013-01-08 Panasonic Corporation Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound
US8155346B2 (en) 2007-10-01 2012-04-10 Panasonic Corpration Audio source direction detecting device
WO2010038385A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音判定方法、及び、音判定プログラム
JP4547042B2 (ja) * 2008-09-30 2010-09-22 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
JP5433696B2 (ja) 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
EP2302845B1 (de) 2009-09-23 2012-06-20 Google, Inc. Verfahren und Vorrichtung zur Bestimmung eines Jitterpuffer-Niveaus
EP2360680B1 (de) * 2009-12-30 2012-12-26 Synvo GmbH Segmentierung von stimmhaften Sprachsignalen anhand der Sprachgrundfrequenz (Pitch)
US8630412B2 (en) 2010-08-25 2014-01-14 Motorola Mobility Llc Transport of partially encrypted media
US8477050B1 (en) * 2010-09-16 2013-07-02 Google Inc. Apparatus and method for encoding using signal fragments for redundant transmission of data
US8838680B1 (en) 2011-02-08 2014-09-16 Google Inc. Buffer objects for web-based configurable pipeline media processing
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
PL3385950T3 (pl) * 2012-05-23 2020-02-28 Nippon Telegraph And Telephone Corporation Sposoby dekodowania audio, dekodery audio oraz odpowiedni program i nośnik rejestrujący
KR102251833B1 (ko) * 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US10382143B1 (en) * 2018-08-21 2019-08-13 AC Global Risk, Inc. Method for increasing tone marker signal detection reliability, and system therefor
CN111025015B (zh) * 2019-12-30 2023-05-23 广东电网有限责任公司 一种谐波检测方法、装置、设备和存储介质
JP7509417B2 (ja) 2020-09-25 2024-07-02 株式会社エヌエフホールディングス 高調波計測装置とそれを用いた単独運転検出方式

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
AT389235B (de) 1987-05-19 1989-11-10 Stuckart Wolfgang Verfahren zur reinigung von fluessigkeiten mittels ultraschall und vorrichtungen zur durchfuehrung dieses verfahrens
US5095904A (en) * 1989-09-08 1992-03-17 Cochlear Pty. Ltd. Multi-peak speech procession
JP3038755B2 (ja) * 1990-01-22 2000-05-08 株式会社明電舎 音声合成装置の音源データ生成方法
EP0527529B1 (de) 1991-08-09 2000-07-19 Koninklijke Philips Electronics N.V. Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter

Also Published As

Publication number Publication date
US6453283B1 (en) 2002-09-17
WO1999059139A2 (en) 1999-11-18
EP0995190B1 (de) 2005-08-03
WO1999059139A8 (en) 2000-03-30
DE69926462D1 (de) 2005-09-08
EP0995190A2 (de) 2000-04-26
JP2002515610A (ja) 2002-05-28
WO1999059139A3 (en) 2000-02-17

Similar Documents

Publication Publication Date Title
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE69932786T2 (de) Tonhöhenerkennung
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69700084T2 (de) Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE69228211T2 (de) Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69425935T2 (de) Verfahren zur Unterscheidung zwischen stimmhaften und stimmlosen Lauten
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
DE69618408T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
DE69631037T2 (de) Sprachsynthese
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE69722585T2 (de) Synthese von wellenformen
DE69822618T2 (de) Beseitigung der periodizität in einem gestreckten audio-signal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee