DE69822618T2 - Beseitigung der periodizität in einem gestreckten audio-signal - Google Patents

Beseitigung der periodizität in einem gestreckten audio-signal Download PDF

Info

Publication number
DE69822618T2
DE69822618T2 DE69822618T DE69822618T DE69822618T2 DE 69822618 T2 DE69822618 T2 DE 69822618T2 DE 69822618 T DE69822618 T DE 69822618T DE 69822618 T DE69822618 T DE 69822618T DE 69822618 T2 DE69822618 T2 DE 69822618T2
Authority
DE
Germany
Prior art keywords
signal
segments
segment
duration
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69822618T
Other languages
English (en)
Other versions
DE69822618D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE69822618D1 publication Critical patent/DE69822618D1/de
Application granted granted Critical
Publication of DE69822618T2 publication Critical patent/DE69822618T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Strecken eines audioäquivalenten Eingangssignals, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst:
    • – das Positionieren einer ersten Kette einander überlappender oder nebeneinander liegender Zeitfenser gegenüber dem Signal; wobei jedes Zeitfenster mit einer betreffenden Fensterfunktion assoziiert ist,
    • – das Bilden einer ersten Sequenz von Signalsegmenten durch Gewichtung des Signals entsprechend der assoziierten Fensterfunktion eines betreffenden Fensters der ersten Kette von Fenstern; und
    • – das Synthetisieren eines gestreckten Audiosignals durch schematische Einhaltung oder Wiederholung der betreffenden Signalsegmente der ersten Sequenz von Segmenten.
  • Die vorliegende Erfindung bezieht sich weiterhin auf eine Anordnung zum Strecken eines audioäquivalenten Eingangssignals, wobei diese Anordnung die nachfolgenden Elemente umfasst:
    • – Positionierungsmittel zum Positionieren einer ersten Kette einander überlappender oder nebeneinander liegender Zeitfenster gegenüber dem Signal; wobei jedes Zeitfenster mit einer betreffenden Fensterfunktion assoziiert ist,
    • – Segmentierungsmittel zum Bilden einer ersten Sequenz von Signalsegmenten durch Gewichtung des Signals entsprechend der assoziierten Fensterfunktion eines betreffenden Fensters der ersten Kette von Fenstern; und
    • – Synthetisierungsmittel zum Synthetisieren eines gestreckten Audiosignals durch schematische Einhaltung oder Wiederholung der betreffenden Signalsegmente der erste Sequenz von Segmenten.
  • Aus EP-A 0527527, EP-A 0527529 und EP-A 0363233 ist ein Verfahren und eine Anordnung bekannt zum Strecken eines audioäquivalenten Eingangssignals. Das Verfahren und die Anordnung werden typischerweise für Sprachsynthese verwendet. Für Sprachsynthese wird üblicherweise ein Text in Sprache umgewandelt, und zwar dadurch, dass Sprachfragmente selektiert werden, die abgetastete Sprache darstellen, und zwar aus einem Satz gespeicherter Sprachfragmente und dass die selektierten Sprachfragmente verkettet werden zum Bilden eines Basissprachsignals. Die Sprachfragmente können beispielsweise Diphone sein. Da die Sprachfragmente eine bestimmte Dauer und Mittenabstand haben, wird die Dauer und meistens auch die Tonlage des erhaltenen Basissprachsignals manipuliert zum Erhalten einer natürlich klingenden Sprache mit einer bestimmten Prosodie. Die Manipulation wird dadurch durchgeführt, dass das Basissprachsignal in Segmente zerlegt wird. Die Segmente werden dadurch geformt, dass längs des Signals eine Kette von Fenstern gelegt wird. Aufeinander folgende Fenster werden meistens um eine Dauer verlagert, die der örtlichen Tonlagenperiode entspricht. In dem System von EO-A 0527527 und EP-A 0527529, das als PIOLA-System bezeichnet wird, wird die örtliche Tonlagenperiode automatisch detektiert und die Fenster werden entsprechend der detektierten Dauer der Tonlage verlagert. In dem sog. PSOLA-System laut EP-A 0363233 werden die Fenster um handmäßig ermittelte Stellen, sog. Sprachmarkierungen, herum zentriert. Die Sprachmarkierungen entsprechen periodischen Augenblicken stärkster Erregung der Stimmbänder. Das Sprachsignal wird entsprechend der Fensterfunktion der betreffenden Fenster gewichtet zum Erhalten von Segmenten. Ein gestrecktes Signal wird dadurch erhalten, dass Segmente wiederholt werden (beispielsweise Wiederholung von eins zu vier Segmenten zum Erhalten eines um 25% längeren Signals). Auf gleiche Weise kann ein verkürztes Signal dadurch erhalten werden, dass Segmente unterdrückt werden. Die gleiche Technik kann angewandt werden zum Manipulieren der Dauer anderer Formen audioäquivalenter Signale, wie Musik. Für Musik kann die Verlagerung von Fenstern auf dem dominanten örtlichen Frequenzanteil gründen, ähnlich wie die Verwendung der Tonlage oder der Sprachmarkierungen für Sprachsignale. Die Dauer eines Musiksignals oder eines Musik/Sprachsignals kann manipuliert werden um das Signal in einen bestimmten Rahmen zu passen, wie das Hinzufügen von Tonspuren zu einer Videospur.
  • Zum manipulieren der Länge eines Audiosignals kann die Fensterfunktion eine Blockform haben. Dies führt zu einem effektiven Schneiden des Eingangssignals in einander nicht überlappende benachbarte Segmente. Insbesondere zum Manipulieren der Prosodie eines Sprachsignals wird bevorzugt, Fenster zu benutzen, die breiter sind als die Verlagerung der Fenster (d. h. die Fenster überlappen sich). Vorzugsweise erstreckt sich jedes Fenster zu der Mitte des nächsten Fensters hin. Auf diese Weise wird jeder Zeitpunkt des Sprachsignals durch zwei Fenster gedeckt. Die Fensterfunktion variiert als eine Funkti on der Lage in dem Fenster, wobei die Funktion in der Nähe des Randes des Fensters dem Wert Null nähert. Vorzugsweise ist die Fensterfunktion "selbstkomplementär" in dem Sinne, dass die Summe der zwei Fensterfunktionen, die denselben Zeitpunkt in dem Signal decken, unabhängig ist von dem Zeitpunkt (ein Beispiel einer derartigen Fensterfunktion ist eine glockenförmige Funktion, gebildet durch ein Quadrat eines Kosinus, wobei die Argumente proportional zu der Zeit von Minus neunzig Grad am Anfang des Fensters bis Plus neunzig Grad am Ende des Fensters laufen). Die Verwendung von Fenstern, die breiter sind als die Verlagerung führt dazu, dass die Segmente einander überlappen. Die selbstkomplementäre Eigenschaft der Fensterfunktion gewährleistet, dass durch Überlagerung der Segmente in derselben Zeitbeziehung, in der sie hergeleitet wurden, das ursprüngliche Signal wiedergewonnen wird. Eine Änderung der Tonlage örtlich periodischer Signale (wie beispielsweise stimmhafte Sprache oder Musik) kann dadurch erhalten werden, dass die Segmentsignale an verschiedene relative Zeitpunkte gesetzt werden, bevor die Segmente überlagert werden. Zum Bilden beispielsweise eines Ausgangssignals mit einer erhöhten Tonlage, werden die Segmente mit einem komprimierten Mittenabstand überlagert, und zwar im Vergleich zu dem Abstand der Segmente, wie diese von dem ursprünglichen Signal hergeleitet werden. Die Länge der Segmente wird gleich gehalten. Änderung der Zeitlage der Segmente führt zu einem Ausgangssignal, das darin von dem Eingangssignal abweicht, dass es eine andere örtliche Periode hat, aber die Umhüllende des Spektrums ist nach wie vor nahezu dieselbe. Perzeptionsexperimente haben gezeigt, dass dies eine sehr gut empfundene Sprachqualität ergibt, sogar wenn die Tonlage um mehr als eine Oktave sich geändert hat.
  • Die Segmentierungstechnik kann auch benutzt werden zum Manipulieren der Dauer von Teilen des audioäquivalenten Signals, das keine periodische Komponente haben. Für ein Sprachsignal bezieht sich dies beispielsweise auf vorwiegend stimmlose Teile und für Musik auf vorwiegend Rauschteile. Für diese Teile des Signals werden die Fenster verlagert, beispielsweise dadurch, dass die verwendete Verlagerung für das letzte Segment mit einer unterscheidbaren periodischen Komponente oder ein mittlerer Verlagerungswert, wie 10 ms für eine männliche Stimme verwendet wird. Im Grunde kann auch der spektrale Inhalt des Signals analysiert werden zum Identifizieren von Fragmenten, wobei der spektrale Inhalt sich nicht wesentlich ändert. Wenn es dann erwünscht ist, das Signal um einen bestimmten Faktor a/b zu strecken (soll beispielsweise das Signal um einen Faktor 5/4 gestreckt werden), so kann das Fragment in b Segmente (oder in Vielfache von b) zerlegt werden und durch Wiederholung der Segmente kann das b Eingangssignal a Ausgangssegmente ergeben (beispielsweise Wiederholung von 1 zu 4 Segmenten).
  • In der Praxis hat es sich herausgestellt, dass Streckung nicht periodischer Teile auf diese Weise hörbare Artefakte ergibt, wenn die Dauer des Signals wesentlich zunimmt, beispielsweise um einen Faktor zwei oder mehr. Obschon die Segmente selber keine identifizierbaren periodischen Komponenten enthalten, verursacht das Wiederholen der Segmente eine Periodizität. Dies wird als Ton erfahren, als würde eine Person über das Ende einer Röhre blasen. Um derartige Artefakte zu vermeiden werden meistens nicht periodische Teile des Eingangssignals nicht gestreckt. Insbesondere für Sprachsynthese ist es erwünscht, dass man imstande ist, die Länge eines Sprachsignals wesentlich zu steigern. Für ein natürlich klingendes Audiosignal ist es erwünscht, auch die stimmlosen Teile des Signals strecken zu können.
  • Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung ein Verfahren und ein Gerät der oben beschriebenen Art zu schaffen, das imstande ist, ein audioäquivalentes Signal als Ganzes zu strecken, einschließlich nicht periodischer Teile, und zwar zu einer einwandfreien Qualität.
  • Um diese Aufgabe der vorliegenden Erfindung zu erfüllen, weist das Verfahren das Kennzeichen auf, dass das Verfahren die nachfolgenden Verfahrensschritte umfasst:
    • – das Identifizieren eines Signalabschnitts in dem gestreckten Audiosignal, das aus einem der Signalsegmente synthetisiert worden ist, das als das Quellensignalsegment bezeichnet wird, durch Beibehaltung und wenigstens einmalige Wiederholung des Quellensignalsegmentes; wobei das Quellensignalsegment im Wesentlichen keine periodische Komponente hat; und
    • – das Durchbrechen der Periodizität in dem Signalabschnitt, verursacht durch Wiederholung des Quellensignalsegmentes durch die nachfolgenden Schritte:
    • – das Positionieren einer zweiten Kette einander überlappender oder nebeneinander liegender Zeitfenster gegenüber dem Signalabschnitt; wobei wenigstens einige der Zeitfenster der zweiten Kette eine Dauer haben, die weder einer Dauer des Quellensignalsegmentes, noch einem Vielfachen der Dauer des Quellensignalsegmentes entspricht;
    • – das Bilden einer zweiten Sequenz von Signalsegmenten durch Gewichtung des Signal segmentes mit der assoziierten Fensterfunktion eines betreffenden Fensters der zweiten Kette von Fenstern; und
    • – das Erzeugen eines Audio-Ausgangssignals aus dem gestreckten Audiosignal durch Umordnung von Signalsegmenten der zweiten Sequenz von Signalsegmenten.
  • Die durch ein- oder mehrmalige Wiederholung eines Quellensegmentes in den Signalabschnitt des gestreckten Signals eingeführte Periodizität wird durch Aufteilung des Signalabschnitts in Segmente und durch Umformung der Segmente unterbrochen. Dadurch, dass gewährleistet wird, dass die Segmente der zweiten Sequenz nicht alle dieselbe Länge haben wie das ursprüngliche Quellensegment (oder ein Vielfaches davon), wird vermieden, dass die Umformung auf einfache Weise die Segmente mit genau demselben Inhalt neu gliedert. Die Fenster der zweiten Kette können jede beliebige geeignete Form haben (Fensterfunktion), wie eine Rechteckwelle um nicht überlappende nebeneinander liegende Segmente zu bilden oder überlappende Fenster, wie glockenförmige Fenster. Vorzugsweise ist die zweite Kette von Fenstern basiert auf derselben Form wie die Fenster der ersten Kette, wodurch eine Neuverwendung verfügbarer Signalverarbeitungsmittel ermöglicht wird. Auf vorteilhafte Art und Weise werden sich überlappende Fenster für die erste Kette verwendet, wodurch es ermöglicht wird, dass das Verfahren auch angewandt wird zum Ändern der Tonlage des audioäquivalenten Eingangssignals.
  • Bei einer Ausführungsform, wie in dem Unteranspruch 2 definiert, sind wenigstens einige der Zeitfenster der zweiten Kette mit Zeitfenstern wesentlich kürzer als das Quellensignalsegment. Die hörbaren Artefakte in dem gestreckten Signal werden durch Wiederholung spezifischer spektraler Elemente des Quellensegmentes an genau derselben Zeitstelle in jedem der Segmente, die von dem Quellensegment hergeleitet sind, verursacht. Folglich werden alle spezifischen spektralen Elemente mit derselben Frequenz wiederholt (resultierend aus der Verlagerung der Fenster der ersten Kette) und liefern einen Beitrag zu dem hörbaren Artefakt. Durch Verwendung kurzer Zeitfenster in der zweiten Kette und durch Umformung der resultierenden kurzen Segmente werden die spektralen Elemente der Quellensegmente bis zu einem bestimmten Grad isoliert und ausgeschmiert, wodurch die Wiederholung weiter unterbrochen wird. Ein Segment der zweiten Sequenz kann zu einer Position irgendwo in dem ganzen Abschnitt umgeformt werden (d. h. irgendwo in dem Teil des gestreckten Signals, das von demselben Quellensegment herrührt). Die Umformung kann gewünschtenfalls auch auf eine Position innerhalb eines Segmentes des gestreckten Audiosignals begrenzt werden.
  • Bei einer Ausführungsform, wie in dem Unteranspruch 3 definiert, ist die Dauer der Selektion der Zeitfenster der zweiten Kette um wenigstens einen Faktor 4 kleiner als die Dauer des Quellensignalsegmentes. Es hat sich herausgestellt, dass wenn die Segmente des identifizierten Abschnitts je in wenigstens vier kleinere Segmente aufgeteilt werden (die dann umgeformt werden), werden die Artefakte wesentlich reduziert. Durch Verwendung von sechs oder mehr kleineren Segmenten sind Artefakte kaum noch hörbar.
  • Bei einer Ausführungsform, wie in dem Unteranspruch 4 definiert, wird die Dauer von Zeitfenstern der zweiten Kette mit Zeitfenstern derart aus einem vorbestimmten Bereich selektiert, dass die selektierte Dauer im Wesentlichen über den Bereich gleichmäßig verteilt ist. Wenn beispielsweise ein Quellensegment von 10 ms in 10 Segmente von je 1 ms aufgeteilt wird, die danach umgeformt werden, bringt die Verwendung kleineren Segmente mit einer festen Länge eine Periodizität mit sich. In diesem Beispiel könnte eine 1 kHz Wiederholung (und Harmonische davon) hörbar werden (sei es auch wesentlich weniger als die ursprüngliche Wiederholung). Durch Verwendung von Fenstern verschiedener Länge für die zweite Kette wird vermieden, dass eine derartige Wiederholung eingeführt wird.
  • Bei einer Ausführungsform, wie in dem Unteranspruch 5 definiert, ist eine obere Begrenzung des Bereichs um wenigstens einen Faktor 1,5 höher als eine untere Begrenzung des Bereichs. Auf diese Art und Weise kann genügend Variation in der Dauer der Segmente erreicht werden um Wiederholung zu vermeiden.
  • Bei einer Ausführungsform, wie in dem Unteranspruch 6 definiert, ist die obere Begrenzung im Wesentlichen um einen Faktor 2 höher als die untere Begrenzung. Versuche haben gezeigt, dass durch Variation die Dauer der kleinen Segmente um einen Faktor 2 sehr gute Ergebnisse in der Vermeidung von Wiederholung erzielt werden.
  • Zur Erfüllung der Aufgabe der vorliegenden Erfindung weist das Gerät das Kennzeichen auf, dass es die nachfolgenden Elemente umfasst:
    • – Identifikationsmittel zum Identifizieren eines Signalabschnitts in dem gestreckten Audiosignal, das aus einem der Signalsegmente synthetisiert worden ist, das als das Quellensignalsegment bezeichnet wird, durch Beibehaltung und wenigstens einmalige Wiederholung des Quellensignalsegmentes; wobei das Quellensignalsegment im Wesentlichen keine peri odische Komponente hat; und
    • – Mittel zum Durchbrechen der Periodizität in dem Signalabschnitt, verursacht durch Wiederholung des Quellensignalsegmentes durch die nachfolgenden Schritte:
    • – dass dafür gesorgt wird, dass die Positionierungsmittel eine zweite Kette einander überlappender oder nebeneinander liegender Zeitfenster gegenüber dem Signalabschnitt positionieren; wobei wenigstens einige der Zeitfenster der zweiten Kette eine Dauer haben, die weder einer Dauer des Quellensignalsegmentes, noch einem Vielfachen der Dauer des Quellensignalsegmentes entspricht;
    • – dass dafür gesorgt wird, dass die Segmentierungsmittel eine zweite Sequenz von Signalsegmenten bilden, und zwar durch Gewichtung des Signalsegmentes mit der assoziierten Fensterfunktion eines betreffenden Fensters der zweiten Kette von Fenstern; und
    • – das Erzeugen eines Audio-Ausgangssignals aus dem gestreckten Audiosignal durch Umordnung von Signalsegmenten der zweiten Sequenz von Signalsegmenten.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im vorliegenden Fall näher beschrieben. Es zeigen:
  • 1 eine schematische Darstellung des Ergebnisses von Schritten des bekannten Verfahrens zum Aufteilen des audioäquivalenten Eingangssignals in Segmente,
  • 2 eine Darstellung des bekannten Verfahrens zum Strecken eines periodischen Teils des Signals,
  • 3 eine Darstellung der Streckung eines nicht periodischen Teils des Signals,
  • 4 eine Darstellung, die einen Signalteil identifiziert, der aus einem nicht periodischen Segment synthetisiert worden ist,
  • 5 eine Darstellung von Umformungssegmenten eines nicht periodischen Signalteils,
  • 6 eine Darstellung eines ursprünglichen nicht periodischen Signals,
  • 7 eine Darstellung des viermal gestreckten Signals,
  • 8 eine Darstellung des gestreckten Signals nach der Umformung von Segmenten fester Länge,
  • 9 eine Darstellung des gestreckten Signals nach Umformung von Segmenten variabler Länge,
  • 10 eine Darstellung eines Blockschaltbildes eines Geräts nach der vorliegenden Erfindung.
  • 1 zeigt die Schritte des bekannten Verfahrens zum Strecken eines audioäquivalenten Eingangssignals "X" 10, wie eines Sprach- oder Musiksignals. Das Verfahren und das Gerät sind durchaus geeignet für Sprachsynthese. Für Sprachsynthese wird meistens ein Text in Sprache umgewandelt, und zwar dadurch, dass Sprachfragmente selektiert werden, die abgetastete Sprache darstellen, aus einem Satz gespeicherter Sprachfragmente und wobei die selektierten Sprachsegmente verkettet werden zum Bilden eines Basissprachsignals. Die Sprachfragmente können beispielsweise Diphone darstellen. Das verkettete Signal klingt meistens nicht natürlich, da jedes der verketteten Sprachfragmente seine eigene spezifische Dauer und Tonlage hat, die nicht mit einer für den wiederzugebenden Satz gewünschten Dauer und Tonlage übereinstimmt. Dazu werden die Dauer und meistens auch die Tonlage des erhaltenen Basissprachsignals manipuliert zum Erhalten einer natürlich klingenden Sprache mit einer bestimmten Prosodie. Die Manipulation wird dadurch durchgeführt, dass das Basissprachsignal in Segmente aufgeteilt wird und diese Segmente weiter verarbeitet werden. In 1 ist die Technik für einen periodischen Abschnitt des audioäquivalenten Signals 10 dargestellt. In diesem Abschnitt wiederholt sich das Signal nach aufeinander folgenden Perioden 11a, 11b, 11c mit der Dauer L. Für ein Sprachsignal beträgt eine derartige Dauer im Schnitt etwa 5 ms, für eine weibliche Stimme und 10 ms für eine männliche Stimme. Eine Kette von Zeitfenstern 12a, 12b, 12c liegt gegenüber dem Signal 10. In 1 werden überlappende Zeitfenster verwendet, zentriert um Zeitpunkte "t" (i = 1, 2, 3, ...). Die dargestellten Fenster erstrecken sich über zwei Perioden "L", ausgehend von der Mitte des vorhergehenden Fensters und endend in der Mitte des nachfolgenden Fensters. Dadurch wird jeder Zeitpunkt durch zwei Fenster gedeckt. Jedes Zeitfenster 12a, 12b, 12c ist mit einer bestimmten Fensterfunktion W(t) 13a, 13b, 13c assoziiert. Eine erste Kette von Signalsegmenten 14a, 14b, 14c wird durch Gewichtung des Signals 10 entsprechend den Fensterfunktionen der betreffenden Fenster 12a, 12b, 12c gebildet. Das Gewichten bedeutet Multiplizieren des audioäquivalenten Signals 10 innerhalb jedes der Fenster mit der Fensterfunktion des Fensters. Das Segmentsignal Si(t) wird erhalten als: Si(t) = W(t)X(t – ti)
  • 2 zeigt die Bildung eines gestreckten Audiosignals durch systematisches Beibehalten oder Wiederholen der betreffenden Signalsegmente. In 2A ist die erste Sequenz 14 von Signalsegmenten 14a bis 14f dargestellt. 2B zeigt ein Signal, dessen Dauer 1,5 mal länger ist. Dies wird dadurch erreicht, dass alle Segmente der erste Sequenz 14 beibehalten werden und dass systematisch jedes zweite Segment der Kette wiederholt wird (es wird beispielsweise jedes "ungerade" Segment oder jedes "gerade" Segment wiederholt). Das Signal nach 2C ist um einen Faktor 3 dadurch gestreckt worden, dass jedes Segment der Sequenz 14 dreimal wiederholt wurde. Es dürfte einleuchten, dass das Signal durch Anwendung der Umkehrtechnik verkürzt werden kann (d. h. eine systematische Unterdrückung/Umgehung von Segmenten).
  • Zum Strecken des Signals können die Fenster im Grunde auf eine nicht überlappende Weise einfach aneinander grenzen. Dazu kann die Fensterfunktion eine einfache Rechteckwelle sein: W(t) = 1, für 0 ≤ t ≤ L W(t) = 0, in anderen Fällen.
  • Wenn dieselbe Technik ebenfalls angewandt wird zum Ändern der Tonlage des Signals, wird bevorzugt überlappende Fenster zu verwenden, beispielsweise wie diejenigen, die in 1 dargestellt sind. Vorteilhafterweise ist die Fensterfunktion selbstkomplementär in dem Sinne, dass die Summe der überlappenden Fensterfunktionen unabhängig von der Zeit ist: W(t) + W(t – L) = konstant, für 0 ≤ t ≤ L.
  • Diese Bedingung wird beispielsweise erfüllt, wenn: W(t) = ½ + A(t)cos[180t/L + ϕ(t)]wobei A(t) und ϕ(t) periodische Funktionen von t sind, mit einer Periode von L. Eine typische Fensterfunktion wird erhalten, wenn A(t) = ½ und ϕ(t) = 0 ist. Die Segmente Si(t) werden überlagert zum Erhalten des Ausgangssignals Y(t). Um die Tonlage zu ändern werden die Segmente an neuen Stellen Ti überlagert, die von den ursprünglichen Stellen ti (i = 1, 2, 3, ...) abweichen. Um den Wert der Tonlage zu steigern liegen die Mitten der Segmentsignale dichter beisammen. Um den Wert der Tonlage zu verringern wird die Segmente weiter auseinander positioniert. Zum Schluss werden die Segmentsignale summiert, und zwar zum Erhalten des überlagerten Ausgangssignals Y: Y(t) = ΣiSi(t – Ti)
  • (In dem Beispiel nach 1, wobei die Fenster zwei Perioden breit sind, ist die Summe auf Indizen i begrenzt, wobei Folgendes gilt: –L < t – Ti < L). Durch die Art der Konstruktion wird dieses Ausgangssignal Y(t) periodisch sein, wenn das Eingangssignal 10 periodisch ist, aber die Periode des Ausgangs weicht von der Eingangsperiode um einen Faktor ab: (ti – ti–1)/(Ti – Ti–1)d. h. ebensoviel wie die gegenseitige Kompression/Expansion der Abstände zwischen den Segmenten wie sie zur Überlagerung positioniert sind. Wenn der Segmentabstand nicht geändert wird, reproduziert das Ausgangssignal Y(t) genau das audioäquivalente Eingangssignal X(t).
  • Es dürfte einleuchten, dass ein Nebeneffekt der Steigerung der Tonlage ist, dass das Signal kürzer wird. Dies kann dadurch kompensiert werden, dass das Signal wie oben beschrieben gestreckt wird.
  • Das bekannte Verfahren transformiert periodische Signale in neue periodische Signale mit einer anderen Periode aber mit nahezu derselben spektralen Umhüllenden. Das Verfahren kann auf gleiche Weise auch auf Signale angewandt werden, die eine örtlich bestimmte Periode haben, wie beispielsweise stimmhafte Sprachsignale oder Musiksignale. Für diese Signale variiert die Periodenlänge L in der Zeit, d. h. die i. Periode hat eine periodenspezifische Länge Li. In diesem Fall muss die Länge der Fenster in der Zeit variiert werden, je nachdem die Periodenlänge sich ändert, und die Fensterfunktionen W(t) müssen in der Zeit um einen Faktor Li gestreckt werden, und zwar entsprechend der örtlichen Periode, zum Decken solcher Fenster: Si(t) = W(t/Li)X(t – ti)
  • Für selbstkomplementäre überlappende Fenster ist es erwünscht, die Selbstkomplementärität der Fensterfunktionen beizubehalten. Dies kann durch Verwendung einer Fensterfunktion mit einzeln gestreckten linken und rechten Teilen (für t < 0 bzw. t > 0) erreicht werden Si(t) = W(t/Li)X(t + ti) (–Li < t < 0) Si(t) = W(t/Li+1)X(t + ti) (0 < t < Li+1)wobei jeder Teil um den eigenen Faktor (Li bzw. Li+1) gestreckt wird. Diese Faktoren sind identisch zu den entsprechenden Faktoren der betreffenden linken und rechten überlappenden Fenster.
  • Versuche haben gezeigt, dass örtlich periodische audioäquivalente Eingangssignale, die auf die Art und Weise, wie oben beschrieben, manipuliert worden sind, zu Ausgangssignalen führen, die für das menschliche Ohr die gleiche Qualität haben wie das audioäquivalente Eingangssignal, aber mit einer anderen Tonlage und/oder Dauer.
  • 1 zeigt Fenster 12, die zentriert an Sprachmarkierungen positioniert werden, d. h. an Zeitpunkten, an denen die Stimmbänder erregt werden. Um derartige Punkte herum, insbesondere an dem scharf definierten Schließpunkt gibt es die Neigung einer größeren Signalamplitude (insbesondere bei höheren Frequenzen). Für Signale, bei denen die Intensität in einem kurzen Intervall der Periode konzentriert ist, wird die Zentrierung der Fenster um derartige Intervalle herum zu einer meist getreuen Wiedergabe des Signals führen. Auf alternative Art und Weise ist es aus EP-A 0527527 und EP-A 0527529 bekannt, dass es in den meisten Fällen für eine gute erfahrene Qualität in der Sprachwiedergabe nicht notwendig ist, die Fenster um Sprachmarkierungen entsprechend Momenten der Erregung der Stimmbänder herum oder dazu bei jedem detektierbaren Ereignis in dem Sprachsignal zu zentrieren. Ziemlich gute Ergebnisse können dadurch erreicht werden, dass eine geeignete Fensterlänge und regelmäßige Zwischenräume verwendet werden. Sogar wenn das Fenster gegenüber dem Zeitpunkt der Stimmbanderregung beliebig positioniert wird, und sogar wenn Positionen aufeinander folgender Fenster langsam variiert werden, werden hörbare Signale einer guten Qualität erhalten. Für eine derartige Technik werden die Fenster ansteigend platziert mit örtlichen Periodenlängen getrennt, ohne eine absolute Phasenbeziehung. Die örtliche Periodenlänge, d. h. der Tonlagenwert, kann unter Anwendung jedes geeigneten bekannten Verfahrens automatisch ermittelt werden. Typischerweise basiert Tonlagendetektion auf der Ermittlung des Abstandes zwischen Spitzen in dem Spektrum des Signals, wie dies beispielsweise in "Measurement of pitch by subharmonic summation" von D. J. Hermes, "Journal of the Acoustical Society of America", Heft 83 (1988), Nr. 1, Seiten 257–264 beschrieben worden ist. Andere Methoden selektieren eine Periode, was die Änderung in einem Signal zwischen aufeinander folgenden Perioden minimiert.
  • Die gleiche Streckungstechnik, wie diese oben beschrieben worden ist, kann auch zum Strecken von Teilen des audioäquivalenten Eingangssignals ohne identifizierbare periodische Komponente angewandt werden. Für ein Sprachsignal ist ein Beispiel eines derartigen Teils eine stimmlose Streckung, d. h. eine Streckung mit Reibelauten, wie "sss", wobei die Stimmbänder nicht erregt werden. Für Musik ist ein Beispiel eines nicht periodischen Teils ein "Rausch"-Teil. Zum Strecken der Dauer im Wesentlichen nicht periodischer Teile auf eine Art und Weise, entsprechend den periodischen Teilen, werden Fenster ansteigend in Bezug auf das Signal platziert. Die Fenster können dennoch an handmäßig bestimmten Stellen platziert werden. Abwechselnd aufeinander folgende Fenster werden über einen Zeitabstand verlagert, der von der Tonlagenperiode von periodischen Teilen hergeleitet wird, wobei diese Teile den nicht periodischen Teil umgeben. So kann beispielsweise die Verlagerung derart gewählt werden, dass diese dieselbe ist wie diejenige, die für das letzte periodische Segment verwendet worden ist (d. h. die Verlagerung entspricht der Periode des letzten Segmentes). Die Verlagerung kann auch durch Interpolation der Verlagerungen des letzten vorhergehenden periodischen Segmentes und des ersten nachfolgenden periodischen Segmentes bestimmt werden. Es kann auch eine feste Verlagerung gewählt werden, was für Sprache vorzugsweise geschlechtsspezifisch ist, wobei beispielsweise eine 10 ms Verlagerung für eine männliche Stimme und eine 5 ms Verlagerung für eine weibliche Stimme verwendet wird.
  • 3 zeigt einen nicht periodischen Abschnitt 300 des audioäquivalenten Eingangssignals 10. Der Signalabschnitt 300 ist in drei Segmente 320, 330 und 340 aufgeteilt. In diesem Fall wurden überlappende Fenster 302, 303 und 304 zum Bilden der Segmente verwendet. Als Beispiel wird ein gestrecktes Signal dadurch geschaffen, dass jedes der Segmente 320, 330 und 340 dreimal wiederholt wird. Das gestreckte Signal Y(t) 350 wird durch Summierung der auf diese Art und Weise gebildeten Segmente 321, 322, 323, 331, 332, 333, 341, 342 und 343 geformt. In diesem Beispiel ist das Segment 321 an dieselbe Stelle gesetzt worden wie das Segment 320. Das Segment 322 ist über einen Zeitabstand d0 gegenüber 321 verlagert worden, was demjenigen Abstand entspricht, über dem das Fenster, das zum Schaffen des Segmentes 320 in dem Eingangssignal X gegenüber dem (nicht dargestellten) vorhergehenden Fenster verlagert wurde. Wenn nicht überlappende Fenster verwendet wären zum Bilden der Segmente 320, 330 und 340 ist diese Verlagerung die Breite des Fensters. Wenn überlappende Fenster mit einer Breite von 2L verwendet werden, ist die Verlagerung L, wie oben beschrieben. Das Segment 323 wird ebenfalls über d0 gegenüber dem Segment 322 verlagert. Auf gleiche Weise werden die Segmente 331, 332, 333, 341, 342 und 343 verlagert, wie in der Figur dargestellt. Normalerweise werden die nicht periodischen Segmente 230, 330 und 340 durch Verlagerung der Fenster 302, 303 und 304 über einen gleichen Abstand gebildet. In einem derartigen Fall sind die dargestellten Verlagerungen d0, d1 und d2 alle die gleiche. Gewünschtenfalls können die Abstände auch verschieden sein, beispielsweise wenn die ortsspezifische Interpolation der Verlagerungen des letzten vorhergehenden periodischen Segmentes und des ersten nachfolgenden periodischen Segmentes verwendet wird.
  • Nach der vorliegenden Erfindung wird ein Signalabschnitt in dem gestreckten Audiosignal Y(t) 350 identifiziert, der von einem Quellensignalsegment synthetisiert wird. 4A illustriert zwei derartiger Signalabschnitte 410 und 420, die je durch eine vierfache Wiederholung eines Quellensegmentes gebildet sind (durch a bzw. b bezeichnet). In diesem Beispiel sind die Quellensegmente nicht überlappend. 4B zeigt eine ähnliche Situation, in der die Quellensegmente überlappend sind. In diesem Fall kann der Abschnitt des Signals Y(t), der sich auf dasselbe Quellensegment bezieht, verschiedenartig definiert werden. In einer begrenzenden Annäherung wird der Signalabschnitt als Teil des Signals Y(t) definiert, der ein Signal umfasst, das ausschließlich von einem einzigen Quellensegment herrührt. Dies ist in 4B als die Abschnitte 430 bzw. 440 dargestellt. Auf diese Art und Weise würde derjenige Teil des Signals Y, der aus den Signalen aus mehr als nur einem Quellensegment gebildet ist, ausgeschlossen. In 4B ist der Abschnitt 435 ein derartiger Abschnitt. Vorzugsweise werden alle Teile des Signals Y, gebildet aus einem nicht periodischen Quellensignal, zur Entfernung der eingeführten Periodizität berücksichtigt. Um zu gewährleisten, dass keine Teile ausgelassen werden, können Abschnitte wie 450 und 460 verwendet werden, wobei der Abschnitt bei dem Punkt startet, wo zum ersten Mal ein Quellensegment zu dem Signal beiträgt und endet an dem Punkt, wo zum ersten Mal ein anderes Quellensegment den Beitrag zu dem Signal startet. Auf gleiche Weise könnte der Abschnitt als derjenige Teil definiert werden, der ein halbes Segment später ist (d. h. das Ende eines Beitrags eines Segmentes ist der Bestimmungspunkt), wie dies für die Abschnitte 470 und 480 der Fall ist. Auf alternative Weise kann der Anschnitt als die Streckung definiert werden, wobei ein einziges Quellensegment den dominierenden Beitrag liefert. In dem Fall der überlappenden Fenster aus 1 und 3 tritt der Übergang von dem einen Abschnitt in den anderen Abschnitt dann halbwegs zwischen den Segmenten auf, herrührend von verschiedenen Quellensegmenten, wie durch die Anschnitte 490 und 495 in 4B dargestellt. Es dürfte einleuchten, dass normalerweise verschiedene aufeinander folgende Quellensegmente nicht periodisch sein werden und der spektrale Inhalt sich nur langsam ändert. An sich ist eine sehr genaue Ausrichtung des Anschnitts nicht erforderlich. Man soll auf die Begrenzungen zwischen einem periodischen und einem nicht periodischen Ab schnitt achten um zu gewährleisten, dass kein periodisches Signal in den nicht periodischen Teil umgeformt wird. Deswegen wird bevorzugt, einen derartigen Begrenzungsteil auf eine begrenzte Weise zu definieren, beispielsweise durch Verwendung einer Definition wie für den Teil 470 für eine Änderung von einem periodischen Signal in ein nicht periodisches Signal dargestellt und einer Definition, wie für den Teil 460 für eine Änderung von einem nicht periodischen Signal in ein periodisches Signal dargestellt.
  • Ungeachtet der obenstehenden Definitionen des Signalabschnitts ist es wichtig zwischen einem periodischen und einem nicht periodischen Quellensegment zu differenzieren. Ein derartiger Unterschied kann handmäßig dadurch gemacht werden, dass das Signal analysiert wird, meistens in einer sichtbaren und hörbaren Darstellung, und dass diese Unterscheidungsinformation im Zusammenhang mit dem analysierten Teil des Quellensignals gespeichert wird. Vorzugsweise wird das Signal automatisch analysiert um die örtliche Periode zu bestimmen. Im Grunde kann jedes beliebige bekannte und geeignete Analysierverfahren angewandt werden. Ein derartiges Verfahren wird auch angeben, wenn für einen Signalteil keine Tonlage ermittelt werden kann. Sollte dies der Fall sein, so kann der identifizierte Teil in Segmente aufgeteilt werden, wobei jedes Segment als nicht periodisch markiert wird.
  • Wenn ein Signalabschnitt einmal identifiziert worden ist, was geschieht durch Wiederholung eines nicht periodischen Quellensegmentes, wird als nächster Schritt die in den Abschnitt durch die Wiederholung eingeführte Periodizität unterbrochen. Dies wird erreicht durch Aufteilung des Signalabschnitts in Segmente und durch Bildung eines Ausgangssignals durch Umformung der Segmente. Die Segmente werden auf eine Art und Weise gebildet, wie oben bereits beschrieben, und zwar durch Verwendung von Fenstern und durch Gewichtung des Signalabschnitts entsprechend den Fensterfunktionen. Da nur ein Umformungsvorgang auftritt und keine Tonlageneinstellung, ist es nicht erforderlich überlappende Segmente zu verwenden. Auf vorteilhafte Weise werden Fenster derselben Form verwendet wie diese zum Schaffen der Quellensegmente verwendet wurden. Es dürfte einleuchten, dass periodische Signalabschnitte nicht beeinträchtigt werden und auf einfache Weise beibehalten werden (wenn erwünscht, können die periodischen Abschnitte in Segmente aufgeteilt und neu kombiniert werden, und zwar an derselben Stelle zum Erhalten des ursprünglichen Signalabschnitts).
  • 5 zeigt den Signalabschnitt 500, gebildet durch sechsfache Wiederholung desselben nicht periodischen Quellensegmentes. Der Abschnitt wird in eine Sequenz 510 von Segmenten 511, 512, 513, 514, 515, 516 aufgeteilt. In diesem Beispiel umfasst die Sequenz 510 ebenfalls sechs Segmente. Wie nachher noch näher detailliert beschrieben wird, wird bevorzugt, mehr Segmente für die Sequenz 510 als für den Abschnitt 500 zu verwenden. Es dürfte einleuchten, dass trotz der Umformung dieser Segmente die eingeführte Periodizität beibehalten werden würde, wenn die Segmente der Sequenz 510 den Segmenten 501, 502, 503, 504, 505 und 506 des gestreckten Signalabschnitts 500 genau entsprechen. Diese Situation wird dadurch vermieden, dass gewährleistet wird, dass wenigstens eines der Segmente der Sequenz 510 eine Dauer hat, die nicht gleich ist an der Dauer des Quellensegmentes und nicht gleich an einem Vielfachen der Dauer des Quellensegmentes. In dem Beispiel hat das Segment 516 die gleiche Dauer wie das Quellensegment. Alle anderen Segmente der Sequenz 510 haben eine Dauer die von der Dauer des Quellensegmentes abweicht. Im Grunde können Segmente der Sequenz 510 länger sein als das Quellensegment. In dem Beispiel sind die Segmente 511 und 515 länger. In einer derartigen Situation aber trägt ein derartiges relativ langes Segment ein wiederholendes Element in sich, das durch Umformung nicht eliminiert werden kann. Dennoch wird etwas von der Wiederholungshäufigkeit entfernt. Um dies zu illustrieren sind in den Segmenten des Signalabschnitts 500 zwei spektrale Elemente identifiziert worden, und zwar unter Verwendung eins "+" und eines "x". Die spektralen Elemente sind in allen Segmenten in der Sequenz 500 an derselben Stelle vorhanden, was dazu führt, dass die beiden spektralen Elemente einen Beitrag zu der Wiederholungshäufigkeit liefern. In dem umgeformten Abschnitt 520 sind die Kreuze an der Stelle a wiederholend, treten aber nur dreimal statt sechsmal auf. Die Kreuze an der Stelle b werden ebenfalls dreimal wiederholt, aber an einer anderen Stelle als a. Auf diese Art und Weise werden, sogar unter Verwendung nicht optimaler Segmentdauern, wie bei dem Segment 516, das die gleiche Dauer hat wie das Quellensegment, und den Segmenten 511 und 515, die 1,5mal länger sind, wurde dennoch die Wiederholungshäufigkeit wesentlich reduziert.
  • In dem Beispiel nach 5 hat die nachfolgende Umformung stattgefunden: das Segment 511 wurde an die dritte Stelle gesetzt; das Segment 512 an die erste; das Segment 513 an die vierte; das Segment 514 an die sechste; das Segment 515 an die zweite und das Segment 516 an die fünfte. Jeder geeignete Algorithmus zum Umformen kann ange wandt werden. So können beispielsweise den Segmenten der Sequenz 510 in der Sequenz eine neue Stellennummer zugeordnet werden. In dem Beispiel umfasst die Sequenz 510 sechs Segmente. Dem Segment 511 kann eine neue Stellennummer zugeordnet werden, indem beispielsweise ein Generator zum Erzeugen einer beliebigen ganzen Zahl in dem Bereich von 1 bis 6 verwendet wird. Danach wird dem Segment 512 eine Stellennummer zugeordnet, wobei die dem Segment 511 zugeordnete Stellennummer nicht verwendet werden darf. Dieser Prozess wird für alle Segmente der Sequenz 510 wiederholt. Wenn alle Stellennummern einmal bekannt sind werden die Segmente ansteigend platziert, und zwar auf Basis der Stellennummer und der Dauer der Segmente. Es wird bevorzugt, dass ein einzelner Umformungsvorgang für jeden Signalabschnitt 500 durchgeführt wird, herrührend von verschiedenen Quellensegmenten. Es dürfte einleuchten, dass auch mehr komplizierte Umformungsalgorithmen angewandt werden können als derjenige, der beschrieben wurde. So kann beispielsweise ein Umformungsalgorithmus verwendet werden, der die Verbreitung über den Abschnitt weiter optimiert. Als Beispiel gewährleistet der Umformungsalgorithmus dass der spektrale Inhalt aufeinander folgender Segmente in der Sequenz 520 anders ist als die ursprüngliche Sequenz mit spektralem Inhalt. Auch eine Optimierungsprozedur kann benutzt werden, welche die spektrale Wiederholungshäufigkeit minimiert, wobei die gewählte Aufteilung in Segmente gegeben ist.
  • Bei einer weiteren Ausführungsform haben wenigstens einige der zum Bilden der zweiten Sequenz 510 mit Segmenten verwendeten Zeitfenster eine Dauer, die im Wesentlichen kürzer ist als die Dauer des Quellensignalsegmentes. Vorzugsweise sind alle Segmente der zweiten Sequenz 510 wesentlich kürzer. Auf diese Weise wird wenigstens vermieden, dass ein Segment der Sequenz 510 selber ein Wiederholungselement Informationssignal sich trägt. Weiterhin nimmt die Anzahl Segmente zu, wodurch eine statistisch bessere Verteilung des spektralen Inhaltes ermöglicht wird.
  • Bei einer anderen Ausführungsform ist die Dauer der kurzen Zeitfenster um wenigstens einen Faktor 4 kleiner als die Dauer des Quellensignalsegmentes. Dies verteilt den spektralen Inhalt eines Segmentes des Anschnitts 500 in eine ausreichende Anzahl Stücke um zu ermöglichen, dass der Inhalt auf angemessene Art und Weise verbreitet wird. Sehr gute Resultate wurden dadurch erreicht, dass einzelne Segmente des Signalabschnitts 500 über etwa 10 kleine Segmente verteilt werden. Sogar durch Begrenzung der Umformung auf einzelne Segmente des Abschnitts 500 reduziert die gesamte Verbreitung über alle Segmente des Abschnitts 500 wesentlich die Artefakte. Statistisch kann eine bessere Verbreitung dadurch erreicht werden, dass in dem ganzen Teil des gestreckten Signals gestreckt wird, das von demselben Quellensegment herrührt.
  • Bei wieder einer anderen Ausführungsform wird die Dauer der Zeitfenster der zweiten Kette von Zeitfenstern aus einem vorbestimmten Bereich selektiert; wobei die selektierten Dauern im Wesentlichen gleichmäßig über den Bereich verteilt werden. Dadurch, dass gewährleistet wird, dass die Fenster je eine andere Dauer haben, wird vermieden, dass etwaige Artefakte, die an den Grenzen der Segmente auftreten, sich wiederholen und als solche hörbar werden. Die Dauer der Fenster kann auf einfache Art und Weise über den Bereich linear verteilt werden. So können beispielsweise wenn der Bereich von 1 ms bis 2 ms sich erstreckt, 11 verschiedene Fenstergrößen auf einfache Weise als 1 ms, 1,1 ms, 1,2 ms usw. gewählt werden.
  • Es wird bevorzugt, dass eine obere Grenze des Bereichs um wenigstens einen Faktor 1,5 höher liegt als eine untere Grenze des Bereichs. Versuche haben gezeigt, dass dies die hörbaren Artefakte wesentlich reduziert. Insbesondere gibt die Verwendung einer oberen Grenze, die im Wesentlichen um einen Faktor 2 höher liegt als die untere Grenze, gute Resultate.
  • Die 6, 7, 8 und 9 zeigen die Leistung des Verfahrens und des Geräts nach der vorliegenden Erfindung. Für alle Figuren zeigt die A die Wellenform (horizontal ist die Zeit angegeben und vertikal die Amplitude des Signals). B illustriert den spektralen Inhalt desselben Signals, wobei der Grad der Dunkelheit den Pegel des spektralen Inhaltes in der vertikal angegebenen Frequenz angibt. C gibt eine detaillierte Analyse des spektralen Inhalts über das ganze Signal. 6 zeigt eine ursprüngliche stimmlose Streckung (das "s" in dem Englischen Wort "its") für eine männliche Stimme. 7 zeigt dieselbe Streckung, verlängert um einen Faktor 4, wobei die bekannte PIOLA-Technik angewandt wurde. Die eingeführte Wiederholungshäufigkeit kann deutlich identifiziert werden (beispielsweise die Reihe der Spitzen in 7A zwischen 0 und 0,05 Sekunden. Die Wiederholungshäufigkeit entspricht der Fensterverlagerung, angewandt zur Verlängerung des Signals, die etwa 12 ms beträgt. 8 zeigt dieselbe Streckung, wobei die Umformungstechnik nach der vorliegenden Erfindung angewandt worden ist. Ein Segment des verlängerten Signals wurde in 10 kleinere Segmente aufgeteilt, die für die Umformung verwendet werden. Die kleineren Segmente hatten eine gleiche Größe (es wurden Fenster mit einer konstanten Dauer verwendet). Wie ersichtlich ist die Wiederholungshäufigkeit fast völlig entfernt. 9 zeigt dieselbe Streckung, wobei die Fenstergröße von 1 ms bis 2 ms variiert. Durch einen Vergleich der 8C und 9C ist ersichtlich, dass in 8A deutliche sichtbare Spitzen bei Vielfachen von etwa 1000 Hz, verursacht durch Grenzartefakte unter Anwendung von Umformungssegmenten einer festen Dauer von etwa 1 ms, durch Verwendung von Umformungssegmenten mit variabler Größe, verschwunden sind.
  • Das Gerät nach der vorliegenden Erfindung kann in einem programmierbaren Audioverarbeitungssystem implementiert werden, beispielsweise basiert auf DSP. Auch spezielle Hardware kann verwendet werden. Ein Beispiel eines Geräts ist in 10 dargestellt. Da normalerweise dasselbe Gerät auch zum Strecken des ursprünglichen Signals verwendet wird, bevor die Periodizität entfernt wird, ist diese Funktion in der Figur ebenfalls eingeschlossen. Dasselbe Gerät kann auch zum Ändern der Tonlage des Audiosignals verwendet werden. Das audioäquivalente Eingangssignal trifft am Eingang 60 ein; das Signal 61 stellt das gestreckte Signal dar und das gestreckte Signal, von dem die Periodizität entfernt worden ist, verläßt das Gerät (oder wird gespeichert oder weiter verarbeitet) an einem Ausgang 62. Das Eingangssignal wird dadurch in Segmente aufgeteilt, dass es mit der Fensterfunktion in Multipliziermitteln 64 multipliziert wird. Wenn überlappende Fenster verwendet werden, wobei maximal zwei Fenster sich überlappen, können die Multipliziermittel 64 zwei Multiplizierer enthalten, die je unabhängig das Eingangssignal multiplizieren. Die Multiplikationsfaktoren werden von Fensterfunktionswertselektionsmitteln 65 geliefert. Die Segmente werden in den Speichermitteln 66 in Segmentschlitzen im Zusammenhang mit deren betreffenden Zeitpunktwerten gespeichert. Diese Information wird von den Fensterpositionsselektionsmitteln 67 geliefert. Die Fensterpositionsselektionsmittel 67 umfassen eine Tonlagenmesseinrichtung 68, die ermittelt, ob ein Teil des Eingangssignals periodisch ist und, wenn ja, den Tonlagenwert des Teils bestimmt. Für einen periodischen Teil bestimmt der Tonlagenwert den Dauerskalierungsfaktor des Fensters, der von den Fensterfunktionswertselektionsmitteln 65 geliefert wird. Der Tonlagenwert bestimmt ebenfalls die Dauer des Segmentes und dessen Position in dem Signal. Diese Information wird in den Speichermitteln 66 gespeichert, im Zusammenhang mit dem Segment. Wenn keine Periode detektiert worden ist, können vorgegebene Skalierungsfaktoren benutzt werden oder, wie oben beschrieben, Interpolation kann benutzt werden zum Ermitteln einer geeigneten Fensterdauer. Eine Angabe, ob das Segment ggf. periodisch ist, wird ebenfalls im Zusammenhang mit dem Segment in den Speichermitteln 66 gespeichert. Die Fensterfunktionswertselektionsmittel 65 kombinieren den gelieferten Dauerskalierungsfaktor mit einer vorbestimmten Fensterfunktion (die in einer Tabelle gespeichert werden kann) zum Bestimmen des wirklichen Fensterwertes für jeden Teil des Eingangssignals. Wenn überlappende Fenster verwendet werden, wobei maximal zwei Fenster sich überlappen, bestimmen die Fensterfunktionswertselektionsmittel 65 zwei Fensterwerte parallel.
  • Zum Synthetisieren eines gestreckten Signals 61 werden Sprachproben von mehreren Segmenten in Summierungsmitteln 69 summiert. Wenn keine Tonlagenmanipulation erforderlich ist, und nicht überlappende Fenster verwendet werden zum Schaffen der Segmente, sind die Summierungsmittel 69 redundant. Die Kombinationsmittel 70 überprüfen, welche Segmente von den Speichermitteln ausgelesen werden zur Lieferung an die Summierungsmittel 69. Zum Strecken bestimmt ein Streckungsfaktor, der dem Gerät geliefert wird, welches der gespeicherten Segmente wiederholt werden soll und die Anzahl Male, dass ein Segment wiederholt werden soll, wobei die ursprüngliche Timingdifferenz aufeinander folgender Segmente beibehalten wird. Ein dem Gerät zugeführter Tonlagenskalierungsfaktor bestimmt, wie die relative Timingdifferenz geändert werden muss.
  • In der Figur ist die Umformung als eine separate Nachverarbeitungsphase dargestellt. Auf gleiche Weise wie oben beschrieben, werden Abschnitte, die von einem nicht periodischen Segment herrühren, in weitere Segmente aufgeteilt, und zwar durch Multiplikation des Signals mit der Fensterfunktion in den Multiplikationsmitteln 74. Die Fensterpositionsselektionsmittel 77 benutzen die in den Speichermitteln 66 gespeicherte Information zum Identifizieren eines Abschnitts, der von einem nicht periodischen Segment herrührt. Für Abschnitte, die von periodischen Segmenten herrühren, ist keine weitere Bearbeitung erforderlich. Ein periodischer Abschnitt kann als ganzes in den Speichermitteln 76 gespeichert werden und zu dem geeigneten Zeitpunkt aufgerufen werden. Gewünschtenfalls kann der periodische Abschnitt ebenfalls in Segmente aufgeteilt werden und als solcher in den Speichermitteln gespeichert werden, um bei dem Aufruf aus den Segmenten genau regeneriert zu werden. Für einen Abschnitt, der von einem einzigen nicht periodischen Segment herrührt, bestimmen die Fensterpositionsselektionsmittel 77 die Anzahl und die Dauer der aus dem Abschnitt zu bildenden Segmente und liefern die entsprechenden Skalierungsfaktoren zu den Fensterfunktionswertselektionsmitteln 75. Die Fensterpositionsselektionsmittel 77 speichern die Dauer der Segmente und deren Position in dem Signal in den Speichermitteln 76, und zwar im Zusammenhang mit den Segmenten, geschaffen von den Multiplikationsmitteln 74. Die Fensterfunktionswertselektionsmittel 75 und die Multiplikationsmittel 74 funktionieren auf dieselbe Art und Weise wie die beschriebenen Fensterfunktionswertselektionsmittel 65 und die Multiplikationsmittel 64 und können als solche auf eine Zeitteilungsweise neu verwendet werden. Die Segmente werden in den Speichermitteln 76 in Segmentschlitzen gespeichert, und zwar im Zusammenhang mit Drain-Elektrodeeren betreffenden Zeitpunktwerten.
  • Zum Synthetisieren eines gestreckten Signals 62 mit entfernter Periodizität werden Sprachproben aus den jeweiligen Segmenten in Summierungsmitteln 79 summiert. Wenn nicht überlappende Fenster von den Fensterfunktionswertselektionsmitteln 75 verwendet werden zum Schaffen der Segmente, sind die Summierungsmittel 79 redundant. Die Umformungsmittel 80 überprüfen, welche Segmente aus den Speichermitteln ausgelesen werden zur Lieferung an die Summierungsmittel 69. Die Umformungsmittel 80 behalten die Sequenz innerhalb periodischer Abschnitte des Signals 61 bei und formen die Segmente, die von demselben nicht periodischen Segment herrühren, um.
  • Text in der Zeichnung
  • 6A
    • Amplitude
    • Zeit
  • 6B
    • Frequenz
    • Zeit
  • 6C
    • Amplitude
    • Frequenz
  • 7A
    • Amplitude
    • Zeit
  • 7B
    • Frequenz
    • Zeit
  • 7C
    • Amplitude
    • Frequenz
  • 8A
    • Amplitude
    • Zeit
  • 8B
    • Frequenz
    • Zeit
  • 8C
    • Amplitude
    • Frequenz
  • 9A
    • Amplitude
    • Zeit
  • 9B
    • Frequenz
    • Zeit
  • 9C
    • Amplitude
    • Frequenz

Claims (9)

  1. Verfahren zum Strecken eines audioäquivalenten Eingangssignals, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Positionieren einer ersten Kette einander überlappender oder nebeneinander liegender Zeitfenser (12) gegenüber dem Signal; wobei jedes Zeitfenster mit einer betreffenden Fensterfunktion (13) assoziiert ist, – das Bilden einer ersten Sequenz von Signalsegmenten (14) durch Gewichtung des Signals entsprechend der assoziierten Fensterfunktion eines betreffenden Fensters der ersten Kette von Fenstern; und – das Synthetisieren eines gestreckten Audiosignals durch schematische Einhaltung oder Wiederholung der betreffenden Signalsegmente der ersten Sequenz von Segmenten, dadurch gekennzeichnet, dass das Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Identifizieren eines Signalabschnitts (500) in dem gestreckten Audiosignal, das aus einem der Signalsegmente synthetisiert worden ist, das als das Quellensignalsegment bezeichnet wird, durch Beibehaltung und wenigstens einmalige Wiederholung des Quellensignalsegmentes; wobei das Quellensignalsegment im Wesentlichen keine periodische Komponente hat; und – das Durchbrechen der Periodizität in dem Signalabschnitt, verursacht durch Wiederholung des Quellensignalsegmentes durch die nachfolgenden Schritte: – das Positionieren einer zweiten Kette einander überlappender oder nebeneinander liegender Zeitfenster gegenüber dem Signalabschnitt; wobei wenigstens einige der Zeitfenster der zweiten Kette eine Dauer haben, die weder einer Dauer des Quellensignalsegmentes, noch einem Vielfachen der Dauer des Quellensignalsegmentes entspricht; – das Bilden einer zweiten Sequenz von Signalsegmenten (510) durch Gewichtung des Signalsegmentes mit der assoziierten Fensterfunktion eines betreffenden Fensters der zweiten Kette von Fenstern; und – das Erzeugen eines Audio-Ausgangssignals (520) aus dem gestreckten Audiosignal durch Umordnung von Signalsegmenten der zweiten Sequenz von Signalsegmenten (510).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass wenigstens eine Selektion der Zeitfenster der zweiten Kette von Zeitfenstern eine wesentlich kürzere Dauer haben als die Dauer des Quellensignalsegmentes.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Dauer der Selektion der Zeitfenster der zweiten Kette um wenigstens einen Faktor 4 kleiner ist als die Dauer des Quellensignalsegmentes.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dauern der Zeitfenster der zweiten Kette von Zeitfenstern aus einem vorbestimmten Bereich selektiert werden; wobei die selektierten Dauern im Wesentlichen über den Bereich gleichmäßig verteilt sind.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass eine obere Begrenzung des Bereichs um wenigstens einen Faktor 1,5 höher liegt als eine untere Begrenzung des Bereichs.
  6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die obere Begrenzung im Wesentlichen um einen Faktor 2 höher liegt als die untere Begrenzung.
  7. Anordnung zum Strecken eines audioäquivalenten Eingangssignals, wobei diese Anordnung die nachfolgenden Elemente umfasst: – Positionierungsmittel zum Positionieren einer ersten Kette einander überlappender oder nebeneinander liegender Zeitfenster gegenüber dem Signal; wobei jedes Zeitfenster mit einer betreffenden Fensterfunktion assoziiert ist, – Segmentierungsmittel zum Bilden einer ersten Sequenz von Signalsegmenten durch Gewichtung des Signals entsprechend der assoziierten Fensterfunktion eines betreffenden Fensters der ersten Kette von Fenstern; und – Synthetisierungsmittel zum Synthetisieren eines gestreckten Audiosignals durch schematische Einhaltung oder Wiederholung der betreffenden Signalsegmente der erste Sequenz von Segmenten, dadurch gekennzeichnet, dass die Anordnung die nachfolgenden Elemente umfasst: – Identifikationsmittel zum Identifizieren eines Signalabschnitts in dem gestreckten Audiosignal, das aus einem der Signalsegmente synthetisiert worden ist, das als das Quellensignalsegment bezeichnet wird, durch Beibehaltung und wenigstens einmalige Wiederholung des Quellensignalsegmentes; wobei das Quellensignalsegment im Wesentlichen keine periodische Komponente hat; und – Mittel zum Durchbrechen der Periodizität in dem Signalabschnitt, verursacht durch Wiederholung des Quellensignalsegmentes durch die nachfolgenden Schritte: – dafür sorgen, dass die Positionierungsmittel eine zweite Kette einander überlappender oder nebeneinander liegender Zeitfenster gegenüber dem Signalabschnitt positionieren; wobei wenigstens einige der Zeitfenster der zweiten Kette eine Dauer haben, die weder einer Dauer des Quellensignalsegmentes, noch einem Vielfachen der Dauer des Quellensignalsegmentes entspricht; – dafür sorgen, dass die Segmentierungsmittel eine zweite Sequenz von Signalsegmenten bilden, und zwar durch Gewichtung des Signalsegmentes mit der assoziierten Fensterfunktion eines betreffenden Fensters der zweiten Kette von Fenstern; und – das Erzeugen eines Audio-Ausgangssignals aus dem gestreckten Audiosignal durch Umordnung von Signalsegmenten der zweiten Sequenz von Signalsegmenten.
  8. Anordnung nach Anspruch 7, dadurch gekennzeichnet, dass wenigstens eine Selektion der Zeitfenster der zweiten Kette von Zeitfenstern eine wesentlich kürzere Dauer haben als die Dauer des Quellensignalsegmentes.
  9. Anordnung nach Anspruch 7, dadurch gekennzeichnet, dass die Dauern der Zeitfenstern der zweiten Kette von Zeitfenstern aus einem vorbestimmten Bereich selektiert werden; wobei die selektierten Dauern im Wesentlichen gleichmäßig über den Bereich verteilt sind.
DE69822618T 1997-12-19 1998-12-14 Beseitigung der periodizität in einem gestreckten audio-signal Expired - Fee Related DE69822618T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97204029 1997-12-19
EP97204029 1997-12-19
PCT/IB1998/002017 WO1999033050A2 (en) 1997-12-19 1998-12-14 Removing periodicity from a lengthened audio signal

Publications (2)

Publication Number Publication Date
DE69822618D1 DE69822618D1 (de) 2004-04-29
DE69822618T2 true DE69822618T2 (de) 2005-02-10

Family

ID=8229092

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69822618T Expired - Fee Related DE69822618T2 (de) 1997-12-19 1998-12-14 Beseitigung der periodizität in einem gestreckten audio-signal

Country Status (5)

Country Link
US (1) US6208960B1 (de)
EP (1) EP0976125B1 (de)
JP (1) JP2001513225A (de)
DE (1) DE69822618T2 (de)
WO (1) WO1999033050A2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002058053A1 (en) * 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
EP1386312B1 (de) 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
CN1682281B (zh) * 2002-09-17 2010-05-26 皇家飞利浦电子股份有限公司 在语音合成中用于控制持续时间的方法
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
WO2004027754A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
JP3871657B2 (ja) * 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
US10726828B2 (en) 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR363233A (fr) 1906-02-12 1906-07-24 Otto Scharenberg Moteur à gaz
US4597318A (en) * 1983-01-18 1986-07-01 Matsushita Electric Industrial Co., Ltd. Wave generating method and apparatus using same
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527529B1 (de) * 1991-08-09 2000-07-19 Koninklijke Philips Electronics N.V. Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527527B1 (de) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.

Also Published As

Publication number Publication date
EP0976125B1 (de) 2004-03-24
DE69822618D1 (de) 2004-04-29
EP0976125A2 (de) 2000-02-02
US6208960B1 (en) 2001-03-27
WO1999033050A2 (en) 1999-07-01
JP2001513225A (ja) 2001-08-28
WO1999033050A3 (en) 1999-09-10

Similar Documents

Publication Publication Date Title
DE69932786T2 (de) Tonhöhenerkennung
DE69228211T2 (de) Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE69615832T2 (de) Sprachsynthese mit wellenformen
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69425935T2 (de) Verfahren zur Unterscheidung zwischen stimmhaften und stimmlosen Lauten
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE602004005020T2 (de) Audiosignalsynthese
DE69521176T2 (de) Verfahren zur Dekodierung kodierter Sprachsignale
DE69822618T2 (de) Beseitigung der periodizität in einem gestreckten audio-signal
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69618408T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE102007018621A1 (de) Verfahren zum Variieren der Sprechgeschwindigkeit
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
DE69631037T2 (de) Sprachsynthese
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
DE69317802T2 (de) Verfahren und Vorrichtung für Tonverbesserung unter Verwendung von Hüllung von multibandpassfiltrierten Signalen in Kammfiltern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee