DE60214358T2 - Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp - Google Patents

Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp Download PDF

Info

Publication number
DE60214358T2
DE60214358T2 DE60214358T DE60214358T DE60214358T2 DE 60214358 T2 DE60214358 T2 DE 60214358T2 DE 60214358 T DE60214358 T DE 60214358T DE 60214358 T DE60214358 T DE 60214358T DE 60214358 T2 DE60214358 T2 DE 60214358T2
Authority
DE
Germany
Prior art keywords
signal
time
speech
scale
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60214358T
Other languages
English (en)
Other versions
DE60214358D1 (de
Inventor
Rakesh Taori
J. Andreas GERRITS
Dzevdet Burazerovic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60214358D1 publication Critical patent/DE60214358D1/de
Application granted granted Critical
Publication of DE60214358T2 publication Critical patent/DE60214358T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft die Zeitskalenmodifikation (TSM) eines Signals, insbesondere eines Sprachsignals, und noch genauer ein System und ein Verfahren, bei dem verschiedene Techniken für die Zeitskalenmodifikation von stimmhafter und stimmloser Sprache verwendet wird.
  • HINTERGRUND DER ERFINDUNG
  • Zeitskalenmodifikation (TSM) eines Signals bezieht sich auf die Kompression oder Expansion der Zeitskale dieses Signals. Innerhalb von Sprachsignalen expandiert oder komprimiert die TSM des Sprachsignals die Zeitskale der Sprache, während die Identität des Sprechers (Tonhöhe, Formatstruktur) beibehalten wird. Als solche wird sie typischerweise für Zwecke erforscht, wo eine Veränderung der Aussprachegeschwindigkeit gewünscht wird. Derartige Anwendungen von TSM schließen Test-Sprachsynthese, Fremdsprachenlernprogramme und Film-/Tonspurnachsynchronisation ein.
  • Es sind zahlreiche Techniken zum Erfüllen des Bedarfs an hochqualitativer TSM von Sprachsignalen bekannt und Beispiele von derartigen Techniken sind in E. Moulines, J. Laroche, „Non parametric techniques for pitch scale and time scale modification of speech" beschrieben. In Sprachkommunikation (Niederlande), Bd. 16, Nr. 2, Seiten 175 bis 205, 1995.
  • Eine weitere mögliche Anwendung von TSM-Techniken liegt bei Sprachcodierung, über die allerdings viel weniger berichtet wird. Bei dieser Anwendung liegt die Grundintention darin, die Zeitskale eines Signals vor der Codierung zu komprimieren, die Anzahl von Sprachabtastwerten, die codiert werden müssen, zu reduzieren, und es mit einem reziproken Faktor nach der Decodierung zu expandieren, um die ursprüngliche Zeitskale wieder herzustellen. Dieses Konzept ist in 1 dargestellt. Weil die zeitskalenkomprimierte Sprache weiterhin ein zulässiges Sprachsignal ist, kann sie mit einem beliebigen Sprachcodierer verarbeitet werden. Beispielsweise könnte Sprachcodierung bei 6 kbit/s nun mit einem 8 kbit/s Codierer durchgeführt werden, mit einer vorausgehenden 25 % Zeitskalenkompression und einer nachfolgenden 33 % Zeitskalenexpansion.
  • Die Verwendung von TSM ist in der Vergangenheit in diesem Zusammenhang schon erforscht worden, und relativ gute Ergebnisse wurden bei der Verwendung verschiedener TSM-Verfahren und Sprachcodierern [1]–[3] beansprucht. In der letzten Zeit sind sowohl bei TSM- als auch bei Sprachcodierungstechniken Verbesserungen erzielt worden, wobei diese beiden meistens unabhängig voneinander untersucht worden sind.
  • Wie bei Moulines und Laroche detailliert ausgeführt, worauf vorstehend Bezug genommen wurde, besteht ein weitgehend verwendeter TSM-Algorithmus aus synchronisierter Überlappungsaddition (SOLA), die ein Beispiel eines Algorithmus mit Wellenform-Lösungsansatz ist. Seit ihrer Einführung [4] hat sich SOLA zu einem weitgehend verwendeten Algorithmus für TSM von Sprache weiterentwickelt. Da es sich um ein Korrelationsverfahren handelt, ist es genauso gut bei Sprache, die durch mehrere Sprecher erzeugt worden ist oder durch Hintergrundgeräusch verfälscht ist, und bis zu einem gewissen Maß bei Musik anwendbar.
  • Bei SOLA wird ein Eingangssprachsignal s als eine Sequenz von N Abtastwerte langen überlappenden Rahmen xi (i = 0, ..., m) analysiert, die nacheinander durch einen feststehenden Analysezeitraum von Sa, Abtastwerte (Sa < N), verzögert werden. Die Idee, von der ausgegangen wird, besteht darin, dass s durch Ausgeben dieser Rahmen komprimiert oder expandiert werden kann, während sie nun aufeinander folgend um einen Synthesezeitraum Ss verschoben werden können, welcher derart ausgewählt ist, dass Ss < Sa, beziehungsweise Ss > Sa, (Ss < N). Die überlappenden Segmente werden zuerst durch zwei amplitudenkomplementäre Funktionen gewichtet, anschließend addiert, was ein geeigneter Weg zum Bilden von Wellenformmittelwerten ist. 2 stellt eine derartige Technik mit Überlappungsaddition-Expansion dar. Der obere Teil zeigt die Stelle der aufeinander folgenden Rahmen in dem Eingangssignal. Der mittlere Teil zeigt, wie diese Rahmen während der Synthese neu positioniert werden, dabei werden zwei Hälften eines Hanning-Fensters für die Gewichtung verwendet. Schließlich ist das daraus resultierende zeitskalenexpandierte Signal in dem unteren Teil gezeigt.
  • Der tatsächliche Synchronisationsmechanismus von SOLA besteht aus zusätzlichem Verschieben von jedem xi während der Synthese, um eine Ähnlichkeit der überlappenden Wellenformen zu erzielen. Deutlicher gesagt, wird nun ein Rahmen xi anfangen, zu dem Ausgangssignal an der Stelle iSs + ki beizutragen, wo ki ermittelt wird, sodass die normalisierte Kreuzkorrelation, die durch Gleichung 1 gegeben ist, für k = ki maximal ist.
  • Figure 00030001
  • In dieser Gleichung bezeichnet s ~ das Ausgangssignal, während L die Länge der Überlappung bezeichnet; die einer bestimmten Verzögerung k in dem gegebenen Bereich [1] entspricht. Wenn ki ermittelt ist, werden die Synchronisationsparameter, die überlappenden Signale wie zuvor gemittelt. Bei einer großen Anzahl von Rahmen wird sich das Verhältnis der Ausgangs- und Eingangssignallänge dem Wert Ss/Sa annähern, infolgedessen ist der Skalierungsfaktor α definiert.
  • Wenn SOLA-Kompression mit der reziproken SOLA-Expansion gestaffelt wird, werden typischerweise mehrere Artefakte in die Ausgangssprache eingeführt, wie beispielsweise Nachhall, künstliche Klangfarbe und gelegentlicher Qualitätsverlust von Transienten.
  • Der Nachhall ist stimmhafter Sprache zugeordnet und kann der Bildung von Wellenformmittelwerten zugeschrieben werden. Sowohl Kompression als auch die darauf folgende Expansion bilden Mittelwerte ähnlicher Segmente. Allerdings wird Ähnlichkeit lokal gemessen, wodurch impliziert ist, dass die Expansion nicht notwendigerweise eine zusätzliche Wellenform in dem Bereich einfügt, wo sie „fehlte". Dies führt zu Wellenformglättung, möglicherweise sogar zur Einführung einer neuen lokalen Periodizität. Des Weiteren ist die Rahmenpositionierung während der Expansion so gestaltet, dass dieselben Segmente wieder verwendet werden, um eine zusätzliche Wellenform zu erzeugen. Dadurch wird bei stimmloser Sprache Korrelation eingeführt, was häufig als eine künstliche „Klangfarbe" empfunden wird.
  • Artefakte kommen außerdem in Sprachtransienten vor, d.h. Bereichen eines Übergangs zur Stimmhaftigkeit, welche herkömmlicherweise eine abrupte Veränderung des Signalenergiepegels zeigen. In demselben Maß wie der Skalierungsfaktor größer wird, vergrößert sich der Abstand zwischen „iSa" und „iSs", wodurch die Ausrichtung von ähnlichen Teilen eines Transienten zur Mittelwertbildung behindert werden kann. Infolgedessen verursacht Überlappung von einzelnen Teilen eines Transienten sein „Nachziehen", wodurch die richtige Wahrnehmung seiner Stärke und Zeitsteuerung gefährdet ist.
  • In [5] und [6] ist berichtet worden, dass ein kompandiertes Sprachsignal guter Qualität durch Verwenden der ki erreicht werden kann, die während der SOLA-Kompression erhalten werden. So werden, ziemlich im Gegensatz zu dem, was mit SOLA gemacht wird, N Abtastwerte lange Rahmen x ^i aus dem komprimierten Signal s ~ zu Zeitpunkten iSs + ki entfernt und an den ursprünglichen Zeitpunkten iSa wieder angeordnet (wobei die Mittelwertbildung der überlappenden Abtastwerte ähnlich wie zuvor ist). Die maximalen Kosten für Übertragen/Speichern aller ki ist durch die Gleichung 2 gegeben, wobei Ts der Sprachabtastwertzeitraum ist und ⌈⌉ die Rundungsoperation für die nächste höhere ganze Zahl darstellt.
  • Figure 00040001
  • Es ist außerdem berichtet worden, dass der Ausschluss von Transienten aus hoher (d.h. > 30 %) SOLA-Kompression oder -Expansion verbesserte Sprachqualität ergibt. [7]
  • Deswegen wird man zu schätzen wissen, dass es zur Zeit mehrere Techniken und Lösungsansätze gibt, die erfolgreich (z.B. mit gutem Qualitätsergebnis) zum Komprimieren oder Expandieren bei der Zeitskale von Signalen angewendet werden können. Obwohl spezifisch unter Bezugnahme auf Sprachsignale beschrieben, wird man zu schätzen wissen, dass diese Beschreibung eine beispielhafte Ausführungsform eines Signaltyps ist, und die Probleme, die mit Sprachsignalen zusammenhängen, auch für andere Signaltypen zutreffen. Bei Verwendung zu Codierungszwecken, bei denen die Zeitskalenexpansion (Zeitskalenkompandierung) auf die Zeitskalenkompression folgt, verschlechtert sich die Leistungsfähigkeit von vorbekannten Techniken deutlich. Die beste Leistungsfähigkeit für Sprachsignale wird im Allgemeinen aus Zeitbereichverfahren erhalten, bei denen SOLA weitgehend verwendet wird, wobei allerdings immer noch Probleme beim Anwenden dieser Verfahren bestehen, von denen einige vorstehend identifiziert worden sind. Deswegen besteht Bedarf daran, ein verbessertes Verfahren und System für Zeitskalenmodifikation eines Signals auf eine Weise zu schaffen, die für die Komponenten spezifisch ist, welche dieses Signal ausmachen.
  • US-5,809,454 offenbart ein Audio-Wiedergabegerät, das eine Funktion zum Umwandeln von Sprachgeschwindigkeit aufweist. Das Gerät ist eingerichtet, um zu bestimmen, ob das Audiosignal zu einem geräuschhaften Intervall oder zu einem geräuschlosen Intervall gehört. Ein geräuschloses Intervall kann gelöscht werden, wohingegen ein geräuschhaftes Intervall komprimiert oder expandiert werden kann.
  • EP 0 817 168 offenbart eine Einrichtung zum Verändern von Tongeschwindigkeit. Es wird eine Entscheidung getroffen, ob der Ton stimmhafte oder stimmlose Sprache enthält und der stimmhafte Ton wird verarbeitet. Der stimmlose Ton wird ohne Verarbeitung ausgegeben.
  • US-6,070,135 offenbart ein Zeitskalenmodifikationsverfahren, in welchem stimmhafte Töne, stimmlose Töne und Nicht-Töne unterschieden werden. Die stimmhaften Töne werden verändert, wohingegen die stimmlosen Töne nicht verändert werden.
  • US-5,808,994 offenbart die Verwendung von überlappenden Rahmen in der SOLA-Technik.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Entsprechend stellt die vorliegende Erfindung ein Verfahren zur Zeitskalenmodifikation eines Signals, wie in Anspruch 1 ausgeführt, zur Verfügung. Durch Bereitstellen eines Verfahrens, welches individuelle Rahmensegmente innerhalb eines Signals analysiert und verschiedene Algorithmen auf spezifische Signaltypen anwendet, ist es möglich, die Modifikation des Signals zu optimieren. Eine derartige Anwendung von spezifischen Modifikationsalgorithmen auf spezifische Signaltypen ermöglicht eine Modifikation des Signals auf eine Weise, die angepasst ist, um auf unterschiedliche Anforderungen der individuellen Komponentensegmente, die das Signal ausmachen, einzugehen.
  • Das Verfahren wird auf Sprachsignale angewendet und das Signal wird auf stimmhafte und nicht stimmhafte Komponenten hin analysiert, wobei unterschiedliche Expansions- oder Kompressionstechniken für die unterschiedlichen Signaltypen verwendet werden. Die Technikauswahl ist für den speziellen Signaltyp optimiert.
  • Die vorliegende Erfindung schafft zusätzlich ein Expansionsverfahren gemäß Anspruch 8. Die Expansion des Signals wird durch Aufspaltung des Signals in Abschnitte und durch Einfügung von Geräusch zwischen die Abschnitte bewirkt. Das Geräusch besteht aus synthetisch erzeugtem Geräusch, anstatt aus den existierenden Abtastwerten erzeugt zu werden, wodurch die Einführung einer Geräuschsequenz ermöglicht wird, die ähnliche spektrale und energetische Eigenschaften wie die der Signalkomponenten aufweist.
  • Die Erfindung schafft außerdem ein Verfahren zum Empfangen eines Audiosignals, wobei das Verfahren das Zeitskalenmodifikationsverfahren von Anspruch 1 verwendet.
  • Die Erfindung schafft außerdem eine Einrichtung, die angepasst ist, um das Verfahren von Anspruch 1 auszuführen.
  • Diese und weitere Merkmale der vorliegenden Erfindung sind unter Bezugnahme auf die nachfolgenden Zeichnungen besser verständlich.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist eine schematische Darstellung, welche die bekannte Verwendung von TSM in Codierungsanwendungen zeigt,
  • 2 zeigt Zeitskalenexpansion durch Überlappen gemäß einer vorbekannten Implementierung,
  • 3 ist eine schematische Darstellung, welche Zeitskalenexpansion von stimmloser Sprache durch Hinzufügen vom geeigneten modellierten synthetischen Geräusch gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt,
  • 4 ist eine schematische Darstellung eines TSM-basierten Sprachcodierungssystems gemäß einer Ausführungsform der vorliegenden Erfindung,
  • 5 ist ein Kurvendiagramm, das die Segmentierung und Fensterbildung von stimmloser Sprache für LPC-Berechnung zeigt,
  • 6 zeigt eine parametrische Zeitskalenexpansion von stimmloser Sprache um den Faktor b > 1,
  • 7 ist ein Beispiel von zeitskalenkompandierter stimmloser Sprache, wobei das Geräuscheinführungsverfahren der vorliegenden Erfindung zum Zweck von Zeitskalenexpansion verwendet worden ist, und TDHS zum Zweck von Zeitskalenkompression,
  • 8 ist eine schematische Darstellung eines Sprachcodierungssystems, bei dem TSM gemäß der vorliegenden Erfindung integriert ist,
  • 9 ist ein Kurvendiagramm, das zeigt, wie der Puffer, welcher die Eingangssprache hält, durch Verschiebung nach links der Sa Abtastwerte langen Rahmen, aktualisiert wird,
  • 10 zeigt den Fluss der Eingangs-(-Rechts) und Ausgangssprache(-Links) in dem Kompressor,
  • 11 zeigt ein Sprachsignal und die entsprechende Stimmhaftigkeitskontur (stimmhaft = 1),
  • 12 ist eine Darstellung von unterschiedlichen Puffern während der anfänglichen Expansionsstufe, die der in 10 gezeigten Kompression direkt folgt,
  • 13 zeigt das Beispiel, in welchem ein vorhandener stimmloser Rahmen unter Verwendung des parametrischen Verfahrens nur dann expandiert wird, wenn sowohl frühere als auch spätere Rahmen auch stimmlos sind, und
  • 14 zeigt, wie während stimmhafter Expansion der vorhandene Ss Abtastwerte lange Rahmen durch Ausgeben von vorderen Sa Abtastwerten von einem 2Sa Abtastwerte langen Puffer Y expandiert wird.
  • AUSFÜHRLICHE BESCHREIBUNG DER ZEICHNUNGEN
  • In einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren für Zeitskalenmodifikation von Signalen bereitgestellt und ist besonders für Audiosignale geeignet und gehört speziell zu der Expansion von stimmloser Sprache und ist ausgelegt, um das Problem von künstlicher Klangfarbe zu überwinden, das durch den „Wiederholungsmechanismus" eingeführt wird, der in allen Zeitbereichverfahren von sich aus vorhanden ist. Die Erfindung stellt die Verlängerung der Zeitskale durch Einführen einer geeigneten Menge an synthetischem Geräusch bereit, welches die spektralen und energetischen Eigenschaften der Eingangssequenz widerspiegelt. Die Schätzung dieser Eigenschaften basiert auf LPC (Linearer Prädiktionscodierung) und Varianzanpassung. Bei einer bevorzugten Ausführungsform werden die Modellparameter von dem Eingangssignal abgeleitet, welches ein schon komprimiertes Signal sein kann, wodurch die Notwendigkeit ihrer Übertragung vermieden wird. Obwohl nicht beabsichtigt ist, die Erfindung durch irgendeine theoretische Analyse einzuschränken, ist angedacht, dass nur eine begrenzte Verzerrung der vorstehend erwähnten Eigenschaften einer stimmlosen Sequenz durch eine Kompression ihrer Zeitskale verursacht wird. 4 zeigt eine schematische Übersicht des Systems der vorliegenden Erfindung. Der obere Teil zeigt die Verarbeitungsstufen auf der Codiererseite. Ein Sprachklassierer, der durch den Block „V/UV" dargestellt ist, ist eingeschlossen, um stimmlose und stimmhafte Sprache (Rahmen) zu bestimmen. Jegliche Sprache wird durch Verwendung von SOLA komprimiert, außer den stimmhaften Anfängen, die umgesetzt werden. Mit dem Ausdruck umgesetzt, so wie in der vorliegenden Spezifikation verwendet, ist gemeint, dass diese Rahmenkomponenten aus TSM ausgeschlossen sind. Synchronisationsparameter und Entscheidungen über Stimmhaftigkeit werden durch einen Seitenkanal übertragen. Wie in dem unteren Teil gezeigt, werden sie verwendet, um die decodierte Sprache (Rahmen) zu identifizieren und um das geeignete Expansionsverfahren auszuwählen. Man wird deswegen zu schätzen wissen, dass die vorliegende Erfindung die Anwendung von verschiedenen Algorithmen auf verschiedene Signaltypen bereitstellt, beispielsweise wird in einer bevorzugten Anwendung stimmhafte Sprache durch SOLA expandiert, wohingegen stimmlose Sprache unter Verwendung des parametrischen Verfahrens expandiert wird.
  • Parametrische Modellierung von stimmloser Sprache Lineare Prädiktionscodierung ist ein weit verbreitet angewendetes Verfahren bei Sprachverarbeitung, in welchem das Prinzip der Voraussage des aktuellen Abtastwertes aus einer linearen Kombination vorausgehender Abtastwerte verwendet wird. Dies wird durch Gleichung 3.1 oder, gleichwertig, durch ihr z-transformiertes Gegenstück 3.2 beschrieben. In Gleichung 3.1 bezeichnen s und s ^ jeweils ein ursprüngliches Signal und seine LPC-Schätzung und e den Prädiktionsfehler. Des Weiteren bestimmt M die Prädiktionsreihenfolge und ai sind die LPC-Koeffizienten. Diese Koeffizienten werden durch einige der hinlänglich bekannten Algorithmen ([6], 5.3) abgeleitet, welche herkömmlicherweise auf der kleinsten Fehlerquadratminimierung (LSE) beruhen, d.h. Minimierung von Σne2[n]
    Figure 00080001
  • Unter Verwendung der LPC-Koeffizienten kann eine Sequenz s durch das Syntheseverfahren, das durch Gleichung 3.2 ausgedrückt ist, annähernd bestimmt werden. Genauer gesagt wird der Filter (H)z, (häufig als 1/A(z) bezeichnet), durch ein eigenes Signal e erregt, welches idealerweise die Art des Prädiktionsfehlers widerspiegelt. Im Fall von stimmloser Sprache ist eine geeignete Erregung normal verteiltes durchschnittlich Null Geräusch.
  • Letztendlich wird das Erregungsgeräusch, um eine angemessene Amplitudenpegelvariation der synthetischen Sequenz sicherzustellen, mit einem geeigneten Verstärkungsfaktor G multipliziert. Solch ein Verstärkungsfaktor wird passenderweise basierend auf Varianzanpassung mit der ursprünglichen Sequenz s berechnet, was durch die Gleichungen 3.3 ausgedrückt ist. Normalerweise kann angenommen werden, dass der mittlere Wert s - eines stimmlosen Tons s gleichwertig mit 0 ist. Dies muss allerdings nicht der Fall für sein beliebiges Segment sein, insbesondere wenn s zuerst einer Mittelwertbildung der Zeitbereichgewichtung (zum Zweck von Zeitskalenmodifikation) unterzogen worden ist.
  • Figure 00090001
  • Die beschriebene Art zur Signalschätzung ist nur bei stationären Signalen akkurat. Deswegen sollte sie nur bei Sprachrahmen angewendet werden, welche so gut wie stationär sind. Wenn es sich um LPC-Berechnung handelt, schließt Sprachsegmentierung außerdem Fensterbildung ein, welche den Zweck der Minimierung von Nachziehen in dem Frequenzbereich hat. Dies ist in 5 dargestellt, die ein Hamming-Fenster zeigt, wobei N die Rahmenlänge kennzeichnet (typischerweise 15 bis 20 ms) und T den Analysezeitraum.
  • Schließlich sollte darauf hingewiesen werden, dass die Verstärkungs- und LPC-Berechnung nicht notwendigerweise bei derselben Geschwindigkeit durchgeführt werden müssen, da die Zeit- und Frequenzauflösung, die zu einer akkuraten Schätzung der Modellparameter benötigt werden, nicht dieselben sein müssen. Typischerweise werden die LPC-Parameter alle 10 ms aktualisiert, wohingegen der Verstärkungsfaktor viel schneller (z.B. alle 2,5 ms) aktualisiert wird. Zeitauflösung (durch die Verstärkungsfaktoren beschrieben) für stimmlose Sprache, ist wahrnehmungsmäßig wichtiger als Frequenzauflösung, da stimmlose Sprache typischerweise mehr höhere Frequenzen als stimmhafte Sprache aufweist.
  • Ein möglicher Weg, um Zeitskalenmodifikation von stimmloser Sprache unter Verwendung der zuvor diskutierten parametrischen Modellierung zu realisieren, besteht darin, die Synthese mit einer unterschiedlichen Geschwindigkeit als der Analyse durchzuführen, und in 6 ist eine Zeitskalenexpansionsstechnik dargestellt, welche diese Idee verwertet. Die Modellparameter werden bei einer Geschwindigkeit 1/T (1) abgeleitet und für die Synthese (3) bei einer Geschwindigkeit 1/bT verwendet. Die während der Synthese eingesetzten Hamming-Fenster werden nur verwendet, um die Geschwindigkeitsveränderung darzustellen. In der Praxis wäre eine zur Leistung komplementäre Gewichtung am geeignetsten. Während der Analysestufe werden die LPC-Koeffizienten und der Verstärkungsfaktor von dem Eingangsignal abgeleitet, hier bei derselben Rate. Insbesondere nach jedem Zeitraum von T Abtastwerten, werden ein Vektor von LPC-Koeffizienten a und ein Verstärkungsfaktor G über die Länge von N Abtastwerte, d.h. für einen N Abtastwerte langen Rahmen berechnet. In gewisser Weise kann dies als eine Definition eines „zeitlichen Vektorraumes" V angesehen werden, gemäß Gleichung 3.4, die zur Vereinfachung als ein zweidimensionales Signal gezeigt ist. V = V(a(t), G(t)) (a = [a1, ..., aM], t = nT, n = 1, 2, ...) (Gleichung 3.4)
  • Um Zeitskalierungsexpansion mit einem Skalierungsfaktor von b (b > 1) zu erhalten, wird dieser Vektorraum vor der Synthese einfach um denselben Faktor „abwärts abgetastet". Genauer gesagt wird nach jedem Zeitraum von bT Abtastwerten ein Element von V für die Synthese eines neuen N Abtastwerte langen Rahmens verwendet.
  • Infolgedessen werden sich die Syntheserahmen, verglichen mit den Analyserahmen, zeitlich um einen geringen Betrag überlappen. Um dies zu demonstrieren, sind die Rahmen noch einmal unter Verwendung der Hamming-Fenster eingezeichnet worden. In der Praxis wird man zu schätzen wissen, dass die überlappenden Teile der Syntheserahmen stattdessen durch Anwendung der zur Leistung komplementären Gewichtung gemittelt werden können, wobei zu diesem Zweck die geeigneten Fenster eingesetzt werden. Man wird zu schätzen wissen, dass durch die Durchführung der Synthese bei einer schnelleren Geschwindigkeit als die der Analyse die Zeitskalenkompression auf eine ähnliche Weise erreicht werden kann.
  • Die Fachleute werden zu schätzen wissen, dass das Ausgangssignal, das durch Anwendung dieses Lösungsansatzes erzeugt wird, ein vollständig synthetisches Signal ist. Als eine mögliche Abhilfe, um die Artefakte zu reduzieren, die normalerweise als eine erhöhte Rauschbehaftung wahrgenommen werden, könnte eine schnellere Aktualisierung dem Verstärkungsfaktor dienen. Ein wirkungsvollerer Lösungsansatz besteht allerdings darin, die Menge an synthetischem Geräusch in dem Ausgangssignal zu reduzieren. Im Fall von Zeitskalenexpansion kann dies, wie nachstehend im Einzelnen ausgeführt, erreicht werden.
  • Anstatt ganze Rahmen bei einer bestimmten Geschwindigkeit zu synthetisieren, ist in einer Ausführungsform der vorliegenden Erfindung ein Verfahren zum Hinzufügen einer geeigneten und kleineren Geräuschmenge bereitgestellt, die verwendet wird, um die Eingangsrahmen zu verlängern. Das zusätzliche Geräusch für jeden Rahmen wird ähnlich wie zuvor erhalten, nämlich von den Modellen (LPC-Koeffizienten und dem Verstärkungsfaktor), die für diesen Rahmen abgeleitet werden. Wenn komprimierte Sequenzen expandiert werden, kann sich insbesondere die Fensterlänge für LPC-Berechnung im Allgemeinen über die Rahmenlänge hinaus ausdehnen. Dies ist hauptsächlich dazu vorgesehen, um dem Bereich von Interesse ein ausreichendes Gewicht zu verleihen. Darauf folgend wird von einer komprimierten Sequenz angenommen, die gerade analysiert wird, dass sie die spektralen und energetischen Eigenschaften der ursprünglichen Sequenz, aus welcher sie erhalten worden ist, ausreichend behalten hat.
  • Unter Verwendung der Darstellung aus 3 wird als Erstes eine eingegebene stimmlose Sequenz s[n] der Segmentierung in Rahmen unterzogen. Jeder der L Abtastwerte langen Eingangsrahmen
    Figure 00110001
    wird auf eine gewünschte Länge von LE Abtastwerte expandiert (LE = α·L, wobei α > 1 der Skalierungsfaktor ist). Gemäß der vorausgehenden Erläuterung wird die LPC-Analyse an den entsprechenden längeren Rahmen
    Figure 00110002
    durchgeführt, welche zu diesem Zweck mit Fenstern versehen werden.
  • Die zeitskalenexpandierte Version eines bestimmten Rahmens
    Figure 00110003
    (gekennzeichnet mit si) wird dann folgendermaßen erhalten. Eine LE Abtastwerte lange, durchschnittlich null und normal verteilte (σe = 1) Geräuschfrequenz wird durch den Filter 1/A(z) geformt, mit der Definition der LPC-Koeffizienten, die von
    Figure 00110004
    abgeleitet werden. Einer derartig geformten Geräuschsequenz werden anschließend Verstärkungsfaktor und Durchschnittswerte gegeben, die mit denjenigen von Rahmen
    Figure 00110005
    gleichwertig sind. Die Berechnung dieser Parameter ist durch Block „G" dargestellt.
  • Als Nächstes wird Rahmen
    Figure 00120001
    in zwei Hälften aufgeteilt, nämlich
    Figure 00120002
    und das zusätzliche Geräusch wird zwischen sie eingeführt. Dieses hinzugefügte Geräusch wird aus der Mitte der zuvor synthetisierten Geräuschsequenz mit Länge LE entfernt. Praktischerweise wird man zu schätzen wissen, dass diese Aktionen durch geeignetes Versehen mit Fenstern und Null-Auffüllen erreicht werden können, wodurch jeder Sequenz dieselbe Länge von LE Abtastwerten verliehen wird, wobei sie anschließend einfach alle zusammenaddiert werden.
  • Darüber hinaus deuten Fenster an, die durch unterbrochene Linien gezeichnet sind, dass Mittelwertbildung (Überblenden) um die Knotenpunkte des Gebiets herum durchgeführt werden kann, wo das Geräusch eingeführt wird. Dennoch bleiben aufgrund des geräuschartigen Charakters von allen beteiligten Signalen mögliche (wahrnehmbare) Vorteile von derartigem „Glätten" in den Übergangsbereichen eingeschlossen.
  • In 7 wird der vorstehend erläuterte Lösungsansatz durch ein Beispiel dargestellt. Als Erstes ist TDHS-Kompression auf eine ursprüngliche stimmlose Sequenz s[n] angewendet worden, wodurch sc[n] als Ergebnis erzeugt wird. Die ursprüngliche Zeitskale ist anschließend durch Anwenden von Expansion auf sc[n] wiederhergestellt worden. Die Geräuscheinführung ist durch vergrößerte Darstellung von zwei bestimmten Rahmen deutlich gemacht worden.
  • Es versteht sich, dass die zuvor beschriebene Weise von Geräuscheinführung mit der normalen Durchführungsweise von LPC-Analyse übereinstimmt, wobei das Hamming-Fenster angewendet wird, und weil dem mittleren Teil des Rahmens das höchste Gewicht gegeben wird, scheint die Geräuscheinführung in die Mitte logisch. Wenn der Eingangsrahmen einen Bereich in der Nähe eines akustischen Ereignisses markiert, wie eines Übergangs zur Stimmhaftigkeit, dann kann allerdings die Geräuscheinführung eher auf eine unterschiedliche Weise wünschenswert sein. Wenn der Rahmen beispielsweise aus stimmloser Sprache besteht, die sich schrittweise in eine eher „stimmhaftartige" Sprache verändert, dann würde die Einführung von synthetischem Geräusch näher am Anfang des Rahmens (wo sich die meiste geräuschartige Sprache befindet) am geeignetsten sein. Ein asymmetrisches Fenster, wodurch das meiste Gewicht in den linken Teil des Rahmens gelegt wird, könnte dann geeigneterweise zum Zweck der LPC-Analyse verwendet werden. Deswegen wird man zu schätzen wissen, dass die Einführung von Geräusch in verschiedene Bereiche des Rahmens für verschiedene Signaltypen in Erwägung gezogen werden kann.
  • 8 zeigt ein TSM-basiertes Codierungssystem, in welches alle zuvor erläuterten Konzepte integriert sind. Das System umfasst einen (abstimmbaren) Kompressor und einen entsprechenden Dynamikdehner, die es ermöglichen, einen beliebigen Sprach-Codierer-Decodierer zwischen ihnen anzuordnen. Das Zeitskalenkompandieren wird wünschenswerterweise durch Kombinieren von SOLA, parametrischer Expansion von stimmloser Sprache und dem zusätzlichen Konzept von Umsetzen stimmhafter Anfänge durchgeführt. Man wird außerdem zu schätzen wissen, dass das Sprachcodierungssystem der vorliegenden Erfindung auch unabhängig für die parametrische Expansion von stimmloser Sprache verwendet werden kann. In den folgenden Abschnitten werden Einzelheiten bezüglich des Systemaufbaus und der Ausführung seiner TSM-Stufen gegeben, einschließlich eines Vergleichs mit einigen Standardsprachcodierern.
  • Der Signalfluss kann folgendermaßen beschrieben werden. Die eingehende Sprache wird der Pufferung und Segmentierung in Rahmen unterzogen, um den darauf folgenden Verarbeitungsstufen zu entsprechen. Indem eine Stimmhaftigkeitsanalyse an der gepufferten Sprache (innerhalb des mit „V/UV" gekennzeichneten Blocks) und indem die aufeinander folgenden Rahmen innerhalb des Puffers verschoben werden, wird nämlich ein Fluss der Informationen über Stimmhaftigkeit erzeugt, die ausgenutzt werden, um Sprachteile zu klassifizieren und sie dementsprechend zu behandeln. Insbesondere werden stimmhafte Anfänge umgesetzt, wohingegen alle andere Sprache unter Verwendung von SOLA komprimiert wird. Die sich daraus ergebenden Rahmen werden dann an den Codierer-Decodierer (A) übergeben oder gehen direkt zu dem Dynamikdehner an dem Codierer-Decodierer (B) vorbei. Gleichzeitig werden die Synchronisationsparameter durch einen Seitenkanal übertragen. Sie werden verwendet, um ein bestimmtes Expansionsverfahren auszuwählen und durchzuführen. Das bedeutet, stimmhafte Sprache wird unter Verwendung von SOLA-Rahmenverschiebungen ki expandiert. Während SOLA werden die N Abtastwerte langen Analyserahmen xi aus einem Eingangssignal zu Zeiten iSa entfernt, und zu den entsprechenden Zeiten ki + iSs ausgegeben. Schließlich kann eine derartig modifizierte Zeitskale durch das umgekehrte Verfahren wiederhergestellt werden, d.h. durch Entfernen von N Abtastwerte langen Rahmen x ^i aus dem Zeitskalen modifizierten Signal bei Zeiten ki + Ss, und indem sie bei Zeiten iSa ausgegeben werden.
  • Dieses Verfahren kann durch Gleichung 4.0 ausgedrückt werden, wobei s ~ und s ^ jeweils die TSM-verarbeitete und rekonstruierte Version eines ursprünglichen Signals s bezeichnen. Dabei wird angenommen, dass k0 = 0 ist, gemäß der Indexierung von k, angefangen bei m = 1. x ^i[n] können zahlreiche Werte zugeordnet werden, d.h. Abtastwerte von verschiedenen Rahmen, welche sich zeitlich überlappen werden und durch Überblenden gemittelt werden sollten.
  • Figure 00140001
  • Durch Vergleichen der aufeinander folgenden überlappungsaddierten Stufen von SOLA und dem vorstehend ausführten Rekonstruktionsverfahren ist leicht ersichtlich, dass x ^i und xi im Allgemeinen nicht identisch sein werden. Deswegen wird man zu schätzen wissen, dass diese beiden Verfahren nicht genau ein „1-1" Transformationspaar darstellen. Allerdings ist die Qualität einer derartigen Rekonstruktion deutlich höher verglichen damit, wenn nur SOLA unter Verwendung eines reziproken Ss = Sa Verhältnisses angewendet wird.
  • Die stimmlose Sprache wird wünschenswerterweise unter Verwendung des zuvor beschriebenen parametrischen Verfahrens expandiert. Es wird darauf hingewiesen, dass die umgesetzten Sprachsegmente verwendet werden, um die Expansion zu realisieren, anstatt einfach in den Ausgang kopiert zu werden. Durch geeignetes Puffern und Manipulieren von allen empfangenen Daten wird ein synchronisiertes Verarbeiten erhalten, wobei jeder eingehende Rahmen der ursprünglichen Sprache einen Rahmen an dem Ausgang (nach einer anfänglichen Verzögerung) erzeugen wird.
  • Man wird zu schätzen wissen, dass ein stimmhafter Anfang einfach als ein Übergang von stimmlosartiger zu stimmhaftartiger Sprache detektiert wird.
  • Schließlich sollte darauf hingewiesen werden, dass die Stimmhaftigkeitsanalyse im Prinzip außerdem an der komprimierten Sprache durchgeführt werden könnte, und dieses Verfahren könnte infolgedessen dazu verwendet werden, die Notwendigkeit auszuschalten, dass die Informationen über Stimmhaftigkeit übertragen werden. Allerdings würde die Sprache zu diesem Zweck eher unpassend sein, weil normalerweise relativ lange Analyserahmen analysiert werden müssen, um zuverlässige Entscheidungen über Stimmhaftigkeit zu erhalten.
  • 9 zeigt die Verwaltung eines Puffers von Eingangssprache gemäß der vorliegenden Erfindung. Die Sprache, die in dem Puffer zu einer bestimmten Zeit enthalten ist, ist durch das Segment
    Figure 00150001
    dargestellt. Das Segment
    Figure 00150002
    das unter dem Hamming-Fenster liegt, wird der Stimmhaftigkeitsanalyse unterzogen, wodurch eine Entscheidung über Stimmhaftigkeit bereitgestellt wird, die den V Abtastwerten in der Mitte zugeordnet ist. Das Fenster dient nur zur Darstellung und deutet nicht auf die Notwendigkeit für Gewichtung der Sprache hin; ein Beispiel der Techniken, welche für jegliche Gewichtung verwendet werden können, kann in R.J. McAulay und T.F. Quatieri, „Pitch estimation and voicing detection based on a sinusoidal speech model", IEEE Int. Conf. on Acoustics Speech and Signal Processing, 1990, gefunden werden. Die erworbene Entscheidung über Stimmhaftigkeit wird dem Sa Abtastwerte langen Segment
    Figure 00150003
    zugeordnet, wobei V ≤ Sa und |Sa – V| << Sa. Des Weiteren wird die Sprache in Sa Abtastwerte lange Rahmen
    Figure 00150004
    segmentiert, wodurch eine bequeme Ausführung von SOLA- und Puffermanagement ermöglicht wird. Insbesondere werden
    Figure 00150005
    und
    Figure 00150006
    die Rolle von zwei aufeinander folgenden SOLA-Analyserahmen xi und xi + 1 spielen, wohingegen der Puffer durch Verschiebung nach links von Rahmen
    Figure 00150007
    (i = 0, 1, 2) aktualisiert wird und indem neue Abtastwerte an die „geleerte" Position von
    Figure 00150008
    gesetzt werden.
  • Die Kompression kann einfach unter Verwendung von 10 beschrieben werden, wo vier anfängliche Iterationen dargestellt sind. Der Fluss der Eingangs- und Ausgangssprache kann jeweils auf der rechten und linken Seite der Figur verfolgt werden, wobei einige bekannte Merkmale von SOLA zu sehen sind. Bei den Eingangsrahmen sind stimmhafte mit „1" und stimmlose mit „0" gekennzeichnet.
  • Anfänglich enthält der Puffer ein Null-Signal. Anschließend wird ein erster Rahmen
    Figure 00150009
    gelesen, wobei in diesem Fall ein stimmhaftes Segment angekündigt wird. Es wird darauf hingewiesen, das die Stimmhaftigkeit dieses Rahmen erst dann bekannt sein wird, wenn er an der Position von
    Figure 00150010
    angekommen ist, in Übereinstimmung mit der vorstehend beschriebenen Art, die Stimmhaftigkeitsanalyse durchzuführen. Demzufolge beträgt die algorithmische Verzögerung 3Sa Abtastwerte. Auf der linken Seite stellt der sich durchgängig verändernde grau markierte Rahmen, infolgedessen Syntheserahmen, die vordere Abtastwerte des Puffers dar, welcher die Ausgangs-(Synthese)-Sprache zu einer bestimmten Zeit hält. (Wie deutlich werden wird, beträgt die minimale Länge dieses Puffers (ki)max + 2Sa = 3Sa Abtastwerte). In Übereinstimmung mit SOLA wird dieser Rahmen durch Überlappungsaddition mit den darauf folgenden Analyserahmen mit einer Geschwindigkeit aktualisiert, die durch Ss (Ss < Sa) bestimmt wird. So sind die Ss Abtastwerte langen Rahmen
    Figure 00160001
    und
    Figure 00160002
    nach den ersten beiden Iterationen nacheinander ausgegeben worden, da sie für neue Aktualisierungen veraltet sind, jeweils durch die Analyserahmen
    Figure 00160003
    Diese SOLA-Kompression wird solange fortgesetzt, bis sich die aktuelle Entscheidung über Stimmhaftigkeit von 0 zu 1 verändert, was hier in Schritt 3 passiert. An diesem Punkt wird der gesamte Syntheserahmen ausgegeben, außer seinen letzten Sa Abtastwerten, an welche die letzten Sa Abtastwerte von dem aktuellen Analyserahmen angehängt werden. Dies kann als eine Re-Initialisierung des Syntheserahmens angesehen werden, der nun zu
    Figure 00160004
    wird.
  • Damit beginnt in Schritt 4 ein neuer SOLA-Kompressionzyklus, usw.
  • Es ist ersichtlich, dass, während die Sprachkontinuität beibehalten wird, einiges von dem Rahmen
    Figure 00160005
    umgesetzt wird, als auch mehrere Eingangsrahmen, die auf ihn folgen, dank SOLA's langsamer Konvergenz. Diese Teile entsprechen genau dem Bereich, der am wahrscheinlichsten einen stimmhaften Anfang enthält.
  • Nun kann daraus geschlossen werden, dass nach jeder Iteration der Kompressor ein „Informationstriplett" ausgeben wird, das aus einem Sprachrahmen, SOLA k und einer Entscheidung über Stimmhaftigkeit besteht, die dem vorderen Rahmen in dem Puffer entspricht. Da während der Umsetzung keine Kreuzkorrelation berechnet wird, wird ki = 0 jedem umgesetzten Rahmen zugeordnet. So werden durch Kennzeichnung von Sprachrahmen durch ihre Länge die Tripletts produziert, die in diesem Fall (Ss, ko, 0), (Ss, k1, 0), (Sa + k1, 0, 0) und (Ss, k3, 1) sind. Es wird darauf hingewiesen, dass die Übertragung von (den meisten) k's, die während der Kompression von stimmloser Sprache erhalten werden, überflüssig ist, weil (die meisten) stimmlosen Rahmen unter Verwendung des parametrischen Verfahrens expandiert werden.
  • Der Dynamikdehner ist wünschenswerterweise eingerichtet, um die Synchronisationsparameter nach zu verfolgen, damit die eingehenden Rahmen identifiziert und sie entsprechend behandelt werden.
  • Die Hauptkonsequenz aus der Umsetzung von stimmhaften Anfängen besteht darin, dass eine kontinuierliche Zeitskalenkompression „gestört" wird. Man wird zu schätzen wissen, dass alle komprimierten Rahmen eine gleichwertige Länge von Ss Abtastwerten aufweisen, wohingegen die Länge von umgesetzten Rahmen variabel ist.
  • Dadurch könnten Schwierigkeiten bei der Beibehaltung einer konstanten Bitrate auftreten, wenn die Codierung auf die Zeitskalenkompression folgt. In diesem Stadium haben wir die Wahl getroffen, die Anforderung, eine konstante Bitrate zu erzielen, zu Gunsten einer besseren Qualität zu vernachlässigen.
  • Im Hinblick auf die Qualität könnte man genauso gut argumentieren, dass durch Beibehalten eines Segments der Sprache während der Umsetzung Diskontinuitäten eingeführt werden könnten, wenn die Verbindungssegmente auf ihren beiden Seiten verzerrt sind. Indem stimmhafte Anfänge frühzeitig detektiert werden, wozu gehört, dass das umgesetzte Segment mit einem Teil der stimmlosen Sprache beginnt, die dem Anfang vorausgeht, ist es möglich, die Auswirkung von solchen Diskontinuitäten zu minimieren. Man wird außerdem zu schätzen wissen, dass SOLA eine langsame Konvergenz bei moderaten Kompressionsgeschwindigkeiten hat, wodurch sichergestellt ist, dass der endende Teil der umgesetzten Sprache einiges der stimmhaften Sprache einschließen wird, das auf den Anfang folgt.
  • Man wird zu schätzen wissen, dass während der Kompression jeder ankommende Sa Abtastwerte lange Rahmen einen Ss oder Sa + ki – 1 (ki ≤ Sa) Abtastwerte langen Rahmen an dem Ausgang erzeugen wird. Um infolgedessen die ursprüngliche Zeitskale wiederherzustellen, sollte die Sprache, die von dem Dynamikdehner kommt, wünschenswerterweise Sa Abtastwerte lange Rahmen umfassen oder aus Rahmen bestehen, die verschiedene Längen aufweisen, aber dieselbe Gesamtlänge von m·Sa erzeugen, wobei m die Anzahl von Iterationen ist. Die vorliegende Diskussion bezieht sich auf eine Realisierung, die in der Lage ist, die gewünschte Länge nur zu schätzen und ist das Ergebnis einer pragmatischen Wahl, die uns erlaubt, die Operationen zu vereinfachen und die Einführung von weiterer algorithmischer Verzögerung zu vermeiden. Man wird zu schätzen wissen, dass eine alternative Methodologie bei abweichenden Anwendungen als notwendig angesehen werden kann.
  • Nachfolgend wird angenommen, dass über mehrere separate Puffer verfügt wird, die alle durch einfaches Verschieben von Abtastwerten aktualisiert werden. Zum Zweck der Darstellung werden die kompletten „Informationstripletts" gezeigt, wie sie durch den Dynamikdehner erzeugt werden, einschließlich der k, die während der Kompression von stimmlosen Tönen erhalten werden, von denen die meisten tatsächlich veraltet sind.
  • Dies ist außerdem in 12 dargestellt, wo ein anfänglicher Zustand gezeigt wird. Der Puffer für eingehende Sprache ist durch Segment
    Figure 00180001
    dargestellt, das 4Sa Abtastwerte lang ist. Zum Zweck der Darstellung wird angenommen, dass die Expansion direkt auf die in 10 beschriebene Kompression folgt. Zwei zusätzliche Puffer
    Figure 00180002
    und Y werden jeweils dazu dienen, die Eingangsinformationen für die LPC-Analyse bereitzustellen und die Expansion von stimmhaften Teilen zu erleichtern. Zwei weitere Puffer werden eingesetzt, um Synchronisationsparameter, nämlich die Entscheidungen über Stimmhaftigkeit und die k zu halten. Der Fluss dieser Parameter wird als Kriterium verwendet, um die eingehenden Sprachrahmen zu identifizieren und um sie entsprechend zu behandeln. Von nun an wird auf die Positionen 0, 1 und 2 jeweils als Vergangenheit, Gegenwart und Zukunft Bezug genommen.
  • Während der Expansion können einige typische Aktionen an dem „aktuellen" Rahmen vorgenommen werden, die durch bestimmte Zustände der Puffer aufgerufen werden, welche die Synchronisationsparameter enthalten. Im Folgenden wird dies anhand von Beispielen deutlich gemacht.
  • 1. Stimmlose Expansion
  • Das zuvor beschriebene parametrische Expansionsverfahren wird nur in der Situation eingesetzt, wo alle drei Rahmen von Interesse stimmlos sind, wie in 13 gezeigt. Dies setzt voraus, dass
    Figure 00180003
    oder Sa + k[1]. Später wird außerdem eine zusätzliche Anforderung eingeführt und erläutert, die festlegt, dass diese Rahmen keine direkte Fortsetzung eines stimmhaften Endes (Übergang von stimmhafter zu stimmloser Sprache) bilden sollten.
  • Infolgedessen wird der aktuelle Rahmen
    Figure 00180004
    auf die Länge von Sa Abtastwerte verlängert und ausgegeben, worauf eine Verschiebung der Pufferinhalte um Ss Abtastwerte nach links folgt, wodurch
    Figure 00180005
    zu dem neuen aktuellen Rahmen wird und die Inhalte des „LPC-Puffers"
    Figure 00180006
    aktualisiert werden, (typischerweise
    Figure 00180007
  • 2. Stimmhafte Expansion
  • Ein möglicher Stimmhaftigkeitszustand, wodurch dieses Expansionsverfahren aufgerufen wird, ist in 14 dargestellt. Zunächst wird angenommen, dass das komprimierte Signal mit
    Figure 00180008
    anfängt, d.h. dass
    Figure 00180009
    und k[0] leer sind. Anschließend stellen Y und X genau die ersten beiden Rahmen eines Zeitskale-„Rekonstruktionsprozesses" dar. Bei diesem „Rekonstruktionsprozess" müssen 2Sa Abtastwerte lange Rahmen x ^i, wobei in diesem Fall
    Figure 00190001
    sind, aus dem komprimierten Signal an der Position iSs + ki entfernt werden und wieder an die ursprüngliche Position iSa „zurückgesetzt" werden, wobei die überlappenden Abtastwerte überblendet werden. Die ersten Sa Abtastwerte von Y werden während der Überlappung nicht verwendet, also werden sie ausgegeben. Dies kann als Expansion eines Ss Abtastwerte langen Rahmens
    Figure 00190002
    angesehen werden, der anschließend durch seinen Nachfolger
    Figure 00190003
    durch die übliche Verschiebung nach links ersetzt wird. Nun ist klar, dass alle darauf folgenden Ss Abtastwerte langen Rahmen auf analoge Weise expandiert werden können, d.h. durch Ausgeben erster Sa Abtastwerte aus dem Puffer Y, wobei der Rest dieses Puffers kontinuierlich durch Überlappungsaddition mit X aktualisiert wird, das für ein bestimmtes vorhandenes k, d.h. k[1] erhalten wird. X wird genauer gesagt 2Sa Abtastwerte von dem Eingangspuffer enthalten, angefangen mit dem Ss + k[1]-ten Abtastwert.
  • 3. Umsetzung
  • Wie schon zuvor im Einzelnen ausgeführt, soll der Ausdruck „Umsetzung", so wie in der vorliegenden technischen Beschreibung verwendet, sich auf alle Situationen beziehen, wo der aktuelle Rahmen oder ein Teil von ihm, so wie er ist, ausgegeben wird oder übergangen wird, d.h. verschoben aber nicht ausgegeben. 14 zeigt, dass zu der Zeit, in welcher der stimmlose Rahmen
    Figure 00190004
    zu dem aktuellen Rahmen geworden ist, seine vorderen Sa–Ss Abtastwerte schon während der vorhergehenden Iteration ausgegeben worden sind. Diese Abtastwerte sind nämlich in den vorderen Sa Abtastwerten von Y eingeschlossen, welche während der Expansion von
    Figure 00190005
    ausgegeben worden sind. Daraus folgt, dass, unter Verwendung des parametrischen Verfahrens, das Expandieren eines aktuellen stimmlosen Rahmens, welcher auf einen vergangenen stimmhaften Rahmen folgt, die Sprachkontinuität stören würde. Deswegen wird zuerst entschieden, die stimmhafte Expansion während derartiger stimmhafter Enden beizubehalten. Anders ausgedrückt wird stimmhafte Expansion bis zu dem ersten stimmlosen Rahmen, welcher auf einen stimmhaften Rahmen folgt, verlängert. Dies wird nicht das „Problem der Klangfarbe" auslösen, welches hauptsächlich verursacht wird, wenn sich „Wiederholung" von SOLA- Expansion über ein relativ langes Segment erstreckt.
  • Allerdings wird deutlich, dass das vorstehend ausgeführte Problem jetzt nur auf später verschoben wird und bei dem zukünftigen Rahmen
    Figure 00200001
    wieder auftauchen wird. Dabei ist die Art zu bedenken, wie Stimmhaftigkeitsexpansion durchgeführt wird, d.h. in der Art, wie Y aktualisiert wird, kann eine Gesamtheit von ki (0 < k < Sa) Abtastwerten schon ausgegeben worden sein (durch Überblenden modifiziert), bevor sie an der Vorderseite des Puffers ankommen.
  • Um dieses Problem zunächst zu beseitigen, werden alle aktuellen ki Abtastwerte, die in der Vergangenheit benutzt worden sind, übergangen. Dies impliziert nun, von dem bisher angewendeten Prinzip abzuweichen, wobei für alle eingehenden Ss Abtastwerte Sa Abtastwerte ausgegeben werden. Um den „Fehlbetrag" an Abtastwerten zu kompensieren, sollte der „Überschuss" an Abtastwerten, der sich in den umgesetzten Sa + kj Abtastwerte langen Rahmen befindet, die durch den Dynamikdehner erzeugt werden, verwendet werden. Sollte ein derartiger Rahmen nicht direkt auf ein stimmhaftes Ende folgen (wenn ein stimmhafter Anfang nicht kurz nach einem stimmhaften Ende erscheint), dann wird keiner seiner Abtastwerte in den vorausgehenden Iterationen benutzt worden sein, und er kann als eine Gesamtheit ausgegeben werden. Infolgedessen wird der „Fehlbetrag" an ki Abtastwerten, die auf eine stimmhafte Abweichung folgen, durch einen „Überschuss" höchstens an kj Abtastwerten ausgeglichen werden, die dem nächsten stimmhaften Anfang vorausgehen.
  • Da sowohl kj und ki während der Kompression von stimmloser Sprache erhalten werden, wodurch sie einen zufallsartigen Charakter aufweisen, wird ihr Gegengewicht für ein bestimmtes j und i nicht genau sein. Im Allgemeinen ergibt sich daraus eine leichte Nichtübereinstimmung zwischen der Länge der ursprünglichen und der entsprechenden kompandierten stimmlosen Töne, wovon erwartet wird, dass sie nicht wahrnehmbar ist. Gleichzeitig ist Sprachkontinuität sichergestellt.
  • Es wird darauf hingewiesen, dass das Problem der Nichtübereinstimmung leicht behoben werden kann, ohne überhaupt eine zusätzliche Verzögerung und Verarbeitung einzuführen, indem für alle stimmlosen Rahmen während der Kompression dasselbe k gewählt wird. Es wird erwartet, dass ein möglicher Qualitätsverlust aufgrund dieser Aktion begrenzt bleibt, weil Wellenformähnlichkeit, auf deren Grundlage k berechnet wird, kein wesentliches Maß der Ähnlichkeit für stimmlose Sprache ist.
  • Es wird darauf hingewiesen, dass es wünschenswert ist, dass alle Puffer einheitlich aktualisiert werden, um Sprachkontinuität sicherzustellen, wenn zwischen den verschiedenen Aktionen umgeschaltet wird. Zum Zweck dieses Umschaltens und zum Identifizieren von eingehenden Rahmen, ist ein Entscheidungsmechanismus erstellt worden, welcher auf der Untersuchung der Zustände von Stimmhaftigkeit und „k-Puffern" beruht. Dies kann durch die nachstehend aufgeführte Tabelle zusammengefasst werden, in welcher die zuvor beschriebenen Aktionen abgekürzt sind. Um „Wiederverwendung" von Abtastwerten zu signalisieren, d.h. Vorkommen eines stimmhaften Endes in der Vergangenheit, wird ein zusätzliches Prädikat mit dem Namen „Ende" eingeführt. Indem ein Schritt weiter in die Vergangenheit der Puffer für Stimmhaftigkeit zurückgeblickt wird, kann es als wahr definiert werden, wenn v[0] = 1 ∨ v[–1] = 1 und als falsch in allen anderen Fällen (wobei ∨ logisches „oder" kennzeichnet). Es wird darauf hingewiesen, dass durch geeignete Manipulation kein ausdrücklicher Speicherplatz für v[–1] notwendig ist.
    Figure 00210001
    Tabelle 1 Auswahlaktionen für den Dynamikdehner
  • Man wird zu schätzen wissen, dass in der vorliegenden Erfindung ein Zeitskalenexpansionsverfahren für stimmlose Sprache verwendet wird. Stimmlose Sprache wird mit SOLA komprimiert, aber durch Einführung von Geräusch mit der spektralen Gestalt und dem Verstärkungsfaktor seiner benachbarten Segmente expandiert. Dadurch wird künstliche Korrelation vermieden, welche durch „Wiederverwendung" stimmloser Segmente eingeführt wird.
  • Wenn TSM mit Sprachcodierern kombiniert wird, welche bei niedrigeren Bitraten arbeiten (z.B. < 8 kbit/s), funktioniert die auf TSM beruhende Codierung verglichen mit herkömmlicher Codierung (in diesem Falle AMR) schlechter. Wenn der Sprachcodierer bei höheren Bitraten funktioniert, kann eine vergleichbare Leistung erreicht werden. Dies kann mehrere Vorteile haben. Die Bitrate eines Sprachcodierers mit einer feststehenden Bitrate, kann nun auf eine willkürliche Bitrate durch Verwendung höherer Kompressionsverhältnisse abgesenkt werden. Bei Kompressionsverhältnissen von bis zu 25 %, kann die Leistung des TSM-Systems mit einem dedizierten Sprachcodierer vergleichbar sein. Da das Kompressionsverhältnis zeitlich verändert werden kann, kann auch die Bitrate des TSM-Systems zeitlich verändert werden. Im Fall von Netzwerküberlastung kann die Bitrate beispielsweise zeitweise abgesenkt werden. Die Bitstromsyntax dieses Sprachcodierers wird durch die TSM nicht verändert. Deswegen können standardisierte Sprachcodierer auf eine Bitstrom kompatible Weise verwendet werden. Des Weiteren kann TSM zu Fehlerverschleierung im Fall von fehlerhafter Übertragung oder Speicherung verwendet werden. Wenn ein Rahmen irrtümlicherweise empfangen wird, können die benachbarten Rahmen weiter zeitskalenexpandiert werden, um die Lücke, die durch den fehlerhaften Rahmen entstanden ist, zu füllen.
  • Es ist gezeigt worden, dass die meisten der Probleme, die Zeitskalenkompandierung begleiten, während der stimmlosen Segmente und stimmhaften Anfänge stattfinden, die in einem Sprachsignal vorhanden sind. In dem Ausgangssignal nehmen die stimmlosen Töne einen tonalen Charakter an, während weniger graduelle und glatte stimmhafte Anfänge häufig unscharf sind, insbesondere wenn größere Skalierungsfaktoren verwendet werden. Die Klangfarbe von stimmlosen Tönen wird durch den „Wiederholungsmechanismus" eingeführt, welcher in allen Zeitbereichalgorithmen von vornherein vorhanden ist. Um dieses Problem zu beseitigen, stellt die vorliegende Erfindung getrennte Verfahren zum Expandieren von stimmhafter und stimmloser Sprache bereit. Es wird ein Verfahren zur Expansion von stimmloser Sprache bereitgestellt, welches auf der Einführung einer passend ausgestalteten Geräuschsequenz in die komprimierten stimmlosen Sequenzen beruht. Um den Nachzieheffekt von stimmhaften Anfängen zu vermeiden, werden die stimmhaften Anfänge aus TSM ausgeschlossen und werden anschließend umgesetzt.
  • Die Kombination dieser Konzepte mit SOLA hat die Realisierung eines zeitskalenkompandierenden Systems ermöglicht, welches eine bessere Leistung als die herkömmlichen Realisierungen aufweist, die einen ähnlichen Algorithmus für sowohl Kompression als auch Expansion verwenden.
  • Man wird zu schätzen wissen, dass die Einführung eines Sprach-Codierer-Decodierers zwischen die TSM-Stufen eine Qualitätsverschlechterung verursachen kann, die im Verhältnis zur Absenkung der Bitrate des Codierer-Decodierers deutlicher wahrzunehmen ist. Wenn ein bestimmter Codierer-Decodierer und TSM kombiniert werden, um eine bestimmte Bitrate zu erzeugen, wird das daraus resultierende System eine schlechtere Leistung haben, als dedizierte Sprachcodierer, die bei einer vergleichbaren Bitrate arbeiten. Bei niedrigeren Bitraten ist Qualitätsverschlechterung nicht akzeptabel. Allerdings kann TSM bei der Bereitstellung einer noch akzeptablen Verschlechterung bei höheren Bitraten nützlich sein.
  • Obwohl vorstehend unter Bezugnahme auf eine spezielle Implementierung beschrieben, wird man zu schätzen wissen, dass mehrere Modifikationen möglich sind. Verfeinerungen des vorgeschlagenen Expansionsverfahrens von stimmloser Sprache durch Aufzeigen alternativer Wege von Geräuscheinführung und Verstärkungsberechnung können verwendet werden.
  • Es wird darauf hingewiesen, dass die vorstehend erwähnten Ausführungsformen die Erfindung eher darstellen als einschränken, und dass die Fachleute in der Lage sein werden, viele alternative Ausführungsformen zu entwerfen, ohne von dem Umfang der beigefügten Ansprüche abzuweichen. In den Ansprüchen sollen alle Bezugszeichen, die in Klammern stehen nicht so verstanden werden, als dass sie den Anspruch einschränken. Das Wort „umfassend" schließt nicht das Vorhandensein von anderen Elementen oder Schritten als die in einem Anspruch aufgezählten aus. Die Erfindung kann mittels Hardware, die zahlreiche einzelne Elemente umfasst, und mittels eines geeigneten programmierten Computers implementiert werden. Bei einem Anspruch einer Einrichtung, in dem mehrere Mittel aufgeführt sind, können mehrere dieser Mittel durch ein- und denselben Gegenstand der Hardware aufgeführt sein. Die alleinige Tatsache, dass bestimmte Maßnahmen in voneinander verschiedenen Unteransprüchen wiederholt werden, weist nicht darauf hin, dass eine Kombination dieser Maßnahmen nicht vorteilhaft verwendet werden kann.
  • Quellenangaben
    • [1] J. Makhoul, A. El-Jaroudi, „Time-Scale Modification in Medium to Low Rate Speech Coding", ICASSP Bericht, 7. bis 11. April 1986, Band 3, Seiten 1705–1708.
    • [2] P. E. Papamichalis, „Practical Approaches to Speech Coding", Prentice Hall, Inc., Engelwood Cliffs, New Jersey, 1987.
    • [3] F. Amano, K. Iseda, K. Okazaki, S. Unagami, „An 8 kbit/s TC-MQ (Timedomain Compression ADPCM-MQ Speech Codec", ICASSP Bericht, 11. bis 14. April 1988, Band 1, Seiten 259–262.
    • [4] S. Roucos, A. Wilgus, „High Quality Time-Scale Modification for Speech", ICASSP Bericht, 26. bis 29. März 1985, Band 2, Seiten 493–496.
    • [5] J. L. Wayman, D. L. Wilson, „Some Improvements on the Method of Time Scale-Modification for Use in Real-Time Speech Compression and Noise Filtering", IEEE Transactions on ASSP, Band 36, Nr. 1, Seiten 139–140, 1988.
    • [6] E. Hardam, „High Quality Time-Scale Modification of Speech Signals Using Fast Synchronized-Overlap-Add Algorithms", ICASSP Bericht, 3.–4. April 1990, Band 1, Seiten 409–412.
    • [7] M. Sungjoo-Lee, Hee-Dong-Kim, Hyung-Soon-Kim, „Variable Time-Scale Modification of Speech Using Transient Information", ICASSP Bericht, 21. bis 24. April 1997, Seiten 1319–1322.
    • [8] WO 96/27184A
  • Legende der Figuren
  • 1
    • input speech: eingegebene Sprache
    • Time-scale compression: Zeitskalenkompression
    • Speech encoding: Sprachcodierung
    • Transmission or storage: Übertragung oder Speicherung
    • Speech decoding: Sprachdecodierung
    • Time-scale expansion: Zeitskalenexpanssion
    • output speech: ausgegegebene Sprache
  • 4
    • input speech: eingegebene Sprache
    • voiced onset?: stimmhafter Anfang?
    • SOLA-compressor: SOLA-Kompressor
    • Speech encoder: Sprachcodierer
    • voicing: Stimmhaftigkeit
    • Sync.param.: Synchronisierungsparameter
    • Speech decoder: Sprachdecodierer
    • unvoiced expander: stimmloser Dynamikdehner
    • output speech:ausgegegebene Sprache
    • voiced (SOLA) expander: stimmhafter (SOLA)-Dynamikdehner
    • switch control: Schaltsteuerung
  • 6
    • Gain: Verstärkungsfaktor
  • 8
    • input speech: eingegebene Sprache
    • BUFF: PUFFER
    • voiced onset?: stimmhafter Anfang?
    • SOLA-compress.: SOLA-Kompressor
    • CODEC: CODIERER-DECODIERER
    • BUFF: PUFFER
    • expander: Dynamikdehner
    • voicing: Stimmhaftigkeit
    • Synch.parameter k: Synchronisierungsparameter k
    • Voicing, k: Stimmhaftigkeit, k
    • BUFF: Puffer
    • output speech: ausgegegebene Sprache
  • 9
    • new samples: neue Abtastwerte
  • 10
    • out: Ausgabe
  • 11
    • n[samples]: n[Abtastwerte]
  • 12
    • new samples: neue Abtastwerte
    • new k: neues k
    • new voicing: neue Stimmhaftigkeit
  • 13
    • voicing: Stimmhaftigkeit
  • 14
    • voicing: Stimmhaftigkeit
    • output: Ausgabe
    • Ynew: Yneu

Claims (13)

  1. Verfahren zur Zeitskalenmodifizierung eines Sprachsignals, wobei das Verfahren die folgenden Schritte umfasst: a) Definieren von individuellen Rahmensegmenten innerhalb des Signals, b) Analysieren der individuellen Rahmensegmente, um einen Signaltyp in jedem Rahmensegment zu bestimmen, und c) Anwenden eines ersten Zeitskalenmodifikationsalgorithmus auf einen bestimmten ersten Signaltyp, und eines zweiten unterschiedlichen Zeitskalenmodifikationsalgorithmus auf einen bestimmten zweiten Signaltyp, wobei der erste Signaltyp aus einem stimmhaften Sprachsignalsegment und der zweite Signaltyp aus einem stimmlosen Sprachsignalsegment besteht.
  2. Verfahren nach Anspruch 1, wobei der erste Algorithmus auf einer Wellenformtechnik, wie beispielsweise synchronisierter Überlappung-und-Addition (SOLA) beruht, und wobei der zweite Algorithmus auf einer parametrischen Technik, wie beispielsweise einer linearen Prädiktionscodierung (LPC) beruht.
  3. Verfahren nach Anspruch 1 oder 2, wobei der erste Algorithmus ein SOLA-Algorithmus ist.
  4. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei der zweite Algorithmus die folgenden Schritte umfasst: a) Teilen von jedem Rahmen des bestimmten zweiten Signaltyps in einen Eingangs- und Ausgangsabschnitt, b) Erzeugen eines Geräuschsignals, und c) Einführen des Geräuschsignals zwischen den Eingangs- und Ausgangsabschnitt, sodass ein expandiertes Segment erzielt wird.
  5. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei der erste und zweite Algorithmus Expansionsalgorithmen sind und das Verfahren zur Zeitskalenexpansion eines Signals verwendet wird.
  6. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei der erste und zweite Algorithmus Kompressionsalgorithmen sind und das Verfahren zur Zeitskalenkompression eines Signals verwendet wird.
  7. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei das Audiosignal ein zeitskalenmodifiziertes Sprachsignal ist.
  8. Verfahren nach irgendeinem der vorhergehenden Ansprüche, die folgenden Schritte umfassend: a) Aufteilen eines stimmlosen Sprachsignalsegments in einen ersten Abschnitt und einen zweiten Abschnitt, und b) Einführen von Geräusch zwischen den ersten Abschnitt und den zweiten Abschnitt, um ein zeitskalenexpandiertes Signal zu erhalten, wobei das Geräusch aus synthetischem Geräusch mit einer spektralen Gestalt besteht, die gleichwertig zu der spektralen Gestalt des ersten und zweiten Abschnitts des Signals ist.
  9. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei stimmlose Segmente zeitskalenexpandiert werden.
  10. Verfahren zum Empfangen eines Audiosignals, wobei das Verfahren die folgenden Schritte umfasst: a) Decodieren des Audiosignals, und b) Zeitskalenexpandieren des decodierten Audiosignals gemäß einem Verfahren nach irgendeinem der vorhergehenden Ansprüche.
  11. Einrichtung zur Zeitskalenmodifizierung, eingerichtet, um ein Signal zu modifizieren, sodass die Ausbildung eines zeitskalenmodifizierten Signals ausgeführt wird, umfassend: a) Mittel zum Bestimmen unterschiedlicher Signaltypen innerhalb von Rahmen des Signals, und b) Mittel zum Anwenden eines ersten Zeitskalenmodifikationsalgorithmus auf Rahmen, die einen ersten bestimmten Signaltyp aufweisen, und eines zweiten, unterschiedlichen Zeitskalenmodifikationsalgorithmus auf Rahmen, die einen zweiten bestimmten Signaltyp aufweisen, wobei der erste Signaltyp aus einem stimmhaften Signalsegment und der zweite Signaltyp aus einem stimmlosen Signalsegment besteht.
  12. Einrichtung nach Anspruch 11, wobei die Mittel zum Anwenden eines zweiten unterschiedlichen Modifikationsalgorithmus auf den zweiten bestimmten Signaltyp umfassen: a) Mittel zum Aufteilen des Signalrahmens in einen ersten Abschnitt und einen zweiten Abschnitt, und b) Mittel zum Einführen von Geräusch zwischen den ersten Abschnitt und den zweiten Abschnitt, um ein zeitskalenexpandiertes Signal zu erhalten.
  13. Empfänger zum Empfangen eines Audiosignals, wobei der Empfänger umfasst: a) einen Decodierer zum Decodieren des Audiosignals, und b) eine Einrichtung nach Anspruch 11 oder Anspruch 12 zur Zeitskalenexpansion des decodierten Audiosignals.
DE60214358T 2001-04-05 2002-03-27 Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp Expired - Fee Related DE60214358T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01201260 2001-04-05
EP01201260 2001-04-05
PCT/IB2002/001011 WO2002082428A1 (en) 2001-04-05 2002-03-27 Time-scale modification of signals applying techniques specific to determined signal types

Publications (2)

Publication Number Publication Date
DE60214358D1 DE60214358D1 (de) 2006-10-12
DE60214358T2 true DE60214358T2 (de) 2007-08-30

Family

ID=8180110

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60214358T Expired - Fee Related DE60214358T2 (de) 2001-04-05 2002-03-27 Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp

Country Status (9)

Country Link
US (1) US7412379B2 (de)
EP (1) EP1380029B1 (de)
JP (1) JP2004519738A (de)
KR (1) KR20030009515A (de)
CN (1) CN100338650C (de)
AT (1) ATE338333T1 (de)
BR (1) BR0204818A (de)
DE (1) DE60214358T2 (de)
WO (1) WO2002082428A1 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171367B2 (en) 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
US7412376B2 (en) 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7596488B2 (en) 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
DE10345539A1 (de) * 2003-09-30 2005-04-28 Siemens Ag Verfahren und Anordnung zur Audioübertragung, insbesondere Sprachübertragung
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
JP4675692B2 (ja) * 2005-06-22 2011-04-27 富士通株式会社 話速変換装置
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
FR2899714B1 (fr) * 2006-04-11 2008-07-04 Chinkel Sa Systeme de doublage de film.
EP2013871A4 (de) * 2006-04-27 2011-08-24 Technologies Humanware Inc Verfahren zur zeitskalierung eines audiosignals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
TWI312500B (en) * 2006-12-08 2009-07-21 Micro Star Int Co Ltd Method of varying speech speed
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
WO2008106232A1 (en) * 2007-03-01 2008-09-04 Neurometrix, Inc. Estimation of f-wave times of arrival (toa) for use in the assessment of neuromuscular function
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
JP4924513B2 (ja) * 2008-03-31 2012-04-25 ブラザー工業株式会社 タイムストレッチシステムおよびプログラム
CN101615397B (zh) * 2008-06-24 2013-04-24 瑞昱半导体股份有限公司 音频信号处理方法
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
EP2410522B1 (de) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiosignalcodierer, Verfahren zur Codierung eines Audiosignals und Computerprogramm
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2214165A3 (de) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Änderung eines Audiosignals mit einem Transientenereignis
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
GB0920729D0 (en) * 2009-11-26 2010-01-13 Icera Inc Signal fading
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US9177570B2 (en) * 2011-04-15 2015-11-03 St-Ericsson Sa Time scaling of audio frames to adapt audio processing to communications network timing
US8996389B2 (en) * 2011-06-14 2015-03-31 Polycom, Inc. Artifact reduction in time compression
WO2013149188A1 (en) 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6098149B2 (ja) 2012-12-12 2017-03-22 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9293150B2 (en) 2013-09-12 2016-03-22 International Business Machines Corporation Smoothening the information density of spoken words in an audio signal
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
WO2016126813A2 (en) 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Scheduling playback of audio in a virtual acoustic space
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3327723A1 (de) 2016-11-24 2018-05-30 Listen Up Technologies Ltd Verfahren zum verlangsamen von sprache in einem eingangsmedieninhalt

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
KR970017456A (ko) * 1995-09-30 1997-04-30 김광호 음성신호의 무음 및 무성음 판별방법 및 그 장치
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals

Also Published As

Publication number Publication date
WO2002082428A1 (en) 2002-10-17
ATE338333T1 (de) 2006-09-15
US20030033140A1 (en) 2003-02-13
BR0204818A (pt) 2003-03-18
KR20030009515A (ko) 2003-01-29
EP1380029A1 (de) 2004-01-14
US7412379B2 (en) 2008-08-12
CN100338650C (zh) 2007-09-19
JP2004519738A (ja) 2004-07-02
CN1460249A (zh) 2003-12-03
DE60214358D1 (de) 2006-10-12
EP1380029B1 (de) 2006-08-30

Similar Documents

Publication Publication Date Title
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60034484T2 (de) Verfahren und vorrichtung in einem kommunikationssystem
DE60016532T2 (de) Verfahren zur verschleierung von rahmenausfall
DE60126513T2 (de) Verfahren zum ändern der grösse eines zitlerpuffers zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE602004006206T2 (de) System und Verfahren zur hochqualitativen Verlängerung und Verkürzung eines digitalen Audiosignals
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
EP1388147B1 (de) Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
DE112014000945B4 (de) Sprachbetonungsgerät
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee