DE60214358T2

DE60214358T2 - Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp

Info

Publication number: DE60214358T2
Application number: DE60214358T
Authority: DE
Inventors: Rakesh Taori; J. Andreas GERRITS; Dzevdet Burazerovic
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-04-05
Filing date: 2002-03-27
Publication date: 2007-08-30
Anticipated expiration: 2022-03-28
Also published as: WO2002082428A1; ATE338333T1; US20030033140A1; BR0204818A; KR20030009515A; EP1380029A1; US7412379B2; CN100338650C; JP2004519738A; CN1460249A; DE60214358D1; EP1380029B1

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft die Zeitskalenmodifikation (TSM) eines Signals, insbesondere eines Sprachsignals, und noch genauer ein System und ein Verfahren, bei dem verschiedene Techniken für die Zeitskalenmodifikation von stimmhafter und stimmloser Sprache verwendet wird.
HINTERGRUND DER ERFINDUNG
Zeitskalenmodifikation (TSM) eines Signals bezieht sich auf die Kompression oder Expansion der Zeitskale dieses Signals. Innerhalb von Sprachsignalen expandiert oder komprimiert die TSM des Sprachsignals die Zeitskale der Sprache, während die Identität des Sprechers (Tonhöhe, Formatstruktur) beibehalten wird. Als solche wird sie typischerweise für Zwecke erforscht, wo eine Veränderung der Aussprachegeschwindigkeit gewünscht wird. Derartige Anwendungen von TSM schließen Test-Sprachsynthese, Fremdsprachenlernprogramme und Film-/Tonspurnachsynchronisation ein.
Es sind zahlreiche Techniken zum Erfüllen des Bedarfs an hochqualitativer TSM von Sprachsignalen bekannt und Beispiele von derartigen Techniken sind in E. Moulines, J. Laroche, „Non parametric techniques for pitch scale and time scale modification of speech" beschrieben. In Sprachkommunikation (Niederlande), Bd. 16, Nr. 2, Seiten 175 bis 205, 1995.
Eine weitere mögliche Anwendung von TSM-Techniken liegt bei Sprachcodierung, über die allerdings viel weniger berichtet wird. Bei dieser Anwendung liegt die Grundintention darin, die Zeitskale eines Signals vor der Codierung zu komprimieren, die Anzahl von Sprachabtastwerten, die codiert werden müssen, zu reduzieren, und es mit einem reziproken Faktor nach der Decodierung zu expandieren, um die ursprüngliche Zeitskale wieder herzustellen. Dieses Konzept ist in 1 dargestellt. Weil die zeitskalenkomprimierte Sprache weiterhin ein zulässiges Sprachsignal ist, kann sie mit einem beliebigen Sprachcodierer verarbeitet werden. Beispielsweise könnte Sprachcodierung bei 6 kbit/s nun mit einem 8 kbit/s Codierer durchgeführt werden, mit einer vorausgehenden 25 % Zeitskalenkompression und einer nachfolgenden 33 % Zeitskalenexpansion.
Die Verwendung von TSM ist in der Vergangenheit in diesem Zusammenhang schon erforscht worden, und relativ gute Ergebnisse wurden bei der Verwendung verschiedener TSM-Verfahren und Sprachcodierern [1]–[3] beansprucht. In der letzten Zeit sind sowohl bei TSM- als auch bei Sprachcodierungstechniken Verbesserungen erzielt worden, wobei diese beiden meistens unabhängig voneinander untersucht worden sind.
Wie bei Moulines und Laroche detailliert ausgeführt, worauf vorstehend Bezug genommen wurde, besteht ein weitgehend verwendeter TSM-Algorithmus aus synchronisierter Überlappungsaddition (SOLA), die ein Beispiel eines Algorithmus mit Wellenform-Lösungsansatz ist. Seit ihrer Einführung [4] hat sich SOLA zu einem weitgehend verwendeten Algorithmus für TSM von Sprache weiterentwickelt. Da es sich um ein Korrelationsverfahren handelt, ist es genauso gut bei Sprache, die durch mehrere Sprecher erzeugt worden ist oder durch Hintergrundgeräusch verfälscht ist, und bis zu einem gewissen Maß bei Musik anwendbar.
Bei SOLA wird ein Eingangssprachsignal s als eine Sequenz von N Abtastwerte langen überlappenden Rahmen xi (i = 0, ..., m) analysiert, die nacheinander durch einen feststehenden Analysezeitraum von Sa, Abtastwerte (Sa < N), verzögert werden. Die Idee, von der ausgegangen wird, besteht darin, dass s durch Ausgeben dieser Rahmen komprimiert oder expandiert werden kann, während sie nun aufeinander folgend um einen Synthesezeitraum Ss verschoben werden können, welcher derart ausgewählt ist, dass Ss < Sa, beziehungsweise Ss > Sa, (Ss < N). Die überlappenden Segmente werden zuerst durch zwei amplitudenkomplementäre Funktionen gewichtet, anschließend addiert, was ein geeigneter Weg zum Bilden von Wellenformmittelwerten ist. 2 stellt eine derartige Technik mit Überlappungsaddition-Expansion dar. Der obere Teil zeigt die Stelle der aufeinander folgenden Rahmen in dem Eingangssignal. Der mittlere Teil zeigt, wie diese Rahmen während der Synthese neu positioniert werden, dabei werden zwei Hälften eines Hanning-Fensters für die Gewichtung verwendet. Schließlich ist das daraus resultierende zeitskalenexpandierte Signal in dem unteren Teil gezeigt.
Der tatsächliche Synchronisationsmechanismus von SOLA besteht aus zusätzlichem Verschieben von jedem xi während der Synthese, um eine Ähnlichkeit der überlappenden Wellenformen zu erzielen. Deutlicher gesagt, wird nun ein Rahmen xi anfangen, zu dem Ausgangssignal an der Stelle iSs + ki beizutragen, wo ki ermittelt wird, sodass die normalisierte Kreuzkorrelation, die durch Gleichung 1 gegeben ist, für k = ki maximal ist.
In dieser Gleichung bezeichnet s ~ das Ausgangssignal, während L die Länge der Überlappung bezeichnet; die einer bestimmten Verzögerung k in dem gegebenen Bereich [1] entspricht. Wenn ki ermittelt ist, werden die Synchronisationsparameter, die überlappenden Signale wie zuvor gemittelt. Bei einer großen Anzahl von Rahmen wird sich das Verhältnis der Ausgangs- und Eingangssignallänge dem Wert Ss/Sa annähern, infolgedessen ist der Skalierungsfaktor α definiert.
Wenn SOLA-Kompression mit der reziproken SOLA-Expansion gestaffelt wird, werden typischerweise mehrere Artefakte in die Ausgangssprache eingeführt, wie beispielsweise Nachhall, künstliche Klangfarbe und gelegentlicher Qualitätsverlust von Transienten.
Der Nachhall ist stimmhafter Sprache zugeordnet und kann der Bildung von Wellenformmittelwerten zugeschrieben werden. Sowohl Kompression als auch die darauf folgende Expansion bilden Mittelwerte ähnlicher Segmente. Allerdings wird Ähnlichkeit lokal gemessen, wodurch impliziert ist, dass die Expansion nicht notwendigerweise eine zusätzliche Wellenform in dem Bereich einfügt, wo sie „fehlte". Dies führt zu Wellenformglättung, möglicherweise sogar zur Einführung einer neuen lokalen Periodizität. Des Weiteren ist die Rahmenpositionierung während der Expansion so gestaltet, dass dieselben Segmente wieder verwendet werden, um eine zusätzliche Wellenform zu erzeugen. Dadurch wird bei stimmloser Sprache Korrelation eingeführt, was häufig als eine künstliche „Klangfarbe" empfunden wird.
Artefakte kommen außerdem in Sprachtransienten vor, d.h. Bereichen eines Übergangs zur Stimmhaftigkeit, welche herkömmlicherweise eine abrupte Veränderung des Signalenergiepegels zeigen. In demselben Maß wie der Skalierungsfaktor größer wird, vergrößert sich der Abstand zwischen „iSa" und „iSs", wodurch die Ausrichtung von ähnlichen Teilen eines Transienten zur Mittelwertbildung behindert werden kann. Infolgedessen verursacht Überlappung von einzelnen Teilen eines Transienten sein „Nachziehen", wodurch die richtige Wahrnehmung seiner Stärke und Zeitsteuerung gefährdet ist.
In [5] und [6] ist berichtet worden, dass ein kompandiertes Sprachsignal guter Qualität durch Verwenden der ki erreicht werden kann, die während der SOLA-Kompression erhalten werden. So werden, ziemlich im Gegensatz zu dem, was mit SOLA gemacht wird, N Abtastwerte lange Rahmen x ^i aus dem komprimierten Signal s ~ zu Zeitpunkten iSs + ki entfernt und an den ursprünglichen Zeitpunkten iSa wieder angeordnet (wobei die Mittelwertbildung der überlappenden Abtastwerte ähnlich wie zuvor ist). Die maximalen Kosten für Übertragen/Speichern aller ki ist durch die Gleichung 2 gegeben, wobei Ts der Sprachabtastwertzeitraum ist und ⌈⌉ die Rundungsoperation für die nächste höhere ganze Zahl darstellt.
Es ist außerdem berichtet worden, dass der Ausschluss von Transienten aus hoher (d.h. > 30 %) SOLA-Kompression oder -Expansion verbesserte Sprachqualität ergibt. [7]
Deswegen wird man zu schätzen wissen, dass es zur Zeit mehrere Techniken und Lösungsansätze gibt, die erfolgreich (z.B. mit gutem Qualitätsergebnis) zum Komprimieren oder Expandieren bei der Zeitskale von Signalen angewendet werden können. Obwohl spezifisch unter Bezugnahme auf Sprachsignale beschrieben, wird man zu schätzen wissen, dass diese Beschreibung eine beispielhafte Ausführungsform eines Signaltyps ist, und die Probleme, die mit Sprachsignalen zusammenhängen, auch für andere Signaltypen zutreffen. Bei Verwendung zu Codierungszwecken, bei denen die Zeitskalenexpansion (Zeitskalenkompandierung) auf die Zeitskalenkompression folgt, verschlechtert sich die Leistungsfähigkeit von vorbekannten Techniken deutlich. Die beste Leistungsfähigkeit für Sprachsignale wird im Allgemeinen aus Zeitbereichverfahren erhalten, bei denen SOLA weitgehend verwendet wird, wobei allerdings immer noch Probleme beim Anwenden dieser Verfahren bestehen, von denen einige vorstehend identifiziert worden sind. Deswegen besteht Bedarf daran, ein verbessertes Verfahren und System für Zeitskalenmodifikation eines Signals auf eine Weise zu schaffen, die für die Komponenten spezifisch ist, welche dieses Signal ausmachen.
US-5,809,454 offenbart ein Audio-Wiedergabegerät, das eine Funktion zum Umwandeln von Sprachgeschwindigkeit aufweist. Das Gerät ist eingerichtet, um zu bestimmen, ob das Audiosignal zu einem geräuschhaften Intervall oder zu einem geräuschlosen Intervall gehört. Ein geräuschloses Intervall kann gelöscht werden, wohingegen ein geräuschhaftes Intervall komprimiert oder expandiert werden kann.
EP 0 817 168 offenbart eine Einrichtung zum Verändern von Tongeschwindigkeit. Es wird eine Entscheidung getroffen, ob der Ton stimmhafte oder stimmlose Sprache enthält und der stimmhafte Ton wird verarbeitet. Der stimmlose Ton wird ohne Verarbeitung ausgegeben.
US-6,070,135 offenbart ein Zeitskalenmodifikationsverfahren, in welchem stimmhafte Töne, stimmlose Töne und Nicht-Töne unterschieden werden. Die stimmhaften Töne werden verändert, wohingegen die stimmlosen Töne nicht verändert werden.
US-5,808,994 offenbart die Verwendung von überlappenden Rahmen in der SOLA-Technik.
KURZDARSTELLUNG DER ERFINDUNG
Entsprechend stellt die vorliegende Erfindung ein Verfahren zur Zeitskalenmodifikation eines Signals, wie in Anspruch 1 ausgeführt, zur Verfügung. Durch Bereitstellen eines Verfahrens, welches individuelle Rahmensegmente innerhalb eines Signals analysiert und verschiedene Algorithmen auf spezifische Signaltypen anwendet, ist es möglich, die Modifikation des Signals zu optimieren. Eine derartige Anwendung von spezifischen Modifikationsalgorithmen auf spezifische Signaltypen ermöglicht eine Modifikation des Signals auf eine Weise, die angepasst ist, um auf unterschiedliche Anforderungen der individuellen Komponentensegmente, die das Signal ausmachen, einzugehen.
Das Verfahren wird auf Sprachsignale angewendet und das Signal wird auf stimmhafte und nicht stimmhafte Komponenten hin analysiert, wobei unterschiedliche Expansions- oder Kompressionstechniken für die unterschiedlichen Signaltypen verwendet werden. Die Technikauswahl ist für den speziellen Signaltyp optimiert.
Die vorliegende Erfindung schafft zusätzlich ein Expansionsverfahren gemäß Anspruch 8. Die Expansion des Signals wird durch Aufspaltung des Signals in Abschnitte und durch Einfügung von Geräusch zwischen die Abschnitte bewirkt. Das Geräusch besteht aus synthetisch erzeugtem Geräusch, anstatt aus den existierenden Abtastwerten erzeugt zu werden, wodurch die Einführung einer Geräuschsequenz ermöglicht wird, die ähnliche spektrale und energetische Eigenschaften wie die der Signalkomponenten aufweist.
Die Erfindung schafft außerdem ein Verfahren zum Empfangen eines Audiosignals, wobei das Verfahren das Zeitskalenmodifikationsverfahren von Anspruch 1 verwendet.
Die Erfindung schafft außerdem eine Einrichtung, die angepasst ist, um das Verfahren von Anspruch 1 auszuführen.
Diese und weitere Merkmale der vorliegenden Erfindung sind unter Bezugnahme auf die nachfolgenden Zeichnungen besser verständlich.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine schematische Darstellung, welche die bekannte Verwendung von TSM in Codierungsanwendungen zeigt,
2 zeigt Zeitskalenexpansion durch Überlappen gemäß einer vorbekannten Implementierung,
3 ist eine schematische Darstellung, welche Zeitskalenexpansion von stimmloser Sprache durch Hinzufügen vom geeigneten modellierten synthetischen Geräusch gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt,
4 ist eine schematische Darstellung eines TSM-basierten Sprachcodierungssystems gemäß einer Ausführungsform der vorliegenden Erfindung,
5 ist ein Kurvendiagramm, das die Segmentierung und Fensterbildung von stimmloser Sprache für LPC-Berechnung zeigt,
6 zeigt eine parametrische Zeitskalenexpansion von stimmloser Sprache um den Faktor b > 1,
7 ist ein Beispiel von zeitskalenkompandierter stimmloser Sprache, wobei das Geräuscheinführungsverfahren der vorliegenden Erfindung zum Zweck von Zeitskalenexpansion verwendet worden ist, und TDHS zum Zweck von Zeitskalenkompression,
8 ist eine schematische Darstellung eines Sprachcodierungssystems, bei dem TSM gemäß der vorliegenden Erfindung integriert ist,
9 ist ein Kurvendiagramm, das zeigt, wie der Puffer, welcher die Eingangssprache hält, durch Verschiebung nach links der Sa Abtastwerte langen Rahmen, aktualisiert wird,
10 zeigt den Fluss der Eingangs-(-Rechts) und Ausgangssprache(-Links) in dem Kompressor,
11 zeigt ein Sprachsignal und die entsprechende Stimmhaftigkeitskontur (stimmhaft = 1),
12 ist eine Darstellung von unterschiedlichen Puffern während der anfänglichen Expansionsstufe, die der in 10 gezeigten Kompression direkt folgt,
13 zeigt das Beispiel, in welchem ein vorhandener stimmloser Rahmen unter Verwendung des parametrischen Verfahrens nur dann expandiert wird, wenn sowohl frühere als auch spätere Rahmen auch stimmlos sind, und
14 zeigt, wie während stimmhafter Expansion der vorhandene Ss Abtastwerte lange Rahmen durch Ausgeben von vorderen Sa Abtastwerten von einem 2Sa Abtastwerte langen Puffer Y expandiert wird.
AUSFÜHRLICHE BESCHREIBUNG DER ZEICHNUNGEN
In einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren für Zeitskalenmodifikation von Signalen bereitgestellt und ist besonders für Audiosignale geeignet und gehört speziell zu der Expansion von stimmloser Sprache und ist ausgelegt, um das Problem von künstlicher Klangfarbe zu überwinden, das durch den „Wiederholungsmechanismus" eingeführt wird, der in allen Zeitbereichverfahren von sich aus vorhanden ist. Die Erfindung stellt die Verlängerung der Zeitskale durch Einführen einer geeigneten Menge an synthetischem Geräusch bereit, welches die spektralen und energetischen Eigenschaften der Eingangssequenz widerspiegelt. Die Schätzung dieser Eigenschaften basiert auf LPC (Linearer Prädiktionscodierung) und Varianzanpassung. Bei einer bevorzugten Ausführungsform werden die Modellparameter von dem Eingangssignal abgeleitet, welches ein schon komprimiertes Signal sein kann, wodurch die Notwendigkeit ihrer Übertragung vermieden wird. Obwohl nicht beabsichtigt ist, die Erfindung durch irgendeine theoretische Analyse einzuschränken, ist angedacht, dass nur eine begrenzte Verzerrung der vorstehend erwähnten Eigenschaften einer stimmlosen Sequenz durch eine Kompression ihrer Zeitskale verursacht wird. 4 zeigt eine schematische Übersicht des Systems der vorliegenden Erfindung. Der obere Teil zeigt die Verarbeitungsstufen auf der Codiererseite. Ein Sprachklassierer, der durch den Block „V/UV" dargestellt ist, ist eingeschlossen, um stimmlose und stimmhafte Sprache (Rahmen) zu bestimmen. Jegliche Sprache wird durch Verwendung von SOLA komprimiert, außer den stimmhaften Anfängen, die umgesetzt werden. Mit dem Ausdruck umgesetzt, so wie in der vorliegenden Spezifikation verwendet, ist gemeint, dass diese Rahmenkomponenten aus TSM ausgeschlossen sind. Synchronisationsparameter und Entscheidungen über Stimmhaftigkeit werden durch einen Seitenkanal übertragen. Wie in dem unteren Teil gezeigt, werden sie verwendet, um die decodierte Sprache (Rahmen) zu identifizieren und um das geeignete Expansionsverfahren auszuwählen. Man wird deswegen zu schätzen wissen, dass die vorliegende Erfindung die Anwendung von verschiedenen Algorithmen auf verschiedene Signaltypen bereitstellt, beispielsweise wird in einer bevorzugten Anwendung stimmhafte Sprache durch SOLA expandiert, wohingegen stimmlose Sprache unter Verwendung des parametrischen Verfahrens expandiert wird.
Parametrische Modellierung von stimmloser Sprache Lineare Prädiktionscodierung ist ein weit verbreitet angewendetes Verfahren bei Sprachverarbeitung, in welchem das Prinzip der Voraussage des aktuellen Abtastwertes aus einer linearen Kombination vorausgehender Abtastwerte verwendet wird. Dies wird durch Gleichung 3.1 oder, gleichwertig, durch ihr z-transformiertes Gegenstück 3.2 beschrieben. In Gleichung 3.1 bezeichnen s und s ^ jeweils ein ursprüngliches Signal und seine LPC-Schätzung und e den Prädiktionsfehler. Des Weiteren bestimmt M die Prädiktionsreihenfolge und ai sind die LPC-Koeffizienten. Diese Koeffizienten werden durch einige der hinlänglich bekannten Algorithmen ([6], 5.3) abgeleitet, welche herkömmlicherweise auf der kleinsten Fehlerquadratminimierung (LSE) beruhen, d.h. Minimierung von Σ_ne²[n]
Unter Verwendung der LPC-Koeffizienten kann eine Sequenz s durch das Syntheseverfahren, das durch Gleichung 3.2 ausgedrückt ist, annähernd bestimmt werden. Genauer gesagt wird der Filter (H)z, (häufig als 1/A(z) bezeichnet), durch ein eigenes Signal e erregt, welches idealerweise die Art des Prädiktionsfehlers widerspiegelt. Im Fall von stimmloser Sprache ist eine geeignete Erregung normal verteiltes durchschnittlich Null Geräusch.
Letztendlich wird das Erregungsgeräusch, um eine angemessene Amplitudenpegelvariation der synthetischen Sequenz sicherzustellen, mit einem geeigneten Verstärkungsfaktor G multipliziert. Solch ein Verstärkungsfaktor wird passenderweise basierend auf Varianzanpassung mit der ursprünglichen Sequenz s berechnet, was durch die Gleichungen 3.3 ausgedrückt ist. Normalerweise kann angenommen werden, dass der mittlere Wert s - eines stimmlosen Tons s gleichwertig mit 0 ist. Dies muss allerdings nicht der Fall für sein beliebiges Segment sein, insbesondere wenn s zuerst einer Mittelwertbildung der Zeitbereichgewichtung (zum Zweck von Zeitskalenmodifikation) unterzogen worden ist.
Die beschriebene Art zur Signalschätzung ist nur bei stationären Signalen akkurat. Deswegen sollte sie nur bei Sprachrahmen angewendet werden, welche so gut wie stationär sind. Wenn es sich um LPC-Berechnung handelt, schließt Sprachsegmentierung außerdem Fensterbildung ein, welche den Zweck der Minimierung von Nachziehen in dem Frequenzbereich hat. Dies ist in 5 dargestellt, die ein Hamming-Fenster zeigt, wobei N die Rahmenlänge kennzeichnet (typischerweise 15 bis 20 ms) und T den Analysezeitraum.
Schließlich sollte darauf hingewiesen werden, dass die Verstärkungs- und LPC-Berechnung nicht notwendigerweise bei derselben Geschwindigkeit durchgeführt werden müssen, da die Zeit- und Frequenzauflösung, die zu einer akkuraten Schätzung der Modellparameter benötigt werden, nicht dieselben sein müssen. Typischerweise werden die LPC-Parameter alle 10 ms aktualisiert, wohingegen der Verstärkungsfaktor viel schneller (z.B. alle 2,5 ms) aktualisiert wird. Zeitauflösung (durch die Verstärkungsfaktoren beschrieben) für stimmlose Sprache, ist wahrnehmungsmäßig wichtiger als Frequenzauflösung, da stimmlose Sprache typischerweise mehr höhere Frequenzen als stimmhafte Sprache aufweist.
Ein möglicher Weg, um Zeitskalenmodifikation von stimmloser Sprache unter Verwendung der zuvor diskutierten parametrischen Modellierung zu realisieren, besteht darin, die Synthese mit einer unterschiedlichen Geschwindigkeit als der Analyse durchzuführen, und in 6 ist eine Zeitskalenexpansionsstechnik dargestellt, welche diese Idee verwertet. Die Modellparameter werden bei einer Geschwindigkeit 1/T (1) abgeleitet und für die Synthese (3) bei einer Geschwindigkeit 1/bT verwendet. Die während der Synthese eingesetzten Hamming-Fenster werden nur verwendet, um die Geschwindigkeitsveränderung darzustellen. In der Praxis wäre eine zur Leistung komplementäre Gewichtung am geeignetsten. Während der Analysestufe werden die LPC-Koeffizienten und der Verstärkungsfaktor von dem Eingangsignal abgeleitet, hier bei derselben Rate. Insbesondere nach jedem Zeitraum von T Abtastwerten, werden ein Vektor von LPC-Koeffizienten a und ein Verstärkungsfaktor G über die Länge von N Abtastwerte, d.h. für einen N Abtastwerte langen Rahmen berechnet. In gewisser Weise kann dies als eine Definition eines „zeitlichen Vektorraumes" V angesehen werden, gemäß Gleichung 3.4, die zur Vereinfachung als ein zweidimensionales Signal gezeigt ist. V = V(a(t), G(t)) (a = [a1, ..., aM], t = nT, n = 1, 2, ...) (Gleichung 3.4)
Um Zeitskalierungsexpansion mit einem Skalierungsfaktor von b (b > 1) zu erhalten, wird dieser Vektorraum vor der Synthese einfach um denselben Faktor „abwärts abgetastet". Genauer gesagt wird nach jedem Zeitraum von bT Abtastwerten ein Element von V für die Synthese eines neuen N Abtastwerte langen Rahmens verwendet.
Infolgedessen werden sich die Syntheserahmen, verglichen mit den Analyserahmen, zeitlich um einen geringen Betrag überlappen. Um dies zu demonstrieren, sind die Rahmen noch einmal unter Verwendung der Hamming-Fenster eingezeichnet worden. In der Praxis wird man zu schätzen wissen, dass die überlappenden Teile der Syntheserahmen stattdessen durch Anwendung der zur Leistung komplementären Gewichtung gemittelt werden können, wobei zu diesem Zweck die geeigneten Fenster eingesetzt werden. Man wird zu schätzen wissen, dass durch die Durchführung der Synthese bei einer schnelleren Geschwindigkeit als die der Analyse die Zeitskalenkompression auf eine ähnliche Weise erreicht werden kann.
Die Fachleute werden zu schätzen wissen, dass das Ausgangssignal, das durch Anwendung dieses Lösungsansatzes erzeugt wird, ein vollständig synthetisches Signal ist. Als eine mögliche Abhilfe, um die Artefakte zu reduzieren, die normalerweise als eine erhöhte Rauschbehaftung wahrgenommen werden, könnte eine schnellere Aktualisierung dem Verstärkungsfaktor dienen. Ein wirkungsvollerer Lösungsansatz besteht allerdings darin, die Menge an synthetischem Geräusch in dem Ausgangssignal zu reduzieren. Im Fall von Zeitskalenexpansion kann dies, wie nachstehend im Einzelnen ausgeführt, erreicht werden.
Anstatt ganze Rahmen bei einer bestimmten Geschwindigkeit zu synthetisieren, ist in einer Ausführungsform der vorliegenden Erfindung ein Verfahren zum Hinzufügen einer geeigneten und kleineren Geräuschmenge bereitgestellt, die verwendet wird, um die Eingangsrahmen zu verlängern. Das zusätzliche Geräusch für jeden Rahmen wird ähnlich wie zuvor erhalten, nämlich von den Modellen (LPC-Koeffizienten und dem Verstärkungsfaktor), die für diesen Rahmen abgeleitet werden. Wenn komprimierte Sequenzen expandiert werden, kann sich insbesondere die Fensterlänge für LPC-Berechnung im Allgemeinen über die Rahmenlänge hinaus ausdehnen. Dies ist hauptsächlich dazu vorgesehen, um dem Bereich von Interesse ein ausreichendes Gewicht zu verleihen. Darauf folgend wird von einer komprimierten Sequenz angenommen, die gerade analysiert wird, dass sie die spektralen und energetischen Eigenschaften der ursprünglichen Sequenz, aus welcher sie erhalten worden ist, ausreichend behalten hat.
Unter Verwendung der Darstellung aus 3 wird als Erstes eine eingegebene stimmlose Sequenz s[n] der Segmentierung in Rahmen unterzogen. Jeder der L Abtastwerte langen Eingangsrahmen
wird auf eine gewünschte Länge von LE Abtastwerte expandiert (LE = α·L, wobei α > 1 der Skalierungsfaktor ist). Gemäß der vorausgehenden Erläuterung wird die LPC-Analyse an den entsprechenden längeren Rahmen
durchgeführt, welche zu diesem Zweck mit Fenstern versehen werden.
Die zeitskalenexpandierte Version eines bestimmten Rahmens
(gekennzeichnet mit si) wird dann folgendermaßen erhalten. Eine LE Abtastwerte lange, durchschnittlich null und normal verteilte (σe = 1) Geräuschfrequenz wird durch den Filter 1/A(z) geformt, mit der Definition der LPC-Koeffizienten, die von
abgeleitet werden. Einer derartig geformten Geräuschsequenz werden anschließend Verstärkungsfaktor und Durchschnittswerte gegeben, die mit denjenigen von Rahmen
gleichwertig sind. Die Berechnung dieser Parameter ist durch Block „G" dargestellt.
Als Nächstes wird Rahmen
in zwei Hälften aufgeteilt, nämlich
und das zusätzliche Geräusch wird zwischen sie eingeführt. Dieses hinzugefügte Geräusch wird aus der Mitte der zuvor synthetisierten Geräuschsequenz mit Länge LE entfernt. Praktischerweise wird man zu schätzen wissen, dass diese Aktionen durch geeignetes Versehen mit Fenstern und Null-Auffüllen erreicht werden können, wodurch jeder Sequenz dieselbe Länge von LE Abtastwerten verliehen wird, wobei sie anschließend einfach alle zusammenaddiert werden.
Darüber hinaus deuten Fenster an, die durch unterbrochene Linien gezeichnet sind, dass Mittelwertbildung (Überblenden) um die Knotenpunkte des Gebiets herum durchgeführt werden kann, wo das Geräusch eingeführt wird. Dennoch bleiben aufgrund des geräuschartigen Charakters von allen beteiligten Signalen mögliche (wahrnehmbare) Vorteile von derartigem „Glätten" in den Übergangsbereichen eingeschlossen.
In 7 wird der vorstehend erläuterte Lösungsansatz durch ein Beispiel dargestellt. Als Erstes ist TDHS-Kompression auf eine ursprüngliche stimmlose Sequenz s[n] angewendet worden, wodurch sc[n] als Ergebnis erzeugt wird. Die ursprüngliche Zeitskale ist anschließend durch Anwenden von Expansion auf sc[n] wiederhergestellt worden. Die Geräuscheinführung ist durch vergrößerte Darstellung von zwei bestimmten Rahmen deutlich gemacht worden.
Es versteht sich, dass die zuvor beschriebene Weise von Geräuscheinführung mit der normalen Durchführungsweise von LPC-Analyse übereinstimmt, wobei das Hamming-Fenster angewendet wird, und weil dem mittleren Teil des Rahmens das höchste Gewicht gegeben wird, scheint die Geräuscheinführung in die Mitte logisch. Wenn der Eingangsrahmen einen Bereich in der Nähe eines akustischen Ereignisses markiert, wie eines Übergangs zur Stimmhaftigkeit, dann kann allerdings die Geräuscheinführung eher auf eine unterschiedliche Weise wünschenswert sein. Wenn der Rahmen beispielsweise aus stimmloser Sprache besteht, die sich schrittweise in eine eher „stimmhaftartige" Sprache verändert, dann würde die Einführung von synthetischem Geräusch näher am Anfang des Rahmens (wo sich die meiste geräuschartige Sprache befindet) am geeignetsten sein. Ein asymmetrisches Fenster, wodurch das meiste Gewicht in den linken Teil des Rahmens gelegt wird, könnte dann geeigneterweise zum Zweck der LPC-Analyse verwendet werden. Deswegen wird man zu schätzen wissen, dass die Einführung von Geräusch in verschiedene Bereiche des Rahmens für verschiedene Signaltypen in Erwägung gezogen werden kann.
8 zeigt ein TSM-basiertes Codierungssystem, in welches alle zuvor erläuterten Konzepte integriert sind. Das System umfasst einen (abstimmbaren) Kompressor und einen entsprechenden Dynamikdehner, die es ermöglichen, einen beliebigen Sprach-Codierer-Decodierer zwischen ihnen anzuordnen. Das Zeitskalenkompandieren wird wünschenswerterweise durch Kombinieren von SOLA, parametrischer Expansion von stimmloser Sprache und dem zusätzlichen Konzept von Umsetzen stimmhafter Anfänge durchgeführt. Man wird außerdem zu schätzen wissen, dass das Sprachcodierungssystem der vorliegenden Erfindung auch unabhängig für die parametrische Expansion von stimmloser Sprache verwendet werden kann. In den folgenden Abschnitten werden Einzelheiten bezüglich des Systemaufbaus und der Ausführung seiner TSM-Stufen gegeben, einschließlich eines Vergleichs mit einigen Standardsprachcodierern.
Der Signalfluss kann folgendermaßen beschrieben werden. Die eingehende Sprache wird der Pufferung und Segmentierung in Rahmen unterzogen, um den darauf folgenden Verarbeitungsstufen zu entsprechen. Indem eine Stimmhaftigkeitsanalyse an der gepufferten Sprache (innerhalb des mit „V/UV" gekennzeichneten Blocks) und indem die aufeinander folgenden Rahmen innerhalb des Puffers verschoben werden, wird nämlich ein Fluss der Informationen über Stimmhaftigkeit erzeugt, die ausgenutzt werden, um Sprachteile zu klassifizieren und sie dementsprechend zu behandeln. Insbesondere werden stimmhafte Anfänge umgesetzt, wohingegen alle andere Sprache unter Verwendung von SOLA komprimiert wird. Die sich daraus ergebenden Rahmen werden dann an den Codierer-Decodierer (A) übergeben oder gehen direkt zu dem Dynamikdehner an dem Codierer-Decodierer (B) vorbei. Gleichzeitig werden die Synchronisationsparameter durch einen Seitenkanal übertragen. Sie werden verwendet, um ein bestimmtes Expansionsverfahren auszuwählen und durchzuführen. Das bedeutet, stimmhafte Sprache wird unter Verwendung von SOLA-Rahmenverschiebungen ki expandiert. Während SOLA werden die N Abtastwerte langen Analyserahmen xi aus einem Eingangssignal zu Zeiten iSa entfernt, und zu den entsprechenden Zeiten ki + iSs ausgegeben. Schließlich kann eine derartig modifizierte Zeitskale durch das umgekehrte Verfahren wiederhergestellt werden, d.h. durch Entfernen von N Abtastwerte langen Rahmen x ^i aus dem Zeitskalen modifizierten Signal bei Zeiten ki + Ss, und indem sie bei Zeiten iSa ausgegeben werden.
Dieses Verfahren kann durch Gleichung 4.0 ausgedrückt werden, wobei s ~ und s ^ jeweils die TSM-verarbeitete und rekonstruierte Version eines ursprünglichen Signals s bezeichnen. Dabei wird angenommen, dass k0 = 0 ist, gemäß der Indexierung von k, angefangen bei m = 1. x ^i[n] können zahlreiche Werte zugeordnet werden, d.h. Abtastwerte von verschiedenen Rahmen, welche sich zeitlich überlappen werden und durch Überblenden gemittelt werden sollten.
Durch Vergleichen der aufeinander folgenden überlappungsaddierten Stufen von SOLA und dem vorstehend ausführten Rekonstruktionsverfahren ist leicht ersichtlich, dass x ^i und xi im Allgemeinen nicht identisch sein werden. Deswegen wird man zu schätzen wissen, dass diese beiden Verfahren nicht genau ein „1-1" Transformationspaar darstellen. Allerdings ist die Qualität einer derartigen Rekonstruktion deutlich höher verglichen damit, wenn nur SOLA unter Verwendung eines reziproken Ss = Sa Verhältnisses angewendet wird.
Die stimmlose Sprache wird wünschenswerterweise unter Verwendung des zuvor beschriebenen parametrischen Verfahrens expandiert. Es wird darauf hingewiesen, dass die umgesetzten Sprachsegmente verwendet werden, um die Expansion zu realisieren, anstatt einfach in den Ausgang kopiert zu werden. Durch geeignetes Puffern und Manipulieren von allen empfangenen Daten wird ein synchronisiertes Verarbeiten erhalten, wobei jeder eingehende Rahmen der ursprünglichen Sprache einen Rahmen an dem Ausgang (nach einer anfänglichen Verzögerung) erzeugen wird.
Man wird zu schätzen wissen, dass ein stimmhafter Anfang einfach als ein Übergang von stimmlosartiger zu stimmhaftartiger Sprache detektiert wird.
Schließlich sollte darauf hingewiesen werden, dass die Stimmhaftigkeitsanalyse im Prinzip außerdem an der komprimierten Sprache durchgeführt werden könnte, und dieses Verfahren könnte infolgedessen dazu verwendet werden, die Notwendigkeit auszuschalten, dass die Informationen über Stimmhaftigkeit übertragen werden. Allerdings würde die Sprache zu diesem Zweck eher unpassend sein, weil normalerweise relativ lange Analyserahmen analysiert werden müssen, um zuverlässige Entscheidungen über Stimmhaftigkeit zu erhalten.
9 zeigt die Verwaltung eines Puffers von Eingangssprache gemäß der vorliegenden Erfindung. Die Sprache, die in dem Puffer zu einer bestimmten Zeit enthalten ist, ist durch das Segment
dargestellt. Das Segment
das unter dem Hamming-Fenster liegt, wird der Stimmhaftigkeitsanalyse unterzogen, wodurch eine Entscheidung über Stimmhaftigkeit bereitgestellt wird, die den V Abtastwerten in der Mitte zugeordnet ist. Das Fenster dient nur zur Darstellung und deutet nicht auf die Notwendigkeit für Gewichtung der Sprache hin; ein Beispiel der Techniken, welche für jegliche Gewichtung verwendet werden können, kann in R.J. McAulay und T.F. Quatieri, „Pitch estimation and voicing detection based on a sinusoidal speech model", IEEE Int. Conf. on Acoustics Speech and Signal Processing, 1990, gefunden werden. Die erworbene Entscheidung über Stimmhaftigkeit wird dem Sa Abtastwerte langen Segment
zugeordnet, wobei V ≤ S_a und |S_a – V| << S_a. Des Weiteren wird die Sprache in Sa Abtastwerte lange Rahmen
segmentiert, wodurch eine bequeme Ausführung von SOLA- und Puffermanagement ermöglicht wird. Insbesondere werden
und
die Rolle von zwei aufeinander folgenden SOLA-Analyserahmen xi und xi + 1 spielen, wohingegen der Puffer durch Verschiebung nach links von Rahmen
(i = 0, 1, 2) aktualisiert wird und indem neue Abtastwerte an die „geleerte" Position von
gesetzt werden.
Die Kompression kann einfach unter Verwendung von 10 beschrieben werden, wo vier anfängliche Iterationen dargestellt sind. Der Fluss der Eingangs- und Ausgangssprache kann jeweils auf der rechten und linken Seite der Figur verfolgt werden, wobei einige bekannte Merkmale von SOLA zu sehen sind. Bei den Eingangsrahmen sind stimmhafte mit „1" und stimmlose mit „0" gekennzeichnet.
Anfänglich enthält der Puffer ein Null-Signal. Anschließend wird ein erster Rahmen
gelesen, wobei in diesem Fall ein stimmhaftes Segment angekündigt wird. Es wird darauf hingewiesen, das die Stimmhaftigkeit dieses Rahmen erst dann bekannt sein wird, wenn er an der Position von
angekommen ist, in Übereinstimmung mit der vorstehend beschriebenen Art, die Stimmhaftigkeitsanalyse durchzuführen. Demzufolge beträgt die algorithmische Verzögerung 3Sa Abtastwerte. Auf der linken Seite stellt der sich durchgängig verändernde grau markierte Rahmen, infolgedessen Syntheserahmen, die vordere Abtastwerte des Puffers dar, welcher die Ausgangs-(Synthese)-Sprache zu einer bestimmten Zeit hält. (Wie deutlich werden wird, beträgt die minimale Länge dieses Puffers (ki)max + 2Sa = 3Sa Abtastwerte). In Übereinstimmung mit SOLA wird dieser Rahmen durch Überlappungsaddition mit den darauf folgenden Analyserahmen mit einer Geschwindigkeit aktualisiert, die durch Ss (Ss < Sa) bestimmt wird. So sind die Ss Abtastwerte langen Rahmen
und
nach den ersten beiden Iterationen nacheinander ausgegeben worden, da sie für neue Aktualisierungen veraltet sind, jeweils durch die Analyserahmen
Diese SOLA-Kompression wird solange fortgesetzt, bis sich die aktuelle Entscheidung über Stimmhaftigkeit von 0 zu 1 verändert, was hier in Schritt 3 passiert. An diesem Punkt wird der gesamte Syntheserahmen ausgegeben, außer seinen letzten Sa Abtastwerten, an welche die letzten Sa Abtastwerte von dem aktuellen Analyserahmen angehängt werden. Dies kann als eine Re-Initialisierung des Syntheserahmens angesehen werden, der nun zu
wird.
Damit beginnt in Schritt 4 ein neuer SOLA-Kompressionzyklus, usw.
Es ist ersichtlich, dass, während die Sprachkontinuität beibehalten wird, einiges von dem Rahmen
umgesetzt wird, als auch mehrere Eingangsrahmen, die auf ihn folgen, dank SOLA's langsamer Konvergenz. Diese Teile entsprechen genau dem Bereich, der am wahrscheinlichsten einen stimmhaften Anfang enthält.
Nun kann daraus geschlossen werden, dass nach jeder Iteration der Kompressor ein „Informationstriplett" ausgeben wird, das aus einem Sprachrahmen, SOLA k und einer Entscheidung über Stimmhaftigkeit besteht, die dem vorderen Rahmen in dem Puffer entspricht. Da während der Umsetzung keine Kreuzkorrelation berechnet wird, wird ki = 0 jedem umgesetzten Rahmen zugeordnet. So werden durch Kennzeichnung von Sprachrahmen durch ihre Länge die Tripletts produziert, die in diesem Fall (Ss, ko, 0), (Ss, k1, 0), (Sa + k1, 0, 0) und (Ss, k3, 1) sind. Es wird darauf hingewiesen, dass die Übertragung von (den meisten) k's, die während der Kompression von stimmloser Sprache erhalten werden, überflüssig ist, weil (die meisten) stimmlosen Rahmen unter Verwendung des parametrischen Verfahrens expandiert werden.
Der Dynamikdehner ist wünschenswerterweise eingerichtet, um die Synchronisationsparameter nach zu verfolgen, damit die eingehenden Rahmen identifiziert und sie entsprechend behandelt werden.
Die Hauptkonsequenz aus der Umsetzung von stimmhaften Anfängen besteht darin, dass eine kontinuierliche Zeitskalenkompression „gestört" wird. Man wird zu schätzen wissen, dass alle komprimierten Rahmen eine gleichwertige Länge von Ss Abtastwerten aufweisen, wohingegen die Länge von umgesetzten Rahmen variabel ist.
Dadurch könnten Schwierigkeiten bei der Beibehaltung einer konstanten Bitrate auftreten, wenn die Codierung auf die Zeitskalenkompression folgt. In diesem Stadium haben wir die Wahl getroffen, die Anforderung, eine konstante Bitrate zu erzielen, zu Gunsten einer besseren Qualität zu vernachlässigen.
Im Hinblick auf die Qualität könnte man genauso gut argumentieren, dass durch Beibehalten eines Segments der Sprache während der Umsetzung Diskontinuitäten eingeführt werden könnten, wenn die Verbindungssegmente auf ihren beiden Seiten verzerrt sind. Indem stimmhafte Anfänge frühzeitig detektiert werden, wozu gehört, dass das umgesetzte Segment mit einem Teil der stimmlosen Sprache beginnt, die dem Anfang vorausgeht, ist es möglich, die Auswirkung von solchen Diskontinuitäten zu minimieren. Man wird außerdem zu schätzen wissen, dass SOLA eine langsame Konvergenz bei moderaten Kompressionsgeschwindigkeiten hat, wodurch sichergestellt ist, dass der endende Teil der umgesetzten Sprache einiges der stimmhaften Sprache einschließen wird, das auf den Anfang folgt.
Man wird zu schätzen wissen, dass während der Kompression jeder ankommende Sa Abtastwerte lange Rahmen einen Ss oder Sa + ki – 1 (ki ≤ Sa) Abtastwerte langen Rahmen an dem Ausgang erzeugen wird. Um infolgedessen die ursprüngliche Zeitskale wiederherzustellen, sollte die Sprache, die von dem Dynamikdehner kommt, wünschenswerterweise Sa Abtastwerte lange Rahmen umfassen oder aus Rahmen bestehen, die verschiedene Längen aufweisen, aber dieselbe Gesamtlänge von m·Sa erzeugen, wobei m die Anzahl von Iterationen ist. Die vorliegende Diskussion bezieht sich auf eine Realisierung, die in der Lage ist, die gewünschte Länge nur zu schätzen und ist das Ergebnis einer pragmatischen Wahl, die uns erlaubt, die Operationen zu vereinfachen und die Einführung von weiterer algorithmischer Verzögerung zu vermeiden. Man wird zu schätzen wissen, dass eine alternative Methodologie bei abweichenden Anwendungen als notwendig angesehen werden kann.
Nachfolgend wird angenommen, dass über mehrere separate Puffer verfügt wird, die alle durch einfaches Verschieben von Abtastwerten aktualisiert werden. Zum Zweck der Darstellung werden die kompletten „Informationstripletts" gezeigt, wie sie durch den Dynamikdehner erzeugt werden, einschließlich der k, die während der Kompression von stimmlosen Tönen erhalten werden, von denen die meisten tatsächlich veraltet sind.
Dies ist außerdem in 12 dargestellt, wo ein anfänglicher Zustand gezeigt wird. Der Puffer für eingehende Sprache ist durch Segment
dargestellt, das 4Sa Abtastwerte lang ist. Zum Zweck der Darstellung wird angenommen, dass die Expansion direkt auf die in 10 beschriebene Kompression folgt. Zwei zusätzliche Puffer
und Y werden jeweils dazu dienen, die Eingangsinformationen für die LPC-Analyse bereitzustellen und die Expansion von stimmhaften Teilen zu erleichtern. Zwei weitere Puffer werden eingesetzt, um Synchronisationsparameter, nämlich die Entscheidungen über Stimmhaftigkeit und die k zu halten. Der Fluss dieser Parameter wird als Kriterium verwendet, um die eingehenden Sprachrahmen zu identifizieren und um sie entsprechend zu behandeln. Von nun an wird auf die Positionen 0, 1 und 2 jeweils als Vergangenheit, Gegenwart und Zukunft Bezug genommen.
Während der Expansion können einige typische Aktionen an dem „aktuellen" Rahmen vorgenommen werden, die durch bestimmte Zustände der Puffer aufgerufen werden, welche die Synchronisationsparameter enthalten. Im Folgenden wird dies anhand von Beispielen deutlich gemacht.
1. Stimmlose Expansion
Das zuvor beschriebene parametrische Expansionsverfahren wird nur in der Situation eingesetzt, wo alle drei Rahmen von Interesse stimmlos sind, wie in 13 gezeigt. Dies setzt voraus, dass
oder Sa + k[1]. Später wird außerdem eine zusätzliche Anforderung eingeführt und erläutert, die festlegt, dass diese Rahmen keine direkte Fortsetzung eines stimmhaften Endes (Übergang von stimmhafter zu stimmloser Sprache) bilden sollten.
Infolgedessen wird der aktuelle Rahmen
auf die Länge von Sa Abtastwerte verlängert und ausgegeben, worauf eine Verschiebung der Pufferinhalte um Ss Abtastwerte nach links folgt, wodurch
zu dem neuen aktuellen Rahmen wird und die Inhalte des „LPC-Puffers"
aktualisiert werden, (typischerweise
2. Stimmhafte Expansion
Ein möglicher Stimmhaftigkeitszustand, wodurch dieses Expansionsverfahren aufgerufen wird, ist in 14 dargestellt. Zunächst wird angenommen, dass das komprimierte Signal mit
anfängt, d.h. dass
und k[0] leer sind. Anschließend stellen Y und X genau die ersten beiden Rahmen eines Zeitskale-„Rekonstruktionsprozesses" dar. Bei diesem „Rekonstruktionsprozess" müssen 2Sa Abtastwerte lange Rahmen x ^i, wobei in diesem Fall
sind, aus dem komprimierten Signal an der Position iSs + ki entfernt werden und wieder an die ursprüngliche Position iSa „zurückgesetzt" werden, wobei die überlappenden Abtastwerte überblendet werden. Die ersten Sa Abtastwerte von Y werden während der Überlappung nicht verwendet, also werden sie ausgegeben. Dies kann als Expansion eines Ss Abtastwerte langen Rahmens
angesehen werden, der anschließend durch seinen Nachfolger
durch die übliche Verschiebung nach links ersetzt wird. Nun ist klar, dass alle darauf folgenden Ss Abtastwerte langen Rahmen auf analoge Weise expandiert werden können, d.h. durch Ausgeben erster Sa Abtastwerte aus dem Puffer Y, wobei der Rest dieses Puffers kontinuierlich durch Überlappungsaddition mit X aktualisiert wird, das für ein bestimmtes vorhandenes k, d.h. k[1] erhalten wird. X wird genauer gesagt 2Sa Abtastwerte von dem Eingangspuffer enthalten, angefangen mit dem Ss + k[1]-ten Abtastwert.
3. Umsetzung
Wie schon zuvor im Einzelnen ausgeführt, soll der Ausdruck „Umsetzung", so wie in der vorliegenden technischen Beschreibung verwendet, sich auf alle Situationen beziehen, wo der aktuelle Rahmen oder ein Teil von ihm, so wie er ist, ausgegeben wird oder übergangen wird, d.h. verschoben aber nicht ausgegeben. 14 zeigt, dass zu der Zeit, in welcher der stimmlose Rahmen
zu dem aktuellen Rahmen geworden ist, seine vorderen Sa–Ss Abtastwerte schon während der vorhergehenden Iteration ausgegeben worden sind. Diese Abtastwerte sind nämlich in den vorderen Sa Abtastwerten von Y eingeschlossen, welche während der Expansion von
ausgegeben worden sind. Daraus folgt, dass, unter Verwendung des parametrischen Verfahrens, das Expandieren eines aktuellen stimmlosen Rahmens, welcher auf einen vergangenen stimmhaften Rahmen folgt, die Sprachkontinuität stören würde. Deswegen wird zuerst entschieden, die stimmhafte Expansion während derartiger stimmhafter Enden beizubehalten. Anders ausgedrückt wird stimmhafte Expansion bis zu dem ersten stimmlosen Rahmen, welcher auf einen stimmhaften Rahmen folgt, verlängert. Dies wird nicht das „Problem der Klangfarbe" auslösen, welches hauptsächlich verursacht wird, wenn sich „Wiederholung" von SOLA- Expansion über ein relativ langes Segment erstreckt.
Allerdings wird deutlich, dass das vorstehend ausgeführte Problem jetzt nur auf später verschoben wird und bei dem zukünftigen Rahmen
wieder auftauchen wird. Dabei ist die Art zu bedenken, wie Stimmhaftigkeitsexpansion durchgeführt wird, d.h. in der Art, wie Y aktualisiert wird, kann eine Gesamtheit von ki (0 < k < Sa) Abtastwerten schon ausgegeben worden sein (durch Überblenden modifiziert), bevor sie an der Vorderseite des Puffers ankommen.
Um dieses Problem zunächst zu beseitigen, werden alle aktuellen ki Abtastwerte, die in der Vergangenheit benutzt worden sind, übergangen. Dies impliziert nun, von dem bisher angewendeten Prinzip abzuweichen, wobei für alle eingehenden Ss Abtastwerte Sa Abtastwerte ausgegeben werden. Um den „Fehlbetrag" an Abtastwerten zu kompensieren, sollte der „Überschuss" an Abtastwerten, der sich in den umgesetzten Sa + kj Abtastwerte langen Rahmen befindet, die durch den Dynamikdehner erzeugt werden, verwendet werden. Sollte ein derartiger Rahmen nicht direkt auf ein stimmhaftes Ende folgen (wenn ein stimmhafter Anfang nicht kurz nach einem stimmhaften Ende erscheint), dann wird keiner seiner Abtastwerte in den vorausgehenden Iterationen benutzt worden sein, und er kann als eine Gesamtheit ausgegeben werden. Infolgedessen wird der „Fehlbetrag" an ki Abtastwerten, die auf eine stimmhafte Abweichung folgen, durch einen „Überschuss" höchstens an kj Abtastwerten ausgeglichen werden, die dem nächsten stimmhaften Anfang vorausgehen.
Da sowohl kj und ki während der Kompression von stimmloser Sprache erhalten werden, wodurch sie einen zufallsartigen Charakter aufweisen, wird ihr Gegengewicht für ein bestimmtes j und i nicht genau sein. Im Allgemeinen ergibt sich daraus eine leichte Nichtübereinstimmung zwischen der Länge der ursprünglichen und der entsprechenden kompandierten stimmlosen Töne, wovon erwartet wird, dass sie nicht wahrnehmbar ist. Gleichzeitig ist Sprachkontinuität sichergestellt.
Es wird darauf hingewiesen, dass das Problem der Nichtübereinstimmung leicht behoben werden kann, ohne überhaupt eine zusätzliche Verzögerung und Verarbeitung einzuführen, indem für alle stimmlosen Rahmen während der Kompression dasselbe k gewählt wird. Es wird erwartet, dass ein möglicher Qualitätsverlust aufgrund dieser Aktion begrenzt bleibt, weil Wellenformähnlichkeit, auf deren Grundlage k berechnet wird, kein wesentliches Maß der Ähnlichkeit für stimmlose Sprache ist.
Es wird darauf hingewiesen, dass es wünschenswert ist, dass alle Puffer einheitlich aktualisiert werden, um Sprachkontinuität sicherzustellen, wenn zwischen den verschiedenen Aktionen umgeschaltet wird. Zum Zweck dieses Umschaltens und zum Identifizieren von eingehenden Rahmen, ist ein Entscheidungsmechanismus erstellt worden, welcher auf der Untersuchung der Zustände von Stimmhaftigkeit und „k-Puffern" beruht. Dies kann durch die nachstehend aufgeführte Tabelle zusammengefasst werden, in welcher die zuvor beschriebenen Aktionen abgekürzt sind. Um „Wiederverwendung" von Abtastwerten zu signalisieren, d.h. Vorkommen eines stimmhaften Endes in der Vergangenheit, wird ein zusätzliches Prädikat mit dem Namen „Ende" eingeführt. Indem ein Schritt weiter in die Vergangenheit der Puffer für Stimmhaftigkeit zurückgeblickt wird, kann es als wahr definiert werden, wenn v[0] = 1 ∨ v[–1] = 1 und als falsch in allen anderen Fällen (wobei ∨ logisches „oder" kennzeichnet). Es wird darauf hingewiesen, dass durch geeignete Manipulation kein ausdrücklicher Speicherplatz für v[–1] notwendig ist.
Tabelle 1 Auswahlaktionen für den Dynamikdehner
Man wird zu schätzen wissen, dass in der vorliegenden Erfindung ein Zeitskalenexpansionsverfahren für stimmlose Sprache verwendet wird. Stimmlose Sprache wird mit SOLA komprimiert, aber durch Einführung von Geräusch mit der spektralen Gestalt und dem Verstärkungsfaktor seiner benachbarten Segmente expandiert. Dadurch wird künstliche Korrelation vermieden, welche durch „Wiederverwendung" stimmloser Segmente eingeführt wird.
Wenn TSM mit Sprachcodierern kombiniert wird, welche bei niedrigeren Bitraten arbeiten (z.B. < 8 kbit/s), funktioniert die auf TSM beruhende Codierung verglichen mit herkömmlicher Codierung (in diesem Falle AMR) schlechter. Wenn der Sprachcodierer bei höheren Bitraten funktioniert, kann eine vergleichbare Leistung erreicht werden. Dies kann mehrere Vorteile haben. Die Bitrate eines Sprachcodierers mit einer feststehenden Bitrate, kann nun auf eine willkürliche Bitrate durch Verwendung höherer Kompressionsverhältnisse abgesenkt werden. Bei Kompressionsverhältnissen von bis zu 25 %, kann die Leistung des TSM-Systems mit einem dedizierten Sprachcodierer vergleichbar sein. Da das Kompressionsverhältnis zeitlich verändert werden kann, kann auch die Bitrate des TSM-Systems zeitlich verändert werden. Im Fall von Netzwerküberlastung kann die Bitrate beispielsweise zeitweise abgesenkt werden. Die Bitstromsyntax dieses Sprachcodierers wird durch die TSM nicht verändert. Deswegen können standardisierte Sprachcodierer auf eine Bitstrom kompatible Weise verwendet werden. Des Weiteren kann TSM zu Fehlerverschleierung im Fall von fehlerhafter Übertragung oder Speicherung verwendet werden. Wenn ein Rahmen irrtümlicherweise empfangen wird, können die benachbarten Rahmen weiter zeitskalenexpandiert werden, um die Lücke, die durch den fehlerhaften Rahmen entstanden ist, zu füllen.
Es ist gezeigt worden, dass die meisten der Probleme, die Zeitskalenkompandierung begleiten, während der stimmlosen Segmente und stimmhaften Anfänge stattfinden, die in einem Sprachsignal vorhanden sind. In dem Ausgangssignal nehmen die stimmlosen Töne einen tonalen Charakter an, während weniger graduelle und glatte stimmhafte Anfänge häufig unscharf sind, insbesondere wenn größere Skalierungsfaktoren verwendet werden. Die Klangfarbe von stimmlosen Tönen wird durch den „Wiederholungsmechanismus" eingeführt, welcher in allen Zeitbereichalgorithmen von vornherein vorhanden ist. Um dieses Problem zu beseitigen, stellt die vorliegende Erfindung getrennte Verfahren zum Expandieren von stimmhafter und stimmloser Sprache bereit. Es wird ein Verfahren zur Expansion von stimmloser Sprache bereitgestellt, welches auf der Einführung einer passend ausgestalteten Geräuschsequenz in die komprimierten stimmlosen Sequenzen beruht. Um den Nachzieheffekt von stimmhaften Anfängen zu vermeiden, werden die stimmhaften Anfänge aus TSM ausgeschlossen und werden anschließend umgesetzt.
Die Kombination dieser Konzepte mit SOLA hat die Realisierung eines zeitskalenkompandierenden Systems ermöglicht, welches eine bessere Leistung als die herkömmlichen Realisierungen aufweist, die einen ähnlichen Algorithmus für sowohl Kompression als auch Expansion verwenden.
Man wird zu schätzen wissen, dass die Einführung eines Sprach-Codierer-Decodierers zwischen die TSM-Stufen eine Qualitätsverschlechterung verursachen kann, die im Verhältnis zur Absenkung der Bitrate des Codierer-Decodierers deutlicher wahrzunehmen ist. Wenn ein bestimmter Codierer-Decodierer und TSM kombiniert werden, um eine bestimmte Bitrate zu erzeugen, wird das daraus resultierende System eine schlechtere Leistung haben, als dedizierte Sprachcodierer, die bei einer vergleichbaren Bitrate arbeiten. Bei niedrigeren Bitraten ist Qualitätsverschlechterung nicht akzeptabel. Allerdings kann TSM bei der Bereitstellung einer noch akzeptablen Verschlechterung bei höheren Bitraten nützlich sein.
Obwohl vorstehend unter Bezugnahme auf eine spezielle Implementierung beschrieben, wird man zu schätzen wissen, dass mehrere Modifikationen möglich sind. Verfeinerungen des vorgeschlagenen Expansionsverfahrens von stimmloser Sprache durch Aufzeigen alternativer Wege von Geräuscheinführung und Verstärkungsberechnung können verwendet werden.
Es wird darauf hingewiesen, dass die vorstehend erwähnten Ausführungsformen die Erfindung eher darstellen als einschränken, und dass die Fachleute in der Lage sein werden, viele alternative Ausführungsformen zu entwerfen, ohne von dem Umfang der beigefügten Ansprüche abzuweichen. In den Ansprüchen sollen alle Bezugszeichen, die in Klammern stehen nicht so verstanden werden, als dass sie den Anspruch einschränken. Das Wort „umfassend" schließt nicht das Vorhandensein von anderen Elementen oder Schritten als die in einem Anspruch aufgezählten aus. Die Erfindung kann mittels Hardware, die zahlreiche einzelne Elemente umfasst, und mittels eines geeigneten programmierten Computers implementiert werden. Bei einem Anspruch einer Einrichtung, in dem mehrere Mittel aufgeführt sind, können mehrere dieser Mittel durch ein- und denselben Gegenstand der Hardware aufgeführt sein. Die alleinige Tatsache, dass bestimmte Maßnahmen in voneinander verschiedenen Unteransprüchen wiederholt werden, weist nicht darauf hin, dass eine Kombination dieser Maßnahmen nicht vorteilhaft verwendet werden kann.
Quellenangaben

[1] J. Makhoul, A. El-Jaroudi, „Time-Scale Modification in Medium to Low Rate Speech Coding", ICASSP Bericht, 7. bis 11. April 1986, Band 3, Seiten 1705–1708.
[2] P. E. Papamichalis, „Practical Approaches to Speech Coding", Prentice Hall, Inc., Engelwood Cliffs, New Jersey, 1987.
[3] F. Amano, K. Iseda, K. Okazaki, S. Unagami, „An 8 kbit/s TC-MQ (Timedomain Compression ADPCM-MQ Speech Codec", ICASSP Bericht, 11. bis 14. April 1988, Band 1, Seiten 259–262.
[4] S. Roucos, A. Wilgus, „High Quality Time-Scale Modification for Speech", ICASSP Bericht, 26. bis 29. März 1985, Band 2, Seiten 493–496.
[5] J. L. Wayman, D. L. Wilson, „Some Improvements on the Method of Time Scale-Modification for Use in Real-Time Speech Compression and Noise Filtering", IEEE Transactions on ASSP, Band 36, Nr. 1, Seiten 139–140, 1988.
[6] E. Hardam, „High Quality Time-Scale Modification of Speech Signals Using Fast Synchronized-Overlap-Add Algorithms", ICASSP Bericht, 3.–4. April 1990, Band 1, Seiten 409–412.
[7] M. Sungjoo-Lee, Hee-Dong-Kim, Hyung-Soon-Kim, „Variable Time-Scale Modification of Speech Using Transient Information", ICASSP Bericht, 21. bis 24. April 1997, Seiten 1319–1322.
[8] WO 96/27184A

Legende der Figuren
1

input speech: eingegebene Sprache
Time-scale compression: Zeitskalenkompression
Speech encoding: Sprachcodierung
Transmission or storage: Übertragung oder Speicherung
Speech decoding: Sprachdecodierung
Time-scale expansion: Zeitskalenexpanssion
output speech: ausgegegebene Sprache

4

input speech: eingegebene Sprache
voiced onset?: stimmhafter Anfang?
SOLA-compressor: SOLA-Kompressor
Speech encoder: Sprachcodierer
voicing: Stimmhaftigkeit
Sync.param.: Synchronisierungsparameter
Speech decoder: Sprachdecodierer
unvoiced expander: stimmloser Dynamikdehner
output speech:ausgegegebene Sprache
voiced (SOLA) expander: stimmhafter (SOLA)-Dynamikdehner
switch control: Schaltsteuerung

6

Gain: Verstärkungsfaktor

8

input speech: eingegebene Sprache
BUFF: PUFFER
voiced onset?: stimmhafter Anfang?
SOLA-compress.: SOLA-Kompressor
CODEC: CODIERER-DECODIERER
BUFF: PUFFER
expander: Dynamikdehner
voicing: Stimmhaftigkeit
Synch.parameter k: Synchronisierungsparameter k
Voicing, k: Stimmhaftigkeit, k
BUFF: Puffer
output speech: ausgegegebene Sprache

9

new samples: neue Abtastwerte

10

out: Ausgabe

11

n[samples]: n[Abtastwerte]

12

new samples: neue Abtastwerte
new k: neues k
new voicing: neue Stimmhaftigkeit

13

voicing: Stimmhaftigkeit

14

voicing: Stimmhaftigkeit
output: Ausgabe
Ynew: Yneu

Claims

Verfahren zur Zeitskalenmodifizierung eines Sprachsignals, wobei das Verfahren die folgenden Schritte umfasst: a) Definieren von individuellen Rahmensegmenten innerhalb des Signals, b) Analysieren der individuellen Rahmensegmente, um einen Signaltyp in jedem Rahmensegment zu bestimmen, und c) Anwenden eines ersten Zeitskalenmodifikationsalgorithmus auf einen bestimmten ersten Signaltyp, und eines zweiten unterschiedlichen Zeitskalenmodifikationsalgorithmus auf einen bestimmten zweiten Signaltyp, wobei der erste Signaltyp aus einem stimmhaften Sprachsignalsegment und der zweite Signaltyp aus einem stimmlosen Sprachsignalsegment besteht.
Verfahren nach Anspruch 1, wobei der erste Algorithmus auf einer Wellenformtechnik, wie beispielsweise synchronisierter Überlappung-und-Addition (SOLA) beruht, und wobei der zweite Algorithmus auf einer parametrischen Technik, wie beispielsweise einer linearen Prädiktionscodierung (LPC) beruht.
Verfahren nach Anspruch 1 oder 2, wobei der erste Algorithmus ein SOLA-Algorithmus ist.
Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei der zweite Algorithmus die folgenden Schritte umfasst: a) Teilen von jedem Rahmen des bestimmten zweiten Signaltyps in einen Eingangs- und Ausgangsabschnitt, b) Erzeugen eines Geräuschsignals, und c) Einführen des Geräuschsignals zwischen den Eingangs- und Ausgangsabschnitt, sodass ein expandiertes Segment erzielt wird.
Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei der erste und zweite Algorithmus Expansionsalgorithmen sind und das Verfahren zur Zeitskalenexpansion eines Signals verwendet wird.
Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei der erste und zweite Algorithmus Kompressionsalgorithmen sind und das Verfahren zur Zeitskalenkompression eines Signals verwendet wird.
Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei das Audiosignal ein zeitskalenmodifiziertes Sprachsignal ist.
Verfahren nach irgendeinem der vorhergehenden Ansprüche, die folgenden Schritte umfassend: a) Aufteilen eines stimmlosen Sprachsignalsegments in einen ersten Abschnitt und einen zweiten Abschnitt, und b) Einführen von Geräusch zwischen den ersten Abschnitt und den zweiten Abschnitt, um ein zeitskalenexpandiertes Signal zu erhalten, wobei das Geräusch aus synthetischem Geräusch mit einer spektralen Gestalt besteht, die gleichwertig zu der spektralen Gestalt des ersten und zweiten Abschnitts des Signals ist.
Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei stimmlose Segmente zeitskalenexpandiert werden.
Verfahren zum Empfangen eines Audiosignals, wobei das Verfahren die folgenden Schritte umfasst: a) Decodieren des Audiosignals, und b) Zeitskalenexpandieren des decodierten Audiosignals gemäß einem Verfahren nach irgendeinem der vorhergehenden Ansprüche.
Einrichtung zur Zeitskalenmodifizierung, eingerichtet, um ein Signal zu modifizieren, sodass die Ausbildung eines zeitskalenmodifizierten Signals ausgeführt wird, umfassend: a) Mittel zum Bestimmen unterschiedlicher Signaltypen innerhalb von Rahmen des Signals, und b) Mittel zum Anwenden eines ersten Zeitskalenmodifikationsalgorithmus auf Rahmen, die einen ersten bestimmten Signaltyp aufweisen, und eines zweiten, unterschiedlichen Zeitskalenmodifikationsalgorithmus auf Rahmen, die einen zweiten bestimmten Signaltyp aufweisen, wobei der erste Signaltyp aus einem stimmhaften Signalsegment und der zweite Signaltyp aus einem stimmlosen Signalsegment besteht.
Einrichtung nach Anspruch 11, wobei die Mittel zum Anwenden eines zweiten unterschiedlichen Modifikationsalgorithmus auf den zweiten bestimmten Signaltyp umfassen: a) Mittel zum Aufteilen des Signalrahmens in einen ersten Abschnitt und einen zweiten Abschnitt, und b) Mittel zum Einführen von Geräusch zwischen den ersten Abschnitt und den zweiten Abschnitt, um ein zeitskalenexpandiertes Signal zu erhalten.
Empfänger zum Empfangen eines Audiosignals, wobei der Empfänger umfasst: a) einen Decodierer zum Decodieren des Audiosignals, und b) eine Einrichtung nach Anspruch 11 oder Anspruch 12 zur Zeitskalenexpansion des decodierten Audiosignals.