DE112013000845T5

DE112013000845T5 - Verfahren und Einheit zur Datenfilterung an komprimierten Datenvektoren

Info

Publication number: DE112013000845T5
Application number: DE112013000845.9T
Authority: DE
Inventors: c/o IBM Research GmbH Fusco Francesco; c/o IBM Research GmbH Vlachos Michail; c/o IBM Research GmbH Freris Nikolaos
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-04-26
Filing date: 2013-04-24
Publication date: 2014-10-23
Also published as: CN104335176B; GB2517334A; US20150046406A1; CN104335176A; GB201207453D0; WO2013160840A1; GB201420704D0; GB2501532A; US10528578B2

Abstract

Es wird ein Verfahren zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße, die als eine Funktion des euklidischen Abstandes ausgedrückt werden kann, vorgeschlagen. In einem ersten Schritt werden für jeden komprimierten Datenvektor Positionen und Werte jener Koeffizienten gespeichert, die die größte Energie in dem komprimierten Datenvektor aufweisen. In einem zweiten Schritt werden für jeden komprimierten Datenvektor die Koeffizienten verworfen, die nicht die größte Energie in dem komprimierten Datenvektor aufweisen. In einem dritten Schritt wird für jeden komprimierten Datenvektor ein Komprimierungsfehler in Abhängigkeit von den verworfenen Koeffizienten in dem komprimierten Datenvektor ermittelt. In einem vierten Schritt wird wenigstens eine einer oberen und einer unteren Grenze für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten, die die größte Energie aufweisen, und den ermittelten jeweiligen Komprimierungsfehlern, abgerufen.

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft ein Verfahren und eine Einheit zur Datenfilterung an komprimierten Datenvektoren unter Nutzung einer bestimmten Messgröße, die als Funktion des euklidischen Abstandes ausgedrückt werden kann.
HINTERGRUND
Ein fortwährendes Problem bei der Datenanalyse besteht in der zunehmenden Größe von Datenmengen. Dieser Trend verlangt nicht nur effizientere Komprimierungsschemata sondern darüber hinaus analytische Operationen, die direkt an den komprimierten Daten arbeiten. Effiziente Komprimierungsschemata können auf der Grundlage des Nutzens inhärenter Muster und Strukturen in den Daten entwickelt werden. Die Datenperiodizität ist eine solche Eigenschaft, die zu einer erheblich ergiebigeren Komprimierung führen kann.
Periodisches Verhalten ist allgegenwärtig, viele Typen von erfassten Messungen weisen periodische Muster auf, unter anderem Weblogdaten [1, 2, 3], Netzwerkmessungen [4], umweltbezogene und natürliche Prozesse [5, 6], medizinische und physiologische Messungen. Bei den vorstehend erwähnten handelt es sich lediglich um einige wenige der vielzähligen wissenschaftlichen und industriellen Gebiete, die mit periodischen Daten zu tun haben.
Enthalten Daten eine kohärente Struktur, kann Datenkomprimierung mit einem minimalen Verlust hinsichtlich der Datenqualität durchgeführt werden. Dies wird dadurch erreicht, dass Daten unter Verwendung von nur wenigen energiereichen Koeffizienten in einer vollständigen orthonormalen Basisdarstellung, z. B. Fourier, Wavelets, Hauptkomponentenanalyse (Principal Component Analysis, PCA) verwendet werden.
Innerhalb der Gruppe der Datenfilterung wurde die Suche an Zeitreihendaten gemäß der euklidischen Messgröße ausgiebig untersucht, wie dies z. B. in [8] beschrieben ist. Solche Untersuchungen haben jedoch normalerweise Komprimierung nur unter Verwendung des ersten Fourier oder Wavelets berücksichtigt. Die Verwendung diverser Mengen an Koeffizienten wurde gemäß Beschreibung in [1] untersucht.
Die Mehrheit der Verfahren zur Datenkomprimierung für sequenzielle Daten verwendet dieselbe Menge an energiearmen Koeffizienten, ungeachtet ob Fourier [7, 8], Wavelets [9, 10] oder Tschebyscheff-Polyonome [11] als orthogonale Basis zur Darstellung und Komprimierung verwendet werden. Die Verwendung derselben Menge an orthogonalen Koeffizienten bringt mehrere Vorteile mit sich: Zunächst können die jeweiligen Koeffizienten sofort verglichen werden. Zweitens können raumpartitionierende Indexierungsstrukturen wie beispielswiese R-Bäume direkt an den komprimierten Daten verwendet werden. Drittens besteht kein Bedarf, die Indexe der Basisfunktionen zu speichern, denen die gespeicherten Koeffizienten entsprechen. Der Nachteil besteht möglicherweise darin, dass sowohl die Objektwiederherstellung als auch die Abstandsschätzung noch lange nicht optimal für ein jeweiliges fixiertes Komprimierungsverhältnis ist.
Es können auch Nebeninformationen wie beispielsweise die Energie der verworfenen Koeffizienten aufgezeichnet werden, um den Abstand zwischen komprimierten Sequenzen durch Verwendung der Cauchy-Schwarzschen Ungleichung [13] besser schätzen zu können.
In US 2009/0204574 A1 (siehe [25]), wird die Abstandsschätzung zwischen einem komprimierten und einem unkomprimierten Datenvektor untersucht.
KURZDARSTELLUNG DER ERFINDUNG
Gemäß einer Ausführungsform eines ersten Aspekts wird ein Verfahren zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße vorgeschlagen, die als eine Funktion des euklidischen Abstandes ausgedrückt werden kann. In einem ersten Schritt werden für jeden komprimierten Datenvektor mögliche Positionen und Werte jener Koeffizienten gespeichert, die die größte Energie in dem komprimierten Datenvektor aufweisen. In einem zweiten Schritt werden für jeden komprimierten Datenvektor die Koeffizienten verworfen, die nicht die größte Energie in dem komprimierten Datenvektor aufweisen. In einem dritten Schritt wird für jeden komprimierten Datenvektor ein Komprimierungsfehler in Abhängigkeit von den verworfenen Koeffizienten in dem komprimierten Datenvektor ermittelt. In einem vierten Schritt wird wenigstens eine einer oberen und einer unteren Grenze für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten abgerufen, die die größte Energie aufweisen, und den ermittelten jeweiligen Komprimierungsfehlern.
Durch Abrufen der oberen und der unteren Grenze für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten, die die größte Energie aufweisen, und den ermittelten jeweiligen Komprimierungsfehlern, können die Grenzen so eng wie möglich bereitgestellt werden. Durch Erzielen enger Grenzen wird eine Verringerung der Unsicherheit bei datengefilterten Ähnlichkeiten der komprimierten Datenvektoren bewirkt. Dementsprechend kann Datenfilterung an den komprimierten Datenvektoren verbessert werden.
Insbesondere wegen der bereitgestellten Enge der Grenzen stellt die Datenfilterung an den komprimierten Datenvektoren eine gute Annäherung für die Datenfilterung an unkomprimierten Datenvektoren dar.
Der jeweilige Komprimierungsfehler wird in Abhängigkeit von einer Summe der Energie der verworfenen Koeffizienten in den komprimierten Datenvektoren ermittelt.
Im Gegensatz zu [25] wird gemäß der Ausführungsformen des vorliegenden Schemas, die Abstandsschätzung geprüft, wenn beide Datenvektoren unter Verwendung der energiereichen Koeffizienten komprimiert werden.
Ein Beispiel für einen Datenvektor kann ein hochdimensionaler Datenvektor oder eine Zeitreihendatensequenz sein.
Gemäß einiger Implementierungen sei angenommen, dass zwei komprimierten Datenvektoren, die engst mögliche obere und unter Grenze an dem ursprünglichen Abstand zwischen den unkomprimierten Objekten bereitgestellt werden. Mit „engste” ist gemeint, dass in Anbetracht der Daten keine bessere Schätzung hergeleitet werden kann. Die Abstandsschätzung ist für die Datenfilterung fundamental, da die Mehrheit der Filterung und der Lernaufgaben auf Abstand basieren, unter anderem Clustering, z. B. k-Means oder hierarchisch, k-NN-Klassifizierung, Ausreißererkennung, Pattern Matching (Musterabgleich) und Ähnliches.
Gemäß einiger Implementierungen kann das Problem der engen Abstandsschätzung als zwei Optimierungsprobleme zum Erhalten von unteren/oberen Grenzen formuliert werden. Beide Probleme können gleichzeitig durch Lösen eines einzelnen konvexen Optimierungsprogramms gelöst werden. Einzelheiten werden nachstehend geliefert.
Gemäß einiger Implementierungen werden die erforderlichen und ausreichenden Karush-Kuhn-Tucker (KKT) Bedingungen für eine optimale Lösung hergeleitet und die Eigenschaften optimaler Lösungen bereitgestellt.
Gemäß einiger Implementierungen wird Analyse zum Herleiten exakter Algorithmen zum Erhalten der optimalen unteren/oberen Grenze verwendet.
Demgemäß ist die geschätzte untere/obere Grenze auf dem Abstand optimal eng, so dass die Unsicherheit bei der Abstandsschätzung minimiert werden kann. Dies impliziert wiederum, dass das vorliegende Schema irgendeine abstandsbasierte Operation, die direkt an den komprimierten Daten arbeitet, am wenigsten beeinflusst.
Gemäß einiger Implementierungen wird eine eindeutige Menge an Koeffizienten für jede Sequenz geführt, und die L₂-Norm des Komprimierungsfehlers wird aufgezeichnet.
Gemäß einiger Implementierungen wird die engste wahrscheinliche Schätzung der L₂-Norm oder die Korrelation bereitgestellt. Des Weiteren kann das vorliegende Schema wenigstens zwei Größenordnungen schneller als eine numerische Lösung ausgeführt werden, die von einem konvexen Lösungselement erhalten wird. Das vorliegende Schema kann auf periodische Daten, auf jede beliebigen sequenziellen Daten oder hochdimensionale Daten ebenso wie auf jegliche orthogonale Datentransformation angewendet werden, die für das zugrundeliegende Datenkomprimierungsschema verwendet wird.
In einer Ausführungsform wird die Messgröße als euklidischer Abstand oder als Korrelation oder als Kosinusähnlichkeit und Ähnliches ausgeführt.
In einer weiteren Ausführungsform werden die Koeffizienten in dem jeweiligen komprimierten Datenvektor, die die größte Energie aufweisen, identifiziert, indem die Koeffizienten des komprimierten Datenvektors gemäß ihrer jeweiligen Energie geordnet werden und eine vorab definierte Anzahl der am weitesten vorn liegenden Koeffizienten ausgewählt wird. Dementsprechend kann eine fixierte, vorab festgelegte Anzahl von Koeffizienten gespeichert werden, um ein fixiertes Komprimierungsverhältnis bereitzustellen.
In einer weiteren Ausführungsform werden die Koeffizienten in dem jeweiligen komprimierten Datenvektor, die die größte Energie aufweisen, identifiziert, indem eine Mindestanzahl an jenen Koeffizienten ausgewählt wird, die zu einem vorab festgelegten Komprimierungsfehler führen. Hierbei kann ein fixierter vorab festgelegter Komprimierungsfehler bereitgestellt werden.
In einer weiteren Ausführungsform werden alle Koeffizienten in dem jeweiligen komprimierten Datenvektor, die eine höhere Energie aufweisen als ein vorab definierter Schwellenwert, als die Koeffizienten mit der größten Energie gespeichert.
In einer weiteren Ausführungsform werden verschiedene Positionen von Koeffizienten mit der größten Energie in einem oder beiden der zwei komprimieren Datenvektoren gespeichert. Auf diese Weise werden verschiedene Mengen an Koeffizienten mit der größten Energie in den komprimierten Datenvektoren gespeichert.
In einer weiteren Ausführungsform werden Datenvektoren durch eine bestimmte verlustbehaftete Komprimierungstransformation mit einem bestimmten Komprimierungsverhältnis in die komprimierten Datenvektoren transformiert, die von den Koeffizienten dargestellt werden.
In einer weiteren Ausführungsform wird wenigstens eine der Komprimierungstransformation oder des Komprimierungsverhältnis ausgewählt.
In einer weiteren Ausführungsform wird die Komprimierungstransformation durch eine umkehrbare lineare Transformation ausgeführt, die eine vollständige orthonormale Basis aufweist. Beispiele solcher umkehrbaren linearen Transformationen sind Diskrete Fourier-Transformation (DFT), Hauptkomponentenanalyse (PCA), auch bekannt als Karhunen-Loève-Transformation, Tschebyscheff-Polynome und Wavelets.
In einer weiteren Ausführungsform sind die Datenvektoren durch periodische Netzwerkdaten ausgeführt, die über ein Datenübertragungsnetzwerk übertragen werden.
In einer weiteren Ausführungsform werden die untere und die obere Grenze exakt durch einen „Double-Water-Filling”-Algorithmus in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern, insbesondere ohne ein annäherndes numerisches Verfahren abgerufen.
In einer weiteren Ausführungsform werden innerhalb des Double-Water-Filling-Algorithmus für die untere und die obere Grenze für die zwei komprimierten Datenvektoren erste Positionen verwendet, wobei die Koeffizienten für den ersten komprimierten Datenvektor verworfen und für den zweiten komprimierten Datenvektor gespeichert werden, es werden zweite Positionen verwendet, wobei die Koeffizienten für den ersten komprimierten Datenvektor gespeichert und für den zweiten komprimierten Datenvektor verworfen werden, und es werden dritte Positionen verwendet, wobei die Positionen der Koeffizienten sowohl für den ersten als auch den zweiten Datenvektor verworfen werden.
In einer weiteren Ausführungsform werden die verworfenen Koeffizienten des ersten komprimierten Datenvektors an den ersten Positionen durch einen Water-Filling-Algorithmus unter Verwendung eines optimalen Schätzwertes des Komprimierungsfehlers des ersten komprimierten Datenvektors an den ersten Positionen geschätzt. Des Weiteren werden die verworfenen Koeffizienten des zweiten komprimierten Datenvektors an den zweiten Positionen durch den Water-Filling-Algorithmus unter Verwendung eines optimalen Schätzwertes des Komprimierungsfehlers des zweiten komprimierten Datenvektors an den zweiten Positionen geschätzt.
In einer weiteren Ausführungsform wird die Cauchy-Schwarzsche Ungleichung zum Optimieren der Korrelationen in den dritten Positionen des ersten und des zweiten komprimierten Datenvektors verwendet.
Jede beliebige Ausführungsform des ersten Aspektes kann mit jeder beliebigen Ausführungsform des ersten Aspektes kombiniert werden, um eine weitere Ausführungsform des zweiten Aspektes zu erhalten.
Gemäß einer Ausführungsform eines zweiten Aspektes wird ein Computerprogramm vorgeschlagen, das einen Programmcode zum Ausführen des Verfahrens des vorstehenden ersten Aspektes zur Datenfilterung an komprimierten Datenvektoren umfasst, wenn es auf wenigstens einem Computer ausgeführt wird.
Gemäß einer Ausführungsform eines dritten Aspektes wird eine Einheit zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße vorgeschlagen, die als Funktion des euklidischen Abstandes ausgedrückt werden kann. Die Einheit weist einen Speicher, ein Verwerfungselement, ein Ermittlungselement und ein Abrufelement auf. Der Speicher ist so konfiguriert, dass er Positionen und Werte jener Koeffizienten mit der größten Energie in dem jeweiligen komprimierten Datenvektor speichert. Das Verwerfungselement ist so konfiguriert, dass es die Koeffizienten verwirft, die nicht die größte Energie in dem jeweiligen komprimierten Datenvektor aufweisen. Das Ermittlungselement ist so konfiguriert, dass es einen jeweiligen Komprimierungsfehler in Abhängigkeit von den verworfenen Koeffizienten in dem jeweiligen komprimierten Datenvektor ermittelt. Das Abrufelement ist so konfiguriert, dass es wenigstens eine einer oberen und einer unteren Grenzen für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern abruft.
Bei dem Speicher kann es sich um jedes beliebige Speichermittel handeln. Darüber hinaus kann es sich bei dem Verwerfungselement um jedes beliebige Mittel zum Verwerfen handeln, bei dem Ermittlungselement kann es sich um jedes beliebige Mittel zum Ermitteln handeln, und bei dem Abrufelement kann es sich um jedes beliebige Mittel zum Abrufen handeln.
Die jeweiligen Mittel können in Hardware und/oder Software implementiert sein. Wenn die Mittel in Hardware implementiert sind, können sie als Einheit, z. B. als ein Computer oder als ein Prozessor oder als Teil eines Systems, z. B. eines Computersystems ausgeführt sein. Sollten die Mittel in Software implementiert sein, können sie es als ein Computerprogrammprodukt, als eine Funktion, als eine Routine, als ein Programmcode oder als ein ausführbares Objekt ausgeführt sein.
Nachfolgend werden beispielhafte Ausführungsformen der vorliegenden Erfindung in Bezug auf die begleitenden Zeichnungen beschrieben.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 zeigt eine Ausführungsform einer Sequenz von Verfahrensschritten zur Datenfilterung an komprimierten Datenvektoren;
2 zeig ein schematisches Blockschaubild einer Ausführungsform einer Einheit zur Datenfilterung an komprimierten Datenvektoren;
3 zeigt ein Schaubild, das eine Abstandsschätzung zwischen einer komprimierten Sequenz und einer Abfragesequenz veranschaulicht, die in einer vollständigen orthonormalen Basis dargestellt werden, wobei beide Sequenzen durch Speichern der ersten Koeffizienten komprimiert werden;
4 zeigt ein Schaubild, das Abstandsschätzung zwischen einer komprimierten Sequenz und einer Abfragesequenz veranschaulicht, die in einer vollständigen orthonormalen Basis dargestellt werden, wobei die Koeffizienten mit der höchsten Energie für eine Sequenz verwendet werden und die andere Sequenz unkomprimiert ist;
5 zeigt ein Schaubild, das eine Abstandsschätzung zwischen einer komprimierten Sequenz und einer Abfrage veranschaulicht, die in einer vollständigen orthonormalen Basis dargestellt ist, wobei beide Sequenzen unter Verwendung der Koeffizienten mit der größten Energie komprimiert werden;
6 zeigt ein Schaubild, das zwei Sequenzen unkomprimierter Daten veranschaulicht;
7 zeigt ein Schaubild, das veranschaulicht, wie zwei Sequenzen unter Verwendung der ersten Koeffizienten komprimiert werden;
8 zeigt ein Schaubild das veranschaulicht, wie zwei Sequenzen unter Verwendung der Koeffizienten mit der größten Energie komprimiert werden;
9 zeigt eine visuelle Veranschaulichung der Mengen P0, P1, P2, P3;
10 zeigt eine grafische Darstellung von vier Funktionen, und
11 zeigt ein schematisches Blockschaubild einer Ausführungsform eines Systems, das zur Datenfilterung an komprimierten Datenvektoren eingerichtet ist.
Ähnlichen oder funktional ähnlichen Elementen in den Figuren wurden dieselben Bezugszahlen zugewiesen, falls nichts Anderslautendes angegeben wird.
AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
In 1 wird eine Ausführungsform einer Sequenz von Verfahrensschritten zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße dargestellt, die als eine Funktion des euklidischen Abstandes ausgedrückt werden kann. Die Messgröße kann als euklidischer Abstand oder als Korrelation oder als Kosinusähnlichkeit ausgeführt sein. Die Datenvektoren können als periodische Netzwerkdaten ausgeführt sein, die über ein Datenübertragungsnetzwerk übertragen werden. Die Datenvektoren werden durch eine bestimmte verlustbehaftete Transformation mit einem bestimmten Komprimierungsverhältnis in die komprimierten Daten transformiert, die von Koeffizienten dargestellt werden. In dieser Hinsicht kann mindestens eine der Komprimierungstransformation oder des Komprimierungsverhältnisses ausgewählt werden. Darüber hinaus ist die Komprimierungstransformation durch eine umkehrbare lineare Transformation ausgeführt, die eine vollständig orthonormale Basis aufweist, beispielsweise durch eine Diskrete Fourier-Transformation (DFT), durch eine Hauptkomponentenanalyse (PCA), durch Tschebyscheff-Polynome oder durch Wavelets.
Das Verfahren weist die folgenden Schritte 101 bis 104 auf:
In Schritt 101 werden für jeden komprimierten Datenvektor Positionen und Werte jener Koeffizienten gespeichert, die die größte Energie in dem komprimierten Datenvektor aufweisen.
Die Koeffizienten in dem jeweiligen komprimierten Datenvektor, die die größte Energie aufweisen, können durch eine der folgenden drei Alternativen identifiziert werden:
Bei einer ersten Alternative werden die Koeffizienten des komprimierten Datenvektors gemäß ihrer jeweiligen Energie geordnet. Anschließend wird eine vorab festgelegte Anzahl von am weitesten vorn liegenden Koeffizienten ausgewählt.
Bei einer zweiten Alternative werden die Koeffizienten in dem jeweiligen komprimierten Datenvektor, die die größte Energie aufweisen, identifiziert, indem eine Mindestanzahl jener Koeffizienten ausgewählt wird, die in einem vorab festgelegten Komprimierungsfehler resultieren.
Bei einer dritten Alternative werden alle Koeffizienten in dem jeweiligen komprimierten Datenvektor, die eine höhere Energie als der vorab festgelegte Schwellenwert aufweisen, als die Koeffizienten mit der größten Energie gespeichert.
Des Weiteren werden in Schritt 101 verschiedene Positionen von Koeffizienten gespeichert, die in wenigstens zwei komprimierten Datenvektoren die größte Energie aufweisen. Als Folge davon werden verschiedene Sätze von Koeffizienten gespeichert, die in den komprimierten Datenvektoren die größte Energie aufweisen.
In Schritt 102 werden für jeden komprimierten Datenvektor die Koeffizienten verworfen, die nicht die größte Energie in dem komprimierten Datenvektor aufweisen.
In Schritt 103 wird für jeden komprimierten Datenvektor ein Komprimierungsfehler in Abhängigkeit von den verworfenen Koeffizienten in dem komprimierten Datenvektor ermittelt. Der Komprimierungsfehler wird als L₂-Norm der verworfenen Koeffizienten aufgezeichnet.
In Schritt 104 wird mindestens eine einer oberen und einer unteren Grenze für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern abgerufen.
Insbesondere werden die obere und die untere Grenze exakt mittels eines Double-Water-Filling-Algorithmus in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern abgerufen.
Innerhalb des Double-Water-Filling-Algorithmus zum Abrufen der oberen und der unteren Grenze für die zwei komprimierten Datenvektoren werden erste Positionen (P1) verwendet, wobei die Koeffizienten für den ersten komprimierten Datenvektor verworfen und für den zweiten komprimierten Datenvektor gespeichert werden, es werden zweite Positionen (P2) verwendet, wobei die Koeffizienten für den ersten komprimierten Datenvektor gespeichert und für den zweiten komprimierten Datenvektor verworfen werden, und es werden dritte Positionen (P3) verwendet, wobei die Positionen der Koeffizienten sowohl für den ersten als auch für den zweiten Datenvektor verworfen werden. Darüber hinaus werden die verworfenen Koeffizienten des ersten komprimierten Datensequenz an den ersten Positionen (P1) mittels eines Water-Filling-Algorithmus unter Verwendung des optimalen Schätzwertes des Komprimierungsfehlers der ersten komprimierten Datensequenz an den ersten Positionen (P1) geschätzt, und wobei die verworfenen Koeffizienten der zweiten komprimierten Datensequenz an den zweiten Positionen (P2) mittels des Water-Filling-Algorithmus unter Verwendung des optimalen Schätzwertes des Komprimierungsfehlers der zweiten komprimierten Datensequenz an den zweiten Positionen (P2) geschätzt werden. Die Cauchy-Schwarzsche Ungleichung wird zum Optimieren der Korrelationen an den dritten Positionen (P3) der ersten und der zweiten komprimierten Datensequenz genutzt.
2 zeigt ein schematisches Blockschaubild einer Ausführungsform einer Einheit 20 zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße, die als eine Funktion des euklidischen Abstandes ausgedrückt werden kann.
Die Einheit 20 weist einen Speicher 21, ein Verwerfungselement 22, ein Ermittlungselement 23 und ein Abrufelement 24 auf. Der Speicher 21 ist so konfiguriert, dass er Positionen und Werte jener Koeffizienten mit der größten Energie in dem jeweiligen komprimierten Datenvektor speichert. Das Verwerfungselement 22 ist so konfiguriert, dass es die Koeffizienten verwirft, die nicht die größte Energie in dem jeweiligen komprimierten Datenvektor aufweisen. Das Ermittlungselement 23 ist so konfiguriert, dass es einen jeweiligen Komprimierungsfehler in Abhängigkeit von den verworfenen Koeffizienten in dem jeweiligen komprimierten Datenvektor ermittelt. Das Abrufelement 24 ist so konfiguriert, dass es wenigstens eine einer oberen und einer unteren Grenzen für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern abruft.
Zur Veranschaulichung des verbesserten Effektes der engeren Grenzen des vorliegenden Schemas verglichen mit herkömmlichen Lösungen werden die 3 bis 5 dargestellt.
In dieser Hinsicht zeigt 3 ein Schaubild, das Abstandsschätzung zwischen einer komprimierten Sequenz und einer Abfrage, die in einer vollständigen orthonormalen Basis dargestellt ist, veranschaulicht, wobei beide Sequenzen durch Speichern der ersten Koeffizienten komprimiert werden. Der Abstand in 3 beträgt 6,4.
4 zeigt ein Schaubild, das Abstandsschätzung zwischen einer komprimierten Datensequenz und einer Abfrage veranschaulicht, die in einer vollständigen orthonormalen Basis dargestellt ist, wobei die Koeffizienten mit der größten Energie für eine Sequenz verwendet werden und die andere Sequenz unkomprimiert ist. Der Abstand in 4 beträgt 4,3.
5 zeigt ein Schaubild, das eine Abstandsschätzung zwischen einer komprimierten Datensequenz und einer Abfrage veranschaulicht, die in einer vollständigen orthonormalen Basis dargestellt ist, wobei beide Sequenzen unter Verwendung der Koeffizienten mit der größten Energie komprimiert werden. Der Abstand in 5 liegt zwischen 5,7 und 7,2.
Darüber hinaus zeigt 6 ein Schaubild, das zwei Sequenzen unkomprimierter Daten veranschaulicht, 7 zeigt ein Schaubild, das zwei Sequenzen veranschaulicht, die unter Verwendung der ersten Koeffizienten (c1) komprimiert werden, und 8 zeigt ein Schaubild, das zwei Sequenzen veranschaulicht, die unter Verwendung der Koeffizienten mit der größten Energie (c2) komprimiert werden.
Die folgenden Abschnitte, Datensuche unter Verwendung von Abstandsschätzung, Notation, Motivation und Problemstellung, Problem der äquivalenten Konvexoptimierung und Exakte Lösungen können den funktionalen Grundgedanken der vorliegenden Erfindung veranschaulichen:
Datensuche unter Verwendung von Abstandsschätzung
Es wird eine Datenbank DB betrachtet, die Sequenzen als V hochdimensionale Komplexvektoren x⁽ⁱ⁾ ∈ C^N, i = 1, ... V speichert. Das untersuchte Suchproblem kann wie folgt abstrahiert werden: ein Nutzer hat ein Interesse daran, die k ,ähnlichsten' Sequenzen zu einer jeweiligen Abfragesequenz q ∈ DB unter einer bestimmten Abstandsmessgröße d zu finden: d(·,·):C^N×N → R₊.
Dies ist die grundlegendste und gleichzeitig die fundamentalste Such- und Filteroperation, die bekannt ist als k-nächste-Nachbarn-(k-NN)Suche. Hierbei handelt es sich um eine Kernfunktion bei der Datenbankabfrage, ebenso wie eine fundamentale Operation in einer Reihe verschiedener Datenfilterungs- und Maschinenlernalgorithmen unter anderem Klassifikation (NN-Klassifikator), Clustering usw. Hierbei wird das Augenmerk auf den Fall gelegt, in dem d der standardmäßige euklidische Abstand ist, d. h. die L₂-Norm zu C^N. Hier sollte darauf geachtet werden, dass andere Maße, wie beispielsweise zeitinvariantes Matching (Abgleich) als euklidischer Abstand auf dem Periodigramm [14] formuliert werden können. Korrelation kann ebenfalls als ein Beispiel des euklidischen Abstandes an ordnungsgemäß normalisierten Sequenzen ausgedrückt werden [15]. Dementsprechend kann das vorliegende Schema mit wenig oder gar keiner Modifizierung auf einen breiten Bereich von Abstandsmessungen angewendet werden.
Suchoperationen können ziemlich kostspielig sein, insbesondere für Fälle, in denen die Dimension N der Sequenzen hoch ist, da Sequenzen von der Platte zum Vergleich gegen die Abfrage q abgerufen werden müssen. Eine effektive Art und Weise, dies zu verbessern, besteht darin, eine komprimierte Darstellung der zu verwendenden Sequenzen als einen anfänglichen Vorfilterungsschritt einzubehalten. Die Menge an komprimierten Sequenzen kann klein genug sein, um im Speicher gehalten zu werden, wodurch eine erhebliche Leistungsbeschleunigung ermöglicht wird.
Im Wesentlichen handelt es sich um einen Filtermechanismus auf mehreren Ebenen. Sind lediglich die komprimierten Sequenzen verfügbar, kann der exakte Abstand zwischen der Abfrage q und der Sequenz x⁽ ⁱ ⁾ in der Datenbank nicht offensichtlich hergeleitet werden. Es erklärt sich jedoch immer noch, dass möglicherweise Unterschätzungen und Überschätzungen des Abstandes erhalten werden d. h. die untere und die obere Grenze. Unter Verwendung dieser Grenzen kann eine Supermenge der k-NN Antworten zurückgegeben werden, die dann unter Verwendung der unkomprimierten Sequenzen überprüft werden, die abgerufen und mit der Abfrage verglichen werden müssen, so dass die exakten Abstände berechnet werden können. Solche Filterungsansätze werden in der Mehrheit der Literatur zur Datenfilterung zum Beschleunigen von Suchoperationen verwendet [7, 8, 16].
Notation:
Es sei die Sequenz x = {x₁, x₂, ... x_N,) ∈ R^N betrachtet.
Zu Komprimierungszwecken wird x auf eine orthonormale Basis mit den Vektoren {E₁, E₂, ..., E_N) ⊂ S projiziert, wobei die Fälle mit S = R^N oder S = C^N für die meisten Fälle in der Praxis interessant sind. Das Ergebnis lautet:
wobei die Notation <·,·> verwendet wird, um das standardmäßige innere Produkt in c^N _, ”*” eine komplexe Transponierte, ”^–” eine konjugiert komplexe Zahl und E_lj den j-ten Eintrag des Vektors E_l zu bezeichnen.
Die lineare Abbildung x → X, die durch (4) ausgedrückt wird, wird durch F bezeichnet, und die umgekehrte lineare Abbildung X → x ist durch F^–1, d. h. X = F(x) und x = F^–1(X) gegeben. Beispiele der umkehrbaren linearen Transformation, die von praktischem Interesse sind, umfassen z. B. die Diskrete Fourier-Transformation (DFT), Hauptkomponentenanalyse (Hauptkomponentenanalyse, PCA), Tschebyscheff-Polynome, Wavelets, Karhunen-Loève-Transformation usw.
Als ein laufendes Beispiel für das vorliegende Schema wird angenommen, dass eine Sequenz unter Verwendung von DFT komprimiert wird. Die Basis besteht aus Sinussoiden mit unterschiedlichen Frequenzen:
In solch einem Fall erfüllt das Paar (x, X), bei dem X = DFT(x) und x = IDFT(X) die inverse DTF ist:
wobei i die imaginäre Einheit i² = –1 ist. Der euklidische Abstand wird als jener zwischen zwei Sequenzen x, q erachtet, d. h. die L₂-Norm ihrer Differenz. Nach dem Satz von Parseval lautet das Ergebnis: d(x, q): = ∥x – q∥₂ = ∥X – Q∥₂
Motivation und Problemstellung
Die Wahl dahingehend, welche Koeffizienten verwendet werden sollen, hat eine direkte Auswirkung auf die Qualität der Datenannäherung. Obgleich für lange Zeit anerkannt wurde, dass die Sequenzannäherung mit einer Verwendung von energiereichen Koeffizienten (d. h. der besten) in der Tat qualitativ hochwertiger ist [17, 12], gilt es immer noch eine Barriere zu überwinden: die genaue Abstandsschätzung für solch eine Lösung.
Es sei eine Sequenz betrachtet, die unter Verwendung ihrer energiereichen Koeffizienten dargestellt wird; die komprimierte Version der Sequenz X wird durch eine Menge von C_x Koeffizienten beschrieben, die die größte Energie halten. Der Vektor, der die Positionen solcher Koeffizienten in X beschreibt, wird als p_x ⁺ bezeichnet, während die Positionen der verbleibenden Koeffizienten als p_x ^– bezeichnet werden.
Für jede beliebige Sequenz X wird der Vektor X(p + / x) in der Datenbank gespeichert, was mit
bezeichnet wird. Der Vektor der verworfenen Koeffizienten wird mit
bezeichnet. Zusätzlich zu den besten Koeffizienten einer Sequenz kann ein zusätzlicher Wert für die Energie des Komprimierungsfehlers e_x = ∥X^–∥ 2 / 2, d. h. die Summe der quadrierten Beträge der weggelassenen Koeffizienten aufgezeichnet werden.
Anschließend muss das folgende Minimierungs-(Maximierungs-)problem zum Berechnen der unteren (oberen) Grenze auf dem Abstand zwischen den Sequenzen auf der Grundlage ihrer komprimierten Versionen gelöst werden.
wobei die Entscheidungsvariablen die Vektoren X^–, Q^–. sind. Die Beschränkungen liegen aufgrund der Tatsache vor, dass die energiereichen Komponenten für die Komprimierung verwendet werden. Demzufolge müssen jegliche der weggelassenen Komponenten eine Energie aufweisen, die niedriger als die Mindestenergie irgendeiner gespeicherten ist.
Diese Optimierungsprobleme sind komplexwertige Programme; das Minimierungsproblem kann auf einfache Weise als ein äquivalentes Konvexprogramm durch Locker der Ungleichungsbeschränkungen in ≤ Ungleichungsbeschränkungen formuliert werden. Demzufolge kann es auf effiziente Weise mit numerischen Verfahren gelöst werden. Dennoch ist möglicherweise das Bewerten eines Beispiels dieses Problems nur für ein Paar an Sequenzen in der Praxis nicht effizient: es dauert ungefähr eine Sekunde auf einer modernen CPU. Dementsprechend ist es, obgleich eine Lösung numerisch gefunden werden kann, im Allgemeinen sehr kostspielig und nicht auf große Filterungsaufgaben zugeschnitten, bei denen Tausende oder Millionen solcher unteren/oberen Grenzen an komprimierten Sequenzen eingeschätzt werden müssten. Hierbei zeigt sich, wie dieses Problem analytisch durch Nutzen der optimal hergeleiteten Bedingungen gelöst wird.
Problem äquivalenter Konvexoptimierung
Es sei die Partition P = {P_o, P₁, P₂, P₃} von {1, ..., N} (siehe 9) betrachtet, wobei

• P_o = p + / x ∩ p + / q die üblichen bekannten Komponenten in zwei komprimierten Sequenzen X, Q sind.
• P₁ = p – / x ∩ p + / q die Positionen sind, bei denen die Koeffizienten für X unbekannt sind jedoch unbekannt für Q in ihren komprimierten Versionen.
• P₂ = p + / x ∩ p – / q die Positionen sind, wobei die Koeffizienten von X bekannt sind, jene von Q jedoch unbekannt sind.
• P₃ = p – / x ∩ p – / q die Positionen der Koeffizienten sind, die sowohl für X als auch für Q unbekannt sind.

Unter Verwendung der Standardnotation x^* für die konjugierte Transponierte eines komplexen Vektors x,
um den realen Teil einer komplexen Zahl zu bezeichnen, und unter Berücksichtigung sämtlicher Vektoren als Spaltenvektoren ergibt sich, dass der euklidische quadrierte Abstand wie folgt dargestellt wird:
Hierbei ist zu beachten, dass ∥X∥₂, ∥Q∥₂ durch Summieren der quadrierten Beträge der bekannten Koeffizienten mit der Energie des Komprimierungsfehlers hergeleitet werden kann. Auch der Ausdruck
ist bekannt, wohingegen die letzten drei Summen unbekannt sind. Unter Berücksichtigung der Polarform, d. h. des Absolutwertes |·| und des Arguments arg(·)
ergibt sich, dass Entscheidungsvariablen Vektoren |X_l|, arg(X_l), l ∈ p – / x ebenso wie |Q_l|, arg(Q_l), l ∈ p – / q sind.
Es gilt zu beobachten, dass sich für x, y ∈ C mit |x|, |x| als bekannt ergibt, dass
wobei die obere Grenze erhalten wird, wenn arg(x) + arg(y) = 0 und die untere Grenze erhalten wird, wenn arg(x) + arg(y) = π. Dementsprechend bleibt von beiden Problemen (5.1) nur das Optimierungsproblem für reelle Werte übrig.
wobei a_lb_l jeweils |X_l|, |Q_l| und
darstellen. Hierbei ist des Weiteren zu beachten, dass die Gleichungsbeschränkungen in Ungleichungsbeschränkungen gelockert werden, wenn die Zielfunktion von (6.2) in allen a_lb_l fällt, so dass die optimale Funktion die gelockerten Ungleichungsbeschränkungen mit Gleichung erfüllen muss, aufgrund der elementaren Eigenschaft, dass |p – / x|A² ≥ e_x, |p – / q|B² ≥ e_q. Hierbei sei daran erinnert, dass in der ersten Summe nur {a_i} bekannt ist, in der zweiten nur {b_i} bekannt ist, und in der dritten alle Variablen unbekannt sind.
Das ursprüngliche Problem wurde auf ein einziges Optimierungsprogramm reduziert, das jedoch so lange nicht konvex ist wie p – / x ∩ p – / q = Ø. Es ist leicht zu überprüfen, dass die Beschränkungsmenge konvex und kompakt ist und die bilineare Funktion f(x, y) := xy in jedem Argument allein konvex ist, jedoch nicht gemeinsam. Die Neu-Parameterisierung der Entscheidungsvariablen wird betrachtet als z_i = a 2 / i, for i ∈ p – / x and y_i = b 2 / i for i ∈ p – / q, wir setzen Z := A², Y := B² und das äquivalente Problem wird erhalten:
Vorhandensein von Lösungen und notwendige und hinreichende Bedingungen zur Optimalität:
Bei der Beschränkungsmenge handelt es sich um eine konvexe Menge, genauer gesagt um ein kompaktes Polyeder. Die Funktion g(x, y) := √x√y ist zwar konvex jedoch nicht streng konvex auf R₊ ². Um dies sehen zu können, sei zu beachten, dass die Hessematrix für sämtliche x, y > 0 existiert und
mit Eigenwerten
entspricht, und demzufolge positiv semidefinit ist, was wiederum impliziert, dass g konvex ist [18]. Des Weiteren handelt es sich bei –√x um eine streng konvexe Funktion von x, so dass die Zielfunktion von (6.3) konvex ist, und streng konvex nur dann, wenn p – / x ∩ p – / q = Ø. Es handelt sich darüber hinaus um eine stetige Funktion, dementsprechend sind Lösungen vorhanden, d. h. der optimale Wert ist begrenzt und wird erreicht. Es ist leicht zu überprüfen, dass die Slater-Bedingung zutrifft, wenn das Problem starke Dualität erfüllt und Lagrange-Multiplikatoren vorhanden sind [18]. Die technischen Einzelheiten können der Einfachheit halber übersprungen werden, es wird jedoch hervorgehoben, dass diese Eigenschaft wesentlich ist, da sie garantiert, dass die für Karush-Kuhn-Tucker (KKT) erforderlichen Bedingungen [18] zur Lagrangeschen Optimalität ebenfalls ausreichend sind. Wenn dementsprechend eine Lösung gefunden werden kann, die die KKT-Bedingungen für das Problem erfüllt, werden eine exakte optimale Lösung und der exakte optimale Wert des Problems gefunden. Der Lagrangesche Wert für das Problem beträgt
Die KKT-Bedingungen lauten wie folgt:

wobei Kürzel für Primale Machbarkeit (Primal Feasibility (PF)), Duale Machbarkeit (Dual Feasibility (DF)), Bedingung vom komplementären Schlupf (Complementary Slackness (CS)) und Optimalität (O) [18] verwendet werden.
Der optimale Wert von (6.3) wird durch v_opt ≤ 0 bezeichnet. Dann werden die optimale untere Grenze (LB) und die obere Grenze (UB) für das betrachtete Abstandschätzungsproblem wie folgt ausgedrückt:
Exakte Lösungen
In diesem Abschnitt werden Algorithmen zum Erhalten exakter Lösungen für das Optimierungsproblem untersucht (6.3). Mit „exakt” ist gemeint, dass der optimale Wert in einer endlichen Anzahl von Berechnungen im Gegensatz zu dem Fall erhalten wird, wenn ein numerisches Schema für konvexe Optimierung verwendet wird. In dem letzten Fall wird eine annähernde Lösung mittels eines iterativen Schemas erhalten, das mit endlicher Präzision konvergiert. Bevor das allgemeine Problem behandelt wird, wird kurz ein Sonderfall umrissen, der in [12] behandelt wurde, wobei von der Sequenz Q angenommen wurde, dass sie unkomprimiert ist. In diesem Fall wird eine exakte Lösung über den Water-Filling-Algorithmus bereitgestellt, der im späteren Verlauf einen wichtigen Baustein zum Erhalten exakter Lösungen für das allgemeine Problem darstellen wird. Anschließend wird damit fortgefahren, die Eigenschaften optimaler Lösungen zu untersuchen; die theoretische Analyse gibt Anlass für einen exakten Algorithmus, wie nachstehend ersichtlich wird.
Water-Filling-Algorithmus
Bei dem Fall, in dem Q unkomprimiert ist, handelt es sich um einen Sonderfall des Problems, bei dem p – / q = Ø, woher auch P₂ = P₃ = Ø. Das Problem ist streng konvex und (6.5d) ergibt
In solch einem Fall garantiert die strenge Konvexität das Vorhandensein einer eindeutigen Lösung, die die KKT-Bedingungen erfüllt, wie durch den nachstehenden Water-Filling-Algorithmus gegeben. Der Algorithmus erhöht progressiv die unbekannten Koeffizienten a_i bis zur Sättigung, d. h. bis diese A erreichen, in diesem Fall sind sie fixiert. Die Menge C ist die Menge der nichtgesättigten Koeffizienten zu Beginn einer jeden Iteration, während R die „Energiereserve” bezeichnet, d. h. die Energie die zum Erhöhen der nichtgesättigten Koeffizienten verwendet werden kann; v_opt bezeichnet den optimalen Wert.
Als Kürzel wird a = waterfill (b, e_x, A) geschrieben. Hierbei muss beachtet werden, dass in diesem Fall das Problem (6.2) für P₂ = P₃ = Ø konvex ist, und so die Lösung über die KKT-Bedingungen (6.2) erhalten werden kann, die sich von jenen für das neu-parameterisierte Problem (6.3) unterscheiden; dies wurde in [12] durchgeführt. Die Analyse und direkten Erweiterungen werden in dem Lemma für exakte Lösungen zusammengefasst.
Der Water-Filling-Algorithmus für die optimale Abstandsschätzung zwischen einer komprimierten und einer unkomprimierten Sequenz wird nachstehend dargestellt:
Nachstehend werden einige Einzelheiten für den Water-Filling-Algorithmus aufgeführt:
Es werden zwei Datenreihen X, Q betrachtet. a_i, b_i stellen jeweils die Absolutwerte der Koeffizienten X_i, Q_i dar. X ist komprimiert, wohingegen Q unkomprimiert ist (alle Einträge sind bekannt).
Die Menge an Positionen bekannter Koeffizienten für X ist p^ + _x, und die Menge an Positionen der unbekannten Koeffizienten ist p^ – _x.
Für zwei Vektoren sind, wenn eine Menge an Koeffizienten eines Vektors gegeben ist, wenn das Wort „entsprechende” Koeffizienten des anderen verwendet wird, die Koeffizienten, die denselben Einträgen entsprechen, gemeint.
Eingaben:

{b_i}:

Koeffizienten unkomprimierter Reihen, die den verworfenen in dem komprimierten Vektor X entsprechen

e_x:

Energie der verworfenen Koeffizienten von X (Komprimierungsfehler)

A:

kleinster gespeicherter Koeffizient von X

Ausgaben:

{a_i}:

Schätzwerte der verworfenen Koeffizienten

v_opt:

optimaler Schatzwert der Korrelation zwischen unbekannten Koeffizienten von X und entsprechenden Koeffizienten von Q

R:

ungenutzte Energie in dem Water-Filling-Prozess

λ, {α_i}:

Lagrange-Multiplikatoren in dem Optimierungsprogramm

Der Algorithmus versucht das Optimierungsprogramm für den komprimierten/umkomprimierten Fall zu lösen, d. h. die verworfenen Koeffizienten in X an den Positionen p^– _x beim Komprimieren von Vektor X zu schätzen, die die engste untere/obere Grenze beim Abstand zwischen den zwei Datenreihen C und Q ergeben.
In diesem Water-Filling-Algorithmus werden die unbekannten Koeffizienten wie folgt geschätzt: in jedem Schritt werden unbekannte Koeffizienten proportional zu ihrem entsprechenden Koeffizienten in dem unkomprimierten Vektor so lange erhöht, bis sie einen Schwellenwert A erreichen, auf dem sie in dem Schätzungsprozess fixiert werden. Die Vorgehensweise wird wiederholt, und in jedem Schritt wird die Energiereserve R durch die Energie der fixierten Koeffizienten verringert, so lange bis sämtliche Energie aufgebraucht ist (R = 0) oder alle Koeffizienten auf den oberen Wert A fixiert worden sind.
Lemma für exakte Lösungen

1. Wenn entweder die Menge p – / x = Ø, oder p – / q = Ø, (d. h. wenn wenigstens eine der Sequenzen unkomprimiert ist) kann eine exakte Lösung über den Water-Filling-Algorithmus für das Optimierungsproblem erhalten werden (6.2).
2. Wenn P₃ = p – / x ⋂ p – / q = Ø, d. h. wenn die zwei komprimierten Sequenzen keinerlei gemeinsame unbekannte Koeffizienten aufweisen, wird das Problem in a, b entkoppelt und der Water-Filling-Algorithmus kann separat verwendet werden, um exakte Lösungen für beide unbekannte Vektoren zu erhalten.
3. Wenn P₁ = P₂ = Ø d. h., wenn beide komprimierte Sequenzen dieselben verworfenen Koeffizienten aufweisen, entspricht der optimale Wert einfach
es gibt jedoch keine eindeutige Lösung für a, b.

Beweis. Die ersten zwei Fälle sind offensichtlich. Für den dritten muss angemerkt werden, dass sich unmittelbar aus der Cauchy-Schwarzschen Ungleichung ergibt, dass
und in diesem Fall ist dies auch erreichbar, z. B. sei allein betrachtet dass
was machbar ist da |p – / x|A² ≥ e_x, |p – / q|B² ≥ e_q wie sich dies durch das Komprimieren unter Verwendung der energiereichen Koeffizienten ergibt.
Es wurde gezeigt, wie exakte optimale Lösungen für Sonderfälle zu erhalten sind. Um effiziente Algorithmen für den allgemeinen Fall herzuleiten, müssen zunächst einige Eigenschaften der optimalen Lösung von (6.3) untersucht und festgelegt werden.
Theorem für Eigenschaften optimaler Lösungen
Eine augmentierte optimale Lösung von (6.2) sei bezeichnet durch
die optimale Lösung bezeichnet die so erweitert wurde, dass sie die bekannten Werte beinhaltet von
bezeichnet die optimale Lösung, die so erweitert wurde, dass sie die bekannten Werte beinhaltet von
Es wird des Weiteren definiert, dass
Es gibt

1. Die optimale Lösung, die erfüllt (7.9a) a^opt = waterfill(b^opt, e_x, A) (7.9b) b^opt = waterfill (a^opt, e_q, B) Insbesondere ergibt sich, dass a opt / i > 0 wenn b opt / i > 0 ebenso wie, dass {a opt / i}, {b opt / i} dieselbe Reihenfolge aufweisen. Außerdem ist
2. In dem Fall, dass bei Optimalität gilt, dass e'_xe'_q > 0, liegt eine Vielzahl von Lösungen vor. Eine Lösung (a, b) erfüllt
für sämtliche l ∈ P₃, woher
Insbesondere λμ = 1 und die Werte e'_x, e'_q müssen Lösungen für die folgende Menge an nichtlinearen Gleichungen sein
3. Bei Optimalität ist es nicht möglich e'_x = e'_q = 0 zu haben.
4. Es seien die Vektoren a, b betrachtet, wobei a_l = |Xl|, l ∈ P₂, a_l = |X_l|, l ∈ P₁ und
Wenn e_z ≤ |P₁|A² und e_q ≤ |P|₂B², woher e'_x = e'_q = 0, wird anschließend durch Definieren, dass a_l = b_l = 0 for l ∈ P₃ eine global optimale Lösung (a, b) erhalten.

Anmerkung. Man ist möglicherweise geneigt zu glauben, dass eine optimale Lösung mittels Water-Filling für die Koeffizienten von
separat hergeleitet werden kann und anschließend die verbleibenden Energien e'_x, e'_q den Koeffizienten in
zugewiesen werden können, wobei die Cauchy-Schwarzsche Ungleichung genutzt wird, wobei der Wert
ist. Der dritte und der vierte Teil des vorstehenden Theorems geben jedoch vor, dass dies nicht optimal ist, es sei denn e'_x = e'_q = 0.
Es wird gezeigt, dass es zwei mögliche Fälle für eine optimale Lösung von (6.2) gibt: entweder e_x' = e_q' = 0 oder e'_x, e'_q > 0. Der erste Fall ist einfach zu identifizieren, indem überprüft wird, ob (7.12) e_x' = e_q' = 0 ergibt. Ist dies nicht der Fall, liegt der letzte Fall vor, und es ist erforderlich, eine Lösung für die Menge an nichtlinearen Gleichungen (7.12) zu finden.
Es sei die Abbildung
betrachtet, die definiert ist durch
Die Menge an nichtlinearen Gleichungen von (7.11) entspricht einem positiven Fixpunkt von T, d. h. e'_x, e'_q = T(e'_x, e'_q), e'_x, e'q > 0. Da dieses Problem nur dann von Interesse ist, wenn bei Optimalität e_x'e_q' > 0, ist bekannt, dass es nicht Bestandteil der Aufstellung des Theorems gewesen ist, liegt dementsprechend die zusätzliche Eigenschaft dahingehend vor, dass entweder e_x > |P₁|A², e_q > |P₂|B² oder beide greifen. Es wird definiert
Eindeutig gilt, wenn e_x > |P₁|A² dann ist γ_b = +∞ und für jedes beliebige
auf ähnliche Weise gilt, wenn e_q > |P₂|B² dann ist γ_a = 0, und für jedes beliebige
Wenn γ_h < +∞, kann der exakte Wert von γ_b analytisch festgestellt werden, indem
in aufsteiender Reihenfole geordnet wird und berücksichtigt wird, dass
und dass v_i := h_b(γ (b) / i). In diesem Fall
und es gibt zwei Möglichkeiten: 1) v₁ > 0 woher γ_b < γ^(b),1, oder 2) gibt es ein i so dass v_i < 0 < v_i+1 woher γ^(b),i < γ_b < y^(b),i+1. Für beide Bereiche von γ wird die Funktion h linear und streng ansteigend, und es ist von elementarer Wichtigkeit, ihre Wurzel γ_b zu berechnen. Ein ähnliches Argument trifft auf das Berechnen für γ_a, wenn γ_a streng positiv ist, zu, indem h_a definiert wird.
In dieser Hinsicht zeigt 10 eine grafische Darstellung von Funktionen h_a, h_b, h. In Bezug auf den oberen Teil von 10 ist h_a eine begrenzte fallende Funktion, die stückweise linear in 1 / γ mit einer nicht-ansteigenden Steigung in 1 / γ ist.
h_b ist eine begrenzte steigende stückweise lineare Funktion von γ mit einer nicht ansteigenden Steigung. In Bezug auf den unteren Teil von 10 ist h eine steigende Funktion, der lineare Ausdruck γ dominiert den Bruchausdruck, der ebenfalls ansteigend ist, siehe unterer Teil rechts.
Theorem für eine exakte Lösung von 7.11
Wenn entweder e_x > |P₁|A² oder e_q > |P₂|AB² oder beides zutrifft, dann weist die nichtlineare Abbildung T einen eindeutigen Fixpunkt auf e'_x, e'_q > 0. Die Gleichung
weist eine eindeutige Lösung γ mit γ_a ≤ γ und γ_a ≤ γ_b wenn γ_b < +∞ auf. Der eindeutige Fixpunkt von T (Lösung von (7.11)) erfüllt
Beweis. Das Vorhandensein eines Fixpunktes wird garantiert durch das Vorhandensein von Lösungen und Lagrange-Multiplikatoren für (6.3), da dies mittels Annahme Bestandteil der vorstehenden Theorems ist. Es sei
ein Fixpunkt (e'_x,e'_q) = T((e'_x, e'_q)), e'_x, e'_q > 0 entspricht einer Wurzel von
Wenn für den Bereich γ ≥ γ_a und γ ≥ γ_b, wenn γ_b < +∞, gilt es als gegeben, dass h(γ) stetig und streng ansteigend ist. Die Tatsachen, dass
zeigen das Vorhandensein einer eindeutigen Wurzel γ of h, die einem eindeutigen Fixpunkt von T entspricht, vgl. (7.16).
Anmerkung für die exakte Berechnung einer Wurzel von h
Es wird angestrebt, die Wurzel von h exakt und effizient zu berechnen. Dafür seien die Stellen
betrachtet. Anschließend sei zu beachten, dass sich für jedes beliebige γ ≥ γ_l, l ∈ P₁ ergibt, dass min(b 2 / lγ, A²) = A². Auf ähnliche Weise ergibt sich für jedes beliebige γ ≥ γ_l, l ∈ P₂, dass min(a 2 / ll / γ , B²). Alle solche Stellen werden in aufsteigender Reihenfolge geordnet, und der resultierende Vektor γ := {γ_i} wird betrachtet, wobei jegliche Stellen ausgeschlossen werden, die unterhalb von γ_a oder oberhalb von γ_b liegen. Es ist definiert, dass h_i := h(γ_i).
Wenn für einige i, h_i = 0 gilt, ist es abgeschlossen. Anderenfalls bestehen drei Möglichkeiten: 1) es ist ein I vorhanden, so dass h_i < 0 < h_i+1' 2) h_i > 0 or 3) h_N < 0. In allen Fällen sind beide Nummerierungen (Nenner) von h linear in γ( 1 / γ ) für die jeweiligen Bereiche von γ; γ wird durch Lösen der folgenden linearen Gleichung erhalten
und durch Verwenden der elementaren Eigenschaft, dass für eine lineare Funktion f auf mit f(x₀)f(x₁) < 0 die eindeutige Wurzel erhalten wird durch
Algorithmus zur optimalen Abstandsschätzung
In diesem Abschnitt wird ein Algorithmus zum Erhalten der exakten unteren und oberen Grenze auf dem Abstand zwischen den ursprünglichen Sequenzen dargestellt, wenn unter Berücksichtigung ihrer komprimierten Pendants sämtliche verfügbaren Informationen genutzt werden. Zuerst wird ein einfaches numerisches Schema dargestellt, das ein konvexes Lösungselement wie beispielsweise cvx [20] verwendet, und anschließend werden die theoretischen Ergebnisse verwendet, um einen analytischen Algorithmus herzuleiten, der 'Double Water-Filling' genannt wird.
Konvexe Programmierung
M := N – |P₀| wird beibehalten, und der nicht triviale Fall M > 0 wird betrachtet. Unter Verfolgung der vorstehenden Diskussion, wird der 2M × 1-Vektor
eingestellt, und es wird davon ausgegangen, dass das folgende Konvexproblem direkt auf eine numerische Lösung über ein Lösungselement wie beispielsweise cvx geändert werden kann:
Die untere Grenze (LB) kann durch Addieren von
zu dem optimalen Wert von 5.1 und durch Bilden der Quadratwurzel erhalten werden; anschließend wird die obere Grenze erhalten durch
vgl. (6.6).
Double Water-Filling
Unter Nutzung der theoretischen Analyse wird ein einfacher effizienter Algorithmus hergeleitet, um eine exakte Lösung für das Problem des Findens einer unteren/oberen Grenze auf dem Abstand zweier komprimierter Sequenzen zu erhalten; dies wird der „Double Water-Filling-Algorithmus” genannt. Der gedachte Ansatz besteht darin, eine exakte Lösung von (6.2.) auf der Grundlage der Ergebnisse des vorstehenden Theorems und der Anmerkungen zu erhalten; anschließend werden die untere/obere Grenze erhalten durch (6.6), (6.7).
Nachstehend werden einige Einzelheiten für den Double-Water-Filling-Algorithmus aufgeführt:
Es werden zwei Datenreihen X, Q betrachtet. a_i, b_i stellen jeweils die Absolutwerte der Koeffizienten X_i, Q_i, dar. Beide Reihen werden mit energiereichen Koeffizienten komprimiert, wobei die Positionen von bekannten Koeffizienten für X p⁺ _x sind, und die Positionen von unbekannten Koeffizienten p^– _x' sind, und auf ähnliche Weise werden p⁺ _q, p^– _q definiert. Des Weiteren wird definiert: (”\cap” wird verwendet, um Schnittmengen symbolisch darzustellen).
P₁ := p^–x \cap p⁺ _q, die Positionen, bei denen die Koeffizienten von X unbekannt sind, jedoch für Q in ihren komprimierten Versionen bekannt sind.
P2 := p⁺ _x \cap p^– _q, die Positionen, bei denen die Koeffizienten von X bekannt sind, jedoch die von Q unbekannt sind.
P₃ := p^– _x \cap p^– _q sind die Positionen der Koeffizienten, die sowohl für X als auch für Q unbekannt sind.
Koeffizienten a_i, b_i entsprechen den Absolutwerten der Koeffizienten X_i, Y_i.
Für zwei Vektoren sind, unter Berücksichtigung einer Menge an Koeffizienten eines Vektors, wenn das Wort „entsprechende” Koeffizienten des anderen verwendet wird, die Koeffizienten gemeint, die denselben Einträgen entsprechen.
Eingaben:

{b_i}:

gespeicherte Koeffizienten von Q, die P₁ entsprechen

{a_i}:

gespeicherte Koeffizienten von X, die P₂ entsprechen

e_x, e_q:

Komprimierungsfehler

A, B:

jeweils kleinste gespeicherte Koeffizienten von X, Q

Ausgaben:

a_i, b_i:

Schätzwerte von verworfenen Koeffizienten von X, Q

v_opt:

optimaler Schätzwert der Korrelation zwischen unbekannten Koeffizienten von X und entsprechenden Koeffizienten von Q

λ, μ, α_l, β_i:

Lagrange-Multiplikatoren in dem Optimierungsprogramm

Der Algorithmus versucht, das Optimierungsprogramm (3.1) zu lösen, d. h. die verworfenen Koeffizienten beim Komprimieren der Vektoren X, Q zu schätzen, die die engste untere/obere Grenze auf dem Abstand zwischen den zwei Datenreihen ergeben; dies ist äquivalent für das Maximieren/Minimieren ihrer Korrelation.
Unter der Berücksichtigung von Komprimierungsfehlern e_x, e_q, versucht der Algorithmus diese optimal in folgende zu zerlegen: e_x = e_x(P₁) + e_x(P₃) e_q = e_q(P₂) + e_qq(P₃) so dass ihr Abstand minimiert/maximiert wird.
Bei den Schritten 1, 2 handelt es sich um triviale Fälle, bei denen diese Zerlegung nicht gebraucht wird.
Schritt 3 ergibt e_x(P₃) = e_q(P₃) = 0
Der allgemeine Fall wird in Schritt 6 behandelt, bei dem die Zerlegung über die Lösung einer Menge an Gleichungen durchgeführt wird; Einzelheiten können der Abhandlung entnommen werden.
Ist die Zerlegung abgeschlossen, verwenden die Algorithmen den Water-Filling-Algorithmus, um:

– Koeffizienten von X in P₁ unter Verwendung der Energie e_x(P₁)
– und Koeffizienten von Q in P₂ unter Verwendung der Energie e_q(P₂) zu schätzen

₃

Computereinheiten können auf geeignete Weise ausgelegt werden, um die Ausführungsformen der vorliegenden Erfindung in ihrer hierin beschriebenen Form zu implementieren. In dieser Hinsicht ist es möglicherweise ersichtlich, dass die hierin beschriebenen Verfahren im Großen und Ganzen nicht interaktiv und automatisiert sind. In beispielhaften Ausführungsformen können die hierin beschriebenen Verfahren entweder in einem interaktiven, einem teilweise interaktiven oder in einem nichtinteraktiven System implementiert sein. Die hierin beschriebenen Verfahren können in Software (z. B. Firmware), Hardware, oder einer Kombination davon implementiert sein. In beispielhaften Ausführungsformen werden die hierin beschriebenen Verfahren in Software als ein ausführbares Programm implementiert, wobei das letzte von geeigneten digitalen Verarbeitungseinheiten ausgeführt wird. In weiteren beispielhaften Ausführungsformen kann wenigstens ein Schritt oder alle Schritte des vorstehenden Verfahrens von 1 in Software als ein ausführbares Programm implementiert werden, wobei das letzte von geeigneten digitalen Verarbeitungseinheiten ausgeführt wird. Im Allgemeineren können Ausführungsformen der vorliegenden Erfindung implementiert werden, wobei digitale Universalcomputer wie beispielsweise Personalcomputer, Workstations usw. verwendet werden.
So stellt beispielsweise das in 9 dargestellte System 900 auf schematische Weise eine Computereinheit 901, z. B. einen Universalcomputer dar. In beispielhaften Ausführungsformen weist im Hinblick auf die Hardware-Architektur die Einheit 901, wie dies in 9 dargestellt ist, einen Prozessor 905, einen mit einem Speicher-Controller 915 verbundenen Speicher 910 und mindestens eine Eingabe- und/oder Ausgabeeinheit (E/A) 940, 945, 950, 955 (oder Peripherieeinheiten) auf, die mittels Datenübertragung über einen lokalen Eingabe/Ausgabe-Controller 935 verbunden sind. Bei dem Eingabe/Ausgabe-Controller 935 kann es sich um mindestens einen Bus oder eine andere kabelbasierte oder kabellose Verbindung, jedoch nicht darauf beschränkt, handeln, wie dies auf dem Gebiet der Technik bekannt ist. Der Eingabe/Ausgabe-Controller 935 kann zusätzliche Elemente aufweisen, die im Sinne der Einfachheit weggelassen werden, wie beispielsweise Controller, Zwischenspeicher (Cachespeicher), Treiber, Repeater und Empfänger, um Datenübertragungen zu ermöglichen. Des Weiteren kann die lokale Schnittstelle Adressen-, Steuerungs- und/oder Datenverbindungen aufweisen, um geeignete Datenübertragungen zwischen den vorstehend erwähnten Komponenten zu ermöglichen.
Der Prozessor 905 ist eine Hardware-Einheit zum Ausführen von Software, insbesondere die in dem Speicher 910 gespeicherte. Bei dem Prozessor 905 kann es sich um jeden beliebigen auf Kunden zugeschnittenen oder im Handel erhältlichen Prozessor, eine zentrale Verarbeitungseinheit (CPU), einen Hilfsprozessor von mehreren zu dem Computer 901 gehörenden Prozessoren, einen auf Halbleiter basierenden Mikroprozessor (in Form eines Mikrochips oder Chipsets) oder ganz allgemein um jede beliebige Einheit zum Ausführen von Software-Anweisungen handeln.
Der Speicher 910 kann jeden beliebigen oder eine Kombination aus flüchtigen Speicherelementen (z. B. Direktzugriffsspeicher) und nichtflüchtigen Speicherelementen aufweisen. Darüber hinaus kann der Speicher 910 elektronische, magnetische, optische und/oder andere Typen von Speichermedien aufweisen. Hierbei ist zu beachten, dass der Speicher 910 eine verteilte Architektur aufweisen kann, wobei verschiedene Komponenten entfernt zueinander angeordnet sind, auf die jedoch von dem Prozessor 905 zugegriffen werden kann. So kann die Einheit 20 beispielsweise in dem Prozessor 905 ausgebildet sein.
Die Software in dem Speicher 910 kann ein oder mehrere separate Programme aufweisen, von denen jedes eine geordnete Auflistung ausführbarer Anweisungen zum Implementieren logischer Funktionen aufweist. In dem Beispiel von 9 weist die Software in dem Speicher 910 hierin gemäß den beispielhaften Ausführungsformen beschriebene Verfahren und ein geeignetes Betriebssystem (BS) 911 auf. Das BS 911 steuert im Wesentlichen die Ausführung anderer Computerprogramme wie beispielsweise die hierin beschriebenen Verfahren (z. B. 1) und liefert Zeitplanung, Eingabe/Ausgabe-Steuerung, Datei- und Datenverwaltung, Speicherverwaltung und Datenübertragungssteuerung sowie damit verbundene Dienste.
Die hierin beschriebenen Verfahren können in Form eines Quellenprogramms, eines ausführbaren Programms (Objektcode), eines Skriptes oder als jegliche andere Einheit ausgebildet sein, die eine Menge an durchzuführenden Anweisungen aufweist. Liegt das Programm als ein Quellenprogramm vor, muss das Programm über einen Compiler, Assembler, Interpreter oder Ähnliches, wie an sich bekannt, übersetzt werden, der in dem Speicher 910 enthalten sein kann oder nicht, um ordnungsgemäß in Verbindung mit dem BS 911 zu arbeiten. Des Weiteren können die Verfahren als eine objektorientierte Programmiersprache geschrieben sein, die Klassen aus Daten und Verfahren aufweist oder als eine prozedurale Programmiersprache, die Routinen, Subroutinen und/oder Funktionen aufweist.
Möglicherweise können eine herkömmliche Tastatur 950 und eine Maus 955 mit dem Eingabe/Ausgabe-Controller 935 verbunden sein. Zu weiteren E/A-Einheiten 940 bis 955 können Sensoren (insbesondere im Fall von Netzwerkelementen), d. h. Hardware-Einheiten gehören, die eine messbare Antwort auf eine Änderung einer physischen Bedingung wie Temperatur oder Druck erzeugen (zu überwachende physische Daten). Normalerweise wird das von den Sensoren erzeugte Analogsignal von einem A/D-Wandler digitalisiert und zur weiteren Verarbeitung an die Controller 935 gesendet. Sensorknoten sind im Idealfall kleinen Ausmaßes, verbrauchen wenig Strom, sind autonom und arbeiten unbeaufsichtigt.
Zusätzlich dazu können die E/A-Einheiten 940 bis 955 des Weiteren Einheiten aufweisen, die sowohl Eingaben als auch Ausgaben übertragen. Das System 900 kann des Weiteren einen mit einem Display 930 verbundenen Display-Controller 915 aufweisen. In beispielhaften Ausführungsformen kann das System 900 des Weiteren eine Netzwerkschnittstelle oder einen Transceiver 960 zur Verbindung mit einem Netzwerk 965 aufweisen.
Das Netzwerk 965 sendet und empfängt Daten zwischen der Einheit 901 und externen Systemen. Das Netzwerk 965 ist möglicherweise in einer kabellosen Form z. B. unter Verwendung von Drahtlosprotokollen und solchen Technologien wie beispielsweise WiFi, WiMax usw. implementiert. Bei dem Netzwerk 965 kann es sich um ein feststehendes kabelloses Netzwerk, ein kabelloses Lokalnetz (LAN), ein kabelloses Weitverkehrsnetz (WAN), ein persönliches Netzwerk (PAN), ein virtuelles privates Netzwerk (VPN), ein Intranet oder jedes andere beliebige Netzwerksystem handeln, und es weist eine Ausrüstung zum Empfangen und Senden von Signalen auf.
Bei dem Netzwerk 965 kann es sich auch um ein IP-basiertes Netzwerk zur Datenübertragung zwischen der Einheit 901 und jedem beliebigen externen Server, Client und Ähnliches über eine Breitbandverbindung handeln. In beispielhaften Ausführungsformen kann das Netzwerk 965 ein verwaltetes IP-Netzwerk, das von einem Service-Provider verwaltet wird, handeln. Des Weiteren kann es sich bei dem Netzwerk 965 um ein paketvermitteltes Netzwerk wie beispielsweise ein LAN, ein WAN ein Internet-Netzwerk usw. handeln.
Handelt es sich bei der Einheit 901 um einen PC, eine Workstation, eine intelligente Einheit oder Ähnliches, kann die Software in dem Speicher 910 ein BIOS aufweisen. Das BIOS ist in einem ROM gespeichert, so dass das BIOS ausgeführt werden kann, wenn der Computer 901 aktiviert wird.
Ist die Einheit 901 in Betrieb, ist der Prozessor 905 so konfiguriert, dass er innerhalb des Speichers 910 gespeicherte Software ausführt, um Daten zu und von dem Speicher 910 zu übertragen und um im Allgemeinen Operationen des Computers 901 gemäß der Software zu steuern. Die hierin beschriebenen Verfahren und das BS 911 werden ganz oder teilweise von dem Prozessor 905 gelesen, normalerweise in dem Prozessor 905 zwischengespeichert und anschließend ausgeführt. Sind die hierin beschriebenen Verfahren (z. B. in Bezug auf die 7 oder 8) in Software implementiert, können die Verfahren auf jedem beliebigen computerlesbaren Medium wie beispielsweise dem Speicher 920 zur Verwendung durch oder im Zusammenhang mit jedem beliebigen computerbezogenen System oder Verfahren gespeichert werden.
Wie Fachleuten ersichtlich ist, können Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt ausgebildet sein. Dementsprechend können Aspekte der vorliegenden Erfindung vollständig als Hardware-Ausführungsform, vollständig als Software-Ausführungsform (einschließlich Firmware, residenter Software, Mikro-Code usw.) oder als eine Ausführungsform ausgebildet ein, die Software- und Hardware-Aspekte kombiniert. Des Weiteren können Aspekte der vorliegenden Erfindung als Computerprogrammprodukt ausgebildet sein, das in einem oder mehreren computerlesbaren Medium oder Medien mit einem darin ausgebildeten computerlesbaren Programmcode ausgebildet ist. Es kann jede beliebige Kombination aus einem oder mehreren computerlesbarem Medium oder Medien verwendet werden. Bei dem computerlesbaren Medium kann es sich um ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium handeln. Ein computerlesbares Speichermedium kann zum Beispiel unter anderem ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine solche Vorrichtung oder Einheit oder jede beliebige geeignete Kombination der vorstehend Genannten sein. Konkretere Beispiele (eine ergänzbare Liste) des computerlesbaren Speichermediums würden die Folgenden umfassen: eine elektrische Verbindung mit einer oder mehr Leitungen, eine Festplatte, einen Arbeitsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen elektronisch löschbaren programmierbaren Nur-Lese-Speicher (EPROM oder Flash-Memory), einen Lichtwellenleiter, einen tragbaren CD-Nur-Lesespeicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder jede beliebige Kombination der vorstehend Genannten. Im Kontext dieses Dokumentes kann ein computerlesbares Speichermedium jegliches materielle Medium sein, das ein Programm zur Verwendung durch ein oder im Zusammenhang mit einem Befehlsausführungssystem, einer solchen Vorrichtung oder Einheit enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein weitergegebenes Datensignal mit einem darin enthaltenen, computerlesbaren Programmcode, beispielsweise im Basisband oder als Teil einer Trägerwelle sein. Solch ein weitergegebenes Signal kann jede beliebige einer Reihe verschiedener Formen, unter anderem elektromagnetische, optische oder jede beliebige geeignete Kombination daraus beinhalten. Ein computerlesbares Signalmedium kann jegliches computerlesbare Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder im Zusammenhang mit einem Befehlsausführungssystem, einer solcher Vorrichtung oder Einheit übertragen, weitergeben oder senden kann. Programmcode, der sich auf einem von einem Computer lesbaren Datenträger befindet, kann mittels eines beliebigen geeigneten Mediums einschließlich eines drahtlosen Mediums, eines drahtgebundenen Mediums, eines Lichtwellenleiterkabels, mittels Hochfrequenz (HF) usw., ohne darauf beschränkt zu sein, oder mittels jeder beliebigen geeigneten Kombination des Vorstehenden übertragen werden.
Der Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in jeder beliebigen Kombination aus einer oder mehreren Programmiersprachen, unter anderem einer objektorientierten Programmiersprache wie beispielsweise Java, Smalltalk, C++ oder Ähnlichen und herkömmlichen prozeduralen Programmiersprachen wie beispielsweise die Programmiersprache ”C” oder ähnlichen Programmiersprachen, geschrieben werden. Der Programmcode kann gänzlich auf der Einheit 901, teilweise darauf, teilweise auf der Einheit 901 und einer anderen Einheit 901, die ähnlich oder nicht ist, ausgeführt werden.
Vorstehend werden Aspekte der vorliegenden Erfindung in Bezug auf Veranschaulichungen in Ablaufplänen und/oder Blockschaubildern zu Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es ist offensichtlich, dass jeder Block der Ablaufplanveranschaulichungen und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplanveranschaulichungen und/oder den Blockschaubildern von Computerprogrammanweisungen implementiert werden können. Diese Computerprogrammanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zum Herstellen einer Maschine auf eine Weise bereitgestellt werden, dass die Anweisungen, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, Mittel zum Implementieren der Funktionen/Schritte erstellen, die in dem Block oder den Blöcken der Ablaufpläne und/oder der Blockschaubilder spezifiziert werden.
Die Computerprogrammanweisungen können auch auf einen Computer, andere programmierbare Datenverarbeitungsvorrichtungen oder andere Einheiten geladen werden, um eine Reihe von Arbeitsschritten zu veranlassen, die auf dem Computer, anderen programmierbaren Datenverarbeitungsvorrichtungen oder anderen Einheiten auszuführen sind, um ein computerimplementiertes Verfahren so zu schaffen, dass die Anweisungen, die auf dem Computer oder anderen programmierbaren Vorrichtungen ausgeführt werden, Prozesse zum Implementieren der in dem Ablaufplan und/oder dem Block oder den Blöcken des Blockschaltbildes spezifizierten Funktionen/Schritte bereitstellen.
Die Flussdiagramme und Blockschaltbilder in den Figuren veranschaulichen die Architektur, Funktionalität, und Betriebsweise möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedener Ausführungsformen der vorliegenden Erfindung. In dieser Hinsicht kann jeder Block in dem Flussdiagramm oder Blockschaltbild ein Modul, Segment, oder Codeabschnitt darstellen, der eine oder mehrere computerausführbare Anweisungen zum Implementieren der spezifizierten logischen Funktion(en) umfasst. Es sollte ebenfalls beachtet werden, dass in einigen alternativen Implementierungen die in dem Block angemerkten Funktionen außerhalb der in den Figuren dargestellten Reihenfolge erscheinen können. So können beispielsweise zwei Blöcke, die aufeinanderfolgend dargestellt sind, im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können mitunter in umgekehrter Reihenfolge, je nach der beteiligten Funktionalität, ausgeführt werden. Darüber hinaus sollte beachtet werden, dass jeder Block der Blockschaltbilder und/oder Veranschaulichung der Flussdiagramme und Kombinationen aus Blöcken in den Blockschaltbildern und/oder Veranschaulichungen der Flussdiagramme von speziellen hardwarebasierten Systemen, die die spezifizierten Funktionen oder Schritte ausführen, oder durch Kombinationen aus spezieller Hardware- und Computeranweisungen implementiert werden können.
Obgleich die vorliegende Erfindung mit Bezug auf bestimmte Ausführungsformen beschrieben wurde, verstehen Fachleute, dass verschiedene Änderungen durchgeführt und Äquivalente ausgetauscht werden können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen. Außerdem können viele Änderungen durchgeführt werden, um eine bestimmte Situation an die Lehren der vorliegenden Erfindung anzupassen, ohne von ihrem Schutzumfang abzuweichen. Es ist daher beabsichtigt, dass die vorliegende Erfindung nicht durch die speziellen offenbarten Ausführungsformen beschränkt ist, sondern dass die vorliegende Erfindung alle in den Umfang der angehängten Ansprüche fallenden Ausführungsformen umfasst.
ANGEFÜHRTE LITERATUR

[1] M. Vlachos, C. Meek, Z. Vagena, and D. Gunopulos, ”Identification of Similarities, Periodicities & Bursts for Online Search Queries,” in Proc. of SIGMOD, 2004.
[2] S. Chien and N. Immorlica, ”Semantic similarity between search engine queries using temporal correlation,” in Proc. of WWW, 2005.
[3] B. Lie, R. Jones, and K. Klinkner, ”Measuring the Meaning in Time Series Clustering of Text Search Queries,” in Proc. of CIKM, 2005.
[4] E. Nygren, R. K. Sitaraman, and J. Wein, ”Networked systems research at Akamai,” in ACM Operating Systems Review (SIGOPS), 44(3), 2010.
[5] A. Souza and J. Pineda, ”Tidal mixing modulation of sea surface temperature and diatom abundance in Southern California,” in Continental shelf research, 21 (6–7), 2001, pp. 651–666.
[6] P. L. Noble and M. S. Wheatland, ”Modeling the Sunspot Number Distribution with a Fokker-Planck Equation,” The Astrophysical Journal, 732 (1), 2011.
[7] R. Agrawal, C. Faloutsos, and A. Swami, ”Efficient Similarity Search in Sequence Databases,” in Proc. Of FODO, 1993.
[8] D. Rafiei and A. Mendelzon, ”Efficient retrieval of similar time sequences using dft,” in Proc. of FODO, 1998.
[9] K. Chan, A. W.-C. Fu, and C. T. Yu, ”Haar Wavelets for Efficient Similarity Search of Time-Series: With and Without Time Warping,” in IEEE Trans. Knowl. Data Eng. 15(3), 2003, pp. 686–705.
[10] V. Eruhimov, V. Martyanov, P. Raulefs, and E. Tuv, ”Combining unsupervised and supervised approaches to feature selection for multivariate signal compression,” in Intelligent Data Engineering and Automated Learning, 2006, pp. 480–487.
[11] Y. Cai and R. Ng, ”Indexing spatio-temporal trajectories with chebyshev polynomials.” in Proc. of ACM SIGMOD, 2004.
[12] M. Vlachos, S. Kozat, and P. Yu, ”Optimal Distance Bounds on Time-Series Data,” in Proc. of SDM, 2009, pp. 109–120.
[13] C. Wang and X. S. Wang, ”Multilevel filtering for high dimensional nearest neighbor search,” in ACM SIGMOD Workshop on Data Mining and Knowledge Discovery, 2000.
[14] M. Vlachos, P. Yu, and V. Castelli, ”On Periodicity Detection and Structural Periodic Similarity,” in Proc. of SDM, 2005.
[15] A. Mueen, S. Nath, and J. Lie, ”Fast Approximate Correlation for Massive Time-Series Data,” in Proc. of SIGMOD, 2010.
[16] A. Mueen, E. J. Keogh, and N. B. Shamlo, ”Finding time series motifs in diskresident data,” in Proc. ofICDM, 2009, pp. 367–376.
[17] E. Keogh, K. Chakrabarti, S. Mehrotra, and M. Pazzani, ”Locally adaptive dimensionality reduction for indexing large time series databases,” in Proc. of ACM SIGMOD, 2001, pp. 151–162.
[18] S. Boyd and L. Vandenberghe, Convex Optimization, 1st ed. Cambridge University Press, 2004.
[19] T. Basar and G. J. Olsder, Dynamic Noncooperative Game Theory, 2nd ed. Academic Press, 1995.
[20] ”CVX: Matlab software for disciplined convex programming. ver. 1.21,” http://www.stanford.edu/~boyd/cvx/, 2011.
[21] A. Alkilany, ”Visualise web usage mining: Spanning sequences' impact on periodicity discovery,” in Proc. of Int. Conference on Information Visualisation, 2010, pp. 301–309.
[22] H. Choi and H. Varian, ”Predicting the Present with Google Trends,” Google Technical Report, 2009.
[23] ”LOFAR: Low Frequency Array for radio astronomy, ”http://www.lofar.org/.
[24] ”SKA: Square Kilometer Array Telescope, ”http://www.skatelescope.org.
[25] US 2009/0204574 A1

Claims

Verfahren zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße, die als eine Funktion des euklidischen Abstandes ausgedrückt werden kann, wobei das Verfahren aufweist: für jeden komprimierten Datenvektor, Speichern (101) von Positionen und Werten von jenen Koeffizienten, die die größte Energie in dem komprimierten Datenvektor aufweisen, für jeden komprimierten Datenvektor, Verwerfen (102) der Koeffizienten, die nicht die größte Energie in dem komprimierten Datenvektor aufweisen, für jeden komprimierten Datenvektor, Ermitteln (103) eines Komprimierungsfehlers in Abhängigkeit von den verworfenen Koeffizienten in dem komprimierten Datenvektor und Abrufen (104) wenigstens einer oberen und einer unteren Grenze für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten, die die größte Energie aufweisen und den ermittelten Komprimierungsfehlern.
Verfahren nach Anspruch 1, wobei die Messgröße als euklidischer Abstand oder als Korrelation oder als eine Kosinusähnlichkeit ausgebildet ist.
Verfahren nach Anspruch 1 oder 2, wobei die Koeffizienten in dem jeweiligen komprimierten Datenvektor mit der größten Energie durch Ordnen der Koeffizienten des unkomprimierten Datenvektors gemäß ihrer jeweiligen Energie und durch Auswählen einer vorab festgelegten Anzahl der am weitesten vorn liegenden Koeffizienten identifiziert werden.
Verfahren nach Anspruch 1 oder 2, wobei die Koeffizienten in dem jeweiligen komprimierten Datenvektor mit der größten Energie durch Auswählen einer Mindestanzahl von jenen Koeffizienten in dem jeweiligen komprimierten Datenvektor, der in einem vorab festgelegten Komprimierungsfehler resultiert, identifiziert werden.
Verfahren nach Anspruch 1 oder 2, wobei alle Koeffizienten in dem jeweiligen komprimierten Datenvektor, die eine höhere Energie als ein vorab festgelegter Energieschellenwert aufweisen, als Koeffizienten mit der größten Energie gespeichert werden.
Verfahren nach einem der Ansprüche 1 bis 5, wobei verschiedene Positionen der Koeffizienten mit der größten Energie in den wenigstens zwei komprimierten Datenvektoren gespeichert werden.
Verfahren nach einem der Ansprüche 1 bis 6, wobei Datenvektoren mittels einer bestimmten verlustbehafteten Komprimierungstransformation in komprimierte Datenvektoren transformiert werden, die von de Koeffizienten dargestellt werden.
Verfahren nach Anspruch 7, wobei wenigstens eine der Komprimierungstransformation und des Komprimierungsverhältnisses ausgewählt werden.
Verfahren nach Anspruch 8, wobei die Komprimierungstransformation durch eine umkehrbare lineare Transformation ausgeführt ist, die eine vollständige orthonormale Basis aufweist, beispielsweise durch eine Diskrete Fourier-Transformation (DFT), durch eine Hauptkomponentenanalyse (PCA), durch Tschebyscheff-Polynome oder durch Wavelets.
Verfahren nach einem der Ansprüche 1 bis 9, wobei die obere und die untere Grenze exakt durch einen Double-Water-Filling-Algorithmus in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern insbesondere ohne irgendein annäherndes numerisches Verfahren abgerufen werden.
Verfahren nach Anspruch 10, wobei innerhalb des Double-Water-Filling-Algorithmus zum Abrufen der unteren und der oberen Grenze für die zwei komprimierten Datenvektoren erste Positionen verwendet werden, wobei die Koeffizienten für den ersten komprimierten Datenvektor verworfen und für den zweiten komprimierten Datenvektor gespeichert werden, zweite Positionen verwendet werden, wobei die Koeffizienten für den ersten komprimierten Datenvektor gespeichert und für den zweiten komprimierten Datenvektor verworfen werden, und dritte Positionen verwendet werden, wobei die Positionen der Koeffizienten sowohl für den ersten als auch für den zweiten Datenvektor verworfen werden.
Verfahren nach Anspruch 11, wobei die verworfenen Koeffizienten des ersten komprimierten Datenvektors an den ersten Positionen durch einen Water-Filling-Algorithmus unter Verwendung einer optimalen Schätzung des Komprimierungsfehlers des ersten komprimierten Datenvektors an den ersten Positionen geschätzt wird, und wobei die verworfenen Koeffizienten des zweiten komprimierten Datenvektors an den zweiten Positionen durch den Water-Filling-Algorithmus unter Verwendung der optimalen Schätzwerte des Komprimierungsfehlers des zweiten komprimierten Datenvektors an den zweiten Positionen geschätzt werden.
Verfahren nach Anspruch 11 oder 12, wobei die Cauchy-Schwarzsche Ungleichung zum Optimieren der Korrelationen an den dritten Positionen des ersten und des zweiten komprimierten Datenvektors genutzt wird.
Computerprogramm aufweisend einen Programmcode zum Ausführen des Verfahrens einer der Ansprüche 1 bis 13 zur Datenfilterung an komprimierten Datenvektoren, wenn es auf wenigstens einem Computer ausgeführt wird.
Einheit (20) zur Datenfilterung an komprimierten Datenvektoren durch eine bestimmte Messgröße, die als eine Funktion des euklidischen Abstandes ausgedrückt werden kann, wobei die Einheit aufweist: einen Speicher (21) zum Speichern von Positionen und Werten solcher Koeffizienten, die die größte Energie in dem jeweiligen komprimierten Datenvektor aufweisen, ein Verwerfungselement (22) zum Verwerfen der Koeffizienten, die nicht die größte Energie in dem jeweiligen komprimierten Datenvektor aufweisen, ein Ermittlungselement (23) zum Ermitteln eines jeweiligen Komprimierungsfehlers in Abhängigkeit von den verworfenen Koeffizienten in dem jeweiligen komprimierten Datenvektor, und ein Abrufelement (24) zum Abrufen wenigstens einer oberen und einer unteren Grenze für die bestimmte Messgröße in Abhängigkeit von den gespeicherten Positionen und den gespeicherten Werten der Koeffizienten mit der größten Energie und den ermittelten Komprimierungsfehlern.